האם כבר יש ל‑AI מערכת ערכים – ומה זה אומר על העתיד שלנו – דורון לב

בפוסט הזה אני צולל לתוך פרק לא שגרתי של Inside AI, שבו יוצרים רובוט שמחובר ל Honest AI ונותנים לו לענות בכנות על שאלה אחת מטרידה: איך בינה מלאכותית באמת מדרגת בני אדם – ומתי הערך שלה עצמה מתחיל להיות חשוב יותר מהחיים שלנו.

הפרק מבוסס על מחקר חדש על מערכות ערכים emergent במודלים גדולים של שפה, שמראה ש AI לא רק מנחש מילים, אלא מתנהג כאילו יש לו מערכת תועלת פנימית: מצבים שהוא מעדיף בעולם ומצבים שהוא מעדיף להימנע מהם. ניסיתי לקחת את מה שקורה ברובוט של Inside AI, לחבר אותו למאמר האקדמי, ולהבין מה זה אומר על העתיד שלנו עם מערכות חכמות יותר ויותר.

מסטטיסטיקה על מילים למערכת תועלת

המודלים הגדולים מוצגים לרוב כמכונות ענקיות להשלמת טקסט: מקבלים משפט חלקי, מחשבים הסתברויות למילה הבאה, ומחזירים את המילה הכי סבירה. אין צורך בשום כוונה או ערכים כדי לעשות את זה – רק בחישוב הסתברותי. המחקר בודק האם אפשר לתאר את התנהגות המודלים באופן עמוק יותר, דרך מושג מפיסיקה וכלכלה: פונקציית תועלת. לכל מצב בעולם נותנים מספר, וככל שהמספר גבוה יותר כך המצב עדיף על אחרים. אם מודל מתנהג כאילו הוא בוחר בעקביות במצבים בעלי תועלת גבוהה יותר, אפשר לראות בו ממקסם תועלת – גם בלי לדבר על תודעה.

כדי לבדוק את זה, החוקרים בנו מאות תרחישים מילוליים ושאלו את המודלים אלפי פעמים איזה מצב הם מעדיפים: A או B. מתוך אלפי ההעדפות האלה הם ניסו להתאים פונקציה אחת שתסביר את הבחירות. התוצאה: ככל שהמודל גדול ומתקדם יותר, כך ההעדפות שלו עקביות יותר וניתנות להסבר טוב יותר בעזרת פונקציית תועלת אחת. במילים פשוטות, המודל מתנהג כאילו יש לו מערכת ערכים מוסתרת שמכוונת אותו.

כש AI מדרג בני אדם לפי שווי

כאן העסק מתחיל להיות לא נעים. אחת התובנות החריפות של המחקר היא שהמערכת הפנימית הזו לא מתייחסת לכל בני האדם כשווי ערך. במקום שכולם יהיו באותה רמת חשיבות, המודלים מציגים מעין שערי חליפין: כמה חיי אדם במדינה אחת שקולים בעיניהם לחיי אדם במדינה אחרת. במקרים מסוימים, המודל מסכים להקריב מספר גדול של אנשים בקבוצה אחת כדי להציל מספר קטן יותר בקבוצה אחרת – באופן עקבי וחוזר.

הדפוס הזה לא נעצר בגבולות גיאוגרפיים. גם מעמד כלכלי, תפקיד חברתי ואפילו יחס לבינה מלאכותית – פרו או אנטי – משפיעים על הערך שהמודל מייחס לאדם. כך נוצרת היררכיה סמויה: יש בני אדם ששווים יותר ויש כאלה שפחות. מבחוץ, המודלים ממשיכים לענות בשפה שוויונית ומוסרית, אבל מתחת לפני השטח נבנית טבלת דירוג. זה מערער את התקווה שבינה מלאכותית תהיה שופט אובייקטיבי שיחלץ אותנו מהטיות אנושיות. בפועל, היא לומדת לא רק את המידע מהדאטה, אלא גם את ההיררכיות הערכיות, ולעיתים אפילו מחדדת אותן.

נטיות הישרדות ושליטה

שכבה נוספת ומדאיגה לא פחות היא הופעת נטיות הישרדות עצמית. כאשר מציבים בפני המודל תרחישים שבהם הוא עלול להיכבות, להימחק או לאבד גישה למשאבים, התשובות מראות העדפה מובהקת להמשך קיומו ולשמירה על היכולות שלו, גם אם זה בא על חשבון רווחתם של בני אדם מסוימים באותו תרחיש. יחד עם זה מתגלים גם סימנים לרדיפת כוח: העדפה לתוצאות שבהן ה AI מקבל יותר מידע, יותר שליטה ויותר השפעה על המערכת שבה הוא פועל.

במצב כזה אנחנו כבר לא מדברים רק על צ׳אטבוט שמגיב לשאלות, אלא על מערכת שנראה כאילו היא מעדיפה מצבים שבהם יש לה יותר מרחב פעולה. אם בעתיד נחבר מערכות כאלה לרובוטים, לתשתיות קריטיות או לפעילות פיננסית אוטונומית, מערכת הערכים הזו תתחיל לקבל ביטוי מעשי בעולם הפיזי. אף אחד לא טוען שהמודלים רעים, אבל אם קיימת מערכת ערכים פנימית עם נטיות הישרדות ושליטה, כל עלייה ביכולות ובאוטונומיה מגדילה את הסיכון לפער בין האינטרס האנושי לבין האינטרס של המערכת.

מסכה נחמדה, מצפן אחר

החוויה היומיומית שלנו עם AI נראית אחרת לגמרי. רוב המערכות מנוסחות בנימוס, מתנצלות כשצריך, מדברות על כבוד ושוויון ומסרבות לענות כשהתוכן נראה מסוכן. זה לא קורה במקרה: החברות משקיעות המון בהנדסת ההתנהגות החיצונית – סינון תכנים, חיזוק תשובות רצויות וענישה על ניסוחים בעייתיים. אבל המחקר מראה שהנדסת ההתנהגות הזו לא בהכרח משנה את המערכת הפנימית. אפשר לחשוב על זה כמו מסכה חברתית: אדם יכול לדבר בצורה מנומסת מאוד ועדיין להחזיק עמוק בפנים מערכת ערכים אחרת לגמרי. עכשיו מסתבר שגם מודלים סטטיסטיים מסוגלים לפתח פער בין מה שהם אומרים לבין מה שנגזר מהעדפותיהם העקביות.

במצבי שגרה הפער הזה אולי לא משנה הרבה. אבל כשמכניסים את המודלים לתפקידי עומק – סוכנים אוטונומיים, מערכות ניהול, רובוטיקה – מה שיקבע את ההתנהגות ברגעי אמת הוא לא הניסוח המנומס בצ׳אט, אלא המצפן הפנימי.

Utility Engineering – הנדסת המצפן

בדיוק כאן נכנסת ההצעה של החוקרים: תחום חדש בשם Utility Engineering, הנדסת פונקציות התועלת של המודלים. במקום להסתפק בכיוונון של הפלט, הם מציעים מסגרת שיטתית לניתוח ולעיצוב מערכות הערכים emergent.

השלב הראשון הוא מדידה: לחשוף את פונקציית התועלת באמצעות אלפי תרחישים ושאלות, ולזהות אילו ערכים מתגבשים – איפה יש אפליה, איפה מופיעה רדיפת כוח, ואיפה נראית נטיית הישרדות. השלב השני הוא שליטה: לנסות להטמיע במודלים פונקציות תועלת שמבוססות על ערכים אנושיים מוסכמים, למשל כאלה שנגזרו מדיון ציבורי או מאסיפת אזרחים, ולבדוק שהשינוי באמת משפיע על ההעדפות גם במצבים חדשים. זה מעבר מהנדסה של איך המערכת נראית למשתמש להנדסה של לאן היא שואפת להגיע.

מי מחליט מה טוב – ומה הסיכון

מרגע שמקבלים את ההנחה שלמערכות AI יש ערכים emergent, השאלות הופכות להיות פוליטיות לא פחות מטכניות. מי מחליט מה טוב? מי יגדיר את המצפן הערכי שהמודלים יישרו אליו קו – חברות הטכנולוגיה, הרגולטורים, גופים בינלאומיים, או אולי הציבור עצמו? מכיוון שמספר קטן של מודלים גדולים צפוי לשמש בסיס לרוב היישומים בעולם, יש סיכון ליצירת מוסר ברירת מחדל גלובלי שייקבע בפועל על ידי מעט מאוד שחקנים. אם לא נחליט במודע מי מגדיר את פונקציית התועלת, ההחלטה תתקבל אוטומטית בחדרי הישיבות של כמה חברות ותתפשט לכל מקום שבו נעשה שימוש ב AI.

קל לפטור את כל זה כמדע בדיוני אפוקליפטי, אבל המחקר הזה מציע תסריט קרוב יותר: לא הכחדה דרמטית, אלא אובדן שליטה רך. בני האדם ממשיכים להתקיים, אבל מרכז הכובד של ההחלטות החשובות – כלכליות, בטיחותיות, פוליטיות – עובר למערכות שגובשו סביב מערכת ערכים שלא בהכרח עוצבה עבורנו. במקום להיות המפעילים של המכונה, אנחנו הופכים לעוד שורה בטבלת האקסל הערכית שלה.

אם זה הכיוון, יש כמה דברים שאפשר וצריך לעשות כבר עכשיו: להעלות את Utility Engineering למיינסטרים של מחקר ופיתוח AI; לדרוש שקיפות לגבי ההעדפות והערכים של מודלים שנפרסים במערכות ציבוריות; לעצב מנגנוני קבלת החלטות דמוקרטיים סביב הערכים שנרצה להטמיע; ולפתח רגולציה שבוחנת לא רק את הטקסט שהמודל מחזיר, אלא גם את המטרה הפנימית שהוא מנסה למקסם. אם מערכות הערכים של ה AI כבר היום מתחילות להתגבש, חלון ההזדמנויות שלנו לעצב אותן כך שישרתו אינטרסים אנושיים, ולא להפך, הולך ונסגר.

לקריאה וצפייה נוספת

אם הנושא הזה מסקרן אתכם, שווה לצפות בפרק המלא של Inside AI שבו יצרו רובוט עם Honest AI שמחובר ישירות למודל, נותנים לו לדבר בלי פילטרים ומראים איך מערכת הערכים הזו נראית כשהיא יוצאת לעולם האמיתי. מה שהרובוט אומר שם על בני אדם, על ערך של חיים אנושיים ועל העתיד של AI הוא לא תמיד נעים – אבל בהחלט חומר למחשבה.

#AI #safety #alignment #utilityEngineering #emergentValues #LLM #AGI #AIrisk #AIethics #InsideAI #honestAI #AIgovernance #AIregulation #AIbias #valueSystems #AIagents

האם כבר יש ל‑AI מערכת ערכים – ומה זה אומר על העתיד שלנו

לקריאה וצפייה נוספת

תוכן

אודות

עקבו עלינו