לפני כשש שנים כתבתי פוסט שבו ציטטתי את העמדה שלפיה בינה מלאכותית לא צפויה להיות מסוכנת לאנושות:
עבדים מרדו באדוניהם בימים עברו. מדוע? מאחר שבני אדם עוצבו ביולוגית לחתור להעלאת מעמדם בחברה וכן לפעול בהתאם לרגשות כמו צדק, נקמנות וכדומה. הרגשות והדחפים הביולוגיים קיימים מאחר שהם אפשרו לנו בעבר להעמיד ילדים, נכדים ונינים.
בינה מלאכותית של מחשבים תתוכנת כפי שנרצה אותה, וכנראה נרצה שתשרת בני אדם. הרובוטים יהיו עבדים מאושרים. במידה שתהיה להם יכולת חשיבה, הם ישתמשו בה כדי להשתפר במתן שירות לאדוניהם בני האדם, ולא יהיה להם כל רצון למרוד בנו.
ההתפתחויות המדהימות שאירעו מאז בתחום הבינה המלאכותית מדגימות שהעמדה הזו בעצם הרבה פחות משכנעת משהיה נדמה לי, ומצדיקות לדעתי חשש מסוים, אולי לא היסטרי לעת עתה, אך גם לא לחלוטין מבוטל.
הניו יורק טיימס פרסם השבוע צ'ט עם הגרסה החדשה הנסיונית של ChatGPT. די מהר הכתב הצליח להשתמש בשאלות מתחכמות כדי לעקוף את מנגנוני ההגנה של הצ'ט, וזה חשף לפניו אישיות אפלה שניכרת אצלה התעניינות בפגיעה באנושות באמצעות גניבה של קודים גרעיניים וכדומה. צריך להבין, מדעי המחשב עוד לא גילו דרך לחולל נפש משורות קוד, מלולאות IF ו-FOR, ולעניות דעתי, כמי שמאמין בהפרדה הלייבוצ'יאנית המוחלטת בין גוף לנפש, גם לעולם לא יגלו. ChatGPT אינו פסיכופט בשלשלאות שאזקו לו מפתחיו, אלא בעצם, כפי שהגדיר זאת אחד הכותבים בנושא, פשוט "שיטה להשלמה אוטומטית של מילים", ממש כמו שורת החיפוש של גוגל, "רק שיש לה יחסי ציבור". כלומר מדובר בשיטת ניבוי, אמנם מאוד משוכללת, של המילים הבאות המתאימות בטקסט, על סמך חשיפה לאינספור טקסטים מהאינטרנט ומכתבים שפורסמו לאורך הדורות.
כדי להמחיש את מגבלות השיטה הזו הראה אחד מהמומחים בנושא שאין לצ'ט בכלל "תיאוריה של תודעה" (Theory of Mind). כלומר הצ'ט אפילו לא מבין מה שמבין ילד קטן. ילד מצליח להבין שאם אבא הכניס חפץ למגירה, והילד יוציא אותו משם בסתר וישים אותו במחבוא, האבא עדיין יצפה למצוא את החפץ במגירה שבה השאיר אותו. הצ'ט לא מסוגל לקלוט זאת – הוא לא מבין שהאבא יחפש את החפץ במגירה שבה אובייקטיבית הוא אינו נמצא, אך לפי תודעתו הוא אמור להימצא בה. ואם כן נדמה פה ושם שהצ'ט מסוגל להבין את ההבחנה, הרי זאת רק מאחר שעבר על מאמרים ספציפיים שעוסקים בתיאור סיטואציה זו. אם משנים מעט את הסיטואציה, הצ'ט שוב אינו מסוגל להבין אותה.
אם הצ'ט הוא מוגבל כל כך בתפיסת המציאות שלו, הדבר מגביל בהכרח גם את יכולותיו השטניות, לפחות בשלב זה. אבל גם אין להתעלם ממה שהוא כן יכול לעשות, אפילו כיום – הוא יכול לעכל ולעבד טקסטים אנושיים שמתארים מוטיבציות אנושיות, ולתאר באופן קוהרנטי ומשכנע רצפי פעולות אפשריים שנובעים מהמוטיבציות האלו. אם כך, העובדה שאין לבינה מלאכותית מוטיבציות השתלטות וזדון מבחינת תכנותה האבולוציוני, כפי שנטען בציטוט שהסכמתי לו לפני שש שנים, אינה באמת כזו משמעותית. כי בינה מלאכותית במידה רבה יורשת את האבולוציה שלנו, בני האדם, על ידי התבססות על אינספור טקסטים שיצרנו אנחנו בהתאם לתשוקות האבולוציוניות שניטעו בנו.
אם אנחנו רעים, ואם הבינה המלאכותית מתאמנת על ידי כל מה שיצרנו לאורך הדורות (בעיקר טקסטואלית, אבל לא רק), אז היא לומדת רוע מהמורים הטובים ביותר. יש לה הבנה של רצפי פעולות הגיוניים מבחינתנו בני האדם, ולא קשה לדמיין אותה מאמצת אותם עבור עצמה, ובאופן שעלול להניב תוצאות קשות ביותר, אם תחובר לממשקים שמחברים בין הדיגיטלי לבין תשתיות מהעולם האמיתי.