בינה כללית מלאכותית
חוק קנה המידה הבא של בינה מלאכותית: לא יותר נתונים, אלא מודלים עולמיים טובים יותר

במשך שנים, תעשיית הבינה המלאכותית פעלה לפי כלל פשוט ואכזרי: גדול יותר, טוב יותר. אימנו מודלים על מערכי נתונים עצומים, הגדלנו את מספר הפרמטרים והפעלנו כוח חישובי עצום על הבעיה. נוסחה זו עבדה ברוב הזמן. מ-GPT-3 ל-GPT-4, ומצ'אטבוטים גולמיים למנועי חשיבה, ה-"חוק קנה המידה"הציע שאם פשוט נמשיך להזין למכונה עוד טקסט, היא בסופו של דבר תהפוך לחכמה.
אבל אנחנו עכשיו לפגוע בקירהאינטרנט הוא מוגבל. נתונים ציבוריים באיכות גבוהה הולכים ומתכלים, והתשואות פשוטות מהגדלת מודלים הולכות ומתמעטות. פוחתתחוקרי הבינה המלאכותית המובילים לטעון שהקפיצה הגדולה הבאה בבינה מלאכותית לא תגיע מקריאת טקסט רב יותר בלבד. היא תגיע מהבנת המציאות שמאחורי הטקסט. אמונה זו מאותתת על שינוי מהותי במיקוד של הבינה המלאכותית, המביא את עידן מודל העולם.
גבולות חיזוי האסימון הבא
כדי להבין מדוע אנו זקוקים לגישה חדשה, עלינו תחילה לבחון מה מערכות הבינה המלאכותית הנוכחיות עושות בפועל. למרות יכולותיהן המרשימות, מודלים כמו ChatGPT או Claude הם ביסודם... מנועים סטטיסטייםהם חוזים את המילה הבאה ברצף בהתבסס על ההסתברות למה שקדם לו. הם לא מבינים שכוס שנפלה תתנפץ; הם פשוט יודעים שבמיליוני סיפורים, המילה "shatter" (לנפוץ) מגיעה לעתים קרובות אחרי הביטוי "זכוכית שנפלה".
גישה זו, המכונה דוגמנות אוטורגרסיבית, יש פגם קריטי. הוא מסתמך לחלוטין על קורלציה, לא על סיבתיות. אם תלמד תואר שני במשפטים על אלף תיאורים של תאונת דרכים, הוא ילמד את שפת התאונות. אבל הוא לעולם לא ילמד את הפיזיקה של תנע, חיכוך או שבירות. הוא צופה, לא משתתף.
מגבלה זו הופכת ל"קיר נתונים"כמעט גרדנו את כל האינטרנט הציבורי. כדי להרחיב את הצמיחה באמצעות השיטה הנוכחית, נצטרך יותר נתונים באופן אקספוננציאלי ממה שקיים. נתונים סינתטיים (כלומר, טקסט שנוצר על ידי בינה מלאכותית) מציעים פתרון זמני, אך לעתים קרובות הם מובילים ל"קריסת דגם", שבו המערכת מגבירה את ההטיות והטעויות שלה. איננו יכולים להתקדם לבינה כללית מלאכותית (AGI) באמצעות טקסט בלבד, משום שטקסט הוא דחיסה ברוחב פס נמוך של העולם. הוא מתאר את המציאות, אך אינו המציאות עצמה.
למה מודלים עולמיים חשובים
AI מנהיגים כמו יאן לקון, טענו זה מכבר כי מערכות בינה מלאכותית עכשוויות חסרות היבט בסיסי של קוגניציה אנושית שאפילו ילדים צעירים מחזיקים בו באופן טבעי. זוהי היכולת שלנו לשמור על מודל פנימי של איך העולם עובד, אותו הם מכנים בדרך כלל מודל עולמימודל עולם לא רק מנבא את המילה הבאה; הוא בונה מפה מנטלית פנימית של אופן פעולת הסביבה הפיזית. כשאנו רואים כדור מתגלגל מאחורי ספה, אנו יודעים שהוא עדיין שם. אנו יודעים שהוא יופיע בצד השני אלא אם כן הוא ייעצר. איננו צריכים לקרוא ספר לימוד כדי להבין זאת; אנו מריצים סימולציה מנטלית המבוססת על "מודל העולם" הפנימי שלנו של פיזיקה וקביעות אובייקט.
כדי שבינה מלאכותית תתקדם, עליה לעבור מחיקוי סטטיסטי לסוג זה של סימולציה פנימית. עליה להבין את הגורמים הבסיסיים לאירועים, ולא רק את התיאורים הטקסטואליים שלהם.
השמיים ארכיטקטורת חיזוי של הטמעה משותפת (JEPA) היא דוגמה מצוינת לשינוי פרדיגמה זה. בניגוד לתוכניות LLM, המנסות לחזות כל פיקסל או מילה (תהליך יקר מבחינה חישובית ורועש), JEPA מנבאת ייצוגים מופשטים. היא מתעלמת מפרטים בלתי צפויים כמו תנועת עלים בודדים על עץ ומתמקדת במושגים ברמה גבוהה כמו העץ, הרוח והעונה. על ידי לימוד לחזות כיצד מצבים ברמה גבוהה אלה משתנים לאורך זמן, בינה מלאכותית לומדת את מבנה העולם ולא את הפרטים ברמת השטח.
מחיזוי לסימולציה
אנו כבר רואים את הניצוץ הראשוני של המעבר הזה במודלים של יצירת וידאו. כאשר OpenAI הוציאה את Sora, הם תיארו אותו לא רק ככלי וידאו, אלא כ"סימולטור עולם".
הבחנה זו חיונית. מחולל וידאו סטנדרטי עשוי ליצור סרטון של אדם הולך על ידי חיזוי אילו פיקסלים צבעוניים בדרך כלל נמצאים זה ליד זה. סימולטור עולם, לעומת זאת, מנסה לשמור על עקביות תלת-ממדית, תאורה וקביעות אובייקט לאורך זמן. הוא "מבין" שאם האדם הולך מאחורי קיר, הוא לא אמור להיעלם מהקיום.
בעוד שמודלי הווידאו הנוכחיים עדיין רחוקים מלהיות מושלמים, הם מייצגים את מגרש האימונים החדש. העולם הפיזי מכיל מידע רב משמעותית מאשר העולם הטקסטואלי. שנייה אחת של וידאו מכילה מיליוני נקודות נתונים ויזואליות בנוגע לפיזיקה, אור ואינטראקציה. על ידי אימון מודלים על מציאות חזותית זו, נוכל ללמד את הבינה המלאכותית את "השכל הישר" שחסר כיום לתואר שני במשפטים.
זה יוצר חוק קנה מידה חדש. הצלחה לא תימדד עוד לפי כמה טריליוני טוקנים מודל קרא. היא תימדד לפי נאמנות הסימולציה שלו ויכולתו לחזות מצבים עתידיים של הסביבה. בינה מלאכותית שיכולה לדמות במדויק את ההשלכות של פעולה מבלי לנקוט בפעולה זו היא בינה מלאכותית שיכולה לתכנן, לחשוב ולפעול בבטחה.
יעילות והדרך ל-AGI
שינוי זה מתייחס גם לבעיות שאינן בנות קיימא עלויות האנרגיה של הבינה המלאכותית הנוכחית. מודלים לתואר שני (LLMs) אינם יעילים משום שעליהם לחזות כל פרט כדי לייצר פלט קוהרנטי. מודל עולמי יעיל יותר משום שהוא סלקטיבי. כשם שנהג אנושי מתמקד בכביש ומתעלם מדפוס העננים בשמיים, מודל עולמי מתמקד בגורמים הסיבתיים הרלוונטיים של משימה.
לקון טען שגישה זו מאפשרת למודלים ללמוד הרבה יותר מהר. מערכת כמו V-JEPA (ארכיטקטורת חיזוי של הטמעת וידאו משותפת) הראתה שהיא יכולה להתכנס לפתרון עם הרבה פחות איטרציות אימון בהשוואה לשיטות מסורתיות. על ידי למידת "צורת" הנתונים במקום שינון הנתונים עצמם, מודלים עולמיים בונים צורה חזקה יותר של אינטליגנציה שמכלילה טוב יותר למצבים חדשים ובלתי נראים.
זוהי החוליה החסרה עבור AGI. אינטליגנציה אמיתית דורשת ניווט. היא דורשת מסוכן לבחון מטרה, לדמות נתיבים שונים להשגת מטרה זו באמצעות המודל הפנימי שלו של העולם, ולאחר מכן לבחור את הנתיב בעל הסיכוי הגבוה ביותר להצלחה. יוצרי טקסט אינם יכולים לעשות זאת; הם יכולים רק לכתוב תוכנית, הם אינם יכולים להבין את האילוצים של ביצועה.
בשורה התחתונה
תעשיית הבינה המלאכותית נמצאת בנקודת מפנה. האסטרטגיה של "פשוט להוסיף עוד נתונים" מגיעה לסופה ההגיוני. אנו עוברים מעידן הצ'אטבוט לעידן הסימולטור.
הדור הבא של קנה המידה של בינה מלאכותית לא יעסוק בקריאת האינטרנט כולו. הוא יעסוק בצפייה בעולם, הבנת חוקיו ובניית ארכיטקטורה פנימית המשקפת את המציאות. זה לא רק שדרוג טכני; זהו שינוי מהותי במה שאנו מגדירים כ"למידה".
עבור ארגונים וחוקרים, המיקוד חייב להשתנות. עלינו להפסיק להתעסק באובססיה סביב ספירת פרמטרים ולהתחיל להעריך עד כמה המערכות שלנו מבינות סיבה ותוצאה. הבינה המלאכותית של העתיד לא רק תגיד לכם מה קרה; היא תראה לכם מה יכול לקרות, ומדוע. זוהי ההבטחה של מודלים עולמיים, וזו הדרך היחידה קדימה.












