Штучний загальний інтелект
Наступний закон масштабування ШІ: не більше даних, а кращі моделі світу

Роками індустрія штучного інтелекту дотримувалася простого, жорстокого правила: чим більше, тим краще. Ми навчали моделі на величезних наборах даних, збільшували кількість параметрів і витрачали величезну обчислювальну потужність на вирішення проблеми. Ця формула працювала більшу частину часу. Від GPT-3 до GPT-4, від простих чат-ботів до механізмів мислення, «…закон масштабування«припустив, що якби ми просто продовжували передавати машині більше тексту, вона зрештою стала б розумною.
Але ми зараз ударитися об стінуІнтернет обмежений. Високоякісні публічні дані вичерпуються, а віддача від простого збільшення моделей зменшуєтьсяПровідні дослідники штучного інтелекту сперечатися що наступний великий стрибок у розвитку штучного інтелекту відбудеться не лише завдяки читанню більшої кількості тексту. Він відбудеться завдяки розумінню реальності, що стоїть за текстом. Це переконання сигналізує про фундаментальну зміну фокусу ШІ, що сповіщає про настання ери Моделі Світу.
Межі прогнозування наступного токена
Щоб зрозуміти, чому нам потрібен новий підхід, ми повинні спочатку розглянути, що насправді роблять сучасні системи штучного інтелекту. Незважаючи на свої вражаючі можливості, такі моделі, як ChatGPT або Claude, є фундаментально... статистичні двигуниВони передбачають наступне слово в послідовності на основі ймовірності того, що було раніше. Вони не розуміють, що впала склянка розіб'ється; вони просто знають, що в мільйонах історій слово «розбити» часто йде після фрази «впала склянка».
Цей підхід, відомий як авторегресійне моделювання, має критичний недолік. Він повністю спирається на кореляцію, а не на причинно-наслідковий зв'язок. Якщо ви навчаєте магістра права (LLM) на тисячі описів автомобільної аварії, він вивчить мову аварій. Але він ніколи не вивчить фізику імпульсу, тертя чи крихкості. Він глядач, а не учасник.
Це обмеження стає «Стіна даних«Ми майже повністю знищили публічний інтернет. Щоб масштабуватися далі за допомогою поточного методу, нам знадобиться експоненціально більше даних, ніж є. Синтетичні дані (тобто текст, згенерований штучним інтелектом) пропонують тимчасове рішення, але часто призводять до…»колапс моделі«», де система посилює власні упередження та помилки. Ми не можемо масштабувати наш шлях до загального штучного інтелекту (ЗШІ), використовуючи лише текст, оскільки текст — це низькосмугове стиснення світу. Він описує реальність, але не є самою реальністю.
Чому світові моделі важливі
AI Лідери як і Ян ЛеКун, давно стверджують, що сучасним системам штучного інтелекту бракує фундаментального аспекту людського пізнання, яким природно володіють навіть маленькі діти. Це наша здатність підтримувати внутрішню модель того, як влаштований світ, яку вони зазвичай називають Модель світуМодель світу не просто передбачає наступне слово; вона створює внутрішню ментальну карту того, як функціонує фізичне середовище. Коли ми бачимо м'яч, що котиться за диваном, ми знаємо, що він все ще там. Ми знаємо, що він з'явиться з іншого боку, якщо його не зупинити. Нам не потрібно читати підручник, щоб зрозуміти це; ми запускаємо ментальну симуляцію на основі нашої внутрішньої «моделі світу» фізики та сталості об'єктів.
Щоб ШІ розвивався, він повинен перейти від статистичної імітації до такого типу внутрішнього моделювання. Йому потрібно розуміти основні причини подій, а не лише їхні текстові описи.
Команда Спільна вбудовувана прогнозна архітектура (JEPA) є яскравим прикладом такої зміни парадигми. На відміну від LLM, які намагаються передбачити кожен піксель чи слово (процес, який є обчислювально дорогим та шумним), JEPA передбачає абстрактні представлення. Він ігнорує непередбачувані деталі, такі як рух окремих листків на дереві, та зосереджується на високорівневих поняттях, таких як дерево, вітер та пора року. Навчаючись передбачати, як ці високорівневі стани змінюються з часом, ШІ вивчає структуру світу, а не деталі поверхневого рівня.
Від прогнозування до моделювання
Ми вже бачимо перші проблиски цього переходу в моделях генерації відео. Коли OpenAI випустила Sora, вони описали її не просто як відеоінструмент, а як «…симулятор світу».
Ця відмінність є життєво важливою. Стандартний відеогенератор може створити відео людини, яка йде, прогнозуючи, які кольорові пікселі зазвичай розташовані поруч один з одним. Однак симулятор світу намагається підтримувати 3D-узгодженість, освітлення та сталість об'єкта з часом. Він «розуміє», що якщо людина йде за стіною, вона не повинна зникнути з існування.
Хоча сучасні відеомоделі ще далекі від досконалості, вони представляють новий навчальний майданчик. Фізичний світ містить значно більше інформації, ніж текстовий. Одна секунда відео містить мільйони візуальних точок даних щодо фізики, світла та взаємодії. Навчаючи моделі на цій візуальній реальності, ми можемо навчити ШІ «здоровому глузду», якого зараз бракує LLM.
Це створює новий закон масштабування. Успіх більше не вимірюватиметься кількістю трильйонів токенів, які зчитала модель. Він вимірюватиметься точністю її моделювання та здатністю передбачати майбутні стани навколишнього середовища. Штучний інтелект, який може точно моделювати наслідки дії, не вживаючи її самостійно, – це ШІ, який може планувати, міркувати та діяти безпечно.
Ефективність та шлях до ЗШІ
Цей зсув також стосується нестійкості енергетичні витрати сучасного штучного інтелекту. LLM неефективні, оскільки вони повинні передбачати кожну деталь для отримання узгодженого результату. Світова модель є ефективнішою, оскільки вона вибіркова. Так само, як водій-людина зосереджується на дорозі та ігнорує візерунок хмар на небі, Світова модель зосереджується на відповідних причинно-наслідкових факторах завдання.
ЛеКун стверджував, що такий підхід дозволяє моделям навчатися набагато швидше. Така система, як V-JEPA (Video-Joint Embedding Predictive Architecture) продемонструвала свою здатність знаходити рішення з набагато меншою кількістю навчальних ітерацій, ніж традиційні методи. Вивчаючи «форму» даних, а не запам'ятовуючи самі дані, Світові Моделі створюють більш надійну форму інтелекту, яка краще узагальнює її на нові, невідомі ситуації.
Це відсутня ланка для ЗШІ. Справжній інтелект вимагає навігації. Він вимагає, щоб агент дивився на ціль, моделював різні шляхи для досягнення цієї мети, використовуючи свою внутрішню модель світу, а потім вибирав шлях з найвищою ймовірністю успіху. Генератори тексту не можуть цього зробити; вони можуть лише написати план, вони не можуть зрозуміти обмеження його виконання.
Bottom Line
Індустрія штучного інтелекту переживає переломний момент. Стратегія «просто додавайте більше даних» досягає свого логічного завершення. Ми переходимо від ери чат-ботів до ери симуляторів.
Наступне покоління масштабування ШІ не буде пов'язане з читанням усього інтернету. Йдеться про спостереження за світом, розуміння його правил та побудову внутрішньої архітектури, яка відображає реальність. Це не просто технічне оновлення; це фундаментальна зміна того, що ми вважаємо «навчанням».
Для підприємств і дослідників фокус має зміститися. Нам потрібно перестати зациклюватися на підрахунку параметрів і почати оцінювати, наскільки добре наші системи розуміють причину та наслідок. Штучний інтелект майбутнього не просто розповість вам, що сталося; він покаже вам, що може статися і чому. Це обіцянка World Models, і це єдиний шлях уперед.












