AGI

Следующий Закон Масштабирования ИИ: Не Больше Данных, а Лучшие Модели Мира

mm

В течение многих лет отрасль искусственного интеллекта следовала простому и жесткому правилу: чем больше, тем лучше. Мы обучали модели на огромных наборах данных, увеличивали количество параметров и бросали огромную вычислительную мощность на проблему. Этот рецепт работал большую часть времени. От GPT-3 до GPT-4, и от простых чат-ботов до двигателей рассуждения, “закон масштабирования” предполагал, что если мы просто продолжим кормить машину больше текста, она в конечном итоге станет интеллектуальной.

Но мы теперь сталкиваемся с препятствием. Интернет конечен. Высококачественные публичные данные становятся исчерпанными, и доходы от простого увеличения размера моделей уменьшаются. Ведущие исследователи ИИ утверждают, что следующий большой скачок в искусственном интеллекте не придет от чтения еще больше текста. Он придет от понимания реальности, стоящей за текстом. Это убеждение сигнализирует о фундаментальном сдвиге в фокусе ИИ, который вводит эру Модели Мира.

Ограничения Предсказания Следующего Токена

Чтобы понять, почему нам нужен новый подход, мы должны сначала посмотреть, что делают текущие системы ИИ. Несмотря на их впечатляющие возможности, модели như ChatGPT или Claude являются фундаментально статистическими двигателями. Они предсказывают следующее слово в последовательности на основе вероятности того, что было до этого. Они не понимают, что упавшее стекло разобьется; они просто знают, что в миллионах историй слово “разобьется” часто следует после фразы “упавшее стекло.”

Этот подход, известный как авторегрессивное моделирование, имеет критический недостаток. Он полагается полностью на корреляцию, а не на причинно-следственную связь. Если вы обучите ЛЛМ на тысяче описаний автомобильной аварии, он научится языку аварий. Но он никогда не научится физике импульса, трения или хрупкости. Он является зрителем, а не участником.

Это ограничение становится “Стеной Данных“. Мы практически полностью сканировали весь публичный интернет. Чтобы масштабироваться дальше, используя текущий метод, нам нужно было бы экспоненциально больше данных, чем существует. Синтетические данные (т.е. текст, сгенерированный ИИ) предлагают временное решение, но часто приводят к “коллапсу модели“, где система усиливает свои собственные предубеждения и ошибки. Мы не можем масштабировать наш путь к Искусственному Общему Интеллекту (ИОИ), используя только текст, потому что текст является низкобитовой компрессией мира. Он описывает реальность, но он не является реальностью сама по себе.

Почему Модели Мира Важны

Лидеры ИИ, такие как Ян Лекун, давно утверждают, что текущие системы ИИ не имеют фундаментального аспекта человеческого познания, который даже молодые дети естественно обладают. Это наша способность поддерживать внутреннюю модель того, как работает мир, которую они обычно называют Моделью Мира. Модель Мира не просто предсказывает следующее слово; она строит внутреннюю умственную карту того, как работает физическая среда. Когда мы видим, как мяч катится за диван, мы знаем, что он все еще там. Мы знаем, что он появится на другой стороне, если его не остановить. Нам не нужно читать учебник, чтобы понять это; мы запускаем умственную симуляцию на основе нашей внутренней “модели мира” физики и постоянства объектов.

Чтобы ИИ продвинулся вперед, он должен перейти от статистического подражания к этому типу внутренней симуляции. Ему нужно понять лежащие в основе причины событий, а не только их текстовые описания.

Джойнт Эмбеддинг Предиктивная Архитектура (JEPA) является ярким примером этого сдвига парадигмы. В отличие от ЛЛМ, которые пытаются предсказать каждый пиксель или слово (процесс, который является вычислительно дорогим и шумным), JEPA предсказывает абстрактные представления. Она игнорирует непредсказуемые детали, такие как движение отдельных листьев на дереве, и фокусируется на высокоуровневых концепциях, таких как дерево, ветер и сезон. Обучаясь предсказывать, как эти высокоуровневые состояния меняются со временем, ИИ учится структуре мира, а не поверхностным деталям.

От Предсказания к Симуляции

Мы уже видим первые намеки на этот переход в моделях генерации видео. Когда OpenAI выпустила Sora, они описали ее не просто как инструмент видео, а как “симулятор мира.”

Этот различие является важным. Стандартный генератор видео может создать видео человека, прогуливающегося, предсказывая, какие пиксели обычно следуют друг за другом. Симулятор мира, однако, пытается поддерживать трехмерную последовательность, освещение и постоянство объектов во времени. Он “понимает”, что если человек проходит за стеной, он не должен исчезнуть из существования.

Хотя текущие модели видео все еще далеки от совершенства, они представляют новую тренировочную площадку. Физический мир содержит значительно больше информации, чем текстовый мир. Одна секунда видео содержит миллионы визуальных данных о физике, свете и взаимодействии. Обучая модели на этой визуальной реальности, мы можем научить ИИ “здравым смыслом”, которого сейчас не хватает ЛЛМ.

Это создает новый закон масштабирования. Успех больше не будет измеряться количеством триллионов токенов, которые модель прочитала. Он будет измеряться точностью ее симуляции и ее способностью предсказывать будущие состояния среды. ИИ, который может точно симулировать последствия действия без необходимости выполнять это действие, является ИИ, который может планировать, рассуждать и действовать безопасно.

Эффективность и Путь к ИОИ

Этот сдвиг также решает проблему неустойчивых энергетических затрат текущего ИИ. ЛЛМ являются неэффективными, потому что они должны предсказать каждый деталь, чтобы сгенерировать связный вывод. Модель Мира более эффективна, потому что она является избирательной. Как и человеческий водитель фокусируется на дороге и игнорирует узор облаков в небе, Модель Мира фокусируется на соответствующих причинных факторах задачи.

Лекун утверждал, что этот подход позволяет моделям учиться намного быстрее. Система, такая как V-JEPA (Видео-Джойнт Эмбеддинг Предиктивная Архитектура), показала, что она может сойти на решение с намного меньшим количеством итераций обучения, чем традиционные методы. Обучаясь “форме” данных, а не запоминая данные сами по себе, Модели Мира строят более прочную форму интеллекта, которая лучше обобщается до новых, не виденных ситуаций.

Это является отсутствующей связью для ИОИ. Истинный интеллект требует навигации. Он требует агента, чтобы посмотреть на цель, смоделировать разные пути к достижению этой цели, используя свою внутреннюю модель мира, и затем выбрать путь с наибольшей вероятностью успеха. Генераторы текста не могут сделать это; они могут только написать план, они не могут понять ограничения его выполнения.

Основная Мысль

Отрасль ИИ находится на поворотном моменте. Стратегия “просто добавьте больше данных” достигает своего логического конца. Мы переходим от эры Чат-бота к эре Симулятора.

Следующее поколение масштабирования ИИ не будет заключаться в чтении всего интернета. Оно будет заключаться в наблюдении за миром, понимании его правил и построении внутренней архитектуры, отражающей реальность. Это не просто техническое обновление; это фундаментальное изменение того, что мы считаем “обучением”.

Для предприятий и исследователей фокус должен сдвинуться. Нам нужно перестать увлекаться количеством параметров и начать оценивать, насколько хорошо наши системы понимают причину и следствие. ИИ будущего не просто расскажет вам, что произошло; он покажет вам, что могло произойти, и почему. Это обещание Моделей Мира, и это единственный путь вперед.

Доктор Техсин Зия является доцентом в университете COMSATS в Исламабаде, имеющим степень PhD в области ИИ в Венском техническом университете, Австрия. Специализируясь в области искусственного интеллекта, машинного обучения, науки о данных и компьютерного зрения, он внес значительный вклад с публикациями в авторитетных научных журналах. Доктор Техсин также возглавлял различные промышленные проекты в качестве основного исследователя и служил консультантом по ИИ.