Свяжитесь с нами:

Следующий закон масштабирования ИИ: не больше данных, а лучшие модели мира.

Искусственный общий интеллект

Следующий закон масштабирования ИИ: не больше данных, а лучшие модели мира.

mm

На протяжении многих лет индустрия искусственного интеллекта следовала простому, жестокому правилу: чем больше, тем лучше. Мы обучали модели на огромных массивах данных, увеличивали количество параметров и задействовали колоссальные вычислительные мощности для решения этой задачи. Эта формула работала большую часть времени. От GPT-3 до GPT-4, от примитивных чат-ботов до систем логического мышления, «закон масштабированияБыло высказано предположение, что если мы будем просто продолжать кормить машину всё большим количеством текста, она в конечном итоге станет интеллектуальной.

Но мы сейчас находимся врезаться в стенуИнтернет — это ограниченный ресурс. Высококачественные общедоступные данные исчерпываются, а отдача от простого увеличения размеров моделей снижается. уменьшающийсяВедущие исследователи в области искусственного интеллекта спорить что следующий крупный скачок в развитии искусственного интеллекта произойдет не просто за счет чтения большего количества текста. Он произойдет благодаря пониманию реальности, скрывающейся за текстом. Это убеждение сигнализирует о фундаментальном сдвиге в фокусе внимания ИИ, открывая эру Мировой Модели.

Ограничения прогнозирования следующего токена

Чтобы понять, почему нам нужен новый подход, мы должны сначала взглянуть на то, что на самом деле делают современные системы искусственного интеллекта. Несмотря на их впечатляющие возможности, такие модели, как ChatGPT или Claude, по своей сути являются... статистические механизмыОни предсказывают следующее слово в последовательности, основываясь на вероятности того, что было раньше. Они не понимают, что упавший стакан разобьется; они просто знают, что в миллионах историй слово «разбить» часто следует за фразой «упавший стакан».

Этот подход, известный как авторегрессионное моделированиеУ этого подхода есть существенный недостаток. Он полностью полагается на корреляцию, а не на причинно-следственную связь. Если обучить модель LLM на тысяче описаний автомобильной аварии, она выучит язык аварий. Но она никогда не выучит физику импульса, трения или хрупкости. Она — наблюдатель, а не участник.

Это ограничение становится «Стена данныхМы практически полностью охватили весь общедоступный интернет. Для дальнейшего масштабирования с использованием текущего метода нам потребуется экспоненциально больше данных, чем существует. Синтетические данные (т.е. текст, сгенерированный ИИ) предлагают временное решение, но часто приводят к «коллапс модели», где система усиливает собственные предубеждения и ошибки. Мы не можем масштабировать искусственный общий интеллект (AGI), используя только текст, потому что текст — это сжатие мира с низкой пропускной способностью. Он описывает реальность, но сам по себе не является реальностью.

Почему мировые модели важны

AI Лидеры Ян Лекун, как и многие другие, давно утверждал, что современным системам искусственного интеллекта не хватает фундаментального аспекта человеческого познания, которым обладают даже маленькие дети от природы. Это наша способность поддерживать внутреннюю модель того, как устроен мир, которую они обычно называли... Модель мираМировая модель не просто предсказывает следующее слово; она строит внутреннюю ментальную карту того, как функционирует физическая среда. Когда мы видим, как мяч катится за диван, мы знаем, что он все еще там. Мы знаем, что он появится с другой стороны, если его не остановить. Нам не нужно читать учебник, чтобы понять это; мы запускаем мысленную симуляцию, основанную на нашей внутренней «мировой модели» физики и постоянства объектов.

Для дальнейшего развития ИИ необходимо перейти от статистической имитации к подобному типу внутреннего моделирования. ИИ должен понимать первопричины событий, а не только их текстовые описания.

The Архитектура совместного встраивания и прогнозирования (JEPA) JEPA — яркий пример такого сдвига парадигмы. В отличие от LLM, которые пытаются предсказать каждый пиксель или слово (процесс, требующий больших вычислительных затрат и сопровождающийся шумом), JEPA предсказывает абстрактные представления. Она игнорирует непредсказуемые детали, такие как движение отдельных листьев на дереве, и фокусируется на высокоуровневых понятиях, таких как дерево, ветер и времена года. Обучаясь предсказывать, как эти высокоуровневые состояния меняются со временем, ИИ изучает структуру мира, а не поверхностные детали.

От прогнозирования к моделированию

Первые признаки этого перехода мы уже видим в моделях генерации видео. Когда OpenAI выпустила Sora, они описали её не просто как инструмент для работы с видео, а как «симулятор мира".

Это различие имеет решающее значение. Стандартный видеогенератор может создать видео идущего человека, предсказывая, какие цветные пиксели обычно располагаются рядом друг с другом. Однако симулятор мира стремится поддерживать трехмерную согласованность, освещение и постоянство объектов во времени. Он «понимает», что если человек проходит за стену, он не должен исчезнуть из существования.

Хотя современные видеомодели еще далеки от совершенства, они представляют собой новую площадку для обучения. Физический мир содержит значительно больше информации, чем текстовый. Одна секунда видео содержит миллионы визуальных точек данных, касающихся физики, света и взаимодействия. Обучая модели на этой визуальной реальности, мы можем научить ИИ «здравому смыслу», которого в настоящее время не хватает моделям на основе линейных моделей.

Это создает новый закон масштабирования. Успех больше не будет измеряться количеством триллионов прочитанных токенов моделью. Он будет измеряться точностью ее моделирования и способностью предсказывать будущие состояния окружающей среды. Искусственный интеллект, способный точно моделировать последствия действия, не совершая его, — это ИИ, способный планировать, рассуждать и действовать безопасно.

Эффективность и путь к общему искусственному интеллекту

Этот сдвиг также решает проблему неустойчивого развития. затраты на электроэнергию Современные модели искусственного интеллекта неэффективны, поскольку должны предсказывать каждую деталь для получения связного результата. Модель мира более эффективна, потому что она избирательна. Подобно тому, как водитель-человек сосредотачивается на дороге и игнорирует структуру облаков на небе, модель мира фокусируется на соответствующих причинно-следственных факторах задачи.

ЛеКун утверждал, что такой подход позволяет моделям обучаться гораздо быстрее. Система, подобная этой, V-JEPA Архитектура прогнозирования на основе видеосовмещенного встраивания (Video-Joint Embedding Predictive Architecture) показала, что может прийти к решению с гораздо меньшим количеством итераций обучения, чем традиционные методы. Изучая «форму» данных, а не запоминая сами данные, модели мира создают более надежную форму интеллекта, которая лучше обобщается на новые, невиданные ситуации.

Это недостающее звено для ИИ. Истинный интеллект требует навигации. Он требует от агента способности взглянуть на цель, смоделировать различные пути к ее достижению, используя свою внутреннюю модель мира, а затем выбрать путь с наибольшей вероятностью успеха. Генераторы текста не могут этого сделать; они могут только написать план, но не могут понять ограничения, связанные с его выполнением.

Выводы

Индустрия искусственного интеллекта находится на переломном этапе. Стратегия «просто добавляй больше данных» подходит к своему логическому завершению. Мы переходим из эпохи чат-ботов в эпоху симуляторов.

Следующее поколение масштабируемых систем искусственного интеллекта будет заключаться не в чтении всего интернета. Оно будет заключаться в наблюдении за миром, понимании его правил и построении внутренней архитектуры, отражающей реальность. Это не просто техническое обновление; это фундаментальное изменение в том, что мы считаем «обучением».

Для предприятий и исследователей необходимо сместить акцент. Нам нужно перестать зацикливаться на подсчете параметров и начать оценивать, насколько хорошо наши системы понимают причинно-следственные связи. Искусственный интеллект будущего не просто расскажет вам, что произошло; он покажет вам, что может произойти и почему. В этом заключается обещание моделей мира, и это единственный путь вперед.

Доктор Техсин Зия — штатный доцент Университета COMSATS в Исламабаде, имеет докторскую степень в области искусственного интеллекта, полученную в Венском технологическом университете, Австрия. Специализируясь на искусственном интеллекте, машинном обучении, науке о данных и компьютерном зрении, он внес значительный вклад, публикуя публикации в авторитетных научных журналах. Доктор Техсин также руководил различными промышленными проектами в качестве главного исследователя и консультанта по искусственному интеллекту.