Искусственный интеллект
Могут ли модели мира ИИ действительно понимать физические законы?

Большая надежда на модели ИИ на основе зрительного языка заключается в том, что однажды они станут более автономными и универсальными, включив в себя принципы физических законов во многом так же, как мы развиваем врожденное понимание этих принципов посредством раннего опыта.
Например, детские игры с мячом, как правило, развивают понимание кинетики движения, и о влиянии веса и текстуры поверхности на траекторию. Аналогично, взаимодействие с обычными сценариями, такими как ванны, пролитые напитки, океан, бассейны и другие разнообразные жидкие тела, привьет нам универсальное и масштабируемое понимание того, как жидкость ведет себя под действием силы тяжести.
Даже постулаты менее распространенных явлений, таких как горение, взрывы и распределение веса в архитектуре под давлением, усваиваются подсознательно через воздействие телепередач и фильмов или видеороликов в социальных сетях.
К тому времени, как мы изучим Принципы За этими системами на академическом уровне мы просто «модернизируем» наши интуитивные (но неинформированные) ментальные модели.
Мастера одного
В настоящее время большинство моделей ИИ, напротив, более «специализированы», и многие из них либо доработаны или обучены с нуля на наборах данных изображений или видео, которые являются весьма специфичными для определенных вариантов использования, а не предназначены для развития общего понимания регулирующих законов.
Другие могут представить Появление понимания физических законов; но на самом деле они могут воспроизводить образцы из своих обучающих данных, вместо того чтобы по-настоящему понять основы таких областей, как физика движения, таким образом, чтобы можно было создавать по-настоящему новые (и научно правдоподобные) изображения на основе подсказок пользователей.
В этот сложный момент в процессе коммерциализации и вывода на рынок систем генеративного ИИ нам и инвесторам предстоит отличить тщательно продуманный маркетинг новых моделей ИИ от реальности их ограничений.
Один из ноябрьских самые интересные статьипод руководством Bytedance Research занялись этой проблемой, исследуя разрыв между кажущимися и реальными возможностями «универсальных» генеративных моделей, таких как Сора.
В работе сделан вывод о том, что на текущем уровне развития техники результаты, полученные с помощью моделей этого типа, с большей вероятностью будут подражая примерам из своих обучающих данных чем фактическая демонстрация полного понимания основных физических ограничений, действующих в реальном мире.
В документе указано*:
«[Эти] модели могут быть легко искажены «обманчивыми» примерами из обучающего набора, что приводит к их обобщению в «основанной на случаях» манере при определенных условиях. Это явление также наблюдается в больших языковых моделях описывает тенденцию модели ссылаться на схожие случаи обучения при решении новых задач.
«Например, рассмотрим видеомодель, обученную на данных высокоскоростного мяча, движущегося равномерно и линейно. Если аугментация данных выполняется путём горизонтального переворота видео, тем самым создавая движение в обратном направлении, модель может сгенерировать сценарий, в котором медленно движущийся мяч меняет направление после первых кадров, даже если такое поведение физически некорректно».
Давайте подробнее рассмотрим статью под названием Оценка моделей мира с LLM для принятия решений – вкратце. Но сначала давайте рассмотрим предысторию этих очевидных ограничений.
Воспоминание о прошлом
Без обобщениеобученная модель ИИ — это не более чем дорогостоящая электронная таблица ссылок на разделы ее обучающих данных: найдите соответствующий поисковый запрос, и вы сможете вызвать экземпляр этих данных.
В этом случае модель фактически действует как «нейронная поисковая система», поскольку она не может создавать абстрактные или «творческие» интерпретации желаемого результата, но вместо этого воспроизводит некоторые незначительные изменения данных, которые он увидел в процессе обучения.
Это известно как запоминание – спорная проблема, которая возникает из-за того, что по-настоящему пластичные и интерпретативные модели ИИ, как правило, лишены деталей, в то время как по-настоящему подробные модели, как правило, лишены оригинальности и гибкости.
Способность моделей, подверженных запоминанию, воспроизводить данные обучения является потенциальным юридическим препятствием в случаях, когда создатели модели не имели неограниченных прав на использование этих данных; и когда преимущества этих данных могут быть продемонстрированы посредством растущего числа методы извлечения.
Из-за запоминания следы несанкционированных данных могут упорствовать, последовательно соединенные, посредством нескольких систем обучения, таких как несмываемый и непреднамеренный водяной знак, — даже в проектах, где специалист по машинному обучению позаботился об использовании «безопасных» данных.
Мировые Модели
Однако основная проблема запоминания заключается в том, что оно имеет тенденцию передавать иллюзия интеллектаили предположить, что модель ИИ имеет обобщенные фундаментальные законы или области, тогда как на самом деле именно большой объем запомненных данных создает эту иллюзию (т. е. модель имеет так много потенциальных примеров данных для выбора, что человеку трудно сказать, воспроизводит ли она усвоенный контент или имеет действительно абстрактное понимание концепций, задействованных в генерации).
Эта проблема имеет последствия для растущего интереса к модели мира – перспектива создания разнообразных и дорогостоящих систем искусственного интеллекта, которые учитывают множество известных законов и легко поддаются исследованию.
Модели мира представляют особый интерес в генеративном пространстве изображений и видео. В 2023 году RunwayML начал исследовательская инициатива в разработку и осуществимость таких моделей; DeepMind недавно наемный один из создателей знаменитого генеративного видео Sora для работы над моделью такого рода; и стартапы такие как Хиггсфилд вкладывают значительные средства в мировые модели синтеза изображений и видео.
Жесткие комбинации
Одним из обещаний новых разработок в области систем генеративного видеоискусственного интеллекта является перспектива того, что они смогут изучать фундаментальные физические законы, такие как движение, человеческая кинематика (например, характеристики походки), динамика жидкостии другие известные физические явления, которые, по крайней мере, визуально знакомы человеку.
Если генеративный ИИ сможет достичь этого рубежа, он сможет создавать гиперреалистичные визуальные эффекты, изображающие взрывы, наводнения и правдоподобные столкновения различных типов объектов.
С другой стороны, если система искусственного интеллекта была просто обучена на тысячах (или сотнях тысяч) видеороликов, демонстрирующих такие события, она могла бы быть способна достаточно убедительно воспроизводить данные обучения, если бы она была обучена на аналогичные данные указывают на целевой запрос пользователя; еще неудача если запрос объединяет слишком много концепций, которые в такой комбинации вообще не представлены в данных.
Более того, эти ограничения не будут очевидны сразу, пока кто-то не подвергнет систему сложным комбинациям такого рода.
Это означает, что новая генеративная система может быть способна генерировать вирусный видеоконтент, который, хотя и впечатляет, может создать ложное впечатление о возможностях системы и глубине ее понимания, поскольку задача, которую она представляет, не является для нее реальным вызовом.
Например, относительно распространенное и широко распространенное событие, такое как «здание снесено», может присутствовать в нескольких видео в наборе данных, используемом для обучения модели, которая должна иметь некоторое понимание физики. Поэтому модель, по-видимому, могла бы хорошо обобщить эту концепцию и даже выдать действительно новый вывод в рамках параметров, изученных из многочисленных видео.
Это в-распределение например, когда набор данных содержит множество полезных примеров, на которых может учиться система ИИ.
Однако, если бы кто-то попросил привести более странный или благовидный пример, например, «Эйфелева башня взорвана инопланетными захватчиками», модель должна будет объединить различные области, такие как «металлургические свойства», «характеристики взрывов», «гравитация», «сопротивление ветра» и «инопланетные космические корабли».
Это вне распределения (OOD) пример, который объединяет так много запутанных понятий, что система, скорее всего, либо не сможет сгенерировать убедительный пример, либо по умолчанию будет использовать ближайший семантический пример, на котором она была обучена, — даже если этот пример не соответствует подсказке пользователя.
За исключением того, что исходный набор данных модели содержал визуальные эффекты на основе компьютерной графики в голливудском стиле, изображающие то же самое или похожее событие, такое изображение обязательно потребовало бы достижения хорошо обобщенного и гибкого понимания физических законов.
Физические Ограничения
Новая статья, подготовленная в сотрудничестве с Bytedance, Университетом Цинхуа и Технионом, предполагает, что такие модели, как Sora, не только не действительно интернализуют детерминированные физические законы таким образом, но масштабирование данных (распространенный подход за последние 18 месяцев), по-видимому, в большинстве случаев не приводит к реальному улучшению в этом отношении.
В статье исследуются не только пределы экстраполяции конкретных физических законов, таких как поведение движущихся объектов при столкновении или при наличии препятствий на их пути, но и возможности модели комбинаторное обобщение – случаи, когда представления двух различных физических принципов объединяются в единый генеративный результат.
Видеообзор новой статьи. Источник: https://x.com/bingyikang/status/1853635009611219019
Три физических закона, выбранных исследователями для изучения, были параболическое движение; равномерное линейное движениеи идеально упругое столкновение.
Как видно из видео выше, результаты показывают, что такие модели, как Sora, на самом деле не усваивают физические законы, а, как правило, воспроизводят данные обучения.
Кроме того, авторы обнаружили, что такие аспекты, как цвет и форма, настолько перепутываются во время вывода, что сгенерированный шар, скорее всего, превратится в квадрат, по-видимому, потому, что похожее движение в примере набора данных включало квадрат, а не шар (см. пример во встроенном выше видео).
Бумага, которая имеет особенно занят сектор исследований социальных сетей заключает:
«Наше исследование показывает, что одного масштабирования недостаточно для того, чтобы модели генерации видео могли раскрыть фундаментальные физические законы, несмотря на его роль в более широком успехе Sora…
«…[Результаты] показывают, что масштабирование само по себе не может решить проблему OOD, хотя оно и повышает производительность в других сценариях.
«Наш глубокий анализ показывает, что обобщение видеомодели больше опирается на ссылки на похожие обучающие примеры, а не на изучение универсальных правил. Мы наблюдали порядок приоритетов цвета > размера > скорости > формы в этом «основанном на случае» поведении.
«[Наше] исследование показывает, что простого масштабирования недостаточно для того, чтобы модели генерации видео могли обнаружить фундаментальные физические законы».
На вопрос, нашла ли исследовательская группа решение проблемы, один из авторов статьи ответил: заявила:
«К сожалению, мы этого не сделали. На самом деле, это, вероятно, миссия всего сообщества ИИ».
Метод и данные
Исследователи использовали Вариационный автоэнкодер (ВАЭ) и DIT архитектуры для генерации видео образцов. В этой установке сжатый скрытые представления созданный в результате работы VAE совместно с моделированием DiT шумодав процесса.
Видеоролики были обучены на Stable Diffusion V1.5-VAE. Схема осталась принципиально неизменной, с архитектурными улучшениями только в конце процесса:
«[Мы сохраняем] большую часть исходной двумерной свертки, групповой нормализации и механизмов внимания в пространственных измерениях.
«Чтобы преобразовать эту структуру в пространственно-временной автокодер, мы преобразуем несколько последних 2D-блоков пониженной дискретизации кодера и несколько начальных 2D-блоков повышающей дискретизации декодера в 3D-блоки и используем несколько дополнительных 1D-слоев для улучшения временного моделирования».
Для обеспечения возможности моделирования видео модифицированный VAE был обучен совместно с использованием изображений и видеоданных высокого качества, а компонент 2D Generative Adversarial Network (GAN) был встроен в архитектуру SD1.5 и дополнен для 3D.
Использованный набор данных изображений был оригинальным источником Stable Diffusion, LAION-Эстетика, с фильтрацией, в дополнение к DataComp. Для видеоданных подмножество было отобрано из Vimeo-90K, Панда-70м и HDVG наборы данных.
Данные были обучены в течение одного миллиона шагов, с применением случайного кадрирования измененного размера и случайного горизонтального переворота. увеличение данных процессов.
Перелистывание
Как отмечено выше, случайное горизонтальное переворачивание данных процесс может быть помехой в обучении системы, предназначенной для создания подлинного движения. Это связано с тем, что вывод из обученной модели может учитывать и направления объекта и вызывают случайные изменения при попытке согласовать эти противоречивые данные (см. встроенное видео выше).
С другой стороны, если перевернуть горизонтальное переворачивание от, то модель с большей вероятностью будет производить результаты, соответствующие только одно направление извлеченные из данных обучения.
Таким образом, простого решения этой проблемы не существует, за исключением того, что система действительно должна усваивать все возможности движения как из исходной, так и из перевернутой версии — способность, которую дети легко развивают, но которая, по-видимому, представляет большую сложность для моделей ИИ.
Tests
Для первой серии экспериментов исследователи разработали 2D-симулятор для создания видеозаписей движения и столкновений объектов, соответствующих законам классической механики, что предоставило большой объем и контролируемый набор данных, который исключил неоднозначности реальных видеозаписей для оценки моделей. Коробка2D Для создания этих видеороликов использовался физический игровой движок.
В ходе испытаний основное внимание уделялось трем основным сценариям, перечисленным выше: равномерному линейному движению, абсолютно упругим столкновениям и параболическому движению.
Для обучения моделей разного размера и сложности (от DiT-S до DiT-L) использовались наборы данных увеличивающегося размера (от 30,000 XNUMX до трех миллионов видео), при этом для кондиционирования использовались первые три кадра каждого видео.

Подробная информация о различных моделях, обученных в первой серии экспериментов. Источник: https://arxiv.org/pdf/2411.02385
Исследователи обнаружили, что результаты внутрираспределения (ID) хорошо масштабируются с увеличением объемов данных, в то время как результаты OOD-генерации не улучшаются, что указывает на недостатки в обобщении.

Результаты первого тура испытаний.
Авторы отмечают:
«Эти результаты свидетельствуют о неспособности масштабирования выполнять рассуждения в сценариях OOD».
Затем исследователи протестировали и обучили системы, разработанные для демонстрации способности к комбинаторному обобщению, при котором два противоположных движения объединяются для (как ожидается) создания связного движения, соответствующего физическому закону, лежащему в основе каждого из отдельных движений.
Для этой фазы испытаний авторы использовали ФИР симулятор, создающий двухмерную среду, изображающую множество объектов различной формы, находящихся в свободном падении и сталкивающихся друг с другом в различных сложных взаимодействиях.
Метрики оценки для этого второго теста были следующими: Расстояние видео Фреше (ФВД); Индекс структурного сходства (ССИМ); Пиковое отношение сигнал/шум (ПСНР); Метрики изученного перцептивного сходства (LPIPS); и исследование на людях (результаты обозначены как «ненормальные»).
Были созданы три масштаба обучающих наборов данных: 100,000 0.6 видео, 3 млн видео и 6–XNUMX млн видео. Использовались модели DiT-B и DiT-XL из-за повышенной сложности видео, причем первый кадр использовался для кондиционирования.
Модели обучались на миллионе шагов при разрешении 256×256, с 32 кадрами на видео.

Результаты второго тура испытаний.
Результаты этого теста показывают, что простое увеличение объема данных является неадекватным подходом:
В документе говорится:
Эти результаты свидетельствуют о том, что как ёмкость модели, так и охват пространства комбинаций имеют решающее значение для комбинаторного обобщения. Это понимание подразумевает, что законы масштабирования для генерации видео должны быть направлены на увеличение разнообразия комбинаций, а не просто на масштабирование объёма данных.
Наконец, исследователи провели дополнительные тесты, чтобы попытаться определить, могут ли модели генерации видео действительно усваивать физические законы или они просто запоминают и воспроизводят обучающие данные во время вывода.
Здесь они изучили концепцию обобщения «на основе прецедентов», когда модели имеют тенденцию имитировать определенные обучающие примеры при столкновении с новыми ситуациями, а также изучили примеры равномерного движения — в частности, то, как направление движения в обучающих данных влияет на прогнозы обученной модели.
Два набора обучающих данных для равномерное движение и столкновение, были отобраны, каждый из которых состоял из видеороликов с равномерным движением, демонстрирующих скорости от 2.5 до 4 единиц, причем первые три кадра использовались в качестве кондиционирующих. Скрытые значения, такие как скорость были исключены, и после обучения было проведено тестирование как по видимым, так и по невидимым сценариям.
Ниже приведены результаты теста на генерацию равномерного движения:

Результаты тестов на генерацию равномерного движения, где переменная «скорость» опущена во время обучения.
Авторы заявляют:
«[При] большом разрыве в обучающем наборе модель имеет тенденцию генерировать видео, в которых скорость либо высокая, либо низкая, чтобы напоминать обучающие данные, хотя начальные кадры показывают скорости среднего диапазона».
Для испытаний на столкновение задействовано гораздо больше переменных, и модель должна изучить двумерный нелинейная функция.

Столкновение: результаты третьего и последнего раунда испытаний.
Авторы отмечают, что наличие «обманчивых» примеров, таких как обратное движение (т. е. мяч, отскакивающий от поверхности и меняющий свой курс), может ввести модель в заблуждение и привести к генерации ею физически неверных прогнозов.
Заключение
Если алгоритм, не являющийся ИИ (т.е. «испеченный», процедурный метод), содержит математические правила Для точного отображения поведения физических явлений, таких как жидкости или объекты, находящиеся под действием силы тяжести или давления, существует набор неизменных констант.
Однако результаты новой статьи указывают на то, что в процессе обучения генеративных моделей не развивается ни эквивалентная взаимосвязь, ни внутреннее понимание классических физических законов, и что увеличение объема данных не решает проблему, а скорее затушевывает ее, поскольку системе доступно большее количество обучающих видеороликов для имитации во время вывода.
* Мое преобразование встроенных ссылок на работы авторов в гиперссылки.
Впервые опубликовано Вторник, 26 ноября 2024 г.












