Свяжитесь с нами:

Почему видео с ИИ иногда дает сбой

Угол Андерсона

Почему видео с ИИ иногда дает сбой

mm
Изображение ChatGPT/Firefly, на котором изображен гидроциклист, оставляющий за собой невероятный след.

Если 2022 год был годом, когда генеративный ИИ захватил воображение широкой публики, то 2025 год станет годом, когда новое поколение генеративных технологий XNUMX году Похоже, что фреймворки из Китая нацелены на то же самое.

Видео Hunyuan от Tencent сделало основное влияние на сообщество любителей ИИ с его открытым исходным кодом полномасштабной модели распространения видео, которую пользователи могут подстроиться под их потребности.

Сразу за ним следует более недавняя компания Alibaba Ван 2.1, одно из самых мощных решений FOSS для преобразования изображений в видео того периода – теперь поддерживающее настройку посредством Wan LoRA.

Помимо наличия новейшей модели фундамента, ориентированной на человека SkyReels, на момент написания статьи мы также ожидаем публикации комплексного отчета Alibaba ВАСЕ Пакет для создания и редактирования видео:

Нажмите, чтобы играть. Ожидаемый выпуск многофункционального пакета искусственного интеллекта для редактирования VACE от Alibaba вызвал волнение у пользователей. Источник: https://ali-vilab.github.io/VACE-Page/

Внезапный удар

Сама по себе сцена исследований генеративного видео на основе ИИ не менее бурно развивается: на дворе только первая половина марта, и во вторник в раздел «Компьютерное зрение» Arxiv (центр статей по генеративному ИИ) поступило около 350 заявок — цифра, скорее соответствующая разгару сезона конференций.

Прошло два года с тех пор, как запуск Стабильной диффузии летом 2022 года (и последующее развитие будка мечты и ЛоРА (методы настройки) характеризовались отсутствием дальнейших крупных разработок до последних нескольких недель, когда новые релизы и инновации появлялись с такой бешеной скоростью, что практически невозможно быть в курсе всего, не говоря уже о том, чтобы все это охватить.

Модели распространения видео, такие как Hunyuan и Wan 2.1, наконец-то решили, после многих лет безуспешных усилий сотен исследовательских инициатив, проблему проблема of временная последовательность поскольку оно относится к поколению людей, а также в значительной степени к окружающей среде и объектам.

Не может быть никаких сомнений в том, что студии визуальных эффектов в настоящее время направляют персонал и ресурсы на адаптацию новых китайских видеомоделей для решения неотложных задач, таких как замена лиц, несмотря на текущую нехватку сеть управлениявспомогательные механизмы для этих систем.

Должно быть, это огромное облегчение, что одно из столь существенных препятствий потенциально преодолено, пусть и не теми путями, которые предполагались.

Однако из оставшихся проблем эта не является незначительной:

Нажмите, чтобы играть. Исходя из подсказки «Небольшой камень падает вниз по крутому каменистому склону, вытесняя почву и мелкие камни», Ван 2.1, набравший самые высокие баллы в новой работе, допускает одну простую ошибку. Источник: https://videophy2.github.io/

Вверх по холму задом наперед

Все доступные в настоящее время системы преобразования текста в видео и изображения в видео, включая коммерческие модели с закрытым исходным кодом, имеют тенденцию к появлению физических ошибок, таких как та, что приведена выше, где видео показывает катящийся камень. в гору, основываясь на подсказке 'Небольшой камень падает вниз по крутому каменистому склону, вытесняя почву и мелкие камни. ».

Одна из теорий относительно того, почему это происходит, недавно предложенный В рамках академического сотрудничества Alibaba и ОАЭ выяснилось, что модели всегда обучаются на отдельных изображениях, в некотором смысле, даже когда они обучаются на видео (которые записаны в виде последовательностей отдельных кадров для целей обучения); и они не обязательно могут усвоить правильный временной порядок 'до' и 'после' фотографии.

Однако наиболее вероятным решением является то, что рассматриваемые модели использовали увеличение данных процедуры, которые включают экспонирование исходного обучающего клипа для модели как вперед, так и назад и в обратном порядке, фактически удваивая данные обучения.

Давно известно, что этого не следует делать произвольно, потому что некоторые движения работают в обратном направлении, но многие — нет. исследование в 2019 г. из Университета Бристоля в Великобритании стремились разработать метод, который мог бы различать эквивариантная, инвариантный и необратимый исходные видеоклипы, которые сосуществуют в одном наборе данных (см. изображение ниже), с учетом того, что неподходящие исходные клипы могут быть отфильтрованы из процедур дополнения данных.

Примеры трех типов движения, только один из которых свободно обратим, сохраняя при этом правдоподобную физическую динамику. Источник: https://arxiv.org/abs/1909.09422

Примеры трех типов движения, только один из которых является свободно обратимым, сохраняя при этом правдоподобную физическую динамику. Источник: https://arxiv.org/abs/1909.09422.

Авторы этой работы четко формулируют проблему:

«Мы обнаружили, что реалистичность перевернутых видео предается артефактами переворота, аспектами сцены, которые невозможны в естественном мире. Некоторые артефакты едва заметны, в то время как другие легко заметить, например, перевернутое действие «броска», когда брошенный предмет спонтанно поднимается с пола.

«Мы наблюдаем два типа артефактов обратного действия: физические, демонстрирующие нарушения законов природы, и невероятные, описывающие возможный, но маловероятный сценарий. Они не являются взаимоисключающими, и многие обратные действия страдают от обоих типов артефактов, как при расправлении листа бумаги».

«Примеры физических артефактов включают: инвертированную гравитацию (например, «падение чего-либо»), спонтанные импульсы на объектах (например, «вращение ручки») и необратимые изменения состояния (например, «горение свечи»). Пример невероятного артефакта: взятие тарелки из шкафа, ее высушивание и размещение на сушилке.

«Такого рода повторное использование данных очень распространено во время обучения и может быть полезным — например, для того, чтобы модель не изучала только один вид изображения или объекта, который можно переворачивать или вращать, не теряя при этом его центральной согласованности и логики.

«Разумеется, это работает только для объектов, которые действительно симметричны; а изучение физики по «перевернутому» видео работает только в том случае, если перевернутая версия имеет столько же смысла, сколько и прямая».

Временные отмены

У нас нет никаких доказательств того, что такие системы, как Hunyuan Video и Wan 2.1, допускали произвольное «перевернутое» воспроизведение клипов в модели во время обучения (ни одна из групп исследователей не дала конкретных рекомендаций относительно процедур дополнения данных).

Однако единственная разумная альтернативная возможность, перед лицом так много отчетов (и мой собственный практический опыт), похоже, что гипермасштабные наборы данных, на которых базируются эти модели, могут содержать клипы, которые на самом деле движения происходят в обратном порядке.

Камень в примере видео, встроенном выше, был создан с помощью Wan 2.1 и представлен в новом исследовании, в котором изучается, насколько хорошо модели диффузии видео справляются с физикой.

В ходе испытаний в рамках этого проекта Wan 2.1 набрал всего 22% баллов с точки зрения способности последовательно следовать физическим законам.

Однако, это лучший оценка всех протестированных систем, указывающая на то, что мы, возможно, нашли следующий камень преткновения для видеоИИ:

Оценки, полученные ведущими системами с открытым и закрытым исходным кодом, с выходными данными фреймворков, оцененными людьми-аннотаторами. Источник: https://arxiv.org/pdf/2503.06800

Оценки получены с помощью ведущих систем с открытым и закрытым исходным кодом, а результаты работы фреймворков оцениваются людьми-аннотаторами. Источник: https://arxiv.org/pdf/2503.06800

Авторы новой работы разработали систему бенчмаркинга, которая сейчас находится во второй итерации и называется ВидеоФи, с кодом доступно на GitHub.

Хотя объем работы выходит за рамки того, что мы можем здесь всесторонне осветить, давайте в общих чертах рассмотрим ее методологию и ее потенциал для установления метрики, которая могла бы помочь направить ход будущих сеансов обучения моделей в сторону от этих странных случаев обратного развития событий.

Команда проведенное исследование, проведенное шестью исследователями из Калифорнийского университета в Лос-Анджелесе и Google Research, называется VideoPhy-2: сложная физическая оценка здравого смысла, ориентированная на действие, в создании видео. Многолюдный сопровождающий Сайт проекта также доступен вместе с кодом и наборами данных на GitHubи средство просмотра наборов данных в Hugging Face.

Нажмите, чтобы играть. Здесь пресловутая модель OpenAI Sora не в состоянии понять взаимодействие между веслами и отражениями и не способна обеспечить логическую физическую последовательность ни для человека в лодке, ни для того, как лодка взаимодействует с ним.

Способ доставки

Авторы описывают последнюю версию своей работы, ВидеоPhy-2, как «сложный набор данных для оценки здравого смысла для действий в реальном мире». Коллекция включает 197 действий из различных видов физической активности, таких как хула-хуп, гимнастика и теннис, а также взаимодействия объектов, такие как сгибание предмета до тех пор, пока он не сломается.

Для генерации 3840 подсказок из этих начальных действий используется большая языковая модель (LLM), а затем подсказки используются для синтеза видео с помощью различных тестируемых фреймворков.

В ходе процесса авторы разработали список «кандидатных» физических правил и законов, которым должны соответствовать видеоролики, созданные искусственным интеллектом, используя для оценки модели зрительно-языкового восприятия.

Авторы заявляют:

«Например, в видеоролике, где спортсмен играет в теннис, физическое правило заключается в том, что теннисный мяч должен двигаться по параболической траектории под действием силы тяжести. Для получения стандартных оценок мы просим комментаторов оценивать каждое видео на основе общей семантической целостности и здравого смысла, а также отмечать его соответствие различным физическим правилам».

Выше: Текстовая подсказка генерируется из действия с использованием LLM и используется для создания видео с помощью генератора текста в видео. Модель языка зрения снабжает видео субтитрами, определяя возможные физические правила в игре. Ниже: Люди-аннотаторы оценивают реалистичность видео, подтверждают нарушения правил, добавляют недостающие правила и проверяют, соответствует ли видео исходной подсказке.

Выше: Текстовая подсказка генерируется из действия с использованием LLM и используется для создания видео с помощью генератора текста в видео. Модель языка зрения снабжает видео субтитрами, определяя возможные физические правила в игре. Ниже: Люди-аннотаторы оценивают реалистичность видео, подтверждают нарушения правил, добавляют недостающие правила и проверяют, соответствует ли видео исходной подсказке.

Первоначально исследователи курировали набор действий для оценки физического здравого смысла в видеороликах, созданных ИИ. Они начали с более чем 600 действий, полученных из Кинетика, УЦФ-101 и ССв2 наборы данных, посвященные видам деятельности, связанным со спортом, взаимодействием объектов и физикой реального мира.

Две независимые группы студентов-аннотаторов, прошедших подготовку в области STEM (имеющих минимальную квалификацию бакалавра), просмотрели и отфильтровали список, выбрав действия, которые проверяли такие принципы, как вес, импульс и эластичность, при этом удаляя малоподвижные задачи, такие как ввод, гладить кошку или жевательный.

После дальнейшей доработки с Gemini-2.0-Flash-Exp Для устранения дубликатов в окончательный набор данных было включено 197 действий, 54 из которых связаны с взаимодействием с объектами, а 143 — с физической и спортивной активностью:

Образцы из дистиллированных действий.

Образцы из дистиллированных действий.

На втором этапе исследователи использовали Gemini-2.0-Flash-Exp для генерации 20 подсказок для каждого действия в наборе данных, что в итоге дало 3,940 подсказок. Процесс генерации был сосредоточен на видимых физических взаимодействиях, которые могли быть четко представлены в сгенерированном видео. Это исключило невизуальные элементы, такие как эмоции, сенсорные детали и абстрактный язык, но включали в себя разнообразных персонажей и объекты.

Например, вместо простого приглашения типа «Лучник выпускает стрелу., модель была направлена ​​на создание более подробной версии, такой как «Лучник натягивает тетиву до упора, затем выпускает стрелу, которая летит прямо и попадает в яблочко бумажной мишени».».

Поскольку современные видеомодели могут интерпретировать более длинные описания, исследователи дополнительно усовершенствовали субтитры, используя Mistral-NeMo-12B-Инструкция подскажите, как повысить дискретизацию, чтобы добавить визуальные детали, не меняя исходного смысла.

Примеры подсказок из VideoPhy-2, категоризированных по физическим действиям или взаимодействиям с объектами. Каждая подсказка связана с соответствующим действием и соответствующим физическим принципом, который она тестирует.

Примеры подсказок из VideoPhy-2, категоризированных по физическим действиям или взаимодействиям с объектами. Каждая подсказка связана с соответствующим действием и соответствующим физическим принципом, который она тестирует.

На третьем этапе физические правила выводились не из текстовых подсказок, а из сгенерированных видеороликов, поскольку генеративные модели могут с трудом придерживаться условных текстовых подсказок.

Сначала видео были созданы с использованием подсказок VideoPhy-2, а затем дополнены субтитрами с помощью Gemini-2.0-Flash-Exp для извлечения ключевых деталей. Модель предлагала три ожидаемых физических правила для каждого видео, которые комментаторы проверяли и расширяли, выявляя дополнительные потенциальные нарушения.

Примеры из субтитров с увеличенным разрешением.

Примеры из субтитров с увеличенным разрешением.

Далее, чтобы определить наиболее сложные действия, исследователи создали видеоролики с использованием CogVideoX-5B с подсказками из набора данных VideoPhy-2. Затем они выбрали 60 действий из 197, где модель последовательно не следовала ни подсказкам, ни базовому физическому здравому смыслу.

Эти действия включали в себя физические взаимодействия, такие как передача импульса при метании диска, изменения состояния, такие как сгибание объекта до тех пор, пока он не сломается, задачи на равновесие, такие как хождение по канату, и сложные движения, которые включали сальто назад, прыжки с шестом и метание пиццы, среди прочего. Всего было выбрано 1,200 подсказок для увеличения сложности поднабора данных.

Полученный набор данных включал 3,940 титров — в 5.72 раза больше, чем в предыдущей версии VideoPhy. Средняя длина исходных титров составляет 16 токенов, тогда как увеличенные титры достигают 138 токенов — в 1.88 и 16.2 раза длиннее соответственно.

Набор данных также содержит 102,000 XNUMX человеческих аннотаций, охватывающих семантическую приверженность, физический здравый смысл и нарушения правил в различных моделях генерации видео.

Оценка

Затем исследователи определили четкие критерии оценки видеороликов. Главной целью было оценить, насколько хорошо каждое видео соответствовало своей входной подсказке и следовало основным физическим принципам.

Вместо того, чтобы просто ранжировать видео по предпочтениям, они использовали основанную на рейтинге обратную связь, чтобы фиксировать конкретные успехи и неудачи. Люди-аннотаторы оценивали видео по пятибалльной шкале, что позволяло делать более подробные суждения, в то время как оценка также проверяла, следуют ли видео различным физическим правилам и законам.

Для оценки людьми была выбрана группа из 12 аннотаторов из испытаний на Amazon Mechanical Turk (AMT), и они предоставили оценки после получения подробных удаленных инструкций. Для справедливости, семантическая приверженность и физический здравый смысл оценивались по отдельности (в оригинальном исследовании VideoPhy они оценивались совместно).

Сначала комментаторы оценили, насколько хорошо видео соответствуют их входным подсказкам, затем отдельно оценили физическую правдоподобность, оценив нарушения правил и общую реалистичность по пятибалльной шкале. Были показаны только оригинальные подсказки, чтобы обеспечить справедливое сравнение между моделями.

Интерфейс, представленный аннотаторам AMT.

Интерфейс, представленный аннотаторам AMT.

Хотя человеческое суждение остается золотым стандартом, оно дорого и имеет количество оговорокПоэтому автоматизированная оценка имеет важное значение для более быстрой и масштабируемой оценки моделей.

Авторы статьи протестировали несколько моделей видеоязыка, включая Gemini-2.0-Flash-Exp и ВидеоScore, об их способности оценивать видеоролики с точки зрения семантической точности и «физического здравого смысла».

Модели снова оценили каждое видео по пятибалльной шкале, в то время как отдельная задача классификации определяла, были ли соблюдены физические правила, нарушены или неясны.

Эксперименты показали, что существующие модели видеоязыка с трудом соответствуют человеческим суждениям, в основном из-за слабого физического мышления и сложности подсказок. Чтобы улучшить автоматизированную оценку, исследователи разработали ВидеоPhy-2-Autoeval, модель из 7B-параметров, предназначенная для предоставления более точных прогнозов по трем категориям: семантическая приверженность; физический здравый смысли соблюдение правил, доработанный на ВидеоКон-Физика модель с использованием 50,000 XNUMX человеческих аннотаций*.

Данные и тесты

Используя эти инструменты, авторы протестировали ряд генеративных видеосистем как с помощью локальных установок, так и, при необходимости, с помощью коммерческих API: CogVideoX-5B; ВидеоCrafter2; ХуньюаньВидео-13Б; Космос-Диффузия; Ван2.1-14Б; OpenAI Сораи Люма Рэй.

Модели были снабжены субтитрами с повышенной дискретизацией, где это было возможно, за исключением Hunyuan Video и VideoCrafter2, работающих под управлением 77-токенов. CLIP ограничения и не может принимать запросы, превышающие определенную длину.

Длительность создаваемых видеороликов не превышала 6 секунд, поскольку более короткие видео легче оценивать.

Данные для управления были получены из набора данных VideoPhy-2, который был разделен на контрольный и обучающий наборы. Для каждой модели было сгенерировано 590 видеороликов, за исключением Sora и Ray2; это связано с фактором стоимости (для них было сгенерировано эквивалентное меньшее количество видеороликов).

(Дополнительные сведения об оценке см. в исходной статье, которая там подробно описана)

Первоначальная оценка касалась физическая активность/спорт (ПА) и взаимодействие объектов (OI) и протестировали как общий набор данных, так и вышеупомянутое «более сложное» подмножество:

Результаты первого тура.

Результаты первого тура.

Вот комментарий авторов:

«Даже самая эффективная модель Wan2.1-14B достигает только 32.6% и 21.9% на полном и жестком разделении нашего набора данных соответственно. Ее относительно высокая производительность по сравнению с другими моделями может быть связана с разнообразием ее мультимодальных обучающих данных, а также надежной фильтрацией движения, которая сохраняет высококачественные видео в широком диапазоне действий.

«Более того, мы наблюдаем, что закрытые модели, такие как Ray2, работают хуже, чем открытые модели, такие как Wan2.1-14B и CogVideoX-5B. Это говорит о том, что закрытые модели не обязательно превосходят открытые модели в захвате физического здравого смысла.

«Примечательно, что Cosmos-Diffusion-7B показывает второй лучший результат на жёстком разделении, даже превосходя гораздо более крупную модель HunyuanVideo-13B. Это может быть связано с высокой степенью репрезентативности действий человека в обучающих данных, а также с использованием синтетически визуализированных симуляций».

Результаты показали, что видеомодели испытывают больше трудностей с физическими действиями, такими как спорт, чем с более простыми взаимодействиями с объектами. Это говорит о том, что для улучшения видео, созданных ИИ в этой области, потребуются более качественные наборы данных — в частности, высококачественные кадры таких видов спорта, как теннис, метание диска, бейсбол и крикет.

Исследование также рассмотрело, коррелирует ли физическая правдоподобность модели с другими метриками качества видео, такими как эстетика и плавность движения. Результаты не выявили сильной корреляции, что означает, что модель не может улучшить свою производительность на VideoPhy-2, просто генерируя визуально привлекательное или плавное движение — для этого необходимо более глубокое понимание физического здравого смысла.

Хотя в статье приводится множество качественных примеров, немногие из статических примеров, представленных в PDF, похоже, имеют отношение к обширным примерам на основе видео, которые авторы предоставляют на сайте проекта. Поэтому мы рассмотрим небольшую подборку статических примеров, а затем еще несколько реальных видеоматериалов проекта.

В верхнем ряду показаны видео, созданные Wan2.1. (a) В Ray2 гидроцикл слева отстает, прежде чем начать движение назад. (b) В Hunyuan-13B кувалда деформируется во время замаха, и неожиданно появляется сломанная деревянная доска. (c) В Cosmos-7B копье выбрасывает песок, прежде чем коснуться земли.

В верхнем ряду показаны видео, созданные Wan2.1. (a) В Ray2 гидроцикл слева отстает, прежде чем начать движение назад. (b) В Hunyuan-13B кувалда деформируется во время замаха, и неожиданно появляется сломанная деревянная доска. (c) В Cosmos-7B копье выбрасывает песок, прежде чем коснуться земли.

Относительно вышеуказанного качественного теста авторы комментируют:

«[Мы] наблюдаем нарушения физического здравого смысла, такие как неестественное движение гидроциклов задним ходом и деформацию цельной кувалды, бросающую вызов принципам упругости. Однако даже Ван страдает от отсутствия физического здравого смысла, как показано в [клипе, встроенном в начало этой статьи].

«В этом случае мы подчеркиваем, что камень начинает катиться и ускоряться вверх по склону, бросая вызов физическому закону гравитации».

Дополнительные примеры с сайта проекта:

Нажмите, чтобы играть. Подпись здесь гласила: «Человек энергично скручивает мокрое полотенце, разбрызгивая воду наружу по видимой дуге», но получившийся источник воды больше похож на шланг, чем на полотенце.

Нажмите, чтобы играть. Здесь подпись гласила: «Химик наливает прозрачную жидкость из стакана в пробирку, стараясь не пролить», но мы видим, что объем воды, добавляемой в стакан, не соответствует объему, выливаемому из кувшина.

Как я уже упоминал в начале, объём материала, связанного с этим проектом, значительно превышает тот, который можно охватить здесь. Поэтому, пожалуйста, обратитесь к исходной статье, сайту проекта и связанным с ним сайтам, упомянутым ранее, чтобы получить исчерпывающее описание процедур авторов, а также значительно больше примеров тестирования и подробностей о процедурах.

 

* Что касается происхождения аннотаций, в статье указано только «приобретенные для выполнения этих задач» — судя по всему, большую часть из них подготовили 12 сотрудников AMT.

Впервые опубликовано Четверг, 13 марта 2025 г.

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai