Погляд Anderson

Чому іноді відео AI видається неправильним

Опубліковано 13 березня 2025

Оновлено 19 травня 2026

Martin Anderson

ChatGPT/Firefly image depicting a jet-skier impossibly leaving a wake in front of himself.

Якщо 2022 рік був тим, коли генеративний ІІ захопив уяву широкої публіки, то 2025 рік – це час, коли нове покоління генеративних відео-рамок з Китаю, здається, готується зробити те саме.

Відео Hunyuan від Tencent зробило значний вплив на хобі-спільноту ІІ з відкритим випуском повноекранної відео-дифузійної моделі, яку користувачі можуть налаштовувати згідно зі своїми потребами.

Позаду нього слідує більш недавнє відео Wan 2.1 від Alibaba, одна з найпотужніших відкритих рішень для створення відео зображень цього періоду – тепер підтримує налаштування через Wan LoRAs.

Окрім наявності недавньої людської основної моделі SkyReels, на момент написання цього тексту ми також очікуємо випуску комплексної відео-сюїти VACE від Alibaba:

Натисніть, щоб відтворити. Очікується випуск багатофункціональної редакторської системи VACE від Alibaba, який викликав інтерес у спільноти користувачів. Джерело: https://ali-vilab.github.io/VACE-Page/

Раптовий вплив

Сцена досліджень генеративного відео-ІІ сама по собі не менш вибухова; все ще перша половина березня, і вівторкові подання до розділу комп’ютерного зору Arxiv (центру генеративних ІІ-паперів) склали майже 350 записів – цифра, більш характерна для піку конференційного сезону.

Два роки з моменту запуску Stable Diffusion влітку 2022 року (і подальшого розвитку Dreambooth та методів налаштування LoRA) були характеризовані відсутністю подальших великих розробок, аж до останніх тижнів, коли нові випуски та інновації відбувалися таким швидким темпом, що майже неможливо бути в курсі всього, не кажучи вже про те, щоб висвітлити все.

Відео-дифузійні моделі, такі як Hunyuan та Wan 2.1, нарешті вирішили проблему тимчасової узгодженості щодо генерації людей, а також, в основному, довкілля та об’єктів.

Немає сумнівів, що студії візуальних ефектів зараз застосовують персонал та ресурси для адаптації нових китайських відео-моделей для вирішення негайних завдань, таких як заміна облич, незважаючи на відсутність механізмів типу ControlNet для цих систем.

Це повинно бути великим полегшенням, що одна така значна перешкода потенційно була подолана, хоча й не тим шляхом, який очікувався.

З тих проблем, що залишилися, ця, однак, не є незначною:

Натисніть, щоб відтворити. На основі запиту “Маленький камінь котиться вниз крутого, кам’янистого схилу, зміщуючи ґрунт і дрібні камені”, Wan 2.1, який досяг найвищих балів у новій роботі, робить одну просту помилку. Джерело: https://videophy2.github.io/

У гору назад

Усі тексти-відео та зображення-відео системи, доступні зараз, включаючи комерційні закриті моделі, мають тенденцію виробляти фізичні помилки, такі як вище, де відео показує камінь, котиться вгору, на основі запиту “Маленький камінь котиться вниз крутого, кам’янистого схилу, зміщуючи ґрунт і дрібні камені”.

Одна з теорій про те, чому це відбувається, недавно запропонована в академічній співпраці між Alibaba та ОАЕ, полягає в тому, що моделі завжди тренуються на окремих зображеннях, в певному сенсі, навіть коли вони тренуються на відео (які записуються в окремі кадри для цілей тренування); і вони можуть не обов’язково вивчити правильний тимчасовий порядок “до” та “після” зображень.

Однак найбільш імовірне рішення полягає в тому, що моделі, про які йдеться, використовували процедури збільшення даних, які включають піддання вихідного навчального кліпу моделі як вперед, так і назад, ефективно подвоюючи навчальні дані.

Віддавна відомо, що це не повинно робитися довільно, оскільки деякі рухи працюють у зворотному порядку, а інші – ні. Дослідження 2019 року з Університету Бристоля у Великій Британії намагалося розробити метод, який міг би розрізнити еквіваріантні, інваріантні та необоротні вихідні дані відеокліпів, які співіснують в одному наборі даних (див. зображення нижче), з ідеєю, що непридатні вихідні кліпи могли б бути відфільтровані з процедур збільшення даних.

Приклади трьох типів руху, з яких тільки один може бути вільно оборнений, зберігаючи при цьому правдоподібну фізичну динаміку. Джерело: https://arxiv.org/abs/1909.09422

Автори цієї роботи чітко формулюють проблему:

‘Ми виявили, що реалізм зворотних відео зраджується артефактами зворотності, аспектами сцени, які були б неможливі в природному світі. Деякі артефакти є тонкими, а інші легко помітні, наприклад, зворотна дія “кидання”, де кинутий об’єкт спонтанно піднімається з підлоги.

‘Ми спостерігаємо два типи артефактів зворотності, фізичні, які демонструють порушення законів природи, і малоймовірні, які зображують можливий, але малоймовірний сценарій. Це не виключні, і багато зворотних дій страждають від обох типів артефактів, наприклад, коли розгортається папір.

‘Приклади фізичних артефактів включають: інвертовану гравітацію (наприклад, “падіння чогось”), спонтанні імпульси об’єктів (наприклад, “крутіння ручки”) і необоротні зміни стану (наприклад, “спалення свічки”). Приклад малоймовірного артефакту: взяття тарілки з шафки, висушування її та розміщення на сушильній стійці.

‘Цей тип повторного використання даних дуже поширений під час тренування, і може бути корисним – наприклад, для того, щоб модель не вивчила тільки один вигляд зображення чи об’єкта, який можна повернути або повернути без втрати центральної узгодженості та логіки.

‘Це працює тільки для об’єктів, які є真正 симетричними, звичайно; і вивчення фізики з “зворотного” відео працює тільки в тому випадку, якщо зворотна версія має так само багато сенсу, як і прямий варіант.’

Тимчасові зворотності

У нас немає жодних доказів того, що системи типу Hunyuan Video та Wan 2.1 дозволяли довільно “зворотні” кліпи бути підданими моделі під час тренування (ні жодна з груп дослідників не була конкретною щодо процедур збільшення даних).

Однак єдиним розумним альтернативним можливим варіантом, у світлі такої кількості повідомлень (та мого власного практичного досвіду), здається, що гіпермасштабні набори даних, які живлять ці моделі, можуть містити кліпи, які насправді містять рухи, що відбуваються у зворотному порядку.

Камінь у прикладі відео, вкладеного вище, був згенерований за допомогою Wan 2.1 і фігурує в новому дослідженні, яке вивчає, як добре відео-дифузійні моделі справляються з фізикою.

У тестах для цього проекту Wan 2.1 досягнув результату лише 22% щодо його здатності послідовно дотримуватися фізичних законів.

Однак це найкращий результат серед усіх протестованих систем, що вказує на те, що ми можемо знайти наш наступний камінь спотикання для відео-ІІ:

Бали, отримані провідними відкритими та закритими системами, з оцінками виходу моделей, оціненими людськими аннотаторами. Джерело: https://arxiv.org/pdf/2503.06800

Автори цієї роботи розробили систему оцінки, яка зараз знаходиться у другій ітерації, під назвою VideoPhy, з кодом, доступним на GitHub.

Хоча обсяг роботи виходить за рамки того, що ми можемо тут повністю висвітлити, давайте зробимо загальний огляд її методології та потенціалу для встановлення метрики, яка могла б допомогти спрямувати курс майбутніх сесій тренування моделей у напрямку від цих дивних випадків зворотності.

Дослідження, проведене шістьма дослідниками з UCLA та Google Research, називається VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation. Також доступний супутній сайт проекту, а також код і набори даних на GitHub, та переглядач наборів даних на Hugging Face.

Натисніть, щоб відтворити. Тут фетований модель OpenAI Sora не може зрозуміти взаємодію між веслами та відображеннями, і не може забезпечити логічний фізичний потік ні для людини у човні, ні для того, як човен взаємодіє з нею.

Метод

Автори описують останню версію своєї роботи, VideoPhy-2, як “важливу оцінку спільного розуміння для реальних дій”. Колекція містить 197 дій по різним різним фізичним діям, таким як хула-хуп, гімнастика та теніс, а також взаємодію з об’єктами, наприклад, згинання об’єкта до його розриву.

Було використано велику мовну модель (LLM), щоб згенерувати 3840 запитів з цих дій, а потім використано ці запити для синтезу відео за допомогою різних моделей, які проходили випробування.

На всіх етапах процесу автори розробили список “кандидатських” фізичних правил і законів, яких повинні задовольняти відео, згенеровані ІІ, використовуючи моделі бачення-мови для оцінки.

Автори заявляють:

‘Наприклад, у відео спортивного діяча, який грає в теніс, фізичне правило було б те, що тенісний м’яч повинен слідувати параболічній траєкторії під дією гравітації. Для золотих стандартних суджень ми просимо людських аннотаторів оцінити кожне відео за загальним семантичним дотриманням та фізичним розумінням, і позначити його відповідність різним фізичним правилам.’

Вище: Запит генерується з дії за допомогою LLM і використовується для створення відео з текстово-відео-генератором. Модель бачення-мови підписує відео, ідентифікуючи можливі фізичні правила, що діють. Нижче: Людські аннотатори оцінюють реалізм відео, підтверджують порушення правил, додають відсутні правила та перевіряють, чи відео відповідає оригінальному запиту.

Спочатку дослідники підготували набір дій для оцінки фізичного розуміння в відео, згенерованих ІІ. Вони почали з понад 600 дій, взятих з наборів даних Kinetics, UCF-101 та SSv2, зосередившись на діях, пов’язаних зі спортом, взаємодією з об’єктами та реальною фізикою.

Дві незалежні групи студентів-STEM, які мали вищу освіту, переглянули та відфільтрували список, вибравши дії, які перевіряли принципи, такі як гравітація, імпульс та пружність, а також видаливши низькоінтенсивні завдання, такі як набирання тексту, погладжування кота чи жування.

Після подальшого доопрацювання за допомогою Gemini-2.0-Flash-Exp для видалення дублікатів, остаточний набір даних включав 197 дій, з 54, пов’язаних із взаємодією з об’єктами, та 143 – із фізичними та спортивними діями:

Вибірки з витягнутих дій.

На другому етапі дослідники використали Gemini-2.0-Flash-Exp для генерації 20 запитів для кожної дії в наборі даних, що призвело до загальної кількості 3 940 запитів. Процес генерації був зосереджений на видимих фізичних взаємодіях, які могли бути чітко представлені у згенерованому відео. Це виключало невидимі елементи, такі як емоції, сенсорні деталі та абстрактна мова, але включало різноманітних персонажів та об’єкти.

Наприклад, замість простого запиту “Спортсмен випускає стрілу”, модель була спрямована на генерацію більш детального варіанту, такого як “Спортсмен натягує тятиву лука назад до повної напруженості, а потім випускає стрілу, яка летить прямо та влучає в центр мішені”.

Оскільки сучасні відео-моделі можуть інтерпретувати довші описи, дослідники далі доопрацювали підписи за допомогою інструменту Mistral-NeMo-12B-Instruct, щоб додати візуальні деталі без зміни оригінального значення.

Вибірки запитів з VideoPhy-2, категоризовані за фізичними діями чи взаємодією з об’єктами. Кожен запит парується з відповідною дією та відповідним фізичним принципом, який він перевіряє.

На третьому етапі фізичні правила не виводилися з текстових запитів, а з згенерованих відео, оскільки генеративні моделі можуть мати труднощі з дотриманням умовних текстових запитів.

Відео спочатку створювалися за допомогою запитів VideoPhy-2, а потім “підписувалися” за допомогою Gemini-2.0-Flash-Exp для витягування ключових деталей. Модель пропонувала три очікувані фізичні правила для кожного відео, які людські аннотатори переглядали та розширювали, ідентифікуючи додаткові потенційні порушення.

Вибірки з підписаних запитів.

Далі, для визначення найбільш складних дій, дослідники згенерували відео за допомогою CogVideoX-5B з запитами з набору даних VideoPhy-2. Вони потім вибрали 60 дій з 197, де модель послідовно не могла дотримуватися запитів та базового фізичного розуміння.

Ці дії включали фізично насичені взаємодії, такі як передача імпульсу при метанні диска, зміни стану, такі як згинання об’єкта до його розриву, завдання балансування, такі як ходіння по високому проводу, та складні рухи, які включали сальто, стрибки з жердиною та кидання піци, серед інших. Загалом було вибрано 1 200 запитів для збільшення складності піднабору.

Результатом став набір даних, що складається з 3 940 підписаних запитів – 5,72 рази більше, ніж попередня версія VideoPhy. Середня довжина оригінальних підписів становить 16 токенів, а підписи після збільшення даних – 138 токенів, що в 1,88 та 16,2 рази довше відповідно.

Набір даних також включає 102 000 людських анотацій, що охоплюють семантичне дотримання, фізичне розуміння та порушення правил у декількох моделях генерації відео.

Оцінка

Дослідники потім визначили чіткі критерії для оцінки відео. Основною метою було оцінити, наскільки добре кожне відео відповідає вхідному запиту та дотримується базових фізичних принципів.

Замість простого ранжування відео за перевагами, вони використали оцінювання за рейтингом, щоб захопити конкретні успіхи та невдачі. Людські аннотатори оцінювали відео за п’ятибальною шкалою, що дозволяло робити більш детальні судження, а оцінка також перевіряла, чи відео дотримується різних фізичних правил та законів.

Для людської оцінки була вибрана група з 12 аннотаторів з Amazon Mechanical Turk (AMT), які отримали рейтинги після отримання детальних віддалених інструкцій. Для справедливості семантичне дотримання та фізичне розуміння оцінювалися окремо (у оригінальному дослідженні VideoPhy вони оцінювалися спільно).

Аннотатори спочатку оцінювали, наскільки добре відео відповідає вхідному запиту, а потім окремо оцінювали фізичну правдоподібність, оцінюючи порушення правил та загальний реалізм за п’ятибальною шкалою. Показувалися тільки оригінальні запити, щоб забезпечити справедливе порівняння між моделями.

Інтерфейс, представлений аннотаторам AMT.

Хоча людське судження залишається золотим стандартом, воно дорого коштує та має ряд обмежень. Тому автоматична оцінка є необхідною для швидкої та більш масштабної оцінки моделей.

Автори дослідження випробували кілька моделей відео-мови, включаючи Gemini-2.0-Flash-Exp та VideoScore, на їхню здатність оцінювати відео за семантичною точністю та “фізичним розумінням”.

Моделі знову оцінювали кожне відео за п’ятибальною шкалою, а окреме завдання класифікації визначало, чи дотримуються фізичні правила, порушуються чи залишаються неясними.

Експерименти показали, що існуючі моделі відео-мови мали труднощі з відповідністю людським судженням, головним чином через слабке фізичне розуміння та складність запитів. Для поліпшення автоматичної оцінки дослідники розробили VideoPhy-2-Autoeval, модель з 7 мільярдами параметрів, призначену для надання більш точних прогнозів у трьох категоріях: семантичному дотриманні, фізичному розумінні та дотриманні правил, доопрацьовану на основі моделі VideoCon-Physics за допомогою 50 000 людських анотацій*.

Дані та тести

З цими інструментами на місці, автори протестували ряд генеративних відео-систем, як через локальні установки, так і через комерційні API, де це було необхідно: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; та Luma Ray.

Моделі були ініційовані підписаними запитами, де це було можливо, за винятком того, що Hunyuan Video та VideoCrafter2 працюють під обмеженнями 77-токенної CLIP, і не можуть приймати запити довше певної довжини.

Згенеровані відео обмежувалися менш ніж 6 секундами, оскільки коротший вивід легше оцінювати.

Ведуча дані походила з набору даних VideoPhy-2, який був розділений на набір для оцінки та тренувальний набір. Було згенеровано 590 відео для кожної моделі, за винятком Sora та Ray2; через фактор вартості (для цих моделей було згенеровано менше відео).

(Будь ласка, зверніться до джерельної статті для подальших деталей оцінювання, які докладно описані там)

Перша оцінка стосувалася фізичних дій/спортів (PA) та взаємодії з об’єктами (OI), і була протестована як загальний набір даних, так і згаданий “важчий” піднабір:

Результати першого раунду.

Автори коментують:

‘Дажи найкраща модель, Wan2.1-14B, досягла лише 32,6% та 21,9% на повному та важчому розрізі нашого набору даних відповідно. Її відносно сильна продуктивність у порівнянні з іншими моделями можна пояснити різноманітністю її багатомодальної навчальної інформації, а також потужним фільтром руху, який зберігає високоякісні відео в широкому діапазоні дій.

‘Крім того, ми спостерігаємо, що закриті моделі, такі як Ray2, виконують гірше, ніж відкриті моделі, такі як Wan2.1-14B та CogVideoX-5B. Це свідчить про те, що закриті моделі не обов’язково кращі за відкриті у захопленні фізичного розуміння.

‘Відзначимо, що Cosmos-Diffusion-7B досягла другого найкращого результату на важчому розрізі, навіть випередивши набагато більшу модель HunyuanVideo-13B. Це може бути пов’язано з високим представленням людських дій у її навчальних даних, а також синтетичними симуляціями.’

Результати показали, що відео-моделі мали більші труднощі з фізичними діями, такими як спорт, ніж з простішими взаємодіями з об’єктами. Це свідчить про те, що поліпшення відео, згенерованих ІІ, в цій галузі буде вимагати кращі набори даних – зокрема високоякісні кадри спорту, такі як теніс, метання диска, бейсбол та крикет.

Дослідження також вивчило, чи корелює фізична правдоподібність моделі з іншими метриками якості відео, такими як естетика та гладкість руху. Результати показали відсутність сильної кореляції, що означає, що модель не може покращити свою продуктивність у VideoPhy-2, просто генеруючи візуально привабливі або плавні рухи – їй потрібно глибше розуміння фізичного розуміння.

Хоча робота надає багато якісних прикладів, небагато статичних прикладів, представлених у PDF, здається, пов’язані з численними відео-прикладами, які автори надають на сайті проекту. Тому ми розглянемо кілька статичних прикладів, а потім деякі фактичні відео проекту.

Верхній ряд показує відео, згенеровані Wan2.1. (а) У Ray2, джет-скі зліва відстає, а потім рухається назад. (б) У Hunyuan-13B, молоток деформується під час удару, і з’являється розбитий дерев’яний дощак. (в) У Cosmos-7B, спис викидає пісок, перш ніж торкнутися землі.

Відносно вищезгаданого кваліфікаційного тесту автори коментують:

‘[Ми] спостерігаємо порушення фізичного розуміння, такі як джет-скі, які рухаються ненатурально у зворотному напрямку, і деформація твердого молотка, яка суперечить принципам пружності. Однак навіть Wan2.1 страждає від відсутності фізичного розуміння, як показано у кліпі, вкладеному на початку цієї статті.

‘У цьому випадку ми підкреслюємо, що камінь починає котитися та прискорюватися вгору, порушуючи закон гравітації.’

Додаткові приклади з сайту проекту:

Натисніть, щоб відтворити. Тут підпис було “Людина енергійно скручує мокрий рушник, вода виливається назовні у видимій дузі” – але вихідний джерело води більше схоже на водяний шланг, ніж на рушник.

Натисніть, щоб відтворити. Тут підпис було “Хімік наливає прозору рідину з пляшки в пробірку, обережно уникając розливів”, але ми бачимо, що об’єм води, який додається до пляшки, не відповідає кількості, яка виходить з каністри.

Як я згадував на початку, обсяг матеріалу, пов’язаного з цим проектом, значно перевищує те, що можна висвітлити тут. Тому, будь ласка, зверніться до джерельної статті, сайту проекту та згаданих раніше сайтів для повного опису процедур авторів та ще більшої кількості тестових прикладів та процедурних деталей.

* Що стосується походження анотацій, у статті вказано лише “придбані для цих завдань” – здається, це багато для того, щоб бути згенерованими 12 працівниками Amazon Mechanical Turk.

Перша публікація – четвер, 13 березня 2025 року

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]