Зв'язатися з нами

Штучний інтелект робить відео ідеальним для котячих селфі

Кут Андерсона

Штучний інтелект робить відео ідеальним для котячих селфі

mm
Кадр з демонстраційного відео для статті «Факторизована відеогенерація: побудова сцени з розв'язанням та часовий синтез у моделях дифузії тексту у відео», що зображує точку зору «селфі з котом», тоді як на задньому плані собака катається на скейтборді. Джерело: https://vita-epfl.github.io/FVG/

Генератори відео зі штучним інтелектом часто дають близькі, але не ідеальні результати з точки зору виконання бажаного тексту. Але нове виправлення високого рівня має вирішальне значення.

 

Системи генеративного відео часто мають труднощі зі створенням справді креативних або неординарних відео, і часто не виправдовують очікувань користувачів щодо текстових підказок.

Частково причиною цього є заплутаність – той факт, що моделі зору/мовлення повинні йти на компроміс щодо тривалості навчання на вихідних даних. Занадто мало навчання – і концепції гнучкі, але не повністю сформовані; занадто багато – і концепції точні, але вже недостатньо гнучкі, щоб їх можна було включати в нові комбінації.

Ви можете зрозуміти ідею з відео, вбудованого нижче. Ліворуч показано свого роду компроміс, який багато систем штучного інтелекту пропонують у відповідь на вимогливе завдання (запит знаходиться у верхній частині відео у всіх чотирьох прикладах), що вимагає певного зіставлення елементів, що є надто фантастичним, щоб бути реальним навчальним прикладом. Праворуч показано результат ШІ, який набагато краще відповідає запитанню:

Натисніть, щоб відтворити (без звуку). Праворуч ми бачимо «факторизовану» WAN 2.2, яка дійсно відповідає підказкам, на відміну від розпливчастих інтерпретацій «ванільного» Wan 2.2 ліворуч. Будь ласка, зверніться до вихідних відеофайлів для кращої роздільної здатності та багатьох інших прикладів, хоча кураторські версії, що бачені тут, не існують на сайті проекту та були зібрані для цієї статті. Source

Що ж, хоча нам доведеться пробачити людські руки качки, яка плескає в долоні (!), очевидно, що приклади праворуч набагато краще відповідають оригінальному текстовому запиту, ніж ті, що ліворуч.

Цікаво, що обидві представлені архітектури є по суті то ж архітектура – ​​популярна та дуже здібна Ван 2.2, китайський реліз, який цього року здобув значне визнання у спільнотах розробників програмного забезпечення з відкритим кодом та любителів.

Різниця полягає в тому, що другий генеративний конвеєр є факторизований, що в цьому випадку означає, що для переінтерпретації першого (початкового) кадру відео було використано модель великої мови програмування (LLM), завдяки чому системі буде набагато легше надати те, що запитує користувач.

Це «візуальне закріплення» передбачає введення зображення, створеного з цього підказки, покращеної LLM, у генеративний конвеєр як «стартовий кадр» та використання Лора інтерпретаційна модель, яка допомагає інтегрувати кадр «порушника» в процес створення відео.

Результати, з точки зору точності виконання, досить вражаючі, особливо для рішення, яке здається досить елегантним:

Натисніть, щоб відтворити (без звуку). Подальші приклади «факторизованих» відеогенерацій, які дійсно дотримуються сценарію. Будь ласка, зверніться до вихідних відеофайлів для кращої роздільної здатності та багатьох інших прикладів, хоча кураторські версії, що наведені тут, не існують на сайті проекту та були зібрані для цієї статті.

Це рішення представлено у формі новий папір Факторизована генерація відео: побудова сцени з роз'єднанням та часовий синтез у моделях дифузії тексту у відеота його відеоматеріали веб-сайт проекту.

Хоча багато сучасних систем намагаються підвищити точність запитань, використовуючи мовні моделі для переписування розпливчастого або нечіткого тексту, нова робота стверджує, що ця стратегія все ще призводить до невдачі, коли модель... представлення внутрішньої сцени є недосконалим.

Навіть із детально переписаним підказкою, моделі перетворення тексту на відео часто неправильно композицують ключові елементи або генерують несумісні початкові стани, що порушує логіку анімації. Доки перший кадр не відображає те, що описується в підказці, результуюче відео не може відновитися, незалежно від того, наскільки якісна модель руху.

У папері зазначено*:

Моделі [перетворення тексту на відео] часто створюють кадри зі зміщенням розподілу, але все ж досягають [оцінки], порівнянної з моделями I2V, що вказує на те, що їхнє моделювання руху залишається досить природним, навіть коли точність сцени відносно низька.

Моделі [зображення-відео] демонструють взаємодоповнюючу поведінку, сильні [оцінювальні бали] з точних початкових сцен і слабшу часову когерентність, тоді як I2V+текст збалансовує обидва аспекти.

«Цей контраст натякає на структурна невідповідність у поточних моделях T2V: заземлення сцени та часовий синтез отримують вигоду від різних індуктивних упереджень, проте існуючі архітектури намагаються навчатися обом одночасно в рамках однієї моделі.

Діагностичне порівняння режимів генерації показало, що моделі без явного прив'язування сцени добре реагують на рух, але часто поступаються макетом сцени, тоді як підходи, що базуються на зображенні, показали протилежну картину:

Порівняння режимів генерації відео на двох наборах даних, яке показує, що I2V+текст досягає найкращої якості кадру (FID) та часової когерентності (FVD), підкреслюючи перевагу відокремлення побудови сцени від руху. Джерело - https://arxiv.org/pdf/2512.16371

Порівняння режимів генерації відео на двох наборах даних, яке показує, що I2V+текст досягає найкращої якості кадру (FID) та часової когерентності (FVD), підкреслюючи перевагу відокремлення побудови сцени від руху. Source

Ці висновки вказують на структурний недолік, через який сучасні моделі намагаються вивчити як макет сцени, так і анімацію одночасно, хоча ці два завдання вимагають різних видів... індуктивне зміщення, і з ними краще поводитися окремо.

Можливо, найбільший інтерес представляє те, що цей «трюк» потенційно можна застосувати до локальних інсталяцій таких моделей, як Wan 2.1 та 2.2, а також подібних моделей поширення відео, таких як Хуньюань відеоЗа анекдотичним сценарієм, порівнюючи якість продукції аматорів з комерційними генеративними порталами, такими як Kling та Runway, більшість основних постачальників API вдосконалюють пропозиції з відкритим кодом, такі як WAN, за допомогою LoRA та, схоже, за допомогою хитрощів, подібних до тих, що розглядаються в новій статті. Тому цей конкретний підхід може наздогнати контингент FOSS.

Випробування, проведені для цього методу, показують, що цей простий та модульний підхід пропонує новий передовий рівень у сфері Тест T2V-CompBench, що значно покращило всі протестовані моделі. Автори на завершення зазначають, що хоча їхня система радикально покращує точність, вона не вирішує (і не створена для вирішення) дрейф ідентичності, що наразі є прокляттям досліджень генеративного штучного інтелекту.

Нова стаття написана чотирма дослідниками Федеральної політехнічної школи Лозанни (EPFL) у Швейцарії.

Метод і дані

Центральне положення нової методики полягає в тому, що моделі дифузії тексту у відео (T2V) повинні бути «прив’язані» до початкових кадрів, які дійсно відповідають бажаному текстовому запиту.

Щоб забезпечити відповідність моделі початковому кадру, новий метод порушує стандартний процес дифузії шляхом введення чистого латентний з опорного зображення на нульовому кроці часу, замінюючи один зі звичайних шумних вхідних даних. Цей незнайомий вхідний сигнал спочатку заплутує модель, але з мінімальною LoRA тонке налаштування, він навчається трактувати введений кадр як фіксований візуальний якір, а не як частину траєкторії шуму:

Двоетапний метод обґрунтування генерації тексту у відео з візуальним якорем: ліворуч модель налаштовується за допомогою полегшеного LoRA для обробки введеного чистого латентного сигналу як фіксованого обмеження сцени. Праворуч підказка розділяється на підпис першого кадру, який використовується для генерації зображення якоря, що спрямовує відео.

Двоетапний метод обґрунтування генерації тексту у відео з візуальним якорем: ліворуч модель налаштовується за допомогою легкого LoRA для обробки введеного чистого латентного сигналу як фіксованого обмеження сцени. Праворуч підказка розділяється на підпис першого кадру, який використовується для генерації зображення якоря, що керує відео.

Під час висновку метод переписує запит для опису лише перший кадр, використовуючи LLM для вилучення правдоподібного початкового стану сцени з акцентом на макет та зовнішній вигляд.

Цей переписаний запит передається генератору зображень для створення кандидата на опорний кадр (який користувач може за бажанням уточнити). Вибраний кадр кодується в латентний сигнал та вводиться в процес дифузії шляхом заміни першого кроку часу, що дозволяє моделі генерувати решту відео. залишаючись прив'язаним до початкової сцени – процес, який працює без необхідності змін у базовій архітектурі.

Процес було протестовано шляхом створення LoRA для Wan2.2-14B, Wan2.1-1B та CogVideo1.5-5BНавчання з LoRA було проведено в ранжувати з 256, на 5000 випадково відібраних кліпів з УльтраВідео collection.

Навчання тривало 6000 кроків та вимагало 48 годин роботи на графічному процесорі для Wan-1B та CogVideo-5B, а також 96 годин роботи графічного процесора для Wan-14B. Автори зазначають, що Wan-5B нативно підтримує обробку лише тексту та тексту з зображенням (які в цьому випадку нав'язуються старішим фреймворкам), і тому не потребує жодного тонкого налаштування.

Випробування

У експериментах, проведених для цього процесу, кожне текстове запрошення спочатку уточнювалося за допомогою Qwen2.5-7B-Instruct, який використовував результат для створення детального підпису «початкового зображення» з описом усієї сцени. Потім його було передано до QwenImage, якому було доручено створити «магічну рамку» для вставки в процес дифузії.

Серед бенчмарків, що використовувалися для оцінки системи, був вищезгаданий T2V-CompBench для перевірки розуміння композиції шляхом оцінки того, наскільки добре моделі зберігають об'єкти, атрибути та дії в рамках цілісної сцени; та VBench 2.0, для оцінки ширшого обґрунтування та узгодженості за 18 показниками, згрупованими в креативність, здоровий глузд, керованість, людська вірність та фізика:

У всіх семи категоріях оцінювання T2V-CompBench факторизований метод T2V перевершив як стандартні, так і підвищені базові рівні T2V для кожної протестованої моделі, з приростом до 53.25%. Варіанти з найвищими балами часто відповідали або перевищували власний бенчмарк PixVerse-V3.

У всіх семи категоріях оцінювання T2V-CompBench факторизований метод T2V перевершив як стандартні, так і підвищені базові рівні T2V для кожної протестованої моделі, з приростом до 53.25%. Варіанти з найвищими балами часто відповідали або перевищували власний бенчмарк PixVerse-V3.

Щодо цього початкового раунду тестів, автори заявляють*:

«[У] всіх моделях додавання зображення прив'язки послідовно покращує композиційні характеристики. Усі менші факторизовані моделі (CogVideo 5B, Wan 5B та Wan 1B) перевершують більшу модель Wan 14B T2V».

"Наша факторизована Wan 5B також перевершує комерційний базовий рівень PixVerse-V3, який є найкращою моделлю в цьому бенчмарку. Це демонструє, що візуальне заземлення суттєво покращує розуміння сцени та дії навіть у моделях меншої місткості.

«У кожному сімействі моделей факторизована версія перевершує оригінальну модель. Примітно, що наш легкий LoRA з заземленням на якорі на WAN 14B досягає продуктивності, порівнянної з попередньо навченим варіантом I2V 14B (0.661 проти 0.666), незважаючи на те, що не потребує повного перенавчання».

Далі був раунд VBench2.0:

Факторизований підхід T2V послідовно покращував продуктивність VBench 2.0 за такими показниками, як композиція, здоровий глузд, керованість та фізика, причому деякі покращення перевищували 60%, хоча точність відображення людського фактора залишалася нижчою за базовий рівень Veo 3.

Факторизований підхід T2V послідовно покращував продуктивність VBench 2.0 за такими показниками, як композиція, здоровий глузд, керованість та фізика, причому деякі покращення перевищували 60%, хоча точність відображення людського фактора залишалася нижчою за базовий рівень Veo 3.

На всіх архітектурах факторизований підхід підвищив бали в кожній категорії VBench, окрім людська вірність, який дещо знизився навіть після швидкого збільшення частоти дискретизації. WAN 5B перевершив більший WAN 14B, підтверджуючи попередні результати T2V-CompBench, які показали, що візуальне заземлення сприяло більшому внеску, ніж масштабування.

Хоча приріст у VBench був стабільним, він був меншим, ніж той, що спостерігався в T2V-CompBench, і автори пояснюють це суворішим режимом бінарного підрахунку балів у VBench.

Для якісних тестів у статті наведено статичні зображення, але для чіткішого уявлення ми відсилаємо читача до композитних відео, вбудованих у цю статтю, з застереженням, що вихідні відео численніші та різноманітніші, а також мають вищу роздільну здатність та деталізацію. Знайдіть їх. тутЩодо якісних результатів, у статті зазначено:

«Закріплені відео послідовно демонструють точнішу композицію сцени, сильніше зв’язування об’єкта з атрибутом та чіткішу часову прогресію».

Факторизований метод залишався стабільним навіть після скорочення кількості кроків дифузії з 50 до 15, майже не демонструючи втрати продуктивності на T2V-CompBench. Натомість, як текстові, так і збільшені базові лінії різко погіршилися за тих самих умов.

Хоча скорочення кількості кроків теоретично може потроїти швидкість, на практиці повний конвеєр генерації став швидшим лише в 2.1 раза через фіксовані витрати на генерацію зображення за допомогою прив'язки. Тим не менш, результати показали, що прив'язка не лише покращила якість зразка, але й допомогла стабілізувати процес дифузії, підтримуючи швидшу та ефективнішу генерацію без втрати точності.

На вебсайті проєкту наведено приклади поколінь методів з підвищеною роздільною здатністю та нових, з яких ми пропонуємо кілька (з нижчою роздільною здатністю) відредагованих прикладів тут:

Натисніть, щоб відтворити (без аудіо). Підвищена частота дискретизації вихідних джерел у порівнянні з факторизованим підходом авторів.

Автори роблять висновок:

«Наші результати показують, що покращене заземлення, а не лише збільшення ємності, може бути однаково важливим. Нещодавні досягнення в дифузії T2V значною мірою залежать від збільшення розміру моделі та навчальних даних, проте навіть великі моделі часто мають труднощі з виведенням зв'язної початкової сцени лише з тексту».

«Це контрастує з дифузією зображень, де масштабування є відносно простим; у відеомоделях кожне архітектурне вдосконалення має діяти в додатковому часовому вимірі, що робить масштабування значно більш ресурсоємним».

«Наші результати показують, що покращене заземлення може доповнити масштаб, вирішуючи інше вузьке місце: створення правильної сцени перед початком синтезу руху».

«Враховуючи факторизацію генерації відео в композиції сцени та часовому моделюванні, ми зменшуємо кілька поширених режимів відмови, не вимагаючи суттєво більших моделей. Ми розглядаємо це як додатковий принцип проектування, який може спрямувати майбутні архітектури до більш надійного та структурованого синтезу відео».

Висновок

Хоча проблеми заплутаності є цілком реальними та можуть вимагати спеціальних рішень (таких як покращена оцінка курації та розподілу перед навчанням), спостерігати, як факторизація «розклеює» кілька впертих та «застряглих» оркестрацій концептуальних підказок у набагато точніші рендеринги – лише з помірним шаром обумовлення LoRA та втручанням помітно покращеного початкового/насіннєвого зображення, стало повчальним відкриттям.

Розрив у ресурсах між локальними рішеннями для аматорів та комерційними рішеннями може бути не таким величезним, як передбачається, враховуючи, що майже всі постачальники прагнуть раціоналізувати свої значні витрати на ресурси графічних процесорів для споживачів.

За неофіційними даними, дуже велика кількість сучасних постачальників генеративного відео, схоже, використовують брендовані та загалом «вдосконалені» версії китайських моделей FOSS. Головний «рів» будь-якої з цих «посередницьких» систем, схоже, полягає в тому, що вони взяли на себе клопоти з навчанням LoRA, або ж – за більші витрати та трохи більшу винагороду – фактично провели повне налаштування вагових коефіцієнтів моделі.††.

Такі висновки можуть допомогти ще більше скоротити цей розрив у контексті релізів, де китайці, здається, налаштовані (не обов'язково з альтруїстичних чи ідеалістичних міркувань) демократизувати покоління штучного інтелекту, тоді як західні бізнес-інтереси, можливо, воліли б, щоб збільшення розміру моделі та регулювання зрештою закрило будь-які дійсно хороші моделі за API та кількома рівнями фільтрів контенту.

 

* Акценти авторів, не мої.

У статті не уточнюється, який графічний процесор був обраний або скільки їх було використано.

†† Хоча шлях LoRA є більш імовірним, як з точки зору економічної зручності використання, так і тому, що повні ваги, а не квантований ваги, не завжди доступні.

Вперше опубліковано в п’ятницю, 19 грудня 2025 р

Письменник машинного навчання, фахівець із домену синтезу зображень людини. Колишній керівник відділу досліджень Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai