Погляд Anderson

До повної контролю в генерації відео за допомогою штучного інтелекту

Опубліковано 27 березня 2025

Оновлено 19 травня 2026

Martin Anderson

ChatGPT-4o, Adobe Firefly: lower right, imagery from the paper FullDiT: Multi-Task Video Generative Foundation Model with Full Attention (https://arxiv.org/pdf/2503.19907)

Моделі відео-фундаменту, такі як Hunyuan і Wan 2.1, хоча й потужні, не пропонують користувачам такого ж рівня контролю, як у фільмах і телевізійній продукції (особливо у виробництві візуальних ефектів).

У професійних студіях візуальних ефектів відкриті моделі, такі як ці, разом з ранішими моделями, заснованими на зображеннях (а не відео), такими як Stable Diffusion, Kandinsky і Flux, зазвичай використовуються разом з рядом допоміжних інструментів, які адаптують їхню сиру продукцію до конкретних творчих потреб. Коли режисер говорить: “Це виглядає добре, але можна зробити це трохи більше [n]?” ви не можете відповісти, що модель не достатньо точна, щоб обробляти такі запити.

Натомість команда штучного інтелекту з візуальних ефектів буде використовувати ряд традиційних CGI і композиційних технік, пов’язаних з власними процедурами і робочими процесами, розробленими з часом, щоб спробувати розширити межі відеосинтезу ще далі.

Отже, за аналогією, модель відео-фундаменту є подібною до стандартної установки веб-браузера, такого як Chrome; він робить багато речей з коробки, але якщо ви хочете, щоб він адаптувався до ваших потреб, а не навпаки, вам потрібно буде деякі плагіни.

Контрольні фріки

У світі генерації зображень на основі дифузії найважливішою такою третьою системою є ControlNet.

ControlNet – це техніка додавання структурованого контролю до генерації моделей на основі дифузії, що дозволяє користувачам керувати генерацією зображень або відео за допомогою додаткових входів, таких як карти країв, глибини або інформацію про позу.

Різні методи ControlNet дозволяють створювати зображення з глибиною (верхній ряд), семантичним розділенням (нижній лівий) і генеруванням зображень людей і тварин (нижній лівий).

Натомість ніж покладатися виключно на текстові запити, ControlNet вводить окремі нейронні мережеві гілки, або адаптери, які обробляють ці умовні сигнали, зберігаючи при цьому генеративні можливості базової моделі.

Це дозволяє отримувати тонко налаштовані виходи, які більш точно відповідають специфікаціям користувача, що робить його особливо корисним у застосунках, де потрібний точний контроль над складом, структурою або рухом:

З керівною позою можна отримати різноманітні точні типи виходу за допомогою ControlNet. Джерело: https://arxiv.org/pdf/2302.05543

Однак, підходи на основі адаптерів такого типу працюють зовні на наборі нейронних процесів, які дуже внутрішньоорієнтовані. Ці підходи мають кілька недоліків.

По-перше, адаптери тренуються незалежно, що призводить до конфліктів гілок при поєднанні декількох адаптерів, що може призвести до погіршення якості генерації.

По-друге, вони вводять надмірність параметрів, що вимагає додаткових обчислень і пам’яті для кожного адаптера, що робить масштабування неефективним.

По-третє, незважаючи на свою гнучкість, адаптери часто дають підоптимальні результати порівняно з моделями, які повністю налагоджені для генерації з декількома умовами. Ці питання роблять методи на основі адаптерів менш ефективними для завдань, які вимагають безшовного інтегрування декількох сигналів контролю.

Ідеально було б, якщо можливості ControlNet були б треновані рідно в модель, у модульному способі, який міг би адаптуватися до пізніх і очікуваних інновацій, таких як одночасна генерація відео і аудіо, або вбудовані можливості синхронізації губ (для зовнішнього аудіо).

Наразі кожна додаткова частина функціональності представляє або задачу постпродакшну, або нерідну процедуру, яка повинна орієнтуватися в тісно зв’язаних і чутливих вагах будь-якої моделі-фундаменту, на якій вона працює.

FullDiT

У цю патову ситуацію вступає нова пропозиція з Китаю, яка передбачає систему, в якій заходи типу ControlNet інтегровані безпосередньо в генеративну модель відео під час тренування, а не відкладені на пізніше.

З нової статті: підхід FullDiT дозволяє включати імпозицію ідентичності, глибину і рух камери в рідну генерацію і може викликати будь-яку комбінацію цих одночасно. Джерело: https://arxiv.org/pdf/2503.19907

Названа FullDiT, новий підхід об’єднує багатокомандні умови, такі як перенесення ідентичності, відображення глибини і рух камери, в інтегровану частину тренованої генеративної моделі відео, для якої автори створили прототип тренованої моделі і супровідні відеокліпи на сайті проекту.

У прикладі нижче ми бачимо генерації, які включають рух камери, інформацію про ідентичність і текстову інформацію (тобто керівні текстові запити користувача):

Натисніть, щоб відіграти. Приклади імпозиції контролю типу ControlNet з використанням тільки рідної тренованої моделі-фундаменту. Джерело: https://fulldit.github.io/

Відзначимо, що автори не пропонують свою експериментальну треновану модель як функціональну модель-фундамент, а радше як доказ концепції для рідних текст-відео (T2V) і зображення-відео (I2V) моделей, які пропонують користувачам більше контролю, ніж просто зображення-запит або текстовий запит.

Оскільки подібних моделей ще немає, дослідники створили новий бенчмарк під назвою FullBench для оцінки багатокомандних відео, і заявляють про досягнення найкращих результатів у порівнянні з попередніми підходами. Однак, оскільки FullBench був розроблений самими авторами, його об’єктивність не перевірена, а набір даних з 1 400 випадків може бути занадто обмеженим для більш широких висновків.

Можливо, найцікавішим аспектом архітектури, яку пропонує стаття, є її потенціал включення нових типів контролю. Автори заявляють:

‘У цій роботі ми досліджуємо тільки умови контролю камери, ідентичності і глибини. Ми не досліджували інші умови і модальності, такі як аудіо, мовлення, точкові хмари, об’єктні рамки, оптичний потік тощо. Хоча дизайн FullDiT може безшовно інтегрувати інші модальності з мінімальними змінами архітектури, питання про те, як швидко і ефективно адаптувати існуючі моделі до нових умов і модальностей, залишається важливим питанням, яке вимагає подальшого дослідження.’

Хоча дослідники представляють FullDiT як крок вперед у багатокомандній генерації відео, слід враховувати, що ця нова робота будується на існуючих архітектурах, а не вводить фундаментально новий парадигму.

Однак FullDiT зараз залишається єдиною (наскільки мені відомо) відео-моделлю-фундаментом з вбудованими засобами контролю типу ControlNet – і добре, що запропонована архітектура може адаптуватися до пізніх інновацій.

Натисніть, щоб відіграти. Приклади керованих рухів камери з сайту проекту.

Нова стаття називається FullDiT: Багатокомандна відео-генеративна модель-фундамент з повною увагою, і надходить від дев’яти дослідників з Kuaishou Technology і Гонконзького університету. Сайт проекту знаходиться тут, а новий бенчмарк-дані знаходяться на Hugging Face.

Метод

Автори стверджують, що єдина механізм уваги FullDiT дозволяє сильніше навчання представлень між модальностями шляхом захоплення як просторових, так і тимчасових відносин між умовами:

Згідно з новою статтею, FullDiT інтегрує декілька умов через повну самоувагу, перетворюючи їх у єдину послідовність. На відміну від моделей на основі адаптерів (ліворуч), які використовують окремі модулі для кожного входу, що призводить до надмірності, конфліктів і слабшої продуктивності.

На відміну від налаштувань на основі адаптерів, які обробляють кожен потік входу окремо, ця спільна структура уваги уникає конфліктів гілок і зменшує надмірність параметрів. Вони також стверджують, що архітектура може масштабуватися до нових типів входу без суттєвого перероблення – і що схема моделі показує ознаки узагальнення до комбінацій умов, яких не бачила під час тренування, таких як зв’язування руху камери з ідентичністю персонажа.

Натисніть, щоб відіграти. Приклади генерації ідентичності з сайту проекту.

У архітектурі FullDiT усі умовні входи – такі як текст, рух камери, ідентичність і глибина – спочатку перетворюються у єдиний токен-формат. Ці токени потім конкатенують у єдину довгу послідовність, яку обробляють через стек трансформерних шарів з повною самоувагою. Цей підхід слідує попереднім роботам, таким як Open-Sora Plan і Movie Gen.

Цей дизайн дозволяє моделі навчатися тимчасових і просторових відносин спільно через усі умови. Кожний трансформерний блок працює над цією послідовністю, дозволяючи динамічні взаємодії між модальностями без використання окремих модулів для кожного входу – і, як ми відзначили, архітектура розроблена для розширення, що робить її набагато легше включати додаткові сигнали контролю в майбутньому без суттєвих структурних змін.

Сила трьох

FullDiT перетворює кожний сигнал контролю у стандартизований токен-формат, щоб усі умови могли бути оброблені разом у єдиній уважній рамці. Для руху камери модель кодує послідовність зовнішніх параметрів – таких як позиція і орієнтація – для кожного кадру. Ці параметри відмічені часом і проєктуються у вектори вкладення, які відображають тимчасову природу сигналу.

Інформація про ідентичність обробляється інакше, оскільки вона є внутрішньо-просторовою, а не тимчасовою. Модель використовує карти ідентичності, які вказують, які персонажі присутні в яких частинах кожного кадру. Ці карти діляться на паті, з кожним паті, проєктованим у вкладення, яке захоплює просторові сигнали ідентичності, дозволяючи моделі асоціювати конкретні регіони кадру з конкретними сутностями.

Глибина є просторово-тимчасовим сигналом, і модель обробляє її, ділячи відео-глибину на 3D-паті, які охоплюють як простір, так і час. Ці паті потім вкладені таким чином, щоб зберегти їхню структуру через кадри.

Після вкладення усі ці умовні токени (камера, ідентичність і глибина) конкатенують у єдину довгу послідовність, дозволяючи FullDiT обробляти їх разом з повною самоувагою. Це спільне представлення робить можливим для моделі навчатися взаємодіям між модальностями і через час без використання ізольованих потоків обробки.

Дані і тести

Підхід тренування FullDiT залежав від вибірково анотованих наборів даних, адаптованих до кожного типу умов, а не вимагав наявності всіх умов одночасно.

Для текстових умов ініціатива слідує структурованому підходу анотації, викладеному в проєкті MiraData.

Відеозбір і анотаційна трубопровідна лінія з проекту MiraData. Джерело: https://arxiv.org/pdf/2407.06358

Для руху камери основним джерелом даних був RealEstate10K, через його високоякісні анотації параметрів камери.

Однак, автори відзначили, що тренування виключно на статичних наборах даних камер, таких як RealEstate10K, тенденцію до зменшення динамічних об’єктів і рухів людей у генерованих відео. Для протидії цьому вони провели додаткове тонке налаштування з використанням внутрішніх наборів даних, які включали більш динамічні рухи камери.

Анотації ідентичності були згенеровані за допомогою трубопровідної лінії, розробленої для проекту ConceptMaster, який дозволяв ефективне фільтрування і витягування тонких даних про ідентичність.

Фреймворк ConceptMaster призначений для вирішення проблем декуплінгу ідентичності, зберігаючи при цьому концептуальну вірність у персоналізованих відео. Джерело: https://arxiv.org/pdf/2501.04698

Анотації глибини були отримані з Panda-70M з використанням Depth Anything.

Оптимізація через впорядкування даних

Автори також реалізували прогресивний графік тренування, вводячи більш складні умови раніше в тренуванні, щоб забезпечити, що модель набула стійких представлень до того, як простіші завдання були додані. Графік тренування проходив від тексту до камери, потім ідентичності, і нарешті глибини, з легшими завданнями, які зазвичай вводилися пізніше і з меншою кількістю прикладів.

Автори підкреслюють значення порядку робочого навантаження таким чином:

‘Під час фази попереднього тренування ми відзначили, що більш складні завдання вимагають тривалого часу тренування і повинні бути введені раніше в процесі навчання. Ці складні завдання включають складні дані розподілу, які суттєво відрізняються від виходу відео, що вимагає від моделі мати достатню ємність для точного захоплення і представлення їх.

‘Напротивагу, введення легших завдань занадто рано може привести модель до пріоритету навчання їх перш за все, оскільки вони забезпечують більш негайну оптимізаційну зворотню зв’язок, що перешкоджає збіжності більш складних завдань.’

Ілюстрація порядку тренування даних, прийнятого дослідниками, з червоним кольором, який вказує на більший обсяг даних.

Після попереднього тренування остаточний етап тонкого налаштування подальше уточнював модель для покращення візуальної якості і рухової динаміки. Після цього тренування слідувало стандартному фреймворку дифузії*:

Шум додавався до відео-латентів, і модель навчалася передбачати і видалити його, використовуючи вкладені умовні токени як керівництво.

Для ефективної оцінки FullDiT і забезпечення справедливого порівняння з існуючими методами, а також у відсутності будь-якого іншого відповідного бенчмарка, автори ввели FullBench, кураторський бенчмарк-сUIT, що складається з 1 400 окремих тестових випадків.

Інстанс браузера даних для нового бенчмарка FullBench. Джерело: https://huggingface.co/datasets/KwaiVGI/FullBench

Кожна точка даних забезпечувала анотації справжніх даних для різних умовних сигналів, включаючи рух камери, ідентичність і глибину.

Метрики

Автори оцінювали FullDiT за допомогою десяти метрик, що охоплюють п’ять основних аспектів продуктивності: текстове вирівнювання, контроль камери, подібність ідентичності, точність глибини і загальна якість відео.

Текстове вирівнювання вимірювалося за допомогою CLIP подібності, тоді як контроль камери оцінювався через помилку обертання (RotErr), помилку трансляції (TransErr) і узгодженість руху камери (CamMC), слідуючи підходу CamI2V (у CameraCtrl проєкті).

Подібність ідентичності оцінювалася за допомогою DINO-I і CLIP-I, і точність контролю глибини кількісно оцінювалася за допомогою середньої абсолютної помилки (MAE).

Якість відео оцінювалася трьома метриками з MiraData: кадровим CLIP подібністю для гладкості; оптичним потоком руху для динаміки; і LAION-Aesthetic балами для візуальної привабливості.

Тренування

Автори тренували FullDiT за допомогою внутрішньої (недискованої) текст-відео дифузійної моделі, що містить близько одного мільярда параметрів. Вони свідомо обрали скромний розмір параметрів, щоб зберегти справедливість порівняння з попередніми методами і забезпечити репродуктивність.

Оскільки відео-тренування відрізнялися тривалістю і роздільною здатністю, автори стандартизували кожну партію шляхом зміни розміру і доповнення відео до спільної роздільної здатності, вибірки 77 кадрів на послідовність і використання застосованої уваги і масок втрат для оптимізації ефективності тренування.

Оптимізатор Adam використовувався з швидкістю навчання 1×10⁻⁵ по кластеру з 64 NVIDIA H800 GPU, для загальної суми 5 120 ГБ VRAM (врахуйте, що в ентузіастських синтетичних спільнотах 24 ГБ на RTX 3090 все ще вважається розкішним стандартом).

Модель була тренована протягом близько 32 000 кроків, включаючи до трьох ідентичностей на відео, разом з 20 кадрами умов камери і 21 кадром умов глибини, обидва рівномірно вибрані з загальних 77 кадрів.

Для висновку модель генерувала відео з роздільною здатністю 384×672 пікселів (приблизно п’ять секунд за 15 кадрів в секунду) з 50 кроками висновку дифузії і масштабом керівництва класифікатора без 5.

Попередні методи

Для оцінки камери-відео автори порівняли FullDiT з MotionCtrl, CameraCtrl і CamI2V, усі моделі були треновані за допомогою набору даних RealEstate10k, щоб забезпечити послідовність і справедливість.

У генерації, умовній на ідентичність, оскільки не було доступних порівнянних відкритих багатокомандних моделей, модель була оцінена проти 1-мільярдного параметра моделі ConceptMaster, використовуючи ті ж дані тренування і архітектуру.

Для завдань глибини-відео порівняння проводилися з Ctrl-Adapter і ControlVideo.

Кількісні результати для генерації відео з одним завданням. FullDiT був порівняний з MotionCtrl, CameraCtrl і CamI2V для генерації камери-відео; ConceptMaster (1-мільярдний параметр версії) для ідентичності-відео; і Ctrl-Adapter і ControlVideo для глибини-відео. Усі моделі були оцінені за допомогою їхніх стандартних налаштувань. Для послідовності 16 кадрів були рівномірно вибрані з кожного методу, що відповідає довжині виходу попередніх моделей.

Результати вказують на те, що FullDiT, незважаючи на обробку декількох умовних сигналів одночасно, досяг найкращих результатів у метриках, пов’язаних з текстом, рухом камери, ідентичністю і глибиною контролю.

У загальних метриках якості система загалом перевершувала інші методи, хоча її гладкість була трохи нижчою, ніж у ConceptMaster. Тут автори коментують:

‘Гладкість FullDiT трохи нижча, ніж у ConceptMaster, оскільки розрахунок гладкості ґрунтується на CLIP подібності між сусідніми кадрами. Оскільки FullDiT демонструє значно більшу динамічність порівняно з ConceptMaster, метрика гладкості впливає на великі варіації між сусідніми кадрами.

‘Для естетického балу, оскільки рейтингова модель віддає перевагу зображенням у стилі малювання, а ControlVideo зазвичай генерує відео в цьому стилі, вона досягає високого балу за естетикою.’

Що стосується якісного порівняння, можливо, краще буде звернутися до зразкових відео на сайті проекту FullDiT, оскільки приклади у PDF статтях є статичними (і також занадто великими, щоб повністю відтворити тут).

Перша секція відтворених якісних результатів у PDF. Будь ласка, зверніться до вихідної статті для додаткових прикладів, які занадто обширні, щоб їх тут відтворити.

Перша секція якісних результатів у PDF. Будь ласка, зверніться до вихідної статті для додаткових прикладів, які занадто обширні, щоб їх тут відтворити.

Автори коментують:

‘FullDiT демонструє вищу збереження ідентичності і генерує відео з кращою динамічністю і візуальною якістю порівняно з [ConceptMaster]. Оскільки ConceptMaster і FullDiT тренуються на тій же основі, це підкреслює ефективність ін’єкції умов з повною увагою.

‘…інші результати демонструють вищу керованність і якість генерації FullDiT порівняно з існуючими методами глибини-відео і камери-відео.’

Секція прикладів виходу FullDiT з декількома сигналами. Будь ласка, зверніться до вихідної статті і сайту проекту для додаткових прикладів.

Висновок

Хоча FullDiT є цікавим кроком до більш повнофункціональної відео-моделі-фундаменту, залишається питання, чи буде попит на засоби контролю типу ControlNet виправдовувати реалізацію таких функцій у великому масштабі, принаймні для відкритих джерел проєктів, які будуть боротися за отримання величезної кількості потужності процесора GPU без комерційної підтримки.

Основною проблемою є те, що використання систем, таких як Глибина і Поза, зазвичай вимагає суттєвої знайомості з відносно складними інтерфейсами користувача, такими як ComfyUI. Тому здається, що функціональна відкрита модель цього типу найімовірніше буде розроблена командою менших компаній з візуальних ефектів, які не мають коштів (або волі, враховуючи, що такі системи швидко стають застарілими через оновлення моделей) для кураторської обробки і тренування такої моделі за закритими дверима.

З іншого боку, API-керовані системи “орендуй-штучний інтелект” можуть бути добре мотивовані для розробки простіших і більш зручних інтерпретаційних методів для моделей, у які були вбудовані допоміжні системи контролю.

Натисніть, щоб відіграти. Контроль Глибина+Текст, накладений на генерацію відео за допомогою FullDiT.

* Автори не вказують жодної відомої моделі-фундаменту (наприклад, SDXL тощо)

Перша публікація четверга, 27 березня 2025 року

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]