Погляд Anderson
Видатний крок вперед у людьми керованому відео AI

Примітка: Сторінка проекту цієї роботи містить 33 автозапускаються високої роздільності відео, загальним об’ємом половину гігабайта, які дестабілізували мою систему при завантаженні. Через це я не буду посилатися на неї безпосередньо. Читачі можуть знайти URL-адресу в анотації статті або PDF-документі, якщо вони бажають.
Одним з основних завдань сучасних досліджень синтезу відео є генерація повної відеоперформи, керованої штучним інтелектом, з одного зображення. Цього тижня нова стаття від Bytedance Intelligent Creation описала, можливо, найповнішу систему цього типу, здатну генерувати повні та напівтіла анімації, що поєднують виразні деталі обличчя з точним великомасштабним рухом, а також досягає покращення збереження ідентичності – області, де навіть провідні комерційні системи часто не справляються.
У наведеному нижче прикладі ми бачимо виступ, керований актором (зверху ліворуч) і отриманий з одного зображення (зверху праворуч), який забезпечує відмінну гнучкість і рухливість, без звичайних проблем щодо створення великих рухів або “вгадування” щодо закритих областей (тобто частин одягу та кутів обличчя, які потрібно вивести або винайти, оскільки вони не видно на єдиній вихідній фотографії):
АУДІО КОНТЕНТ. Натисніть, щоб відтворити. Виступ народжується з двох джерел, включаючи синхронізацію руху губ, яка зазвичай є прерогативою спеціальних допоміжних систем. Це зменшена версія з вихідного сайту (див. примітку на початку статті – застосовується до всіх інших вкладених відео тут).
Хоча ми бачимо деякі залишкові виклики щодо збереження ідентичності під час проходження кожного кліпу, це перша система, яку я бачив, що загалом (хоча не завжди) зберігає ідентичність протягом тривалого періоду без використання LoRAs:
АУДІО КОНТЕНТ. Натисніть, щоб відтворити. Додаткові приклади з проекту DreamActor.
Нова система, названа DreamActor, використовує тричастинну гібридну систему контролю, яка надає спеціальну увагу виразам обличчя, обертанню голови та дизайну скелета, тим самим забезпечуючи анімації, керовані штучним інтелектом, де ні обличчя, ні тіло не страждають одна за рахунок іншої – рідка, можливо невідома можливість серед подібних систем.
Нижче ми бачимо одну з цих граней, обертання голови, в дії. Колірна куля в кутку кожного мініатюрного зображення праворуч вказує на певний вид віртуальної головки, яка визначає орієнтацію голови незалежно від руху обличчя та виразів, які тут керуються актором (нижче ліворуч).
Натисніть, щоб відтворити. Багатоколірна куля, візуалізована тут, представляє вісь обертання голови аватара, тоді як вираз керується окремим модулем і інформується виступом актора (видимим тут нижче ліворуч).
Одна з найцікавіших функцій проекту, яка навіть не включена належним чином до тестів статті, полягає в її здатності виводити рух губ безпосередньо з аудіо – можливість, яка працює незвично добре навіть без керуючого відео актора.
Дослідники прийняли найкращих учасників у цьому прагненні, включаючи широко відомі Runway Act-One і LivePortrait, і повідомили, що DreamActor був能够 досягти кращих кількісних результатів.
Поскольку дослідники можуть встановлювати自己的 критерії, кількісні результати не є обов’язково емпіричним стандартом; але супровідні якісні тести, здається, підтверджують висновки авторів.
На жаль, ця система не призначена для публічного випуску, і єдина цінність, яку спільнота може потенційно отримати від цієї роботи, полягає в можливості відтворити методології, описані в статті (як це було зроблено з помітним ефектом для однаково закритого Google Dreambooth в 2022 році).
Стаття заявляє*:
‘Анімація зображення людини має можливі соціальні ризики, наприклад, можуть бути використані для створення фальшивих відео. Запропонована технологія могла б бути використана для створення фальшивих відео людей, але існуючі інструменти виявлення [Demamba, Dormant] можуть виявити ці фальшивки.
‘Щоб зменшити ці ризики, необхідні чіткі етичні правила та відповідні керівні принципи використання. Ми суворо обмежимо доступ до наших основних моделей і кодів, щоб запобігти їхньому неправильному використанню.’
Природно, етичні розгляди цього типу є зручними з комерційної точки зору, оскільки вони надають підставу для API-тільки доступу до моделі, яку можна монетизувати. ByteDance вже зробив це один раз у 2025 році, зробивши відомий OmniHuman доступним для оплати кредитів на сайті Dreamina. Тому, оскільки DreamActor, можливо, є ще сильнішим продуктом, це, здається, ймовірний результат. Що залишається побачити, це те, якою мірою його принципи, наскільки вони пояснюються в статті, можуть допомогти відкритій спільноті.
Нова стаття названа DreamActor-M1: Голистична, виразна і надійна анімація зображення людини з гібридним керуванням, і походить від шести дослідників Bytedance.
Метод
Система DreamActor, запропонована в статті, має на меті генерувати анімацію людини з посилочного зображення та керуючого відео, використовуючи Diffusion Transformer (DiT).framework, адаптований для латентного простору (очевидно, деякий вид Stable Diffusion, хоча стаття посилається тільки на видатну публікацію 2022 року).
Натомість ніж покладатися на зовнішні модулі для обробки умовій посилання, автори об’єднують особливості появи та руху безпосередньо в основному DiT, дозволяючи взаємодію в просторі та часі через увагу:

Схема нової системи: DreamActor кодує позу, рух обличчя та зовнішній вигляд у окремі латентні змінні, поєднуючи їх з шумними відео-латентними змінними, виробленими 3D VAE. Ці сигнали об’єднуються в Diffusion Transformer за допомогою само- та міжуваження, з спільними вагами по гілках. Модель контролюється шляхом порівняння денойзованих виходів з чистими відео-латентними змінними. Джерело: https://arxiv.org/pdf/2504.01724
Щоб зробити це, модель використовує попередньо навчений 3D варіаційний автоенкодер для кодування вхідного відео та посилочного зображення. Ці латентні змінні патчифікуються, конкатенуються та подаються в DiT, який обробляє їх спільно.
Ця архітектура відрізняється від звичайної практики прикріплення вторинної мережі для ін’єкції посилання, яка була підходом для впливових Animate Anyone і Animate Anyone 2 проектів.
Натомість DreamActor будує об’єднання в саму модель, спрощуючи дизайн та покращуючи потік інформації між ознаками появи та руху. Модель потім тренується за допомогою відповідності потоку замість стандартної цілі дифузії (Відповідність потоку тренує моделі дифузії шляхом прямого прогнозування векторів швидкості між даними та шумом, пропускаючи оцінку оцінки).
Гібридне керування рухом
Метод гібридного керування рухом, який інформує нейронну візуалізацію, поєднує токени пози, отримані з 3D скелетів тіла та сфер голови; імпліцитні представлення обличчя, витягнуті попередньо навченим кодувальником обличчя; і токени зовнішнього вигляду, вибрані з вихідного зображення.
Ці елементи інтегруються в Diffusion Transformer за допомогою різних механізмів уваження, дозволяючи системі координувати глобальний рух, вираз обличчя та візуальну ідентичність протягом усього процесу генерації.
Для першого з них, натомість ніж покладатися на орієнтаційні точки обличчя, DreamActor використовує імпліцитні представлення обличчя для керування генерацією виразів, що, як видається, дозволяє краще контролювати динаміку обличчя, роз’єднуючи ідентичність та позу голови від виразу.
Щоб створити ці представлення, конвеєр спочатку виявляє та обрізає область обличчя в кожному кадрі керуючого відео, змінюючи розмір до 224×224. Обрізані обличчя обробляються кодувальником руху обличчя, попередньо навченим на PD-FGC наборі даних, який потім умовний за допомогою MLP шару.

PD-FGC, використаний в DreamActor, генерує говорючу голову з посилочного зображення з роз’єднаним контролем над синхронізацією руху губ (з аудіо), позою голови, рухом очей та виразом (з окремих відео), дозволяючи точну, незалежну маніпуляцію кожним з них. Джерело: https://arxiv.org/pdf/2211.14506
Результатом є послідовність токенів руху обличчя, які ін’єктуються в Diffusion Transformer через міжуваження шар.
Та сама рамка також підтримує аудіо-керований варіант, в якому окремий кодувальник тренується для відображення входу аудіо безпосередньо в токени руху обличчя. Це дозволяє генерувати синхронізовану анімацію обличчя – включаючи рух губ – без керуючого відео.
АУДІО КОНТЕНТ. Натисніть, щоб відтворити. Синхронізація руху губ, отримана лише з аудіо, без посилання на відео актора. Єдиним вхідним характеристикам є статичне фото, видиме зверху праворуч.
Другим, щоб контролювати позу голови незалежно від виразу обличчя, система вводить 3D представлення сфери голови (див. вкладене відео раніше в цій статті), яке роз’єднує динаміку обличчя від глобального руху голови, покращуючи точність та гнучкість під час анімації.
Сфери голови генеруються шляхом витягування 3D параметрів обличчя – таких як обертання та поза камери – з керуючого відео за допомогою FaceVerse методу відстежування.

Схема проекту FaceVerse. Джерело: https://www.liuyebin.com/faceverse/faceverse.html
Ці параметри використовуються для візуалізації кольорової сфери, проєктованої на 2D площину зображення, просторово вирівняної з керуючою головою. Розмір сфери відповідає розміру голови посилання, а її колір відображає орієнтацію голови. Ця абстракція зменшує складність навчання 3D руху голови, допомагаючи зберегти стілізовані або перебільшені форми голови в персонажах, створених з анімації.

Візуалізація сфери контролю, яка впливає на орієнтацію голови.
Нарешті, щоб контролювати рух всього тіла, система використовує 3D скелети тіла з адаптивною нормалізацією довжини кісток. Параметри тіла та рук оцінюються за допомогою 4DHumans і HaMeR, які обидва працюють на SMPL-X моделі тіла.

SMPL-X застосовує параметричну сітку до всього тіла людини на зображенні, вирівнюючи з оціненою позою та виразом для забезпечення маніпуляції позою за допомогою сітки як об’ємного керівництва. Джерело: https://arxiv.org/pdf/1904.05866
З цих виходів вибираються ключові суглоби, проєктуються в 2D та з’єднуються в лінійні карти скелета. На відміну від методів, таких як Champ, які візуалізують повні скелети тіла, цей підхід уникнув накладення попередніх припущень щодо форми, і, покладаючись виключно на скелетну структуру, модель спонукається виводити форму та зовнішній вигляд тіла безпосередньо з посилочного зображення, зменшуючи упередженість щодо фіксованих типів тіла та покращуючи узагальнення по різних позах та типах тіла.
Під час тренування 3D скелети тіла конкатенуються з сферами голови та подаються в кодувальник пози, який видає особливості, які потім поєднуються з шумними відео-латентними змінними для отримання шумових токенів, використовуваних Diffusion Transformer.
На етапі інференції система враховує відмінності скелетів між суб’єктами шляхом нормалізації довжини кісток. SeedEdit попередньо навчена модель редагування зображень перетворює як посилочне, так і керуюче зображення в стандартну канонічну конфігурацію. RTMPose потім використовується для витягування пропорцій скелета, які використовуються для调整 скелета керування, щоб він відповідав анатомії суб’єкта посилання.

Огляд конвеєра інференції. Псевдо-посилочні зображення можуть бути створені для збагачення ознак зовнішнього вигляду, тоді як гібридні сигнали контролю – імпліцитний рух обличчя та явна поза з сфер голови та скелетів тіла – витягуються з керуючого відео. Ці сигнали потім подаються в модель DiT для отримання анімованого виходу, з рухом обличчя, роз’єднаним від пози тіла, що дозволяє використовувати аудіо як керуючий сигнал.
Керування зовнішнім виглядом
Щоб покращити вірність зовнішнього вигляду, особливо в закритих або рідко видимих областях, система доповнює первинне посилочне зображення псевдо-посилочними зображеннями, вибраними з вхідного відео.
Натисніть, щоб відтворити. Система передбачає необхідність точного та послідовного візуалізації закритих областей. Це майже так близько, як я бачив, в проекті такого типу, до підходу CGI-стилю з текстурою-бітмапом.
Ці додаткові кадри вибираються за допомогою RTMPose для різноманітності поз та фільтруються за допомогою CLIP-основаної схожості, щоб забезпечити їхню відповідність ідентичності суб’єкта.
Усі посилочні кадри (первинні та псевдо) кодуються тим самим візуальним кодувальником та об’єднуються за допомогою механізму самоуваження, дозволяючи моделі доступ до додаткових ознак зовнішнього вигляду. Ця конфігурація покращує охоплення деталей, таких як профільні види або текстури кінцівок. Псевдо-посилочні зображення завжди використовуються під час тренування та опційно під час інференції.
Тренування
DreamActor був тренований у три етапи, щоб поступово вводити складність та покращувати стабільність.
На першому етапі використовувалися лише 3D скелети тіла та 3D сфери голови як сигнали контролю, виключаючи представлення обличчя. Це дозволило базовій моделі відео генерації, ініціалізованій з MMDiT, адаптуватися до анімації людини без перевантаження тонкими контролями.
На другому етапі були додані імпліцитні представлення обличчя, але всі інші параметри заморожені. Тільки кодувальник руху обличчя та шар уваження обличчя тренувалися на цьому етапі, дозволяючи моделі вивчити виразні деталі в ізоляції.
На третьому етапі всі параметри були розморожені для спільної оптимізації зовнішнього вигляду, пози та динаміки обличчя.
Дані та тести
Для фази тестування модель ініціалізується з попередньо навченої точки відео-до-відео DiT та тренується у три етапи: 20 000 кроків для кожного з перших двох етапів та 30 000 кроків для третього.
Щоб покращити узагальнення по різним тривалостям та роздільностям, відео-кліпи випадково вибиралися з тривалістю між 25 та 121 кадром. Ці кліпи потім масштабувалися до 960×640 пікселів, зберігаючи співвідношення сторін.
Тренування проводилися на восьми (Китай-орієнтованих) NVIDIA H20 GPU, кожна з 96 ГБ відеопам’яті, за допомогою AdamW оптимізатора з (терпимо високою) швидкістю навчання 5e−6.
На етапі інференції кожний відео-сегмент містив 73 кадри. Щоб зберегти послідовність по сегментах, останній латентний з одного сегмента повторно використовувався як початковий латентний для наступного, що контекстуалізує завдання як послідовну генерацію зображення-до-відео.
Класифікаторне керування застосовувалося з вагою 2,5 для як посилочного зображення, так і сигналів контролю руху.
Автори сконструювали набір тренувальних даних (жодних джерел не зазначено в статті) з 500 годин відео, отриманих з різноманітних доменів, що містять приклади (серед інших) танців, спорту, фільмів та публічних виступів. Набір даних був розроблений для захоплення широкого спектру руху та виразів людини, з рівномірним розподілом між повним та напівтілом кадрами.
Щоб підвищити якість синтезу обличчя, Nersemble був включений у процес підготовки даних.

Приклади з набору даних Nersemble, використаного для доповнення даних для DreamActor. Джерело: https://www.youtube.com/watch?v=a-OAWqBzldU
Для оцінки дослідники використовували свій набір даних також як бенчмарк для оцінки узагальнення по різним сценаріям.
Вихідна якість моделі оцінювалася за допомогою стандартних метрик з попередньої роботи: Fréchet Inception Distance (FID); Structural Similarity Index (SSIM); Learned Perceptual Image Patch Similarity (LPIPS); та Peak Signal-to-Noise Ratio (PSNR) для якості кадрів. Fréchet Video Distance (FVD) використовувався для оцінки тимчасової узгодженості та загальної відео-відтворення.
Автори провели експерименти як над анімацією тіла, так і над анімацією портрета, всі з яких використовували одне (цільове) посилочне зображення.
Для анімації тіла DreamActor-M1 порівнювався з Animate Anyone; Champ; MimicMotion, та DisPose.

Кількісні порівняння з конкуруючими рамками.
Хоча PDF надає статичне зображення як візуальне порівняння, одне з відео з проекту може краще показати відмінності:
АУДІО КОНТЕНТ. Натисніть, щоб відтворити. Візуальне порівняння по конкуруючим рамкам. Керуюче відео видно зверху ліворуч, і висновок авторів, що DreamActor дає кращі результати, здається розумним.
Для тестів портретної анімації модель оцінювалася проти LivePortrait; X-Portrait; SkyReels-A1; та Act-One.

Кількісні порівняння для портретної анімації.
Автори зазначають, що їхній метод виграє в кількісних тестах, і стверджують, що він також кращий якісно.
АУДІО КОНТЕНТ. Натисніть, щоб відтворити. Приклади порівнянь портретної анімації.
Достеменно, третій і останній з кліпів, показаних у відео вище, демонструє менш переконливу синхронізацію руху губ порівняно з деякими конкуруючими рамками, хоча загальна якість вкрай висока.
Висновок
Очікуючи необхідність текстур, які припускаються, але не присутні в єдиному ціловому зображенні, яке живить ці рекреації, Bytedance вирішив одну з найбільших проблем, з яких стикається генерація відео на основі дифузії – послідовні та тривалі текстури. Наступним логічним кроком після вдосконалення такого підходу було б створити посилочну атлас з початкового згенерованого кліпу, який можна було б застосувати до наступних, різних генерацій, щоб зберегти зовнішній вигляд без LoRAs.
Хоча такий підхід фактично все ще був би зовнішнім посиланням, це не відрізняється від текстур-маппінгу в традиційних техніках CGI, а якість реалізму та правдоподібності значно вища, ніж ті, яких можуть досягти старіші методи.
Тим не менш, найбільш вражаючою особливістю DreamActor є комбінована тричастинна система керування, яка мостить традиційний розрив між орієнтованою на обличчя та орієнтованою на тіло людською синтезою génialним способом.
Залишається тільки побачити, чи деякі з цих основних принципів можуть бути використані в більш доступних пропозиціях; поки що DreamActor, здається, призначений стати ще однією пропозицією синтезу-як-служба, серйозно обмеженою обмеженнями на використання та недоцільністю експериментування з комерційною архітектурою.
* Моя заміна гіперпосилань на посилання авторів; внутрішні посилання
† Як згадувалося раніше, неясно, який саме варіант Stable Diffusion був використаний в цьому проекті.
Опубліковано вперше п’ятниця, 4 квітня 2025












