Взгляд Anderson

Значительный прогресс в области видео, управляемого человеком, с помощью ИИ

Published April 4, 2025

Updated April 3, 2026

Martin Anderson

Examples from the DreamActor project page.

Примечание: Страница проекта этой работы содержит 33 автозапускаемых видеоролики высокого разрешения, общим объемом половину гигабайта, что дестабилизировало мою систему при загрузке. По этой причине я не буду ссылаться на него напрямую. Читатели могут найти URL-адрес в аннотации или PDF-документе, если они хотят.

Одной из основных целей текущих исследований синтеза видео является генерация полного видеоперформанса, управляемого ИИ, из одного изображения. На этой неделе новая статья от Bytedance Intelligent Creation описала, возможно, наиболее комплексную систему этого типа, способную производить полные и полуторные анимации, которые сочетают выразительные детали лица с точными крупномасштабными движениями, а также достигают улучшенной согласованности идентичности – область, где даже ведущие коммерческие системы часто терпят неудачу.

В примере ниже мы видим выступление, управляемое актером (вверху слева), и полученное из одного изображения (вверху справа), которое обеспечивает замечательно гибкое и ловкое представление, без обычных проблем с созданием крупных движений или “угадыванием” о скрытых областях (т.е. частей одежды и углов лица, которые должны быть выведены или изобретены, поскольку они не видны в единственном источнике-фото):

Аудиоконтент. Нажмите, чтобы воспроизвести. Выступление рождается из двух источников, включая синхронизацию губ, которая обычно является прерогативой специальных вспомогательных систем. Это уменьшенная версия с исходного сайта (см. примечание в начале статьи – применяется ко всем другим встроенным видеороликам здесь).

Хотя мы можем увидеть некоторые остаточные проблемы, связанные с сохранением идентичности при каждом клипе, это первая система, которую я видел, которая превосходно (хотя не всегда) сохраняет идентичность в течение длительного периода без использования LoRAs:

Аудиоконтент. Нажмите, чтобы воспроизвести. Дополнительные примеры из проекта DreamActor.

Новая система, озаглавленная DreamActor, использует трехчастную гибридную систему управления, которая уделяет специальное внимание выражению лица, вращению головы и проектированию скелета, тем самым обеспечивая выступления, управляемые ИИ, где ни лицо, ни тело не страдают за счет друг друга – редкая, возможно, неизвестная способность среди подобных систем.

Ниже мы видим одну из этих граней, вращение головы, в действии. Цветной шар в углу каждого миниатюрного изображения справа указывает на своего рода виртуальный кардан, который определяет ориентацию головы независимо от движения лица и выражения, которое здесь управляется актером (внизу слева).

Нажмите, чтобы воспроизвести. Мультicolored шар, визуализированный здесь, представляет ось вращения головы аватара, а выражение управляется отдельным модулем и информируется выступлением актера (видно здесь внизу слева).

Одной из наиболее интересных функций проекта, которая даже не включена должным образом в тесты статьи, является его способность получать движение синхронизации губ напрямую из аудио – возможность, которая работает необычно хорошо даже без управляющего видео актера.

Исследователи приняли на себя лучших действующих лиц в этом преследовании, включая многохваленный Runway Act-One и LivePortrait, и сообщили, что DreamActor смог достичь лучших количественных результатов.

Поскольку исследователи могут устанавливать свои собственные критерии, количественные результаты не обязательно являются эмпирическим стандартом; но сопровождающие качественные тесты, кажется, поддерживают выводы авторов.

К сожалению, эта система не предназначена для публичного выпуска, и единственная ценность, которую сообщество может потенциально получить от работы, заключается в потенциальном воспроизведении методологий, изложенных в статье (как это было сделано с заметным эффектом для равно закрытого Google Dreambooth в 2022 году).

Статья гласит*:

‘Анимация человеческого изображения имеет возможные социальные риски, такие как неправильное использование для создания фальшивых видеороликов. Предлагаемая технология может быть использована для создания фальшивых видеороликов людей, но существующие инструменты обнаружения [Demamba, Dormant] могут обнаружить эти фальшивки.

‘Чтобы уменьшить эти риски, необходимы четкие этические правила и рекомендации по ответственной эксплуатации. Мы будем строго ограничивать доступ к нашим основным моделям и кодам, чтобы предотвратить неправильное использование.’

Естественно, этические соображения этого типа удобны с коммерческой точки зрения, поскольку они предоставляют обоснование для доступа только к API-модели, который может быть затем монетизирован. ByteDance уже сделал это один раз в 2025 году, сделав многохваленный OmniHuman доступным для оплаченных кредитов на сайте Dreamina. Следовательно, поскольку DreamActor, возможно, является еще более сильным продуктом, это, кажется, вероятный исход. Что остается быть увиденным, это то, насколько его принципы, насколько они объяснены в статье, могут помочь открытому сообществу.

Новая статья называется DreamActor-M1: Гolistичная, выразительная и прочная анимация человеческого изображения с гибридным руководством, и исходит от шести исследователей Bytedance.

Метод

Система DreamActor, предложенная в статье, направлена на генерацию анимации человека из справочного изображения и управляющего видео, используя Diffusion Transformer (DiT) -фреймворк, адаптированный для латентного пространства (видимо, некоторый вкус Stable Diffusion, хотя статья цитирует только выпуск 2022 года).

Вместо того, чтобы полагаться на внешние модули для обработки справочного условного, авторы объединяют функции внешнего вида и движения непосредственно внутри основной части DiT, позволяя взаимодействовать во времени и пространстве через внимание:

Схема новой системы: DreamActor кодирует позу, движение лица и внешний вид в отдельные латентные переменные, объединяя их с зашумленными видеолатентными переменными, произведенными 3D-VAE. Эти сигналы объединяются внутри Diffusion Transformer с помощью само- и перекрестного внимания, с общими весами по ветвям. Модель контролируется путем сравнения очищенных выходов с чистыми видеолатентными переменными. Источник: https://arxiv.org/pdf/2504.01724

Чтобы сделать это, модель использует предварительно обученный 3D вариационный автокодировщик для кодирования как входного видео, так и справочного изображения. Эти латентные переменные патчифицируются, объединяются и вводятся в DiT, который обрабатывает их совместно.

Эта архитектура отличается от обычной практики присоединения второстепенной сети для инъекции справочного материала, которая была подходом для влиятельных Animate Anyone и Animate Anyone 2 проектов.

Вместо этого DreamActor строит слияние в самой модели, упрощая конструкцию, а также улучшая поток информации между подсказками внешнего вида и движения. Модель затем обучается с помощью соответствия потока вместо стандартной цели диффузии (соответствие потока обучает модели диффузии путем прямого прогнозирования скоростных полей между данными и шумом, пропуская оценку баллов).

Гибридное руководство движением

Метод гибридного руководства движением, который информирует нейронные рендеринги, сочетает токены позы, полученные из 3D-скелетов тела и сфер головы; неявные представления лица, извлеченные предварительно обученным кодировщиком лица; и токены внешнего вида справочного изображения.

Эти элементы интегрируются внутри Diffusion Transformer с помощью различных механизмов внимания, позволяя системе координировать глобальное движение, выражение лица и визуальную идентичность на протяжении всего процесса генерации.

Для первого из них, вместо того, чтобы полагаться на ориентиры лица, DreamActor использует неявные представления лица для управления генерацией выражения, что, видимо, позволяет более тонкий контроль над динамикой лица, а также разъединяет идентичность и положение головы от выражения.

Чтобы создать эти представления, конвейер сначала обнаруживает и обрезает область лица в каждом кадре управляющего видео, изменяя его размер до 224×224. Обрезанные лица обрабатываются кодировщиком движения лица, предварительно обученным на PD-FGC наборе данных, который затем обусловлен слоем MLP.

PD-FGC, используемый в DreamActor, генерирует говорящую голову из справочного изображения с дезентangled контролем над синхронизацией губ (из аудио), положением головы, движением глаз и выражением (из отдельных видеороликов), что позволяет точный, независимый манипулирование каждым. Источник: https://arxiv.org/pdf/2211.14506

Результатом является последовательность токенов движения лица, которые вводятся в Diffusion Transformer через слой перекрестного внимания.

Та же самая конструкция также поддерживает аудио-управляемую вариацию, в которой отдельный кодировщик обучается для сопоставления входных аудиоданных напрямую с токенами движения лица. Это позволяет генерировать синхронизированную анимацию лица – включая движения губ – без управляющего видео.

Аудиоконтент. Нажмите, чтобы воспроизвести. Синхронизация губ, полученная напрямую из аудио, без справочного видео актера. Единственный входной персонаж – статическое фото, видимое вверху справа.

Вторым, чтобы контролировать положение головы независимо от выражения лица, система вводит представление сферы головы (см. видеоролик, встроенный ранее в эту статью), которое декуплирует динамику лица от глобального движения головы, улучшая точность и гибкость во время анимации.

Сферы головы генерируются путем извлечения 3D-параметров лица – таких как вращение и положение камеры – из управляющего видео с помощью метода FaceVerse отслеживания.

Схема проекта FaceVerse. Источник: https://www.liuyebin.com/faceverse/faceverse.html

Эти параметры используются для рендеринга цветной сферы, проецируемой на 2D-плоскость изображения, пространственно выровненной с управляющей головой. Размер сферы соответствует справочному голове, а ее цвет отражает ориентацию головы. Этот абстракт уменьшает сложность обучения 3D-движения головы, помогая сохранить стилизованные или преувеличенные формы головы в персонажах, взятых из анимации.

Визуализация сферы управления, влияющей на ориентацию головы.

Наконец, чтобы контролировать движение всего тела, система использует 3D-скелеты тела с адаптивной нормализацией длины костей. Параметры тела и рук оцениваются с помощью 4DHumans и ориентированного на руку HaMeR, которые работают на SMPL-X модели тела.

SMPL-X применяет параметрическую сетку к всему человеческому телу в изображении, выравнивая с оцененной позой и выражением, чтобы обеспечить манипулирование позой с помощью сетки в качестве объемного руководства. Источник: https://arxiv.org/pdf/1904.05866

Из этих выходов выбираются ключевые суставы, проецируются в 2D и соединяются в линейные карты скелета. В отличие от методов, таких как Champ, которые рендерят полные сетки тела, этот подход избегает навязывания предварительно определенных приоритетов формы, и, полагаясь только на скелетную структуру, модель поощряется к выводу формы и внешнего вида тела直接 из справочных изображений, уменьшая предвзятость к фиксированным типам тела и улучшая обобщение на различные позы и типы телосложения.

Во время обучения 3D-скелеты тела объединяются с сферами головы и проходят через кодировщик позы, который выводит функции, которые затем объединяются с зашумленными видеолатентными переменными для производства шумовых токенов, используемых Diffusion Transformer.

В момент вывода система учитывает различия в скелетных пропорциях между субъектами, нормализуя длины костей. Предварительно обученная модель редактирования изображений SeedEdit преобразует как справочные, так и управляющие изображения в стандартную каноническую конфигурацию. RTMPose затем используется для извлечения скелетных пропорций, которые используются для корректировки управляющего скелета, чтобы он соответствовал анатомии справочного субъекта.

Обзор конвейера вывода. Псевдосправочные изображения могут быть сгенерированы для обогащения подсказок внешнего вида, а гибридные сигналы управления – неявное движение лица и явная поза из сфер головы и скелетов тела – извлекаются из управляющего видео. Эти сигналы затем вводятся в модель DiT для производства анимированного вывода, с движением лица, декуплированным от позы тела, что позволяет использовать аудио в качестве драйвера.

Руководство внешним видом

Чтобы повысить верность внешнего вида, особенно в скрытых или редко видимых областях, система дополняет основное справочное изображение псевдосправочными изображениями, отобранными из входного видео.

Нажмите, чтобы воспроизвести. Система предвидит необходимость точно и последовательно рендерить скрытые области. Это, пожалуй, один из ближайших подходов к подходу CGI-стиля bitmap-текстуры, который я видел в проекте такого типа.

Эти дополнительные кадры выбираются по разнообразию позы с помощью RTMPose и фильтруются с помощью CLIP-основанного сходства, чтобы гарантировать, что они остаются согласованными с идентичностью субъекта.

Все справочные кадры (основные и псевдосправочные) кодируются одним и тем же визуальным кодировщиком и объединяются через механизм само-внимания, позволяя модели получить доступ к дополнительным подсказкам внешнего вида. Эта конструкция улучшает охват деталей, таких как профильные виды или текстуры конечностей. Псевдосправочные изображения всегда используются во время обучения и необязательно во время вывода.

Обучение

DreamActor был обучен в три этапа, чтобы постепенно ввести сложность и улучшить стабильность.

На первом этапе использовались только 3D-скелеты тела и 3D-сферы головы в качестве сигналов управления, исключая представления лица. Это позволило базовой модели видеогенерации, инициализированной из MMDiT, адаптироваться к анимации человека без того, чтобы быть подавленной тонкими контролями.

На втором этапе были добавлены неявные представления лица, но все остальные параметры заморожены. Только кодировщик движения лица и слои внимания лица были обучены на этом этапе, позволяя модели изучить выразительные детали в изоляции.

На третьем этапе все параметры были разморожены для совместной оптимизации по внешнему виду, позе и динамике лица.

Данные и тесты

Для фазы тестирования модель инициализируется из предварительно обученной точки контроля DiT и обучается в три этапа: 20 000 шагов для каждого из первых двух этапов и 30 000 шагов для третьего.

Чтобы улучшить обобщение на различные продолжительности и разрешения, видеоклипы случайным образом выбирались с длинами от 25 до 121 кадра. Эти затем изменялись в размере до 960x640px, сохраняя при этом соотношение сторон.

Обучение выполнялось на восьми (ориентированных на Китай) NVIDIA H20 GPU, каждая с 96ГБ видеопамяти, используя оптимизатор AdamW с (терпимо высокой) скоростью обучения 5e−6.

В момент вывода каждый сегмент видео содержал 73 кадра. Чтобы сохранить последовательность между сегментами, окончательная латентная переменная из одного сегмента повторно использовалась в качестве начальной латентной переменной для следующего, что контекстуализирует задачу как последовательную генерацию изображения в видео.

Классификаторное руководство применялось со весом 2,5 как для справочных изображений, так и для сигналов управления движением.

Авторы построили набор данных для обучения (никаких источников не указано в статье), состоящий из 500 часов видео, полученных из различных доменов, представляющих (среди прочего) танцы, спорт, фильмы и публичные выступления. Набор данных был разработан для захвата широкого спектра человеческого движения и выражения, с равномерным распределением между полными и полуторными кадрами.

Чтобы повысить качество синтеза лица, Nersemble был включен в процесс подготовки данных.

Примеры из набора данных Nersemble, использованного для дополнения данных для DreamActor. Источник: https://www.youtube.com/watch?v=a-OAWqBzldU

Для оценки исследователи использовали свой набор данных также в качестве эталонного для оценки обобщения на различные сценарии.

Производительность модели измерялась с помощью стандартных метрик из предыдущих работ: расстояние Фрэше-Инсепшена (FID); индекс структурированного подобия (SSIM); изученная перцептивная подобия патчей изображений (LPIPS); и пиковая отношение сигнал-шум (PSNR) для качества кадра. расстояние Фрэше-видео (FVD) использовалось для оценки временной согласованности и общей верности видео.

Авторы провели эксперименты на задачах анимации тела и портрета, все из которых использовали одно (целевое) справочное изображение.

Для анимации тела DreamActor-M1 сравнивался с Animate Anyone; Champ; MimicMotion, и DisPose.

Количественные сравнения с конкурирующими фреймворками.

Хотя PDF предоставляет статическое изображение в качестве визуального сравнения, один из видеороликов с проектного сайта может подчеркнуть различия более четко:

Аудиоконтент. Нажмите, чтобы воспроизвести. Визуальное сравнение между конкурирующими фреймворками. Управляющее видео видно вверху слева, и вывод авторов о том, что DreamActor производит лучшие результаты, кажется разумным.

Для тестов портретной анимации модель оценивалась против LivePortrait; X-Portrait; SkyReels-A1; и Act-One.

Количественные сравнения для портретной анимации.

Авторы отмечают, что их метод выигрывает в количественных тестах, и утверждают, что он также качественно превосходен.

Аудиоконтент. Нажмите, чтобы воспроизвести. Примеры сравнений портретной анимации.

Спорно, что третий и последний из показанных в видеоролике выше клипов демонстрирует менее убедительную синхронизацию губ по сравнению с некоторыми из конкурирующих фреймворков, хотя общее качество замечательно высоко.

Вывод

Предвидя необходимость текстур, которые подразумеваются, но не фактически присутствуют в единственном целевом изображении, которое питает эти рекреации, Bytedance решает одну из самых больших проблем, с которыми сталкивается генерация видео на основе диффузии – последовательные, постоянные текстуры. Следующий логический шаг после совершенствования такого подхода будет заключаться в создании справочного атласа из первоначально сгенерированного клипа, который можно применить к последующим, различным генерациям, чтобы сохранить внешний вид без LoRAs.

Хотя такой подход будет по сути все равно внешней справкой, это не отличается от текстур-маппинга в традиционных методах CGI, и качество реализма и правдоподобия намного выше, чем то, которое могут получить эти старые методы.

Тем не менее, наиболее впечатляющим аспектом DreamActor является объединенная трехчастная система руководства, которая мостит традиционный разрыв между синтезом, ориентированным на лицо, и синтезом, ориентированным на тело, в изобретательной форме.

Остается только увидеть, смогут ли некоторые из этих основных принципов быть использованы в более доступных предложениях; поскольку сейчас DreamActor, кажется, предназначен для того, чтобы стать еще одним предложением синтеза в качестве сервиса, сильно ограниченным ограничениями на использование и непрактичностью обширных экспериментов с коммерческой архитектурой.

* Моя замена гиперссылок для авторов; внутренние цитаты

^†Как упоминалось ранее, неясно, какой вкус Stable Diffusion был использован в этом проекте.

Опубликовано впервые в пятницу, 4 апреля 2025 года