Искусственный интеллект

Новая система для временно последовательных стабильных диффузионных видеоперсонажей

Published September 25, 2024

Updated April 3, 2026

Martin Anderson

A capture from the project page of MIMO (https://menyifang.github.io/projects/MIMO/index.html), depicting a motion-driven wolf creature.

Новая инициатива от группы Alibaba предлагает один из лучших методов, которые я видел, для генерации полноценных человеческих аватаров на основе модели основы Stable Diffusion.

Названная MIMO (MIMикирование с Объектными Взаимодействиями), система использует ряд популярных технологий и модулей, включая модели человека на основе CGI и AnimateDiff, для обеспечения временно последовательной замены персонажей в видео – или для управления персонажем с помощью пользовательской скелетной позы.

Здесь мы видим персонажей, интерполированных из единственного источника изображения, и управляемых предопределенным движением:

[Нажмите видео ниже, чтобы воспроизвести]

Из единственного источника изображения три разнообразных персонажа управляются 3D-позой (в крайнем левом углу) с помощью системы MIMO. Посмотрите страницу проекта и сопровождающее видео на YouTube (встроенное в конце этой статьи) для более примеров и лучшего разрешения. Источник: https://menyifang.github.io/projects/MIMO/index.html

Сгенерированные персонажи, которые также могут быть получены из кадров видео и различных других источников, могут быть интегрированы в реальные кадры.

MIMO предлагает новую систему, которая генерирует три дискретных кодирования, каждое для персонажа, сцены и окуляции (т.е. матирования, когда какой-либо объект или человек проходит перед персонажем, который изображается). Эти кодирования интегрируются во время вывода.

[Нажмите видео ниже, чтобы воспроизвести]

MIMO может заменить исходных персонажей фотореалистичными или стилизованными персонажами, которые следуют движению из целевого видео. Посмотрите страницу проекта и сопровождающее видео на YouTube (встроенное в конце этой статьи) для более примеров и лучшего разрешения.

Система обучена на модели Stable Diffusion V1.5, используя пользовательскую базу данных, отобранную исследователями, и состоящую равномерно из реальных и симулированных видео.

Большой недостаток диффузионного видео – это временная стабильность, где содержание видео либо мигает, либо «эволюционирует» способами, которые не желательны для последовательного представления персонажа.

MIMO, вместо этого, эффективно использует единственное изображение в качестве карты для последовательного руководства, которое может быть оркестрировано и ограничено промежуточной SMPL моделью CGI.

Поскольку исходный источник последовательный, и базовая модель, над которой обучена система, была улучшена с достаточными представительными примерами движения, возможности системы для временно последовательного вывода намного выше общего стандарта для диффузионных аватаров.

[Нажмите видео ниже, чтобы воспроизвести]

Дополнительные примеры персонажей MIMO, управляемых позой. Посмотрите страницу проекта и сопровождающее видео на YouTube (встроенное в конце этой статьи) для более примеров и лучшего разрешения.

Становится все более распространенным использовать единственные изображения в качестве источника для эффективных нейронных представлений, либо самостоятельно, либо в многомодальном виде, в сочетании с текстовыми подсказками. Например, популярная LivePortrait система переноса лица также может генерировать очень правдоподобные глубокие подделки из единственного изображения лица.

Исследователи считают, что принципы, используемые в системе MIMO, могут быть расширены на другие и новые типы генеративных систем и рамок.

Новая статья названа MIMO: Контролируемый синтез видеоперсонажей с пространственно-разделенным моделированием, и исходит от четырех исследователей Института интеллектуальных вычислений группы Alibaba. Работа имеет видео-насыщенную страницу проекта и сопровождающее видео на YouTube, которое также встроено в конце этой статьи.

Метод

MIMO достигает автоматического и непосредственного разделения вышеупомянутых трех пространственных компонентов, в архитектуре «конец в конец» (т.е. все подсистемы интегрированы в систему, и пользователю необходимо только предоставить входной материал).

Концептуальная схема MIMO. Источник: https://arxiv.org/pdf/2409.16160

Объекты в исходных видео переводятся из 2D в 3D, изначально используя оценщик монокулярной глубины Depth Anything. Человеческий элемент в любом кадре извлекается методами, адаптированными из проекта Tune-A-Video.

Эти функции затем переводятся в видео-объемные фасеты через архитектуру Segment Anything 2 от Facebook Research.

Сам слой сцены получается путем удаления объектов, обнаруженных в двух других слоях, эффективно обеспечивая маску ротоскопа.

Для движения используется набор извлеченных латентных кодов для человеческого элемента, закрепленных за моделью SMPL CGI по умолчанию, чьи движения обеспечивают контекст для отображаемого человеческого контента.

2D-карта функций для человеческого контента получается с помощью дифференцируемого растеризатора, полученного из инициативы 2020 года от NVIDIA. Объединив полученные 3D-данные из SMPL с 2D-данными, полученными методом NVIDIA, латентные коды, представляющие «нейронного человека», имеют прочную соответствие их будущему контексту.

В этот момент необходимо установить ссылку, обычно необходимую в архитектурах, которые используют SMPL – каноническую позу. Это в целом похоже на «витрувианского человека» Да Винчи, поскольку представляет собой шаблон нулевой позы, который может принять контент, а затем быть деформированным, приносящим (эффективно) текстурированный контент с ним.

Эти деформации или «отклонения от нормы» представляют человеческое движение, в то время как модель SMPL сохраняет латентные коды, которые составляют человеческую идентичность, извлеченную и таким образом представляет полученного аватара правильно в плане позы и текстуры.

Пример канонической позы в фигуре SMPL. Источник: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264

Что касается проблемы переплетения (степени, в которой обученные данные могут оказаться негибкими, когда вы растягиваете их за пределы их обучающих ограничений и ассоциаций), авторы заявляют*:

«Чтобы полностью разъединить внешний вид от позированных кадров видео, идеальным решением будет выучить динамическое человеческое представление из монокулярного видео и преобразовать его из позированного пространства в каноническое пространство.

«Учитывая эффективность, мы используем упрощенный метод, который напрямую преобразует позированное человеческое изображение в канонический результат в стандартной позе А с помощью предварительно обученной модели человеческой позы. Синтезированное каноническое изображение внешнего вида подается в кодировщики идентификатора, чтобы получить код [идентификатора].

«Этот простой дизайн обеспечивает полное разъединение идентичности и атрибутов движения. Следуя [Animate Anyone], кодировщики идентификатора включают кодировщик изображения CLIP и архитектуру reference-net, чтобы внедрить глобальную и локальную функцию [соответственно].»

Для аспектов сцены и окуляции используется общий и фиксированный автоэнкодер (VAE – в данном случае полученный из публикации 2013 года), чтобы внедрить элементы сцены и окуляции в латентное пространство. Несовместимости обрабатываются методом закраски из проекта ProPainter 2023 года.

Как только они собраны и доработаны таким образом, и фон, и любые окулирующие объекты в видео будут обеспечивать мат для движущегося человеческого аватара.

Эти разложенные атрибуты затем подают в архитектуру U-Net, основанную на архитектуре Stable Diffusion V1.5. Полный код сцены объединяется с родным шумом системы. Человеческий компонент интегрируется через само-внимание и слои перекрестного внимания соответственно.

Затем очищенный результат выводится через декодер VAE.

Данные и тесты

Для обучения исследователи создали базу данных видео HUD-7K, состоящую из 5 000 реальных видео персонажей и 2 000 синтетических анимаций, созданных системой En3D. Реальные видео не требовали аннотации, благодаря не-семантической природе процедур извлечения фигур в архитектуре MIMO.

Модель была обучена на восьми GPU NVIDIA A100 (хотя статья не указывает, были ли это модели с 40GB или 80GB VRAM), в течение 50 итераций, используя 24 кадра видео и размер партии четыре, до сходимости.

Модуль движения для системы был обучен на весах AnimateDiff. Во время процесса обучения веса кодировщика/декодировщика VAE и кодировщика изображения CLIP были заморожены (в отличие от полного тонкого настройки, который будет иметь более широкий эффект на базовую модель).

Хотя MIMO не был протестирован на аналогичных системах, исследователи протестировали его на трудных последовательностях движения вне распределения, полученных из AMASS и Mixamo. Эти движения включали лазание, игру и танцы.

Они также протестировали систему на видео с людьми в дикой природе. В обоих случаях статья сообщает о «высокой устойчивости» для этих не виденных 3D-движений с разных точек зрения.

Хотя статья предлагает несколько статических изображений, демонстрирующих эффективность системы, истинная производительность MIMO лучше всего оценивается с помощью обширных видеорезультатов, предоставленных на странице проекта, и в видео на YouTube, встроенном ниже (из которого видео в начале этой статьи были получены).

Авторы заключают:

«Экспериментальные результаты [демонстрируют], что наш метод обеспечивает не только гибкий контроль персонажа, движения и сцены, но также продвинутую масштабируемость для произвольных персонажей, общность для новых 3D-движений и применимость для интерактивных сцен.

«Мы также [считаем], что наше решение, которое учитывает внутреннюю 3D-природу и автоматически кодирует 2D-видео в иерархические пространственные компоненты, может вдохновить будущие исследования 3D-видео синтеза.

«Кроме того, наша рамка не только хорошо подходит для генерации видео персонажей, но также может быть потенциально адаптирована для других задач контролируемого видео синтеза.»

Заключение

Приятно видеть систему аватаров на основе Stable Diffusion, которая, кажется, способна обеспечить такую временную стабильность – не в последнюю очередь потому, что аватары Gaussian, кажется, занимают высокую позицию в этом конкретном исследовательском секторе.

Стилизованные аватары, представленные в результатах, эффективны, и хотя уровень фотореализма, который может производить MIMO, в настоящее время не равен тому, что может сделать Gaussian Splatting, разнообразные преимущества создания временно последовательных людей в семантической основе сети диффузионного моделирования (LDM) значительны.