Штучний інтелект
Нова система для тимчасово сталої дифузії відеоперсонажів

Нова ініціатива від компанії Alibaba Group пропонує один з найкращих методів, який я бачив, для генерації повністю людських аватарів на основі моделі Stable Diffusion.
Названа MIMO (MIMікуючи з Oб’єктами взаємодії), система використовує ряд популярних технологій і модулів, включаючи моделі людських аватарів на основі CGI і AnimateDiff, для забезпечення тимчасово сталої заміни персонажів у відео – або ж для керування персонажем за допомогою користувачем визначеної скелетної пози.
Тут ми бачимо персонажів, інтерполовані з одного джерела зображення, і керованих за допомогою попередньо визначеної руху:
[Натисніть відео нижче, щоб відтворити]
Від одного джерела зображення три різні персонажі керуються за допомогою 3D-позиційної послідовності (далеко ліворуч) за допомогою системи MIMO. Перегляньте сторінку проекту та супровідне відео на YouTube (вбудоване в кінці цієї статті) для більшої кількості прикладів і вищої роздільної здатності. Джерело: https://menyifang.github.io/projects/MIMO/index.html
Генеровані персонажі, які також можуть бути отримані з кадрів відео і в різних інших способах, можуть бути інтегровані в реальне відео.
MIMO пропонує нову систему, яка генерує три окремі кодування, кожне для персонажа, сцени і окуляції (тобто, матting, коли якийсь об’єкт або людина проходить перед персонажем, який зображується). Ці кодування інтегруються під час висновку.
[Натисніть відео нижче, щоб відтворити]
MIMO може замінити оригінальних персонажів на фотореалістичні або стилізовані персонажі, які слідують руху з цільового відео. Перегляньте сторінку проекту та супровідне відео на YouTube (вбудоване в кінці цієї статті) для більшої кількості прикладів і вищої роздільної здатності.
Система тренується над моделлю Stable Diffusion V1.5, використовуючи спеціально створений набір даних, кураторами якого є дослідники, і складається рівними частинами з реального відео і симульованих відео.
Велика проблема дифузійних відео – це тимчасова стабільність, де вміст відео або миготить, або “еволюціонує” способами, які не бажані для сталої репрезентації персонажів.
MIMO, натомість, ефективно використовує одне зображення як карту для сталої керівництва, яке може бути оркестровано і обмежено за допомогою інтерстиціальних SMPL моделей CGI.
Оскільки джерело посилання є сталим, а базова модель, над якою система тренується, була покращена з достатнім представницьким рухом прикладами, здатності системи для тимчасово сталого виводу значно вищі за загальний стандарт для дифузійних аватарів.
[Натисніть відео нижче, щоб відтворити]
Додаткові приклади персонажів MIMO, керованих позою. Перегляньте сторінку проекту та супровідне відео на YouTube (вбудоване в кінці цієї статті) для більшої кількості прикладів і вищої роздільної здатності.
Стає все більш звичайним використовувати один зображення як джерело для ефективних нейронних репрезентацій, або самостійно, або в мультимодальному вигляді, поєднані з текстовими підказками. Наприклад, популярна система LivePortrait може також генерувати дуже правдоподібні глибоко підроблені обличчя від одного зображення обличчя.
Дослідники вважають, що принципи, використані в системі MIMO, можуть бути розширені на інші і нові типи генеративних систем і рамок.
Нова робота нової статті називається MIMO: Контрольована синтез відеоперсонажів з просторово розкладеним моделюванням, і походить від чотирьох дослідників Інституту інтелектуальних обчислень компанії Alibaba Group. Робота має відеозапис сторінку проекту і супровідне відео на YouTube, яке також вбудоване в кінці цієї статті.
Метод
MIMO досягає автоматичного і без нагляду розділення трьох вище згаданих просторових компонентів, в архітектурі від початку до кінця (тобто, всі субпроцеси інтегровані в систему, і користувачеві потрібно тільки надати вхідний матеріал).

Концептуальна схема для MIMO. Джерело: https://arxiv.org/pdf/2409.16160
Об’єкти в джерельних відео перекладаються з 2D в 3D, спочатку використовуючи монокулярний оцінювач глибини Depth Anything. Людський елемент у будь-якому кадрі витягується методами, адаптованими з проекту Tune-A-Video.
Ці функції потім перекладаються у відеооб’ємні грані через архітектуру Segment Anything 2 від Facebook Research.
Сам шар сцени отримується шляхом видалення об’єктів, виявлених у двох інших шарах, ефективно надаючи маску типу ротоскопа автоматично.
Для руху витягується набір витягнутих латентних кодів для людського елемента, закріплених за замовчуванням до моделі людського CGI SMPL, рухи якої надають контекст для відтвореного людського вмісту.
2D функційна карта для людського вмісту отримується за допомогою диференціального рastery, отриманого з ініціативи 2020 року від NVIDIA. Об’єднуючи отримані 3D-дані з SMPL з 2D-даними, отриманими методом NVIDIA, латентні коди, які представляють “нейронну людину”, мають тверду відповідність їхньому майбутньому контексту.
На цьому етапі необхідно встановити посилання, яке зазвичай потрібно в архітектурах, які використовують SMPL – канонічну позу. Це загалом схоже на “Вітрувіанського людину” Да Вінчі, оскільки воно представляє шаблон нуль-пози, який може прийняти вміст і потім бути деформованим,带учи з собою (ефективно) текстуру.
Ці деформації, або “відхилення від норми”, представляють людський рух, тоді як модель SMPL зберігає латентні коди, які становлять людську ідентичність, витягнуту, і таким чином правильно представляє результат аватара щодо пози і текстури.

Приклад канонічної пози в моделі SMPL. Джерело: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264
Відносно питання ентанглементу (степеня, в якій тренувальні дані можуть виявитися негнучкими, коли ви розтягуєте їх за межі їх тренувальних обмежень і асоціацій), автори заявляють*:
‘Щоб повністю роз’єднати зовнішній вигляд від позованих кадрів відео, ідеальним рішенням є вивчити динамічну людину з монокулярного відео і перетворити її з позованого простору в канонічний простір.
‘З огляду на ефективність, ми використовуємо спрощений метод, який безпосередньо перетворює позований людський зображення в канонічний результат у стандартній позі A за допомогою попередньо тренованої моделі людської пози. Синтезований канонічний зображення зовнішнього вигляду подається в кодувальники ідентифікаторів для отримання коду [ідентифікатора].
‘Цей простий дизайн дозволяє повністю роз’єднати ідентичність і рухомі атрибути. За аналогією з [Animate Anyone], кодувальники ідентифікаторів включають кодувальник зображення CLIP і архітектуру reference-net для вкладення глобальних і локальних функцій [відповідно].’
Для сцени і окуляції використовується спільний і фіксований автокодувальник (VAE – в цьому випадку отриманий з публікації 2013 року) для вкладення сцени і окуляції в латентний простір. Несумісності обробляються методом інпейнтингу з проекту ProPainter 2023 року.
Як тільки зібрано і відредаговано таким чином, і фон, і будь-які окуляруючі об’єкти у відео нададуть маску для рухомого людського аватара.
Ці розкладені атрибути потім подаються в U-Net архітектуру, засновану на архітектурі Stable Diffusion V1.5. Повний код сцени конкатенується з вихідним шумом системи. Людський компонент інтегрується через самоуваження і шари взаємного уваги, відповідно.
Потім відфільтрований результат виводиться через декодувальник VAE.
Дані і тести
Для тренування дослідники створили набір даних людського відео під назвою HUD-7K, який складається з 5 000 реальних відео персонажів і 2 000 синтетичних анімацій, створених системою En3D. Реальні відео не потребували жодних анотацій через ненасемантичний характер процедур витягування фігур в архітектурі MIMO. Синтетичні дані були повністю проанотовані.
Модель була тренована на восьми графічних процесорах NVIDIA A100 (хоча робота не вказує, чи були це моделі з 40 ГБ або 80 ГБ відеопам’яті), протягом 50 ітерацій, використовуючи 24 кадри відео і розмір партії чотири, до збіжності.
Модуль руху для системи був тренований на вагах AnimateDiff. Під час процесу тренування ваги кодувальника VAE/декодувальника і кодувальника зображення CLIP були заморожені (на відміну від повного тонкого налаштування, яке матиме набагато ширший вплив на базову модель).
Хоча MIMO не проходив випробування проти аналогічних систем, дослідники випробували його на складних рухових послідовностях, отриманих з AMASS і Mixamo. Ці рухи включали лазіння, гру і танці.
Вони також випробували систему на відео з людиною в дикій природі. В обох випадках робота повідомляє про “високу стабільність” для цих невидимих 3D-рухів, з різних точок зору.
Хоча робота пропонує кілька статичних зображень, які демонструють ефективність системи, справжня продуктивність MIMO найкраще оцінюється за допомогою розширених відео-результатів, представлених на сторінці проекту, і в відео на YouTube, вбудованому нижче (з якого відео на початку цієї статті були отримані).
Автори роблять висновок:
‘Експериментальні результати [демонструють], що наш метод дозволяє не тільки гнучкий контроль персонажа, руху і сцени, але також і розширення до довільних персонажів, загальність до нових 3D-рухів, і застосовність до інтерактивних сцен.
‘Ми також [вважаємо], що наше рішення, яке розглядає вбудований 3D-характер і автоматично кодує 2D-відео в ієрархічні просторові компоненти, може надихнути майбутні дослідження 3D-обізнаного відеосинтезу.
‘Крім того, наша рамка не тільки добре підходить для генерації відео персонажів, але також може бути потенційно адаптована до інших завдань контролю відеосинтезу.’
Висновок
Це освіжаюче бачити систему аватарів, засновану на Stable Diffusion, яка, здається, здатна до такої тимчасової стабільності – не в останню чергу тому, що Гауссові аватари, здається, отримують верхню руку в цьому конкретному дослідному секторі.
Стилізовані аватари, представлені в результатах, ефективні, і хоча рівень фотореалізму, який MIMO може виробляти, зараз не дорівнює тому, чого здатний Гауссовий сплеск, різноманітні переваги створення тимчасово сталої людини в семантично-основаній Латентній дифузійній мережі (LDM) є суттєвими.
* Мій перехід авторських внутрішніх посилань на гіперпосилання, і де необхідно, зовнішні пояснювальні гіперпосилання.
Перша публікація середи, 25 вересня 2024 року






