заглушки MagicDance: Генерація реалістичного людського танцю - Unite.AI
Зв'язатися з нами

Штучний Інтелект

MagicDance: генерація реалістичного людського танцю

mm

опублікований

 on

MagicDance: генерація реалістичного людського танцю

Комп’ютерне зір є однією з найбільш обговорюваних галузей індустрії штучного інтелекту завдяки його потенційному застосуванню в широкому діапазоні завдань у режимі реального часу. Останніми роками системи комп’ютерного бачення швидко розвиваються: сучасні моделі тепер здатні аналізувати риси обличчя, об’єкти та багато іншого в режимі реального часу. Незважаючи на ці можливості, передача рухів людини залишається серйозною проблемою для моделей комп’ютерного зору. Це завдання передбачає перенацілювання рухів обличчя та тіла з вихідного зображення чи відео на цільове зображення чи відео. Передача руху людини широко використовується в моделях комп’ютерного зору для стилізації зображень або відео, редагування мультимедійного вмісту, цифрового людського синтезу та навіть генерації даних для структур на основі сприйняття.

У цій статті ми зосередимося на MagicDance, моделі на основі дифузії, розробленій для революції в передачі рухів людини. Фреймворк MagicDance спеціально спрямований на передачу 2D-виразів людських облич і рухів на складні танцювальні відео. Його мета полягає в тому, щоб створити нові танцювальні відео, керовані послідовністю поз, для конкретних цільових ідентичностей, зберігаючи оригінальну ідентичність. Фреймворк MagicDance використовує двоетапну стратегію навчання, зосереджену на розпізнаванні рухів людини та таких факторах зовнішнього вигляду, як тон шкіри, вираз обличчя та одяг. Ми заглибимося у фреймворк MagicDance, досліджуючи його архітектуру, функціональність і продуктивність у порівнянні з іншими найсучаснішими фреймворками передачі рухів людини. Давайте зануримося.

MagicDance: реалістична передача рухів людини

Як згадувалося раніше, передача рухів людини є одним із найскладніших завдань комп’ютерного зору через величезну складність, пов’язану з перенесенням рухів і виразів людей із вихідного зображення чи відео на цільове зображення чи відео. Традиційно рамки комп’ютерного бачення досягають передачі руху людини шляхом навчання генеративної моделі для певного завдання, включаючи GAN або Генеративні змагальні мережі на цільових наборах даних для виразів обличчя та поз тіла. Хоча навчання та використання генеративних моделей у деяких випадках дають задовільні результати, зазвичай вони мають два основні обмеження. 

  1. Вони значною мірою покладаються на компонент викривлення зображення, внаслідок чого їм часто важко інтерполювати частини тіла, невидимі на вихідному зображенні через зміну перспективи або самоокклюзію. 
  2. Вони не можуть узагальнювати інші зображення, отримані ззовні, що обмежує їх застосування, особливо в сценаріях реального часу в дикій природі. 

Сучасні дифузійні моделі продемонстрували надзвичайні можливості створення зображень у різних умовах, і дифузійні моделі тепер здатні представляти потужні візуальні ефекти для низки наступних завдань, таких як створення відео та малювання зображень, вивчаючи набори даних зображень у веб-масштабі. Завдяки своїм можливостям моделі дифузії можуть бути ідеальним вибором для завдань передачі руху людини. Незважаючи на те, що дифузійні моделі можуть бути реалізовані для передачі руху людини, вони мають певні обмеження щодо якості створеного вмісту, або щодо збереження ідентичності, або страждають від часових невідповідностей у результаті обмежень дизайну моделі та стратегії навчання. Крім того, моделі на основі дифузії не демонструють суттєвої переваги над GAN рамки з точки зору узагальненості. 

Щоб подолати перешкоди, з якими стикаються фреймворки на основі дифузії та GAN для завдань передачі руху людини, розробники представили MagicDance, новий фреймворк, який спрямований на використання потенціалу фреймворків дифузії для передачі руху людини, демонструючи безпрецедентний рівень збереження ідентичності, чудову візуальну якість, і можливість узагальнення предметної області. За своєю суттю фундаментальна концепція фреймворку MagicDance полягає в тому, щоб розділити проблему на два етапи: керування зовнішнім виглядом і керування рухом, дві можливості, необхідні фреймворкам дифузії зображень для надання точних вихідних даних передачі руху. 

На малюнку вище наведено короткий огляд фреймворку MagicDance, і, як видно, фреймворк використовує Модель стабільної дифузії, а також розгортає два додаткові компоненти: Appearance Control Model і Pose ControlNet, де перший надає вказівки щодо зовнішнього вигляду моделі SD з еталонного зображення за допомогою уваги, тоді як другий надає вказівки щодо виразу/пози для дифузійної моделі з кондиціонованого зображення чи відео. Фреймворк також використовує багатоетапну стратегію навчання для ефективного вивчення цих підмодулів, щоб роз’єднати контроль пози та зовнішність. 

Підсумовуючи, фреймворк MagicDance є a

  1. Нова та ефективна основа, що складається з контролю поза розплутаною зовнішністю та попереднього навчання контролю зовнішнього вигляду.  
  2. Фреймворк MagicDance здатний генерувати реалістичні вирази людських облич і рухи людини під контролем вхідних даних умов пози та контрольних зображень або відео. 
  3. Фреймворк MagicDance має на меті генерувати відповідний зовнішній вигляд людський контент, запровадивши модуль уваги з кількох джерел, який пропонує точні вказівки для фреймворку Stable Diffusion UNet. 
  4. Фреймворк MagicDance також можна використовувати як зручне розширення або плагін для фреймворку Stable Diffusion, а також забезпечує сумісність із існуючими вагами моделі, оскільки не вимагає додаткового тонкого налаштування параметрів. 

Крім того, фреймворк MagicDance демонструє виняткові можливості узагальнення як для узагальнення зовнішнього вигляду, так і для узагальнення руху. 

  1. Узагальнення зовнішнього вигляду: фреймворк MagicDance демонструє чудові можливості, коли йдеться про створення різноманітних зовнішніх зображень. 
  2. Узагальнення руху: фреймворк MagicDance також має можливість генерувати широкий діапазон рухів. 

MagicDance: цілі та архітектура

Для заданого еталонного зображення реальної людини або стилізованого зображення основною метою фреймворку MagicDance є створення вихідного зображення або вихідного відео на основі вхідних даних і вхідних даних пози {P, F}, де P представляє позу людини скелет, а F представляє орієнтири обличчя. Згенероване вихідне зображення або відео має бути в змозі зберегти зовнішній вигляд та ідентичність залучених людей разом із фоновим вмістом, присутнім у контрольному зображенні, зберігаючи при цьому позу та вирази, визначені вхідними даними пози. 

архітектура

Під час навчання фреймворк MagicDance навчається як завдання реконструкції кадру, щоб відтворити базову правду за допомогою еталонного зображення та введення пози, отриманого з того самого еталонного відео. Під час тестування для досягнення передачі руху введення пози та еталонне зображення надходять із різних джерел. 

Загальну архітектуру фреймворку MagicDance можна розділити на чотири категорії: попередній етап, попередня підготовка з контролю зовнішнього вигляду, керування позами з розплетеним зовнішнім виглядом і модуль руху. 

Попередній етап

Моделі латентної дифузії або LDM представляють унікально розроблені дифузійні моделі для роботи в латентному просторі, полегшеному використанням автокодувальника, а структура стабільної дифузії є помітним прикладом LDM, яка використовує векторну квантовану варіацію. AutoEncoder і тимчасова архітектура U-Net. Модель Stable Diffusion використовує перетворювач на основі CLIP як кодувальник тексту для обробки текстових вводів шляхом перетворення введених текстів у вбудовані. На етапі навчання структури стабільного розповсюдження модель піддається умовам тексту та вхідному зображенню з процесом, що включає кодування зображення до прихованого представлення, і піддає його попередньо визначеній послідовності кроків розповсюдження, керованих методом Гауса. Отримана послідовність дає зашумлене латентне представлення, яке забезпечує стандартний нормальний розподіл із основною метою навчання структури Stable Diffusion, яка полягає в ітераційному знищенні зашумлених латентних представлень у латентні представлення. 

Контроль зовнішнього вигляду Попередня підготовка

Основною проблемою оригінального фреймворку ControlNet є його нездатність постійно контролювати зовнішній вигляд серед просторово змінних рухів, хоча він має тенденцію генерувати зображення з позами, дуже схожими на ті, що на вхідному зображенні, причому на загальний вигляд переважно впливають текстові дані. Хоча цей метод працює, він не підходить для передачі руху, пов’язаної із завданнями, де основним джерелом інформації про зовнішній вигляд є не текстові введення, а еталонне зображення. 

Модуль попереднього навчання контролю зовнішнього вигляду у рамках MagicDance розроблено як допоміжну гілку для надання вказівок щодо керування зовнішнім виглядом у пошаровому підході. Замість того, щоб покладатися на введення тексту, загальний модуль зосереджується на використанні атрибутів зовнішнього вигляду з контрольного зображення з метою покращення здатності фреймворку точно генерувати характеристики зовнішнього вигляду, особливо в сценаріях, що включають складну динаміку руху. Крім того, під час попереднього навчання контролю зовнішнього вигляду можна навчити лише модель контролю зовнішнього вигляду. 

Зовнішній вигляд розплутаного контролю пози

Наївним рішенням для керування позою на вихідному зображенні є інтеграція попередньо навченої моделі ControlNet із попередньо навченою моделлю керування зовнішнім виглядом безпосередньо без тонкого налаштування. Однак інтеграція може призвести до того, що фреймворк буде боротися з незалежним від зовнішнього вигляду контролем поз, що може призвести до розбіжностей між введеними та згенерованими позами. Щоб усунути цю невідповідність, фреймворк MagicDance точно налаштовує модель Pose ControlNet разом із попередньо навченою моделлю керування зовнішнім виглядом. 

Модуль руху

Працюючи разом, Appearance-desentanled Pose ControlNet і Appearance Control Model можуть досягти точного й ефективного перенесення зображення в рух, хоча це може призвести до тимчасової неузгодженості. Щоб забезпечити узгодженість у часі, структура інтегрує додатковий модуль руху в основну архітектуру Stable Diffusion UNet. 

MagicDance : попереднє навчання та набори даних

Для попереднього тренування фреймворк MagicDance використовує набір даних TikTok, який складається з понад 350 танцювальних відео різної тривалості від 10 до 15 секунд, на яких зображено одну людину, яка танцює, більшість із цих відео містить обличчя та верхню частину тіла людина. Фреймворк MagicDance витягує кожне окреме відео зі швидкістю 30 FPS і запускає OpenPose для кожного кадру окремо, щоб визначити скелет пози, пози рук і орієнтири обличчя. 

Для попереднього навчання модель керування зовнішнім виглядом попередньо навчається з розміром пакету 64 на 8 графічних процесорах NVIDIA A100 для 10 тисяч кроків із розміром зображення 512 x 512 із подальшим спільним тонким налаштуванням моделей керування позою та керування зовнішнім виглядом за допомогою розмір партії 16 на 20 тис. кроків. Під час навчання фреймворк MagicDance випадковим чином відбирає два кадри як цільовий і еталонний відповідно, при цьому зображення обрізаються в одній позиції на однаковій висоті. Під час оцінювання модель обрізає зображення по центру замість випадкового обрізання. 

MagicDance : результати

Експериментальні результати, проведені на фреймворку MagicDance, демонструються на наступному зображенні, і, як видно, фреймворк MagicDance перевершує існуючі фреймворки, такі як Disco та DreamPose, для передачі руху людини за всіма показниками. Фреймворки, які містять «*» перед назвою, використовують цільове зображення безпосередньо як вхідні дані та містять більше інформації порівняно з іншими фреймворками. 

Цікаво відзначити, що фреймворк MagicDance досягає оцінки Face-Cos 0.426, що на 156.62% більше, ніж фреймворк Disco, і майже на 400% більше, ніж фреймворк DreamPose. Результати вказують на надійну здатність фреймворку MagicDance зберігати ідентифікаційну інформацію, а видиме підвищення продуктивності вказує на перевагу фреймворку MagicDance над існуючими найсучаснішими методами. 

На наступних малюнках порівнюється якість створення людського відео між фреймворками MagicDance, Disco та TPS. Як можна помітити, результати, отримані фреймворками GT, Disco та TPS, страждають від непослідовної пози людини та виразу обличчя. 

Крім того, наступне зображення демонструє візуалізацію виразу обличчя та передачі пози людини на наборі даних TikTok за допомогою фреймворку MagicDance, здатного генерувати реалістичні та яскраві вирази та рухи під різними орієнтирами обличчя та скелетними введеннями пози, точно зберігаючи інформацію про особу з еталонного введення. зображення. 

Варто зазначити, що фреймворк MagicDance може похвалитися винятковими можливостями узагальнення для еталонних зображень поза доменом невидимих ​​поз і стилів із вражаючою можливістю керування зовнішнім виглядом навіть без будь-якого додаткового тонкого налаштування цільового домену з результатами, продемонстрованими на наступному зображенні. . 

Наступні зображення демонструють можливості візуалізації фреймворку MagicDance з точки зору передачі виразу обличчя та нульового руху людини. Як можна побачити, фреймворк MagicDance ідеально узагальнює рухи людини в дикій природі. 

MagicDance : Обмеження

OpenPose є важливим компонентом фреймворку MagicDance, оскільки він відіграє вирішальну роль у контролі пози, суттєво впливаючи на якість і часову узгодженість згенерованих зображень. Однак фреймворку MagicDance усе ще важко визначити орієнтири обличчя та точно позувати скелети, особливо коли об’єкти на зображеннях частково видно або демонструють швидкий рух. Ці проблеми можуть призвести до артефактів у створеному зображенні. 

Висновок

У цій статті ми говорили про MagicDance, модель на основі дифузії, яка має на меті революціонізувати передачу рухів людини. Фреймворк MagicDance намагається передати двовимірні вирази обличчя та рухи людей у ​​складних танцювальних відео людей із спеціальною метою створення нових танцювальних відеороликів, орієнтованих на послідовність поз, для конкретних цільових ідентичностей, зберігаючи незмінну ідентичність. Фреймворк MagicDance — це двоетапна стратегія навчання для розпізнавання рухів людини та зовнішнього вигляду, як-от тон шкіри, вираз обличчя та одяг.

MagicDance — це новий підхід для створення реалістичного людського відео шляхом включення передачі виразу обличчя та рухів, а також забезпечення узгодженої генерації дикої анімації без необхідності будь-якого подальшого тонкого налаштування, що демонструє значний прогрес у порівнянні з існуючими методами. Крім того, фреймворк MagicDance демонструє надзвичайні можливості узагальнення складних послідовностей рухів і різноманітних людських ідентичностей, встановлюючи фреймворк MagicDance як лідера в галузі передачі рухів за допомогою штучного інтелекту та створення відео. 

«За фахом інженер, душею — письменник». Кунал є технічним письменником, який глибоко любить і розуміє штучний інтелект і машинне навчання, відданий справі спрощення складних концепцій у цих сферах за допомогою своєї цікавої та інформативної документації.