Inteligență artificială
MagicDance: Generarea Realistă a Videoclipurilor de Dans Uman

Viziunea computerizată este unul dintre cele mai discutate domenii din industria IA, datorită aplicațiilor sale potențiale într-o gamă largă de sarcini în timp real. În ultimii ani, cadrele de viziune computerizată au evoluat rapid, modelele moderne fiind capabile să analizeze caracteristicile faciale, obiectele și multe altele în scenarii în timp real. În ciuda acestor capacități, transferul mișcării umane rămâne o provocare formidabilă pentru modelele de viziune computerizată. Această sarcină implică retargetarea mișcărilor faciale și corporale de la o imagine sau videoclip sursă la o imagine sau videoclip țintă. Transferul mișcării umane este utilizat pe scară largă în modelele de viziune computerizată pentru stilizarea imaginilor sau videoclipurilor, editarea conținutului multimedia, sinteza umană digitală și chiar generarea de date pentru cadrele bazate pe percepție.
În acest articol, ne concentrăm pe MagicDance, un model bazat pe difuzie proiectat pentru a revoluționa transferul mișcării umane. Cadru MagicDance se axează în mod special pe transferul expresiilor faciale și mișcărilor umane bidimensionale pe videoclipuri de dans uman provocatoare. Scopul său este de a genera videoclipuri de dans noi, conduse de secvențe de poziții, pentru identități țintă specifice, menținând identitatea originală. Cadru MagicDance utilizează o strategie de antrenament în două etape, axându-se pe disjungerea mișcării umane și factori de aspect, cum ar fi tonul pielii, expresiile faciale și îmbrăcămintea. Vom explora cadru MagicDance, arhitectura, funcționalitatea și performanța sa în comparație cu alte cadre de transfer de mișcare umană de ultimă generație. Să intrăm în detalii.
MagicDance : Transfer Realist de Mișcare Umană
După cum s-a menționat anterior, transferul mișcării umane este una dintre cele mai complexe sarcini de viziune computerizată, din cauza complexității implicate în transferul mișcărilor și expresiilor umane de la imaginea sau videoclipul sursă la imaginea sau videoclipul țintă. În mod tradițional, cadrele de viziune computerizată au realizat transferul mișcării umane prin antrenarea unui model generativ specific sarcinii, inclusiv GAN sau Rețele Adversative Generative pe seturi de date țintă pentru expresii faciale și poziții corporale. Deși antrenarea și utilizarea modelelor generative oferă rezultate satisfăcătoare în unele cazuri, ele suferă de obicei de două limitări majore.
- Ele se bazează puternic pe o componentă de deformare a imaginii, ca urmare a căreia adesea luptă să interpolereze părți ale corpului invizibile în imaginea sursă, fie din cauza unei schimbări de perspectivă sau a auto-ocluziei.
- Ele nu se pot generaliza la alte imagini sursă din exterior, ceea ce limitează aplicațiile lor, în special în scenarii în timp real, în sălbăticie.

Modelele de difuzie moderne au demonstrat capacități excepționale de generare a imaginilor în diferite condiții, iar modelele de difuzie pot prezenta acum imagini puternice pe o varietate de sarcini descendente, cum ar fi generarea de videoclipuri și completarea imaginilor, prin învățarea de la seturi de imagini la scară largă. Datorită capacităților lor, modelele de difuzie ar putea fi o alegere ideală pentru sarcinile de transfer de mișcare umană. Deși modelele de difuzie pot fi implementate pentru transferul de mișcare umană, acestea au anumite limitări, fie în ceea ce privește calitatea conținutului generat, fie în ceea ce privește conservarea identității sau suferă de inconstanțe temporale, ca urmare a limitărilor de proiectare și strategie de antrenament a modelului. Mai mult, modelele bazate pe difuzie nu demonstrează niciun avantaj semnificativ față de cadrele GAN în ceea ce privește generalizabilitatea.
Pentru a depăși obstacolele cu care se confruntă cadrele bazate pe difuzie și GAN în sarcinile de transfer de mișcare umană, dezvoltatorii au introdus MagicDance, un cadru nou care își propune să exploateze potențialul cadrelor de difuzie pentru transferul de mișcare umană, demonstrând un nivel fără precedent de conservare a identității, calitate vizuală superioară și generalizabilitate de domeniu. La baza sa, conceptul fundamental al cadru MagicDance este de a diviza problema în două etape: controlul aspectului și controlul mișcării, două capacități necesare cadrelor de difuzie pentru a furniza ieșiri de transfer de mișcare precise.

Figura de mai sus oferă o vedere de ansamblu a cadru MagicDance, și, așa cum se poate vedea, cadru utilizează modelul Stable Diffusion și implementează două componente suplimentare: Modelul de Control al Aspectului și Pose ControlNet, unde primul oferă îndrumări de aspect către modelul SD dintr-o imagine de referință prin atenție, iar al doilea oferă îndrumări de expresie/poziție către modelul de difuzie dintr-o imagine sau videoclip condiționat. Cadru utilizează, de asemenea, o strategie de antrenament multistadial pentru a învăța aceste submodule eficient, pentru a disjunge controlul poziției și aspectului.
În rezumat, cadru MagicDance este un
- cadru nou și eficient, constând în controlul poziției disjuncte de aspect și pregătirea prealabilă a controlului aspectului.
- Cadru MagicDance este capabil să genereze expresii faciale realiste și mișcări umane sub controlul intrărilor de poziție condiționate și a imaginilor sau videoclipurilor de referință.
- Cadru MagicDance își propune să genereze conținut uman consistent din punct de vedere al aspectului, introducând un modul de atenție multi-sursă care oferă îndrumări precise pentru cadru Stable Diffusion UNet.
- Cadru MagicDance poate fi utilizat, de asemenea, ca o extensie convenabilă sau un plug-in pentru cadru Stable Diffusion și asigură compatibilitatea cu greutățile modelului existent, deoarece nu necesită o reglare suplimentară a parametrilor.
În plus, cadru MagicDance demonstrează capacități excepționale de generalizare atât pentru aspect, cât și pentru mișcare.
- Generalizarea aspectului: Cadru MagicDance demonstrează capacități superioare în ceea ce privește generarea unor aspecte diverse.
- Generalizarea mișcării: Cadru MagicDance are, de asemenea, capacitatea de a genera o gamă largă de mișcări.
MagicDance : Obiective și Arhitectură
Pentru o imagine de referință dată, fie a unui om real, fie a unei imagini stilizate, obiectivul principal al cadru MagicDance este de a genera o imagine de ieșire sau un videoclip condiționat de intrare și de poziția de intrare {P, F}, unde P reprezintă scheletul poziției umane, iar F reprezintă reperele faciale. Imaginea de ieșire generată sau videoclipul ar trebui să poată păstra aspectul și identitatea oamenilor implicați, împreună cu conținutul de fundal prezent în imaginea de referință, menținând poziția și expresiile definite de intrările de poziție.
Arhitectură
În timpul antrenamentului, cadru MagicDance este antrenat ca o sarcină de reconstruire a cadrului pentru a reconstrui adevărul cu imaginea de referință și intrarea de poziție, ambele provenind din același videoclip de referință. În timpul testării, pentru a atinge transferul de mișcare, intrarea de poziție și imaginea de referință provin din surse diferite.
Arhitectura generală a cadru MagicDance poate fi împărțită în patru categorii: Etapa Preliminară, Pregătirea Prealabilă a Controlului Aspectului, Controlul Poziției Disjunct de Aspect și Modulul de Mișcare.
Etapa Preliminară
Modelele de Difuzie Latentă sau LDM reprezintă modele de difuzie special concepute pentru a funcționa în spațiul latent, facilitat de utilizarea unui autoencoder, iar cadru Stable Diffusion este un exemplu notabil de LDM care utilizează un Autoencoder Variational Cuantificat și o arhitectură U-Net temporală. Modelul Stable Diffusion utilizează un transformator CLIP ca encoder de text pentru a procesa intrările textuale, convertind intrările textuale în încorporări. Faza de antrenament a modelului Stable Diffusion expune modelul la o condiție de text și o imagine de intrare, procesul implicând codificarea imaginii într-o reprezentare latentă și supunerea acesteia la o secvență predefinită de pași de difuzie, dirijați de o metodă Gaussiană. Secvența rezultată oferă o reprezentare latentă zgomotoasă care oferă o distribuție normală standard, obiectivul principal de învățare al modelului Stable Diffusion fiind denoisingul reprezentărilor latente zgomotoase iterative în reprezentări latente.
Pregătirea Prealabilă a Controlului Aspectului
O problemă majoră cu cadru ControlNet original este incapacitatea sa de a controla aspectul în mișcări spațial variabile în mod constant, deși tendința sa este de a genera imagini cu poziții care semănă cu cele din imaginea de intrare, aspectul general fiind influențat în principal de intrările textuale. Deși această metodă funcționează, nu este potrivită pentru transferul de mișcare care implică sarcini în care nu intrările textuale, ci imaginea de referință, servește ca sursă principală de informații despre aspect.
Modulul de Pregătire Prealabilă a Controlului Aspectului din cadru MagicDance este proiectat ca o ramură auxiliară pentru a oferi îndrumări pentru controlul aspectului într-o abordare strat cu strat. În loc de a se baza pe intrările textuale, modulul se concentrează pe exploatarea atributele de aspect de la imaginea de referință, scopul fiind de a îmbunătăți capacitatea cadru de a genera caracteristicile de aspect cu acuratețe, în special în scenarii care implică dinamici de mișcare complexe. Mai mult, doar modelul de control al aspectului este antrenabil în timpul pregătirii prealabile a controlului aspectului.
Controlul Poziției Disjunct de Aspect
O soluție naivă pentru a controla poziția în imaginea de ieșire este de a integra modelul ControlNet preantrenat cu modelul de control al aspectului preantrenat direct, fără reglare. Cu toate acestea, integrarea poate duce la faptul că cadru luptă cu controlul poziției independente de aspect, ceea ce poate conduce la o discrepanță între pozițiile de intrare și pozițiile generate. Pentru a aborda această discrepanță, cadru MagicDance reglează modelul Pose ControlNet împreună cu modelul de control al aspectului preantrenat.
Modulul de Mișcare
Atunci când lucrează împreună, modelul de control al poziției disjunct de aspect și modelul de control al aspectului pot atinge transferul de imagine la mișcare precis și eficient, deși poate rezulta în inconstanță temporală. Pentru a asigura coerența temporală, cadru integrează un modul de mișcare suplimentar în arhitectura principală a modelului Stable Diffusion UNet.
MagicDance : Pregătire Prealabilă și Seturi de Date
Pentru pregătirea prealabilă, cadru MagicDance utilizează un set de date TikTok care conține peste 350 de videoclipuri de dans de lungimi variate, cuprinse între 10 și 15 secunde, capturând o singură persoană care dansează, majoritatea acestor videoclipuri conținând fața și partea superioară a corpului uman. Cadru MagicDance extrage fiecare videoclip individual la 30 de cadre pe secundă și rulează OpenPose pe fiecare cadru individual pentru a infera scheletul poziției, pozițiile mâinilor și reperele faciale.
Pentru pregătirea prealabilă, modelul de control al aspectului este pregătit cu o dimensiune a lotului de 64 pe 8 GPU-uri NVIDIA A100 pentru 10.000 de pași, cu o dimensiune a imaginii de 512 x 512, urmată de reglarea comună a modelului de control al poziției și a modelului de control al aspectului, cu o dimensiune a lotului de 16, pentru 20.000 de pași. În timpul antrenamentului, cadru MagicDance eșantionează aleator două cadre ca țintă și referință, cu imaginile fiind decupate în aceeași poziție și înălțime. În timpul evaluării, modelul decupează imaginea central, în loc de a o decupa aleator.
MagicDance : Rezultate
Rezultatele experimentale efectuate pe cadru MagicDance sunt demonstrate în imaginea de mai jos, și, așa cum se poate vedea, cadru MagicDance depășește cadrele existente, cum ar fi Disco și DreamPose, pentru transferul de mișcare umană, în toate metricile. Cadrele care au un “*” în fața numelui utilizează imaginea țintă direct ca intrare și includ mai multe informații în comparație cu celelalte cadre.

Este interesant de remarcat că cadru MagicDance atinge un scor Face-Cos de 0,426, o îmbunătățire de 156,62% față de cadru Disco și o creștere de aproape 400% în comparație cu cadru DreamPose. Rezultatele indică capacitatea robustă a cadru MagicDance de a păstra informații despre identitate și creșterea vizibilă a performanței, ceea ce demonstrează superioritatea cadru MagicDance față de metodele actuale de ultimă generație.
Următoarele imagini compară calitatea generării de videoclipuri umane între cadrele MagicDance, Disco și TPS. Așa cum se poate observa, rezultatele generate de cadrele GT, Disco și TPS suferă de inconstanță a identității poziției umane și a expresiilor faciale.

Mai mult, imaginea de mai jos demonstrează vizualizarea transferului de expresie facială și a poziției umane pe setul de date TikTok, cadru MagicDance fiind capabil să genereze expresii și mișcări realiste și vii sub diverse repere faciale și intrări de poziție, păstrând cu acuratețe informații despre identitate din imaginea de intrare.

Este demn de remarcat că cadru MagicDance se mândrește cu capacități excepționale de generalizare pentru imagini de referință din afara domeniului, de poziții și stiluri nevizionate, cu o controlabilitate remarcabilă a aspectului, chiar și fără nicio reglare suplimentară pe domeniul țintă, rezultatele fiind demonstrate în imaginea de mai jos.

Următoarele imagini demonstrează capacitățile de vizualizare ale cadru MagicDance în ceea ce privește transferul de expresie facială și mișcarea umană zero-shot. Așa cum se poate vedea, cadru MagicDance se generalizează perfect la mișcări umane din sălbăticie.

MagicDance : Limitări
OpenPose este o componentă esențială a cadru MagicDance, deoarece joacă un rol crucial pentru controlul poziției, afectând calitatea și coerența temporală a imaginilor generate în mod semnificativ. Cu toate acestea, cadru MagicDance încă găsește oarecum dificil să detecteze reperele faciale și scheletele poziției cu acuratețe, în special atunci când obiectele din imagini sunt parțial vizibile sau prezintă mișcări rapide. Aceste probleme pot duce la artefacte în imaginea generată.
Concluzie
În acest articol, am discutat despre MagicDance, un model bazat pe difuzie care își propune să revoluționeze transferul de mișcare umană. Cadru MagicDance încearcă să transfere expresii faciale și mișcări umane bidimensionale pe videoclipuri de dans uman provocatoare, cu scopul specific de a genera videoclipuri de dans noi, conduse de secvențe de poziții, pentru identități țintă specifice, menținând identitatea constantă. Cadru MagicDance este o strategie de antrenament în două etape pentru disjungerea mișcării umane și aspect, cum ar fi tonul pielii, expresiile faciale și îmbrăcămintea.
MagicDance este o abordare nouă pentru a facilita generarea realistă de videoclipuri umane, integrând transferul de expresie facială și de mișcare, și permițând generarea consistentă de animații în sălbăticie, fără a necesita reglări suplimentare, demonstrând progrese semnificative față de metodele existente. Mai mult, cadru MagicDance demonstrează capacități excepționale de generalizare pentru secvențe de mișcare complexe și identități umane diverse, stabilind cadru MagicDance ca lider în domeniul transferului de mișcare asistat de IA și al generării de videoclipuri.












