Connect with us

Unghiul lui Anderson

O Avansare Notabilă în Videoul Uman-Dirijat de IA

mm
Examples from the DreamActor project page.

Notă: Pagina proiectului pentru acest lucru conține 33 de videoclipuri de înaltă rezoluție care se autorepetă, cu o dimensiune totală de jumătate de gigabyte, care a destabilizat sistemul meu la încărcare. Din acest motiv, nu voi lega direct de el. Citiitorii pot găsi URL-ul în rezumatul sau PDF-ul lucrării, dacă doresc.

Unul dintre obiectivele principale în cercetarea sintezei video actuale este generarea unei performanțe video complete dirijate de IA, pornind de la o singură imagine. În această săptămână, o nouă lucrare de la Bytedance Intelligent Creation a prezentat ceea ce poate fi cel mai cuprinzător sistem de acest fel până acum, capabil să producă animații complete și semi-corp, care combină detalii expresive faciale cu mișcări precise la scară largă, și care obține, de asemenea, o îmbunătățire a consistenței identității – o zonă în care chiar și sistemele comerciale de top adesea nu reușesc.

În exemplul de mai jos, vedem o performanță dirijată de un actor (stânga sus) și derivată dintr-o singură imagine (dreapta sus), care oferă o redare remarcabil de flexibilă și dexteră, fără niciuna dintre problemele obișnuite legate de crearea de mișcări mari sau “ghicirea” unor zone ocluzionate (adică părți ale îmbrăcămintei și unghiuri faciale care trebuie inferate sau inventate, deoarece nu sunt vizibile în fotografia sursă):

CONȚINUT AUDIO. Faceți clic pentru a reda. O performanță ia naștere din două surse, inclusiv sincronizarea buzelor, care este de obicei păstrată de sistemele auxiliare dedicate. Acesta este o versiune redusă de pe site-ul sursă (a se vedea nota de la începutul articolului – se aplică tuturor celorlalte videoclipuri încorporate aici).

Deși putem vedea unele provocări reziduale cu privire la persistența identității pe măsură ce progresează fiecare clip, acesta este primul sistem pe care l-am văzut care excelează în general (deși nu întotdeauna) menținând identitatea pe o perioadă îndelungată, fără a utiliza LoRAs:

CONȚINUT AUDIO. Faceți clic pentru a reda. Alte exemple din proiectul DreamActor.

Noul sistem, intitulat DreamActor, utilizează un sistem hibrid de control în trei părți, care acordă o atenție dedicată expresiei faciale, rotirii capului și proiectării scheletului central, permițând astfel performanțe dirijate de IA în care nici aspectul facial, nici cel al corpului nu suferă în detrimentul celuilalt – o capacitate rară, poate necunoscută printre sistemele similare.

Mai jos, vedem una dintre aceste aspecte, rotirea capului, în acțiune. Bilă colorată din colțul dreapta al fiecărui thumbnail indică un fel de gimbal virtual care definește orientarea capului independent de mișcarea și expresia facială, care este aici dirijată de un actor (stânga jos).

Faceți clic pentru a reda. Bilă multicolor vizualizată aici reprezintă axa de rotație a capului avatarului, în timp ce expresia este alimentată de un modul separat și informat de performanța unui actor (vizibilă aici în stânga jos).

Una dintre funcționalitățile proiectului cele mai interesante, care nu este inclusă corespunzător în testele lucrării, este capacitatea sa de a deriva mișcarea sincronizării buzelor direct din audio – o capacitate care funcționează neobișnuit de bine, chiar și fără un actor-video care o dirijează.

Cercetătorii au concurat cu cei mai buni concurenți în acest demers, inclusiv lăudatul Runway Act-One și LivePortrait, și raportează că DreamActor a reușit să obțină rezultate cantitative mai bune.

Deoarece cercetătorii își pot stabili propriile criterii, rezultatele cantitative nu sunt neapărat un standard empiric; dar testele calitative însoțitoare par să susțină concluziile autorilor.

Din nefericire, acest sistem nu este destinat lansării publice, iar singura valoare pe care comunitatea o poate obține din această lucrare este în eventuala reproducere a metodologiilor prezentate în lucrare (așa cum s-a făcut cu efect notabil pentru Google Dreambooth în 2022).

Lucrarea afirmă*:

‘Animarea imaginilor umane are riscuri sociale posibile, cum ar fi utilizarea abuzivă pentru a crea videoclipuri false. Tehnologia propusă poate fi utilizată pentru a crea videoclipuri false cu persoane, dar instrumentele de detectare existente [Demamba, Dormant] pot detecta aceste falsuri.

‘Pentru a reduce aceste riscuri, sunt necesare reguli etice clare și ghiduri de utilizare responsabilă. Vom restricționa strict accesul la modelele și codurile noastre de bază pentru a preveni utilizarea abuzivă.’

În mod natural, considerațiile etice de acest fel sunt convenabile din punct de vedere comercial, deoarece oferă o justificare pentru accesul la API-ul modelului, care poate fi apoi monetizat. ByteDance a făcut deja acest lucru o dată, în 2025, prin lansarea celebrului OmniHuman pentru credite plătite pe site-ul Dreamina. Prin urmare, deoarece DreamActor este posibil un produs și mai puternic, acesta pare a fi rezultatul probabil. Ceea ce rămâne de văzut este în ce măsură principiile sale, în măsura în care sunt explicate în lucrare, pot ajuta comunitatea cu sursă deschisă.

Noua lucrare, intitulată DreamActor-M1: Animare holistică, expresivă și robustă a imaginilor umane cu îndrumare hibridă, provine de la șase cercetători Bytedance.

Metodă

Sistemul DreamActor propus în lucrare își propune să genereze animație umană dintr-o imagine de referință și un videoclip de dirijare, utilizând un cadru Diffusion Transformer (DiT) adaptat pentru spațiu latent (aparent o variantă a difuziei stabile, deși lucrarea citează doar publicația emblematică din 2022).

În loc să se bazeze pe module externe pentru a gestiona condiționarea de referință, autorii combină caracteristicile de aparițție și mișcare direct în spatele DiT, permițând interacțiunea în spațiu și timp prin atenție:

Schema pentru noul sistem: DreamActor codifică poziția, mișcarea facială și apariția în latente separate, combinându-le cu latente video zgomotoase produse de un VAE 3D. Aceste semnale sunt fuzionate într-un Diffusion Transformer utilizând atenție proprie și încrucișată, cu greutăți împărtășite pe ramuri. Modelul este supravegheat comparând ieșirile denzumate cu latente video curate. Sursă: https://arxiv.org/pdf/2504.01724

Schema pentru noul sistem: DreamActor codifică poziția, mișcarea facială și apariția în latente separate, combinându-le cu latente video zgomotoase produse de un VAE 3D. Aceste semnale sunt fuzionate într-un Diffusion Transformer utilizând atenție proprie și încrucișată, cu greutăți împărtășite pe ramuri. Modelul este supravegheat comparând ieșirile denzumate cu latente video curate. Sursă: https://arxiv.org/pdf/2504.01724

Pentru a face acest lucru, modelul utilizează un autoencoder variabil 3D preantrenat pentru a codifica atât videoclipul de intrare, cât și imaginea de referință. Aceste latente sunt patchificate, concatenate și introduse în DiT, care le procesează în mod conjunct.

Această arhitectură se abate de la practica obișnuită de a atașa o rețea secundară pentru injecția de referință, care a fost abordarea pentru proiectele Animate Anyone și Animate Anyone 2.

În schimb, DreamActor integrează fuziunea în modelul principal, simplificând proiectarea și îmbunătățind fluxul de informații între indicii de aparițție și mișcare. Modelul este apoi antrenat utilizând coincidență de flux în loc de obiectivul difuziei standard (coincidența fluxului antrenează modele difuzionale prin predicția directă a câmpurilor de viteză între date și zgomot, ocolind estimarea scorului).

Îndrumare de mișcare hibridă

Metoda de îndrumare de mișcare hibridă care informează renderările neuronale combină jetoni de poziție derivați din schelete 3D ale corpului și sfere ale capului; reprezentări faciale implicite extrase de un codificator facial preantrenat; și jetoni de aparițție de referință eșantionați din imaginea sursă.

Aceste elemente sunt integrate în Diffusion Transformer utilizând mecanisme de atenție distincte, permițând sistemului să coordoneze mișcarea globală, expresia facială și identitatea vizuală pe tot parcursul procesului de generare.

Pentru primul dintre acestea, mai degrabă decât să se bazeze pe repere faciale, DreamActor utilizează reprezentări faciale implicite pentru a ghida generarea expresiei, aparent permițând un control mai fin asupra dinamicii faciale, în timp ce disociază identitatea și poziția capului de la expresie.

Pentru a crea aceste reprezentări, pipeline-ul detectează și taie regiunea feței în fiecare cadru al videoclipului de dirijare, redimensionând-o la 224×224. Fețele tăiate sunt procesate de un codificator de mișcare facială preantrenat pe setul de date PD-FGC, care este apoi condiționat de un strat MLP.

PD-FGC, utilizat în DreamActor, generează un cap vorbitor dintr-o imagine de referință cu control disociat al sincronizării buzelor (de la audio), poziția capului, mișcarea ochilor și expresia (de la videoclipuri separate), permițând manipularea precisă și independentă a fiecăruia.

PD-FGC, utilizat în DreamActor, generează un cap vorbitor dintr-o imagine de referință cu control disociat al sincronizării buzelor (de la audio), poziția capului, mișcarea ochilor și expresia (de la videoclipuri separate), permițând manipularea precisă și independentă a fiecăruia. Sursă: https://arxiv.org/pdf/2211.14506

Rezultatul este o secvență de jetoni de mișcare facială, care sunt injectați în Diffusion Transformer printr-un strat de atenție încrucișată.

Același cadru susține, de asemenea, o variantă dirijată de audio, în care un codificator separat este antrenat pentru a mapa intrarea de vorbire direct la jetoni de mișcare facială. Acest lucru face posibilă generarea de animație facială sincronizată – inclusiv mișcări ale buzelor – fără un videoclip de dirijare.

CONȚINUT AUDIO. Faceți clic pentru a reda. Sincronizarea buzelor derivată în mod pur din audio, fără o referință de actor. Singurul caracter de intrare este fotografia statică vizibilă în dreapta sus.

În al doilea rând, pentru a controla poziția capului independent de expresia facială, sistemul introduce o reprezentare a sferei capului (a se vedea videoclipul încorporat mai devreme în acest articol), care disociază dinamica facială de mișcarea globală a capului, îmbunătățind precizia și flexibilitatea în timpul animației.

Sferele capului sunt generate prin extragerea parametrilor faciali 3D – cum ar fi rotația și poziția camerei – din videoclipul de dirijare, utilizând metoda de urmărire FaceVerse.

Schema pentru proiectul FaceVerse. Sursă: https://www.liuyebin.com/faceverse/faceverse.html

Schema pentru proiectul FaceVerse. Sursă: https://www.liuyebin.com/faceverse/faceverse.html

Acești parametri sunt utilizați pentru a renderiza o sferă colorată proiectată pe planul imagine 2D, aliniată spațial cu capul de dirijare. Mărimea sferei corespunde capului de referință, iar culoarea sa reflectă orientarea capului. Această abstracție reduce complexitatea învățării mișcării capului 3D, ajutând la păstrarea formelor stilizate sau exagerate ale capului în personaje desenate din animație.

Vizualizarea sferei de control care influențează orientarea capului.

Vizualizarea sferei de control care influențează orientarea capului.

În final, pentru a ghida mișcarea corpului, sistemul utilizează schelete 3D ale corpului cu normalizare a lungimii oaselor adaptivă. Parametrii corpului și mâinii sunt estimați utilizând 4DHumans și HaMeR, ambele funcționând pe modelul SMPL-X al corpului.

SMPL-X aplică o plasă parametrică peste corpul uman complet din imagine, aliniindu-se cu poziția estimată și expresia pentru a permite manipularea conștientă de poziție, utilizând plasa ca ghid volumetric.

SMPL-X aplică o plasă parametrică peste corpul uman complet din imagine, aliniindu-se cu poziția estimată și expresia pentru a permite manipularea conștientă de poziție, utilizând plasa ca ghid volumetric. Sursă: https://arxiv.org/pdf/1904.05866

Din aceste ieșiri, se selectează articulațiile cheie, se proiectează în 2D și se conectează în hărți scheletice liniare. În contrast cu metode precum Champ, care renderizează mesh-uri complete ale corpului, această abordare evită impunerea unor priori de formă prestabilite, iar prin faptul că se bazează exclusiv pe structura scheletică, modelul este încurajat să inferzeze forma și apariția corpului direct din imaginile de referință, reducând astfel prejudecățile către tipuri de corp fixe și îmbunătățind generalizarea pe o varietate de poziții și tipuri de corp.

În timpul antrenamentului, scheletele 3D ale corpului sunt concatenate cu sferele capului și trecute printr-un codificator de poziție, care produce caracteristici care sunt apoi combinate cu latente video zgomotoase pentru a produce tokenii de zgomot utilizați de Diffusion Transformer.

La momentul inferenței, sistemul ține cont de diferențele scheletice între subiecți prin normalizarea lungimii oaselor. Modelul SeedEdit preantrenat transformă atât imaginile de referință, cât și pe cele de dirijare într-o configurație canonică standard. RTMPose este apoi utilizat pentru a extrage proporțiile scheletice, care sunt utilizate pentru a ajusta scheletul de dirijare pentru a se potrivi cu anatomia subiectului de referință.

Prezentare generală a pipeline-ului de inferență. Pseudo-referințe pot fi generate pentru a îmbogăți indicii de aparițție, în timp ce semnalele de control hibride – mișcare facială implicită și poziție explicită de la sferele capului și scheletele corpului – sunt extrase din videoclipul de dirijare. Acestea sunt apoi introduse într-un model DiT pentru a produce ieșiri animate, cu mișcarea facială disociată de poziția corpului, permițând utilizarea audio ca dirijor.

Prezentare generală a pipeline-ului de inferență. Pseudo-referințe pot fi generate pentru a îmbogăți indicii de apariție, în timp ce semnalele de control hibride – mișcare facială implicită și poziție explicită de la sferele capului și scheletele corpului – sunt extrase din videoclipul de dirijare. Acestea sunt apoi introduse într-un model DiT pentru a produce ieșiri animate, cu mișcarea facială disociată de poziția corpului, permițând utilizarea audio ca dirijor.

Îndrumare de aparițție

Pentru a îmbunătăți fidelitatea apariției, în special în zone ocluzionate sau rareori vizibile, sistemul completează imaginea de referință principală cu pseudo-referințe eșantionate din videoclipul de intrare.

Faceți clic pentru a reda. Sistemul anticipează nevoia de a reprezenta cu acuratețe și consecvență regiunile ocluzionate. Acesta este despre cât de aproape am văzut, într-un proiect de acest fel, de o abordare de textură bitmap, similară CGI.

Aceste cadre suplimentare sunt alese pentru diversitatea poziției utilizând RTMPose și filtrate utilizând similaritate bazată pe CLIP pentru a se asigura că rămân consecvente cu identitatea subiectului.

Toate cadrele de referință (principale și pseudo) sunt codificate de același codificator vizual și fuzionate printr-un mecanism de atenție proprie, permițând modelului să acceseze indici de aparițție complementari. Acest setup îmbunătățește acoperirea detaliilor, cum ar fi vederi de profil sau texturi ale membrelor. Pseudo-referințele sunt întotdeauna utilizate în timpul antrenamentului și opțional în timpul inferenței.

Antrenament

DreamActor a fost antrenat în trei etape pentru a introduce gradual complexitatea și a îmbunătăți stabilitatea.

În prima etapă, au fost utilizate doar schelete 3D ale corpului și sfere ale capului ca semnale de control, excluzând reprezentările faciale. Acest lucru a permis modelului de bază de generare a videoclipului, inițializat din MMDiT, să se adapteze la animația umană fără a fi copleșit de controale fine.

În a doua etapă, au fost adăugate reprezentări faciale implicite, dar toți ceilalți parametri înghețați. Doar codificatorul de mișcare facială și straturile de atenție facială au fost antrenate în acest punct, permițând modelului să învețe detalii expresive în izolare.

În etapa finală, toți parametrii au fost deblocati pentru optimizarea comună a apariției, poziției și dinamicii faciale.

Date și teste

Pentru faza de testare, modelul este inițializat dintr-un punct de pornire preantrenat de imagine-la-videoclip DiT și antrenat în trei etape: 20.000 de pași pentru fiecare dintre primele două etape și 30.000 de pași pentru a treia.

Pentru a îmbunătăți generalizarea pe durate și rezoluții diferite, clipurile video au fost eșantionate aleatoriu cu lungimi cuprinse între 25 și 121 de cadre. Acestea au fost apoi redimensionate la 960x640px, păstrând raportul de aspect.

Antrenamentul a fost efectuat pe opt (China-focused) NVIDIA H20 GPU, fiecare cu 96GB de VRAM, utilizând optimizerul AdamW cu o rată de învățare (tolerabil de ridicată) de 5e−6.

La inferență, fiecare segment de videoclip conținea 73 de cadre. Pentru a menține coerența pe segmente, ultimul latent dintr-un segment a fost reutilizat ca latent inițial pentru următorul, ceea ce contextualizează sarcina ca generare secvențială de imagine-la-videoclip.

Îndrumarea clasificatorului fără a fost aplicată cu o greutate de 2,5 atât pentru imaginile de referință, cât și pentru semnalele de control al mișcării.

Autorii au construit un set de date de antrenament (nu se specifică sursele în lucrare) care cuprinde 500 de ore de videoclipuri din domenii diverse, cu exemple de (printre altele) dans, sport, film și discursuri publice. Setul de date a fost proiectat pentru a captura un spectru larg de mișcări și expresii umane, cu o distribuție uniformă între cadre cu corp complet și jumătate de corp.

Pentru a îmbunătăți calitatea sintezei faciale, Nersemble a fost încorporat în procesul de pregătire a datelor.

Exemple din setul de date Nersemble, utilizat pentru a îmbogăți datele pentru DreamActor. Sursă: https://www.youtube.com/watch?v=a-OAWqBzldU

Exemple din setul de date Nersemble, utilizat pentru a îmbogăți datele pentru DreamActor. Sursă: https://www.youtube.com/watch?v=a-OAWqBzldU

Pentru evaluare, cercetătorii au utilizat setul de date și ca benchmark pentru a evalua generalizarea pe diverse scenarii.

Performanța modelului a fost măsurată utilizând metrice standard din lucrări anterioare: Fréchet Inception Distance (FID); Indexul de similaritate structurală (SSIM); Similaritatea perceptuală a patch-urilor de imagine învățate (LPIPS); și Raportul de semnal la zgomot de vârf (PSNR) pentru calitatea cadrelor. Fréchet Video Distance (FVD) a fost utilizat pentru evaluarea coerenței temporale și a fidelității videoclipului.

Autorii au efectuat experimente atât pe sarcini de animație a corpului, cât și pe sarcini de animație a portretului, toate utilizând o singură imagine de referință (țintă).

Pentru animația corpului, DreamActor-M1 a fost comparat cu Animate Anyone; Champ; MimicMotion, și DisPose.

Comparații cantitative cu cadre rivale.

Comparații cantitative cu cadre rivale.

Deși PDF-ul oferă o imagine statică ca o comparație vizuală, unul dintre videoclipurile de pe site-ul proiectului poate evidenția mai clar diferențele:

CONȚINUT AUDIO. Faceți clic pentru a reda. O comparație vizuală între cadrele rivale. Videoclipul de dirijare este vizibil în stânga sus, iar concluzia autorilor că DreamActor produce cele mai bune rezultate pare rezonabilă.

Pentru testele de animație a portretului, modelul a fost evaluat împotriva LivePortrait; X-Portrait; SkyReels-A1; și Act-One.

Comparații cantitative pentru animația portretului.

Comparații cantitative pentru animația portretului.

Autorii menționează că metoda lor iese învingătoare în testele cantitative și susțin că este, de asemenea, superioară calitativ.

CONȚINUT AUDIO. Faceți clic pentru a reda. Exemple de comparații de animație a portretului.

Probabil, al treilea și ultimul clip prezentat în videoclipul de mai sus prezintă o sincronizare a buzelor mai puțin convingătoare în comparație cu unele dintre cadrele rivale, deși calitatea generală este remarcabil de ridicată.

Concluzie

Prin anticiparea nevoii de a reprezenta texturi care sunt implicate dar nu prezente în imaginea unică care alimentează aceste reprezentări, Bytedance a abordat una dintre cele mai mari provocări cu care se confruntă generarea de videoclipuri bazate pe difuzie – texturi consistente și persistente. Următorul pas logic după perfecționarea unei astfel de abordări ar fi să creeze o hartă de referință din clipul generat inițial, care ar putea fi aplicată generațiilor ulterioare, menținând apariția fără a utiliza LoRAs.

Deși o astfel de abordare ar fi încă o referință externă, acest lucru nu diferă de texturarea în tehnici tradiționale de CGI, iar calitatea de realism și plauzibilitate este mult mai ridicată decât ceea ce pot obține metodele mai vechi.

Ceea ce este mai impresionant la DreamActor este sistemul combinat de îndrumare în trei părți, care traversează în mod ingenios diviziunea tradițională dintre sinteza umană orientată spre față și cea orientată spre corp.

Rămâne de văzut dacă unele dintre aceste principii de bază pot fi valorificate în oferte mai accesibile; așa cum stă, DreamActor pare destinat să devină o ofertă de sinteză ca serviciu, sever limitată de restricțiile de utilizare și de impracticabilitatea experimentării extinse a unei arhitecturi comerciale.

 

* Înlocuirea mea a link-urilor cu cele ale autorilor; citări în linie

După cum s-a menționat anterior, nu este clar ce variantă de difuzie stabilă a fost utilizată în acest proiect.

Publicat pentru prima dată vineri, 4 aprilie 2025

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.