Inteligență artificială

Un sistem nou pentru caractere video de difuziune stabilă temporar consistentă

Published September 25, 2024

Updated April 27, 2026

Martin Anderson

A capture from the project page of MIMO (https://menyifang.github.io/projects/MIMO/index.html), depicting a motion-driven wolf creature.

O inițiativă nouă de la Alibaba Group oferă una dintre cele mai bune metode pe care le-am văzut pentru generarea de avatare umane complete dintr-un model de bază Stable Diffusion.

Denominat MIMO (MIMicarea cu interacțiuni cu obiecte), sistemul utilizează o gamă de tehnologii și module populare, inclusiv modele de oameni CGI și AnimateDiff, pentru a permite înlocuirea caracterelor în videoclipuri în mod temporar consistent – sau pentru a conduce un caracter cu o poziție scheletică definită de utilizator.

Aici vedem caractere interpolate dintr-o singură sursă de imagine și conduse de o mișcare predefinită:

[Faceți clic pe videoclipul de mai jos pentru a-l reda]

De la imagini cu surse unice, trei caractere diverse sunt conduse de o secvență de poziție 3D (în partea stângă) utilizând sistemul MIMO. Vedeți site-ul proiectului și videoclipul YouTube însoțitor (încorporat la sfârșitul acestui articol) pentru mai multe exemple și o rezoluție superioară. Sursă: https://menyifang.github.io/projects/MIMO/index.html

Caracterele generate, care pot fi, de asemenea, surse din cadrele videoclipurilor și în diverse alte moduri, pot fi integrate în imagini reale.

MIMO oferă un sistem nou care generează trei codări discrete, fiecare pentru caracter, scenă și ocluziune (adică, matting, atunci când un obiect sau o persoană trece în fața caracterului reprezentat). Aceste codări sunt integrate la momentul inferenței.

[Faceți clic pe videoclipul de mai jos pentru a-l reda]

MIMO poate înlocui caracterele originale cu caractere fotorealiste sau stilizate care urmează mișcarea din videoclipul țintă. Vedeți site-ul proiectului și videoclipul YouTube însoțitor (încorporat la sfârșitul acestui articol) pentru mai multe exemple și o rezoluție superioară.

Sistemul este antrenat pe modelul Stable Diffusion V1.5, utilizând un set de date personalizat, curat de cercetători, și compus în mod egal din videoclipuri reale și simulate.

Marele necaz al videoclipului de difuziune este stabilitatea temporală, unde conținutul videoclipului fie flicker, fie “evoluează” în moduri care nu sunt dorite pentru reprezentarea caracterului consistent.

MIMO, în schimb, utilizează în mod eficient o singură imagine ca o hartă pentru ghidarea consistentă, care poate fi orchestrată și constrânsă de modelul CGI SMPL intermediar.

Deoarece referința sursă este consistentă, iar modelul de bază peste care sistemul este antrenat a fost îmbunătățit cu exemple de mișcare reprezentative adecvate, capacitățile sistemului pentru ieșirea temporar consistentă sunt mult peste standardul general pentru avatare bazate pe difuziune.

[Faceți clic pe videoclipul de mai jos pentru a-l reda]

Mai multe exemple de caractere MIMO conduse de poziție. Vedeți site-ul proiectului și videoclipul YouTube însoțitor (încorporat la sfârșitul acestui articol) pentru mai multe exemple și o rezoluție superioară.

Este din ce în ce mai obișnuit ca imaginile unice să fie utilizate ca sursă pentru reprezentări neuronale eficiente, fie singure, fie într-un mod multimodal, combinate cu prompturi de text. De exemplu, sistemul popular LivePortrait de transfer facial poate genera, de asemenea, fețe deepfaked foarte plauzibile de la o singură imagine cu față.

Cercetătorii cred că principiile utilizate în sistemul MIMO pot fi extinse în alte sisteme generative și cadre noi.

Noul articol se intitulează MIMO: Sinteză de videoclipuri de caractere controlabile cu modelare spațială descompusă și provine de la patru cercetători de la Institutul pentru Calcul Inteligent al grupului Alibaba. Lucrarea are o pagină de proiect încărcată cu videoclipuri și un videoclip YouTube însoțitor, care este, de asemenea, încorporat la sfârșitul acestui articol.

Metodă

MIMO realizează separarea automată și nesupervizată a celor trei componente spațiale menționate, într-o arhitectură de la capăt la capăt (adică, toate subprocessurile sunt integrate în sistem, iar utilizatorul trebuie doar să furnizeze materialul de intrare).

Schema conceptuală pentru MIMO. Sursă: https://arxiv.org/pdf/2409.16160

Obiectele din videoclipurile sursă sunt traduse din 2D în 3D, inițial utilizând estimatorul de adâncime monocular Depth Anything. Elementul uman din orice cadru este extras cu metode adaptate din proiectul Tune-A-Video.

Aceste caracteristici sunt apoi traduse în faceti volumetrice bazate pe videoclipuri prin intermediul arhitecturii Segment Anything 2 de la Facebook Research.

Stratul scenei însuși este obținut prin îndepărtarea obiectelor detectate în celelalte două straturi, oferind în mod eficient o mască de tip rotoscop automat.

Pentru mișcare, un set de coduri latente extrase pentru elementul uman sunt ancorate într-un model SMPL CGI uman implicit, ale cărui mișcări oferă contextul pentru conținutul uman redat.

O hartă de caracteristici 2D pentru conținutul uman este obținută printr-un rasterizator diferențial derivat dintr-o inițiativă din 2020 de la NVIDIA. Combinând datele 3D obținute din SMPL cu datele 2D obținute prin metoda NVIDIA, codurile latente care reprezintă “persoana neurală” au o corespondență solidă cu contextul lor eventual.

În acest moment, este necesar să se stabilească o referință comună necesară în arhitecturile care utilizează SMPL – o poziție canonică. Acesta este în general similar cu “omul vitruvian” al lui Da Vinci, întrucât reprezintă un șablon de poziție zero care poate accepta conținut și apoi fi deformat, aducând conținutul (efectiv) texturat cu el.

Aceste deformări sau “abateri de la normă” reprezintă mișcarea umană, în timp ce modelul SMPL păstrează codurile latente care constituie identitatea umană extrasă și reprezintă astfel avatarul rezultat corect în ceea ce privește poziția și textura.

Un exemplu de poziție canonică într-o figură SMPL. Sursă: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264

În ceea ce privește problema încurcăturii (gradul în care datele antrenate pot deveni inflexibile atunci când le întindeți dincolo de limitele și asocierile lor antrenate), autorii afirmă*:

‘Pentru a dezlega complet apariția de la cadrele de videoclip poziționate, o soluție ideală este să învățați reprezentarea dinamică umană din videoclipul monocular și să o transformați din spațiul poziționat în spațiul canonic.

‘Luând în considerare eficiența, folosim o metodă simplificată care transformă direct imaginea umană poziționată în rezultatul canonic în poziția standard A, utilizând un model de repoziționare uman preantrenat.

‘Imaginea de apariție canonică sintetizată este alimentată cu codificatoare ID pentru a obține codul [de identificare].

‘Acest design simplu permite dezlegarea completă a atributelor de identitate și mișcare.

‘Urmând Animate Anyone, codificatoarele ID includ un codificator de imagine CLIP și o arhitectură de rețea de referință pentru a încorpora caracteristicile globale și locale [respectiv].’

Pentru aspectele scenei și ocluziunii, se utilizează un autoencoder variabil (VAE – în acest caz derivat dintr-o publicație din 2013) partajat și fix pentru a încorpora elementele scenei și ocluziunii în spațiul latent. Incongruențele sunt gestionate printr-o metodă de înlocuire a imaginilor din proiectul ProPainter din 2023.

Odată asamblate și retușate în acest mod, atât fundalul, cât și orice obiecte care ocluzează din videoclip vor oferi o mască pentru avatarul uman în mișcare.

Aceste atribute descompuse sunt apoi introduse într-o arhitectură U-Net bazată pe arhitectura Stable Diffusion V1.5. Codul scenei complete este concatenat cu zgomotul latent nativ al sistemului gazdă. Componenta umană este integrată prin straturi de autoatenție și atenție reciprocă, respectiv.

Apoi, rezultatul curățat este ieșit prin decodificatorul VAE.

Date și teste

Pentru antrenare, cercetătorii au creat un set de date video umane intitulat HUD-7K, care constă din 5.000 de videoclipuri cu caractere reale și 2.000 de animații sintetice create de sistemul En3D. Videoclipurile reale nu au necesitat nicio anotare, datorită naturii ne-semantice a procedurilor de extragere a figurilor în arhitectura MIMO.

Modelul a fost antrenat pe opt GPU-uri NVIDIA A100 (deși articolul nu specifică dacă acestea au fost modelele de 40GB sau 80GB VRAM), timp de 50 de iterații, utilizând 24 de cadre de videoclip și o dimensiune de lot de patru, până la convergență.

Modulul de mișcare pentru sistem a fost antrenat pe greutățile AnimateDiff. În timpul procesului de antrenare, greutățile codificatorului VAE și ale codificatorului de imagine CLIP au fost înghețate (în contrast cu reglarea fină completă, care va avea un efect mult mai larg asupra unui model de bază).

Deși MIMO nu a fost testat împotriva sistemelor analoge, cercetătorii l-au testat pe secvențe de mișcare dificile din afara distribuției, provenite din AMASS și Mixamo. Aceste mișcări au inclus urcarea, jocul și dansul.

De asemenea, au testat sistemul pe videoclipuri umane din sălbăticie. În ambele cazuri, articolul raportează “o robustețe ridicată” pentru aceste mișcări 3D nevizionate, din perspective diferite.

Deși articolul oferă multiple rezultate statice de imagine care demonstrează eficacitatea sistemului, performanța reală a MIMO este evaluată cel mai bine cu rezultatele video extinse oferite pe pagina proiectului și în videoclipul YouTube încorporat mai jos (din care videoclipurile de la începutul acestui articol au fost derivate).

Autorii concluzionează:

‘Rezultatele experimentale [demonstrează] că metoda noastră permite nu numai controlul flexibil al caracterului, mișcării și scenei, ci și o scalabilitate avansată la caractere arbitrare, generalitate la noi mișcări 3D și aplicabilitate la scene interactive.

‘De asemenea, [credem] că soluția noastră, care ia în considerare natura inerentă 3D și codifică automat videoclipul 2D în componente spațiale ierarhice, ar putea inspira cercetări viitoare pentru sinteza de videoclipuri conștiente de 3D.

‘Mai mult, cadru nostru nu este doar potrivit pentru a genera videoclipuri de caractere, ci poate fi, de asemenea, adaptat pentru alte sarcini de sinteză de videoclipuri controlabile.’

Concluzie

Este împroșcător să vedem un sistem de avatar bazat pe Stable Diffusion care pare capabil de o asemenea stabilitate temporală – nu în ultimul rând pentru că Avatarele Gaussiene par să câștige teren în acest sector de cercetare particular.

Avatarele stilizate reprezentate în rezultate sunt eficiente, iar nivelul de fotorealism pe care MIMO îl poate produce nu este în prezent egal cu ceea ce este capabil să facă Gaussian Splatting, avantajele diverse ale creării de avatare umane temporar consistente într-o rețea de difuziune latentă semantică (LDM) sunt considerabile.