Inteligență artificială

AniPortrait: Sinteză audio a animației portretului fotorealist

Published May 3, 2024

Updated April 27, 2026

Kunal Kejriwal

De-a lungul anilor, crearea de portrete animate realiste și expresive din imagini statice și audio a găsit o varietate de aplicații, incluzând jocuri, mass-media digitale, realitate virtuală și multe altele. În ciuda potențialului său de aplicație, este încă dificil pentru dezvoltatori să creeze cadre capabile să genereze animații de înaltă calitate care mențin consistența temporală și sunt vizual captivante. O cauză majoră a complexității este nevoia de coordonare intricată a mișcărilor buzelor, pozițiilor capului și expresiilor faciale pentru a crea un efect vizual convingător.

În acest articol, vom discuta despre AniPortrait, un cadru nou proiectat pentru a genera animații de înaltă calitate conduse de o imagine de portret de referință și un eșantion audio. Funcționarea cadrului AniPortrait este împărțită în două etape. Primul, cadrul AniPortrait extrage reprezentările intermediare 3D din eșantioanele audio și le proiectează într-o secvență de repere faciale 2D. Urmând aceasta, cadrul utilizează un model de difuzie robust cuplat cu un modul de mișcare pentru a converti secvențele de repere în animații temporale consistente și fotorealistice. Rezultatele experimentale demonstrează superioritatea și capacitatea cadrului AniPortrait de a genera animații de înaltă calitate cu calitate vizuală excepțională, diversitate de poziții și naturalitate facială, oferind astfel o experiență perceptuală îmbunătățită și îmbogățită. Mai mult, cadrul AniPortrait deține un potențial remarcabil în ceea ce privește controlabilitatea și flexibilitatea și poate fi aplicat eficient în domenii precum reînregistrarea facială, editarea mișcării faciale și multe altele. Acest articol își propune să acopere cadrul AniPortrait în profunzime, și vom explora mecanismul, metodologia, arhitectura cadrului, împreună cu comparația sa cu cadrele de ultimă generație. Să începem.

AniPortrait: Animație portret fotorealist

Crearea de animații portret realiste și expresive a fost în centrul atenției cercetătorilor de ceva timp, datorită potențialului său incredibil și aplicațiilor care se întind de la mass-media digitale și realitatea virtuală la jocuri și multe altele. În ciuda anilor de cercetare și dezvoltare, producerea de animații de înaltă calitate care mențin consistența temporală și sunt vizual captivante prezintă încă o provocare semnificativă. O piedică majoră pentru dezvoltatori este nevoia de coordonare intricată între pozițiile capului, expresiile vizuale și mișcările buzelor pentru a crea un efect vizual convingător. Metodele existente nu au reușit să abordeze aceste provocări, în principal pentru că majoritatea dintre ele se bazează pe generatoare cu capacitate limitată, cum ar fi NeRF, decodoare bazate pe mișcare și GAN pentru crearea de conținut vizual. Aceste rețele prezintă capacități de generalizare limitate și sunt instabile în generarea de conținut de înaltă calitate. Cu toate acestea, apariția recentă a modelelor de difuzie a facilitat generarea de imagini de înaltă calitate, și unele cadre construite pe baza modelelor de difuzie, împreună cu module temporale, au facilitat crearea de videoclipuri convingătoare, permițând modelelor de difuzie să exceleze.

Pe baza progreselor modelelor de difuzie, cadrul AniPortrait își propune să genereze portrete animate de înaltă calitate utilizând o imagine de referință și un eșantion audio. Funcționarea cadrului AniPortrait este împărțită în două etape. În prima etapă, cadrul AniPortrait utilizează modele bazate pe transformatori pentru a extrage o secvență de mesh facial 3D și poziție a capului din intrarea audio și le proiectează ulterior într-o secvență de repere faciale 2D. Prima etapă facilitează cadrului AniPortrait să capteze mișcările buzelor și expresiile subtile din audio, împreună cu mișcările capului care se sincronizează cu ritmul eșantionului audio. A doua etapă, cadrul AniPortrait utilizează un model de difuzie robust și îl integrează cu un modul de mișcare pentru a transforma secvența de repere faciale într-o animație portret fotorealistă și temporal consistentă. Mai specific, cadrul AniPortrait se bazează pe arhitectura rețelei din modelul AnimateAnyone existent, care utilizează Stable Diffusion 1.5, un model de difuzie puternic pentru a genera imagini vii și fluide pe baza unei imagini de referință și a unei secvențe de mișcare a corpului. Ceea ce este demn de remarcat este că cadrul AniPortrait nu utilizează modulul de ghidare a poziției din această rețea, așa cum este implementat în cadrul AnimateAnyone, dar îl redesenează, permițând cadrului AniPortrait să mențină un design ușor și să prezinte o precizie îmbunătățită în generarea mișcărilor buzelor.

Rezultatele experimentale demonstrează superioritatea cadrului AniPortrait în crearea de animații cu naturalitate facială impresionantă, calitate vizuală excelentă și varietate de poziții. Prin utilizarea reprezentărilor faciale 3D ca caracteristici intermediare, cadrul AniPortrait câștigă flexibilitatea de a modifica aceste reprezentări în funcție de necesitățile sale. Adaptabilitatea îmbunătățește semnificativ aplicabilitatea cadrului AniPortrait în domenii precum reînregistrarea facială și editarea mișcării faciale.

AniPortrait: Funcționare și Metodologie

Cadrul propus AniPortrait cuprinde două module, și anume Lmk2Video și Audio2Lmk. Modulul Audio2Lmk încearcă să extragă o secvență de repere care capturează mișcările intricate ale buzelor și expresiile faciale din intrarea audio, în timp ce modulul Lmk2Video utilizează această secvență de repere pentru a genera videoclipuri portret de înaltă calitate cu stabilitate temporală. Următoarea figură prezintă o vedere de ansamblu a funcționării cadrului AniPortrait. Așa cum se poate observa, cadrul AniPortrait extrage mai întâi mesh-ul facial 3D și poziția capului din audio și proiectează ulterior aceste două elemente în puncte cheie 2D. În a doua etapă, cadrul utilizează un model de difuzie pentru a transforma punctele cheie 2D într-un videoclip portret cu două etape antrenate concomitent în rețea.

Audio2Lmk

Pentru o secvență dată de fragmente de vorbire, obiectivul principal al cadrului AniPortrait este de a prezice secvența corespunzătoare de mesh facial 3D cu reprezentări vectoriale de translație și rotație. Cadrul AniPortrait utilizează metoda preantrenată wav2vec pentru a extrage caracteristici audio, și modelul prezintă un grad ridicat de generalizare, fiind capabil să recunoască intonația și pronunția din audio cu acuratețe, ceea ce joacă un rol crucial în generarea de animații faciale realiste. Prin utilizarea caracteristicilor audio robuste obținute, cadrul AniPortrait este capabil să utilizeze eficient o arhitectură simplă, constând din două straturi fc, pentru a converti aceste caracteristici în mesh-uri faciale 3D. Cadrul AniPortrait observă că acest design simplu implementat de modelul nu numai că îmbunătățește eficiența procesului de inferență, dar asigură și acuratețea. Atunci când se convertește audio în poziție, cadrul AniPortrait utilizează aceeași rețea wav2vec ca backbone, deși modelul nu împărtășește greutățile cu modulul audio-la-mesh. Acest lucru se datorează faptului că poziția este asociată mai mult cu tonul și ritmul prezent în audio, care are o accentuare diferită în comparație cu sarcinile audio-la-mesh. Pentru a ține cont de impactul stărilor anterioare, cadrul AniPortrait utilizează un decodificator de transformator pentru a decoda secvența de poziție. În timpul acestui proces, cadrul integrează caracteristicile audio în decodificator utilizând mecanisme de atenție încrucișată, și pentru ambele module, cadrul le antrenează utilizând pierderea L1. Odată ce modelul obține secvența de poziție și mesh, cadrul AniPortrait utilizează proiecția perspectivă pentru a transforma aceste secvențe într-o secvență 2D de repere faciale, care sunt ulterior utilizate ca semnale de intrare pentru etapa următoare.

Lmk2Video

Pentru o imagine de portret de referință dată și o secvență de repere faciale, modulul Lmk2Video propus creează o animație portret temporal consistentă, și această animație aliniază mișcarea cu secvența de repere, menține o aparență care este în concordanță cu imaginea de referință, și, în final, cadrul reprezintă animația portret ca o secvență de cadre portret. Proiectarea structurii de rețea a lui Lmk2Video caută inspirație din cadrul AnimateAnyone existent. Cadrul AniPortrait utilizează un model de difuzie stabil 1.5, un model de difuzie extrem de puternic, ca backbone, și încorporează un modul de mișcare temporală care convertește eficient intrările de zgomot multi-cadru într-o secvență de cadre video. În același timp, o componentă de rețea ReferencenNet reflectă structura modelului de difuzie stabilă 1.5 și o utilizează pentru a extrage informațiile de aparență din imaginea de referință și le integrează în backbone. Proiectarea strategică asigură că identitatea facială rămâne consistentă pe tot parcursul videoclipului de ieșire. Diferențiindu-se de cadrul AnimateAnyone, cadrul AniPortrait îmbunătățește complexitatea designului lui PoseGuider. Versiunea originală a cadrului AnimateAnyone cuprinde doar câteva straturi de convoluție după care caracteristicile de repere se unesc cu latenții la intrarea stratului de backbone. Cadrul AniPortrait descoperă că designul este lipsit în capturarea mișcărilor intricate ale buzelor, și pentru a aborda această problemă, cadrul adoptă strategia multi-scară a arhitecturii ConvNet, și încorporează caracteristici de repere de scară corespunzătoare în blocuri diferite ale backbone-ului. Mai mult, cadrul AniPortrait introduce o îmbunătățire suplimentară prin includerea repertorului de imagini de referință ca intrare suplimentară. Modulul de atenție încrucișată al componentei PoseGuider facilitează interacțiunea dintre reperele țintă ale fiecărui cadru și reperele de referință. Acest proces oferă rețelei indicii suplimentare pentru a înțelege corelația dintre aparență și repere faciale, ajutând astfel la generarea de animații portret cu mișcări mai precise.

AniPortrait: Implementare și Rezultat

Pentru etapa Audio2Lmk, cadrul AniPortrait adoptă componenta wav2vec2.0 ca backbone și utilizează arhitectura MediaPipe pentru a extrage mesh-uri 3D și poziții 6D pentru annotări. Modelul utilizează datele de antrenare pentru componenta Audio2Mesh dintr-o bază de date internă care cuprinde aproximativ 60 de minute de date audio de înaltă calitate, provenite de la un singur vorbitor. Pentru a asigura că mesh-ul 3D extras de MediaPipe este stabil, actorul vocal este instruit să stea cu fața spre cameră și să mențină o poziție constantă a capului pe tot parcursul procesului de înregistrare. Pentru modulul Lmk2Video, cadrul AniPortrait implementează o abordare de antrenare în două etape. În prima etapă, cadrul se concentrează pe antrenarea lui ReferenceNet și PoseGuider, componenta 2D a backbone-ului, și lasă deoparte modulul de mișcare. În a doua etapă, cadrul AniPortrait îngheață toate celelalte componente și se concentrează pe antrenarea modulului de mișcare. Pentru această etapă, cadrul utilizează două seturi de date video faciale de înaltă calitate și pe scară largă pentru a antrena modelul și prelucrează toate datele utilizând componenta MediaPipe pentru a extrage repere faciale 2D. Mai mult, pentru a îmbunătăți sensibilitatea rețelei față de mișcările buzelor, modelul AniPortrait diferențiază buzele superioare și inferioare cu culori distincte atunci când renderizează imaginea de poziție din repere 2D.

Așa cum se demonstrează în imaginea de mai jos, cadrul AniPortrait generează o serie de animații care prezintă o calitate și realism superior.

Cadrul AniPortrait utilizează apoi o reprezentare intermediară 3D care poate fi editată pentru a manipula ieșirea în funcție de necesități. De exemplu, utilizatorii pot extrage repere dintr-o sursă anume și modifica identitatea, permițând astfel cadrului AniPortrait să creeze un efect de reînregistrare facială.

Gânduri Finale

În acest articol, am discutat despre AniPortrait, un cadru nou proiectat pentru a genera animații de înaltă calitate conduse de o imagine de portret de referință și un eșantion audio. Prin simpla introducere a unei imagini de referință și a unui clip audio, cadrul AniPortrait este capabil să genereze un videoclip portret care prezintă mișcări naturale ale capului și mișcări netede ale buzelor. Prin utilizarea capacităților robuste de generalizare ale modelului de difuzie, cadrul AniPortrait generează animații care prezintă o calitate vizuală realistă impresionantă și mișcări vii. Funcționarea cadrului AniPortrait este împărțită în două etape. Primul, cadrul AniPortrait extrage reprezentările intermediare 3D din eșantioanele audio și le proiectează într-o secvență de repere faciale 2D. Urmând aceasta, cadrul utilizează un model de difuzie robust cuplat cu un modul de mișcare pentru a converti secvențele de repere în animații temporale consistente și fotorealistice. Rezultatele experimentale demonstrează superioritatea și capacitatea cadrului AniPortrait de a genera animații de înaltă calitate cu calitate vizuală excepțională, diversitate de poziții și naturalitate facială, oferind astfel o experiență perceptuală îmbunătățită și îmbogățită. Mai mult, cadrul AniPortrait deține un potențial remarcabil în ceea ce privește controlabilitatea și flexibilitatea și poate fi aplicat eficient în domenii precum reînregistrarea facială, editarea mișcării faciale și multe altele.