ciot AniPortrait: Sinteza audio a animației portretului fotorealistic - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

AniPortrait: Sinteza audio a animației portretului fotorealistic

mm

Publicat

 on

De-a lungul anilor, crearea de animații portrete realiste și expresive din imagini statice și audio a găsit o gamă largă de aplicații, inclusiv jocuri, media digitală, realitate virtuală și multe altele. În ciuda aplicației sale potențiale, este încă dificil pentru dezvoltatori să creeze cadre capabile să genereze animații de înaltă calitate care să mențină consistența temporală și să fie captivante vizual. O cauză majoră a complexității este necesitatea unei coordonări complicate a mișcărilor buzelor, a pozițiilor capului și a expresiilor faciale pentru a crea un efect vizual convingător. 

În acest articol, vom vorbi despre AniPortrait, un cadru nou conceput pentru a genera animații de înaltă calitate, conduse de o imagine portret de referință și un eșantion audio. Funcționarea cadrului AniPortrait este împărțită în două etape. În primul rând, cadrul AniPortrait extrage reprezentările 3D intermediare din mostrele audio și le proiectează într-o secvență de repere faciale 2D. În continuare, cadrul folosește un model de difuzie robust cuplat cu un modul de mișcare pentru a converti secvențele de reper în animații coerente temporal și fotorealiste. Rezultatele experimentale demonstrează superioritatea și capacitatea cadrului AniPortrait de a genera animații de înaltă calitate, cu o calitate vizuală excepțională, diversitate de poziții și naturalețe facială, oferind astfel o experiență perceptivă îmbunătățită și îmbogățită. În plus, cadrul AniPortrait are un potențial remarcabil în ceea ce privește controlabilitatea și flexibilitatea și poate fi aplicat eficient în domenii precum recrearea facială, editarea mișcărilor faciale și multe altele. Acest articol își propune să acopere cadrul AniPortrait în profunzime și explorăm mecanismul, metodologia, arhitectura cadrului împreună cu compararea acestuia cu cadrele de ultimă generație. Asadar, haideti sa începem. 

AniPortrait: Animație de portret fotorealistic

Crearea de animații portret realiste și expresive a fost în centrul atenției cercetătorilor de ceva vreme, datorită potențialului său incredibil și aplicațiilor care se întind de la media digitală și realitatea virtuală la jocuri și multe altele. În ciuda anilor de cercetare și dezvoltare, producerea de animații de înaltă calitate care mențin consistența temporală și care sunt captivante vizual reprezintă încă o provocare semnificativă. Un obstacol major pentru dezvoltatori este necesitatea unei coordonări complicate între pozițiile capului, expresiile vizuale și mișcările buzelor pentru a crea un efect vizual convingător. Metodele existente nu au reușit să abordeze aceste provocări, în primul rând deoarece majoritatea dintre ele se bazează pe generatoare de capacitate limitată precum NeRF, decodoare bazate pe mișcare și GAN pentru crearea de conținut vizual. Aceste rețele prezintă capacități limitate de generalizare și sunt instabile în generarea de conținut de înaltă calitate. Cu toate acestea, apariția recentă a modelelor de difuzie a facilitat generarea de imagini de înaltă calitate, iar unele cadre construite pe deasupra modelelor de difuzie împreună cu module temporale au facilitat crearea de videoclipuri convingătoare, permițând modelelor de difuzie să exceleze. 

Bazându-se pe progresele modelelor de difuzie, cadrul AniPortrait își propune să genereze portrete animate de înaltă calitate, folosind o imagine de referință și un eșantion audio. Funcționarea cadrului AniPortrait este împărțită în două etape. În prima etapă, cadrul AniPortrait folosește modele bazate pe transformatoare pentru a extrage o secvență de plasă facială 3D și poziție a capului din intrarea audio și le proiectează ulterior într-o secvență de repere faciale 2D. Prima etapă facilitează cadrul AniPortrait pentru a capta mișcările buzelor și expresiile subtile din audio, pe lângă mișcările capului care se sincronizează cu ritmul probei audio. A doua etapă, cadrul AniPortrait folosește un model de difuzie robust și îl integrează cu un modul de mișcare pentru a transforma secvența reperului facial într-un portret animat fotorealist și coerent în timp. Pentru a fi mai specific, cadrul AniPortrait se bazează pe arhitectura de rețea din modelul AnimateAnyone existent, care utilizează Stable Diffusion 1.5, un puternic model de difuzie pentru a genera realiste și fluide pe baza unei imagini de referință și a unei secvențe de mișcare a corpului. Ceea ce este de remarcat este faptul că cadrul AniPortrait nu utilizează modulul de ghidare a poziției în această rețea, așa cum a fost implementat în cadrul AnimateAnyone, dar îl reproiectează, permițând cadrului AniPortrait nu numai să mențină un design ușor, ci și să prezinte o precizie sporită în generarea buzelor. miscarile. 

Rezultatele experimentale demonstrează superioritatea cadrului AniPortrait în crearea de animații cu naturalețe facială impresionantă, calitate vizuală excelentă și ipostaze variate. Prin utilizarea reprezentărilor faciale 3D ca caracteristici intermediare, cadrul AniPortrait câștigă flexibilitatea de a modifica aceste reprezentări conform cerințelor sale. Adaptabilitatea îmbunătățește semnificativ aplicabilitatea cadrului AniPortrait în domenii, inclusiv recrearea facială și editarea mișcărilor faciale. 

AniPortrait: lucru și metodologie

Cadrul AniPortrait propus cuprinde două module, și anume Lmk2Video și Audio2Lmk. Modulul Audio2Lmk încearcă să extragă o secvență de repere care captează mișcările complicate ale buzelor și expresiile faciale din intrarea audio, în timp ce modulul Lmk2Video utilizează această secvență de reper pentru a genera videoclipuri portret de înaltă calitate, cu stabilitate temporală. Următoarea figură prezintă o privire de ansamblu asupra funcționării cadrului AniPortrait. După cum se poate observa, cadrul AniPortrait extrage mai întâi rețeaua facială 3D și poziția capului din audio și proiectează aceste două elemente în puncte cheie 2D ulterior. În a doua etapă, cadrul folosește un model de difuzie pentru a transforma punctele cheie 2D într-un videoclip portret, cu două etape antrenate concomitent în cadrul rețelei. 

Audio2Lmk

Pentru o anumită secvență de fragmente de vorbire, scopul principal al cadrului AniPortrait este de a prezice secvența de plasă facială 3D corespunzătoare cu reprezentări vectoriale ale translației și rotației. Cadrul AniPortrait folosește metoda wav2vec pre-antrenată pentru a extrage caracteristicile audio, iar modelul prezintă un grad ridicat de generalizare și este capabil să recunoască intonația și pronunția cu acuratețe din audio, care joacă un rol crucial în generarea animații faciale realiste. Prin valorificarea caracteristicilor de vorbire robuste dobândite, cadrul AniPortrait este capabil să utilizeze eficient o arhitectură simplă constând din două straturi fc pentru a converti aceste caracteristici în rețele faciale 3D. Cadrul AniPortrait observă că acest design simplu implementat de model nu numai că îmbunătățește eficiența procesului de inferență, dar asigură și acuratețea. La conversia audio în poză, cadrul AniPortrait folosește aceeași rețea wav2vec ca și coloana vertebrală, deși modelul nu împarte greutățile cu modulul audio la rețea. Se datorează în principal faptului că poziția este asociată mai mult cu tonul și ritmul prezente în audio, care deține un accent diferit în comparație cu sarcinile audio la rețea. Pentru a ține seama de impactul stărilor anterioare, cadrul AniPortrait folosește un decodor transformator pentru a decoda secvența de poziție. În timpul acestui proces, framework-ul integrează caracteristicile audio în decodor folosind mecanisme de atenție încrucișată, iar pentru ambele module, framework-ul le antrenează folosind pierderea L1. Odată ce modelul obține secvența de poziție și plasă, folosește proiecția în perspectivă pentru a transforma aceste secvențe într-o secvență 2D de repere faciale care sunt apoi utilizate ca semnale de intrare pentru etapa ulterioară. 

Lmk2Video

Pentru o anumită imagine de portret de referință și o secvență de repere faciale, modulul Lmk2Video propus creează o animație de portret consecventă în timp, iar această animație aliniază mișcarea cu secvența reper și menține un aspect care este în coerență cu imaginea de referință și, în final , cadrul reprezintă animația portretului ca o secvență de cadre portret. Designul structurii de rețea a Lmk2Video caută inspirație din cadrul deja existent AnimateAnyone. Cadrul AniPortrait folosește un Difuzie stabilă 1.5, un model de difuzie extrem de puternic ca coloană vertebrală și încorporează un modul de mișcare temporală care convertește eficient intrările de zgomot cu mai multe cadre într-o secvență de cadre video. În același timp, o componentă de rețea ReferencenNet oglindește structura Stable Diffusion 1.5 și o folosește pentru a extrage informațiile despre aspect din imaginea de referință și o integrează în coloana vertebrală. Designul strategic asigură că ID-ul facial rămâne consistent pe tot parcursul videoclipului de ieșire. Diferențiându-se de cadrul AnimateAnyone, cadrul AniPortrait sporește complexitatea designului PoseGuider. Versiunea originală a cadrului AnimateAnyone cuprinde doar câteva straturi de convoluție postate, pe care caracteristicile reperului se îmbină cu straturile latente și stratul de intrare al coloanei vertebrale. Cadrul AniPortrait descoperă că designul nu captează mișcările complicate ale buzelor și, pentru a aborda această problemă, cadrul adoptă strategia multi-scale a arhitecturii ConvNet și încorporează caracteristici de reper ale scărilor corespunzătoare în diferite blocuri ale coloanei vertebrale. În plus, cadrul AniPortrait introduce o îmbunătățire suplimentară prin includerea reperelor imaginii de referință ca intrare suplimentară. Modulul de atenție încrucișată al componentei PoseGuider facilitează interacțiunea dintre reperele țintă ale fiecărui cadru și reperele de referință. Acest proces oferă rețelei indicii suplimentare pentru a înțelege corelația dintre aspect și reperele faciale, ajutând astfel la generarea de animații portret cu mișcare mai precisă. 

AniPortrait: implementare și rezultat

Pentru etapa Audio2Lmk, cadrul AniPortrait adoptă componenta wav2vec2.0 ca coloană vertebrală și folosește arhitectura MediaPipe pentru a extrage rețele 3D și ipostaze 6D pentru adnotări. Modelul generează datele de antrenament pentru componenta Audio2Mesh din setul său de date intern, care cuprinde aproape 60 de minute de date de vorbire de înaltă calitate, provenite de la un singur difuzor. Pentru a se asigura că rețeaua 3D extrasă de componenta MediaPipe este stabilă, actorul vocal este instruit să se confrunte cu camera și să mențină o poziție stabilă a capului pe parcursul întregului proces de înregistrare. Pentru modulul Lmk2Video, cadrul AniPortrait implementează o abordare de formare în două etape. În prima etapă, cadrul se concentrează pe antrenarea ReferenceNet și PoseGuider, componenta 2D a coloanei vertebrale, și omite modulul de mișcare. În al doilea pas, cadrul AniPortrait îngheață toate celelalte componente și se concentrează pe antrenarea modulului de mișcare. Pentru această etapă, cadrul utilizează două seturi de date video faciale de înaltă calitate pentru a antrena modelul și procesează toate datele folosind componenta MediaPipe pentru a extrage repere faciale 2D. În plus, pentru a spori sensibilitatea rețelei față de mișcările buzelor, modelul AniPortrait diferențiază buzele superioare și inferioare cu culori distincte atunci când redă imaginea poziția din reperele 2D. 

După cum se demonstrează în imaginea următoare, cadrul AniPortrait generează o serie de animații care demonstrează calitate superioară, precum și realism.

Cadrul utilizează apoi o reprezentare 3D intermediară care poate fi editată pentru a manipula rezultatul conform cerințelor. De exemplu, utilizatorii pot extrage repere dintr-o anumită sursă și pot modifica ID-ul acesteia, permițând astfel cadrului AniPortrait să creeze un efect de recreare facială. 

Gânduri finale

În acest articol, am vorbit despre AniPortrait, un cadru nou conceput pentru a genera animații de înaltă calitate, conduse de o imagine portret de referință și un eșantion audio. Prin simpla introducere a unei imagini de referință și a unui clip audio, cadrul AniPortrait este capabil să genereze un videoclip portret care prezintă mișcarea naturală a capetelor și mișcarea lină a buzelor. Prin valorificarea capabilităților robuste de generalizare ale modelului de difuzie, cadrul AniPortrait generează animații care afișează o calitate impresionantă a imaginii realiste și o mișcare realistă. Funcționarea cadrului AniPortrait este împărțită în două etape. În primul rând, cadrul AniPortrait extrage reprezentările 3D intermediare din mostrele audio și le proiectează într-o secvență de repere faciale 2D. În continuare, cadrul folosește un model de difuzie robust cuplat cu un modul de mișcare pentru a converti secvențele de reper în animații coerente temporal și fotorealiste. Rezultatele experimentale demonstrează superioritatea și capacitatea cadrului AniPortrait de a genera animații de înaltă calitate, cu o calitate vizuală excepțională, diversitate de poziții și naturalețe facială, oferind astfel o experiență perceptivă îmbunătățită și îmbogățită. În plus, cadrul AniPortrait are un potențial remarcabil în ceea ce privește controlabilitatea și flexibilitatea și poate fi aplicat eficient în domenii precum recrearea facială, editarea mișcărilor faciale și multe altele.

„Un inginer de profesie, un scriitor pe de rost”. Kunal este un scriitor tehnic cu o dragoste și o înțelegere profundă a AI și ML, dedicat simplificării conceptelor complexe din aceste domenii prin documentația sa captivantă și informativă.