škrbina AniPortrait: avdio vodena sinteza fotorealistične portretne animacije - Unite.AI
Povežite se z nami

Umetna inteligenca

AniPortrait: zvočno vodena sinteza fotorealistične portretne animacije

mm

objavljeno

 on

Z leti je ustvarjanje realističnih in ekspresivnih portretnih animacij iz statičnih slik in zvoka našlo vrsto aplikacij, vključno z igranjem iger, digitalnimi mediji, virtualno resničnostjo in še veliko več. Kljub možni uporabi je razvijalcem še vedno težko ustvariti okvire, ki so zmožni generirati visokokakovostne animacije, ki ohranjajo časovno doslednost in so vizualno privlačne. Glavni vzrok za kompleksnost je potreba po zapleteni koordinaciji gibov ustnic, položajev glave in obraznih izrazov za ustvarjanje vizualno prepričljivega učinka. 

V tem članku bomo govorili o AniPortrait, novem ogrodju, zasnovanem za ustvarjanje visokokakovostnih animacij, ki jih poganja referenčna portretna slika in zvočni vzorec. Delovanje ogrodja AniPortrait je razdeljeno na dve stopnji. Najprej ogrodje AniPortrait iz zvočnih vzorcev izvleče vmesne 3D predstavitve in jih projicira v zaporedje 2D obraznih mejnikov. Po tem ogrodje uporablja robusten difuzijski model skupaj z modulom gibanja za pretvorbo zaporedij mejnikov v časovno dosledne in fotorealistične animacije. Eksperimentalni rezultati dokazujejo superiornost in zmožnost ogrodja AniPortrait za ustvarjanje visokokakovostnih animacij z izjemno vizualno kakovostjo, raznolikostjo poze in naravnostjo obraza, s čimer ponuja izboljšano in obogateno zaznavno izkušnjo. Poleg tega ima ogrodje AniPortrait izjemen potencial v smislu nadzora in prilagodljivosti ter ga je mogoče učinkovito uporabiti na področjih, vključno s poustvarjanjem obraza, urejanjem gibanja obraza in več. Namen tega članka je poglobljeno obravnavati okvir AniPortrait in raziskati mehanizem, metodologijo, arhitekturo okvira skupaj z njegovo primerjavo z najsodobnejšimi okviri. Pa začnimo. 

AniPortrait: fotorealistična portretna animacija

Ustvarjanje realističnih in ekspresivnih portretnih animacij je že nekaj časa v središču pozornosti raziskovalcev zaradi njegovega neverjetnega potenciala in aplikacij, ki segajo od digitalnih medijev in virtualne resničnosti do iger in še več. Kljub letom raziskav in razvoja ustvarjanje visokokakovostnih animacij, ki ohranjajo časovno doslednost in so vizualno privlačne, še vedno predstavlja velik izziv. Velika ovira za razvijalce je potreba po zapletenem usklajevanju med položaji glave, vizualnimi izrazi in gibi ustnic za ustvarjanje vizualno prepričljivega učinka. Obstoječe metode se niso spopadle s temi izzivi, predvsem zato, ker se večina od njih zanaša na generatorje z omejeno zmogljivostjo, kot so NeRF, dekoderji na podlagi gibanja in GAN za ustvarjanje vizualne vsebine. Ta omrežja imajo omejene zmožnosti posploševanja in so nestabilna pri ustvarjanju visokokakovostne vsebine. Vendar pa je nedavni pojav difuzijskih modelov olajšal ustvarjanje visokokakovostnih slik in nekateri okviri, zgrajeni na vrhu difuzijskih modelov, skupaj s časovnimi moduli, so olajšali ustvarjanje prepričljivih videoposnetkov, kar omogoča difuzijskim modelom, da blestijo. 

Ogrodje AniPortrait, ki gradi na napredku difuzijskih modelov, želi ustvariti visokokakovostne animirane portrete z uporabo referenčne slike in zvočnega vzorca. Delovanje ogrodja AniPortrait je razdeljeno na dve stopnji. V prvi fazi ogrodje AniPortrait uporablja transformatorske modele za ekstrahiranje zaporedja 3D mreže obraza in poze glave iz zvočnega vhoda ter ju nato projicira v zaporedje 2D obraznih orientacijskih točk. Prva stopnja olajša okvir AniPortrait za zajemanje gibov ustnic in subtilnih izrazov iz zvoka poleg gibov glave, ki se sinhronizirajo z ritmom zvočnega vzorca. Druga stopnja, ogrodje AniPortrait, uporablja robusten difuzijski model in ga integrira z modulom gibanja za pretvorbo zaporedja mejnikov obraza v fotorealističen in časovno dosleden animirani portret. Če smo natančnejši, ogrodje AniPortrait temelji na omrežni arhitekturi iz obstoječega modela AnimateAnyone, ki uporablja Stable Diffusion 1.5, močan difuzijski model za ustvarjanje realističnega in tekočega na podlagi referenčne slike in zaporedja gibanja telesa. Omeniti velja, da ogrodje AniPortrait v tem omrežju ne uporablja modula za vodenje poze, kot je implementiran v ogrodju AnimateAnyone, ampak ga preoblikuje, kar ogrodju AniPortrait omogoča ne samo ohranjanje lahke zasnove, ampak tudi izkazuje večjo natančnost pri ustvarjanju ustnic gibanja. 

Eksperimentalni rezultati dokazujejo superiornost ogrodja AniPortrait pri ustvarjanju animacij z impresivno naravnostjo obraza, odlično vizualno kakovostjo in raznolikimi pozami. Z uporabo 3D obraznih predstavitev kot vmesnih funkcij pridobi okvir AniPortrait prilagodljivost za spreminjanje teh predstavitev v skladu s svojimi zahtevami. Prilagodljivost bistveno izboljša uporabnost ogrodja AniPortrait na različnih področjih, vključno s poustvarjanjem obraza in urejanjem gibanja obraza. 

AniPortrait: Delo in metodologija

Predlagano ogrodje AniPortrait je sestavljeno iz dveh modulov, in sicer Lmk2Video in Audio2Lmk. Modul Audio2Lmk poskuša iz zvočnega vhoda izluščiti zaporedje mejnikov, ki zajame zapletene gibe ustnic in izraze obraza, medtem ko modul Lmk2Video uporablja to zaporedje mejnikov za ustvarjanje visokokakovostnih portretnih videoposnetkov s časovno stabilnostjo. Naslednja slika predstavlja pregled delovanja ogrodja AniPortrait. Kot lahko opazimo, okvir AniPortrait najprej iz zvoka izvleče 3D obrazno mrežo in pozo glave, nato pa ta dva elementa projicira v 2D ključne točke. V drugi fazi ogrodje uporablja difuzijski model za preoblikovanje 2D ključnih točk v portretni video z dvema stopnjama, ki se usposabljata hkrati v omrežju. 

Audio2Lmk

Za dano zaporedje izrezkov govora je primarni cilj ogrodja AniPortrait napovedati ustrezno 3D zaporedje mreže obraza z vektorskimi predstavitvami prevajanja in vrtenja. Ogrodje AniPortrait uporablja predhodno usposobljeno metodo wav2vec za ekstrahiranje zvočnih funkcij, model pa kaže visoko stopnjo posploševanja in je sposoben natančno prepoznati intonacijo in izgovorjavo iz zvoka, kar igra ključno vlogo pri ustvarjanju realistične obrazne animacije. Z izkoriščanjem pridobljenih robustnih govornih funkcij lahko ogrodje AniPortrait učinkovito uporablja preprosto arhitekturo, sestavljeno iz dveh fc plasti, za pretvorbo teh funkcij v 3D obrazne mreže. Ogrodje AniPortrait opaža, da ta preprosta zasnova, ki jo izvaja model, ne le poveča učinkovitost postopka sklepanja, ampak zagotavlja tudi natančnost. Pri pretvarjanju zvoka v pozo okvir AniPortrait uporablja isto omrežje wav2vec kot hrbtenico, čeprav si model ne deli uteži z modulom zvoka v mrežo. To je predvsem posledica dejstva, da je poza bolj povezana s tonom in ritmom, ki sta prisotna v zvoku, kar ima drugačen poudarek v primerjavi z zvočnimi in mrežnimi nalogami. Da bi upoštevali vpliv prejšnjih stanj, okvir AniPortrait uporablja transformatorski dekoder za dekodiranje zaporedja poze. Med tem procesom ogrodje integrira zvočne funkcije v dekoder z uporabo mehanizmov navzkrižne pozornosti, za oba modula pa ju ogrodje usposablja z uporabo izgube L1. Ko model pridobi pozo in mrežno zaporedje, uporabi perspektivno projekcijo za preoblikovanje teh zaporedij v 2D zaporedje obraznih mejnikov, ki se nato uporabijo kot vhodni signali za naslednjo stopnjo. 

Lmk2Video

Za dano referenčno portretno sliko in zaporedje mejnikov obraza predlagani modul Lmk2Video ustvari časovno dosledno portretno animacijo, ta animacija pa uskladi gibanje z zaporedjem mejnikov in ohranja videz, ki je skladen z referenčno sliko, in končno , okvir predstavlja portretno animacijo kot zaporedje portretnih okvirjev. Zasnova mrežne strukture Lmk2Video išče navdih v že obstoječem ogrodju AnimateAnyone. Ogrodje AniPortrait uporablja a Stabilna difuzija 1.5, izjemno močan difuzijski model kot njegova hrbtenica, in vključuje modul časovnega gibanja, ki učinkovito pretvarja vnose hrupa več sličic v zaporedje video sličic. Hkrati omrežna komponenta ReferencenNet zrcali strukturo Stable Diffusion 1.5 in jo uporablja za pridobivanje informacij o videzu iz referenčne slike ter jih integrira v hrbtenico. Strateška zasnova zagotavlja, da identifikacija obraza ostane dosledna v celotnem izhodnem videu. Ogrodje AniPortrait, ki se razlikuje od ogrodja AnimateAnyone, povečuje kompleksnost zasnove PoseGuiderja. Izvirna različica ogrodja AnimateAnyone obsega le nekaj konvolucijskih plasti, kjer se mejnik zlije z latentnimi elementi vhodne plasti hrbtenice. Ogrodje AniPortrait odkrije, da zasnova ne zajame zapletenih gibov ustnic, in za reševanje te težave ogrodje sprejme večstopenjsko strategijo arhitekture ConvNet in vključuje pomembne značilnosti ustreznih lestvic v različne bloke hrbtenice. Poleg tega okvir AniPortrait uvaja dodatno izboljšavo z vključitvijo mejnikov referenčne slike kot dodatnega vhoda. Modul navzkrižne pozornosti komponente PoseGuider olajša interakcijo med ciljnimi točkami vsakega okvira in referenčnimi točkami. Ta proces zagotavlja omrežju dodatne namige za razumevanje korelacije med videzom in točkami obraza ter tako pomaga pri ustvarjanju portretnih animacij z natančnejšim gibanjem. 

AniPortrait: Izvedba in rezultat

Za stopnjo Audio2Lmk ogrodje AniPortrait sprejme komponento wav2vec2.0 kot svojo hrbtenico in izkorišča arhitekturo MediaPipe za ekstrahiranje 3D-mrež in 6D-poze za opombe. Model pridobiva podatke o usposabljanju za komponento Audio2Mesh iz svojega notranjega nabora podatkov, ki obsega skoraj 60 minut visokokakovostnih govornih podatkov, pridobljenih iz enega zvočnika. Za zagotovitev, da je 3D-mreža, ki jo ekstrahira komponenta MediaPipe, stabilna, je glasovnemu igralcu naročeno, naj se obrne proti kameri in ohranja stabilen položaj glave med celotnim postopkom snemanja. Za modul Lmk2Video okvir AniPortrait izvaja dvostopenjski pristop k usposabljanju. V prvi fazi se ogrodje osredotoča na usposabljanje ReferenceNet in PoseGuider, 2D komponente hrbtenice, in izpusti modul gibanja. V drugem koraku okvir AniPortrait zamrzne vse druge komponente in se osredotoči na usposabljanje modula gibanja. Za to stopnjo ogrodje uporablja dva obsežna visokokakovostna nabora obraznih videoposnetkov za usposabljanje modela in obdela vse podatke s komponento MediaPipe za ekstrahiranje 2D obraznih mejnikov. Poleg tega model AniPortrait za izboljšanje občutljivosti mreže na premike ustnic razlikuje zgornje in spodnje ustnice z različnimi barvami pri upodabljanju slike poze iz 2D orientacijskih točk. 

Kot je prikazano na naslednji sliki, ogrodje AniPortrait ustvarja niz animacij, ki prikazujejo vrhunsko kakovost in realističnost.

Ogrodje nato uporabi vmesno 3D predstavitev, ki jo je mogoče urejati za manipulacijo izhoda v skladu z zahtevami. Uporabniki lahko na primer izvlečejo mejnike iz določenega vira in spremenijo njegov ID, kar omogoči ogrodju AniPortrait, da ustvari učinek ponovne uprizoritve obraza. 

Končna thoughts

V tem članku smo govorili o AniPortrait, novem ogrodju, zasnovanem za ustvarjanje visokokakovostnih animacij, ki jih poganja referenčna portretna slika in zvočni vzorec. S preprostim vnosom referenčne slike in zvočnega posnetka lahko ogrodje AniPortrait ustvari portretni video, ki vsebuje naravno gibanje glav in gladko gibanje ustnic. Z izkoriščanjem robustnih zmožnosti posploševanja difuzijskega modela okvir AniPortrait ustvarja animacije, ki prikazujejo impresivno realistično kakovost slike in realistično gibanje. Delovanje ogrodja AniPortrait je razdeljeno na dve stopnji. Najprej ogrodje AniPortrait iz zvočnih vzorcev izvleče vmesne 3D predstavitve in jih projicira v zaporedje 2D obraznih mejnikov. Po tem ogrodje uporablja robusten difuzijski model skupaj z modulom gibanja za pretvorbo zaporedij mejnikov v časovno dosledne in fotorealistične animacije. Eksperimentalni rezultati dokazujejo superiornost in zmožnost ogrodja AniPortrait za ustvarjanje visokokakovostnih animacij z izjemno vizualno kakovostjo, raznolikostjo poze in naravnostjo obraza, s čimer ponuja izboljšano in obogateno zaznavno izkušnjo. Poleg tega ima ogrodje AniPortrait izjemen potencial v smislu nadzora in prilagodljivosti ter ga je mogoče učinkovito uporabiti na področjih, vključno s poustvarjanjem obraza, urejanjem gibanja obraza in več.

"Po poklicu inženir, po srcu pisatelj". Kunal je tehnični pisec z globoko ljubeznijo in razumevanjem umetne inteligence in strojnega upravljanja, ki je predan poenostavljanju zapletenih konceptov na teh področjih s svojo privlačno in informativno dokumentacijo.