Kontakt med oss

Kunstig intelligens

AniPortrait: lyddrevet syntese av fotorealistisk portrettanimasjon

mm

Gjennom årene har opprettelsen av realistiske og uttrykksfulle portrettanimasjoner fra statiske bilder og lyd funnet en rekke applikasjoner, inkludert spill, digitale medier, virtuell virkelighet og mye mer. Til tross for den potensielle applikasjonen, er det fortsatt vanskelig for utviklere å lage rammer som er i stand til å generere animasjoner av høy kvalitet som opprettholder tidsmessig konsistens og er visuelt fengende. En hovedårsak til kompleksiteten er behovet for intrikate koordinering av leppebevegelser, hodeposisjoner og ansiktsuttrykk for å skape en visuelt overbevisende effekt. 

I denne artikkelen skal vi snakke om AniPortrait, et nytt rammeverk designet for å generere animasjoner av høy kvalitet drevet av et referanseportrettbilde og et lydeksempel. Arbeidet med AniPortrait-rammeverket er delt inn i to stadier. Først trekker AniPortrait-rammeverket ut de mellomliggende 3D-representasjonene fra lydprøvene, og projiserer dem til en sekvens av 2D-ansiktslandemerker. Etter dette bruker rammeverket en robust diffusjonsmodell kombinert med en bevegelsesmodul for å konvertere landemerkesekvensene til tidsmessig konsistente og fotorealistiske animasjoner. De eksperimentelle resultatene demonstrerer overlegenheten og evnen til AniPortrait-rammeverket til å generere animasjoner av høy kvalitet med eksepsjonell visuell kvalitet, poseringsmangfold og ansiktsnaturlighet, og tilbyr derfor en forbedret og beriket perseptuell opplevelse. Videre har AniPortrait-rammeverket et bemerkelsesverdig potensiale når det gjelder kontrollerbarhet og fleksibilitet, og kan brukes effektivt på områder inkludert ansiktsreenactment, ansiktsbevegelsesredigering og mer. Denne artikkelen tar sikte på å dekke AniPortrait-rammeverket i dybden, og vi utforsker mekanismen, metodikken, arkitekturen til rammeverket sammen med dets sammenligning med toppmoderne rammeverk. Så la oss komme i gang. 

AniPortrait: Fotorealistisk portrettanimasjon

Å lage realistiske og uttrykksfulle portrettanimasjoner har vært i fokus for forskere en stund nå på grunn av dets utrolige potensiale og applikasjoner som spenner fra digitale medier og virtuell virkelighet til spill og mer. Til tross for mange års forskning og utvikling, er det fortsatt en betydelig utfordring å produsere animasjoner av høy kvalitet som opprettholder tidsmessig konsistens og er visuelt fengende. Et stort hinder for utviklere er behovet for intrikat koordinering mellom hodeposisjoner, visuelle uttrykk og leppebevegelser for å lage en visuelt overbevisende effekt. Eksisterende metoder har ikke klart å takle disse utfordringene, først og fremst siden de fleste av dem er avhengige av generatorer med begrenset kapasitet som NeRF, bevegelsesbaserte dekodere og GAN for å lage visuelt innhold. Disse nettverkene viser begrensede generaliseringsmuligheter, og er ustabile når det gjelder å generere innhold av høy kvalitet. Den nylige fremveksten av diffusjonsmodeller har imidlertid gjort det lettere å generere bilder av høy kvalitet, og noen rammeverk bygget på toppen av diffusjonsmodeller sammen med tidsmessige moduler har gjort det lettere å lage overbevisende videoer, slik at diffusjonsmodeller kan utmerke seg. 

AniPortrait-rammeverket bygger på fremskritt med diffusjonsmodeller, og har som mål å generere animerte portretter av høy kvalitet ved hjelp av et referansebilde og et lydeksempel. Arbeidet med AniPortrait-rammeverket er delt i to trinn. I det første trinnet bruker AniPortrait-rammeverket transformatorbaserte modeller for å trekke ut en sekvens av 3D-ansiktsnett og hodepositur fra lydinngang, og projiserer dem deretter inn i en sekvens av 2D-ansiktslandemerker. Det første trinnet letter AniPortrait-rammeverket for å fange leppebevegelser og subtile uttrykk fra lyden i tillegg til hodebevegelser som synkroniserer med rytmen til lydeksemplet. Den andre fasen, AniPortrait-rammeverket bruker en robust diffusjonsmodell og integrerer den med en bevegelsesmodul for å transformere ansikts landemerkesekvensen til et fotorealistisk og tidsmessig konsistent animert portrett. For å være mer spesifikk, trekker AniPortrait-rammeverket på nettverksarkitekturen fra den eksisterende AnimateAnyone-modellen som bruker Stable Diffusion 1.5, en potent diffusjonsmodell å generere naturtro og flytende basert på et referansebilde og en kroppsbevegelsessekvens. Det som er verdt å merke seg er at AniPortrait-rammeverket ikke bruker poseguider-modulen i dette nettverket slik det er implementert i AnimateAnyone-rammeverket, men det redesigner det, slik at AniPortrait-rammeverket ikke bare opprettholder en lett design, men også viser forbedret presisjon i å generere leppe bevegelser. 

Eksperimentelle resultater viser overlegenheten til AniPortrait-rammeverket når det gjelder å lage animasjoner med imponerende ansiktsnaturlighet, utmerket visuell kvalitet og varierte positurer. Ved å bruke 3D-ansiktsrepresentasjoner som mellomfunksjoner, får AniPortrait-rammeverket fleksibiliteten til å endre disse representasjonene i henhold til kravene. Tilpasningsevnen forbedrer anvendbarheten til AniPortrait-rammeverket betydelig på tvers av domener, inkludert ansiktsreenactment og ansiktsbevegelsesredigering. 

AniPortrait: Arbeid og metodikk

Det foreslåtte AniPortrait-rammeverket består av to moduler, nemlig Lmk2Video og Audio2Lmk. Audio2Lmk-modulen prøver å trekke ut en sekvens av landemerker som fanger intrikate leppebevegelser og ansiktsuttrykk fra lydinngang, mens Lmk2Video-modulen bruker denne landemerkesekvensen til å generere portrettvideoer av høy kvalitet med tidsmessig stabilitet. Følgende figur presenterer en oversikt over hvordan AniPortrait-rammeverket fungerer. Som det kan observeres, trekker AniPortrait-rammeverket først ut 3D-ansiktsnettet og hodeposituren fra lyden, og projiserer disse to elementene til 2D-nøkkelpunkter deretter. I det andre trinnet bruker rammeverket en diffusjonsmodell for å transformere 2D-nøkkelpunktene til en portrettvideo med to trinn som trenes samtidig i nettverket. 

Audio2Lmk

For en gitt sekvens av talebiter er hovedmålet med AniPortrait-rammeverket å forutsi den tilsvarende 3D-ansiktsmaskesekvensen med vektorrepresentasjoner av translasjon og rotasjon. AniPortrait-rammeverket bruker den forhåndstrente wav2vec-metoden for å trekke ut lydfunksjoner, og modellen viser en høy grad av generalisering, og er i stand til å gjenkjenne intonasjon og uttale fra lyden nøyaktig som spiller en avgjørende rolle i å generere realistiske ansiktsanimasjoner. Ved å utnytte de ervervede robuste talefunksjonene, er AniPortrait-rammeverket i stand til effektivt å bruke en enkel arkitektur bestående av to fc-lag for å konvertere disse funksjonene til 3D-ansiktsmasker. AniPortrait-rammeverket observerer at denne enkle designen implementert av modellen ikke bare forbedrer effektiviteten til slutningsprosessen, men sikrer også nøyaktighet. Når du konverterer lyd til positur, bruker AniPortrait-rammeverket det samme wav2vec-nettverket som ryggraden, selv om modellen ikke deler vektene med audio to mesh-modulen. Det er hovedsakelig på grunn av det faktum at positur er mer assosiert med tone og rytme i lyden, som har en annen vekt sammenlignet med lyd til mesh-oppgaver. For å gjøre rede for virkningen av de tidligere tilstandene, bruker AniPortrait-rammeverket en transformatordekoder for å dekode positursekvensen. Under denne prosessen integrerer rammeverket lydfunksjonene i dekoderen ved hjelp av kryssoppmerksomhetsmekanismer, og for begge modulene trener rammeverket dem ved å bruke L1-tapet. Når modellen har oppnådd positur- og mesh-sekvensen, bruker den perspektivprojeksjon for å transformere disse sekvensene til en 2D-sekvens av ansikts landemerker som deretter brukes som inngangssignaler for det påfølgende stadiet. 

Lmk2Video

For et gitt referanseportrettbilde og en sekvens av ansikts landemerker, skaper den foreslåtte Lmk2Video-modulen en tidsmessig konsistent portrettanimasjon, og denne animasjonen justerer bevegelsen med landemerkesekvensen, og opprettholder et utseende som er i samsvar med referansebildet, og til slutt , representerer rammeverket portrettanimasjonen som en sekvens av portrettrammer. Utformingen av Lmk2Videos nettverksstruktur søker inspirasjon fra det allerede eksisterende rammeverket AnimateAnyone. AniPortrait-rammeverket bruker en Stabil diffusjon 1.5, en ekstremt potent diffusjonsmodell som ryggrad, og inneholder en tidsbevegelsesmodul som effektivt konverterer multi-frame støyinnganger til en sekvens av videoframes. Samtidig speiler en ReferencenNet-nettverkskomponent strukturen til Stable Diffusion 1.5, og bruker den til å trekke ut utseendeinformasjonen fra referansebildet, og integrere den i ryggraden. Den strategiske designen sikrer at ansikts-ID-en forblir konsistent gjennom hele utdatavideoen. AniPortrait-rammeverket skiller seg fra AnimateAnyone-rammeverket og forbedrer kompleksiteten til PoseGuiders design. Den originale versjonen av AnimateAnyone-rammeverket omfatter bare noen få konvolusjonslag, hvor landemerkefunksjonene smelter sammen med latentene og inngangslaget til ryggraden. AniPortrait-rammeverket oppdager at designet kommer til kort når det gjelder å fange intrikate bevegelser av leppene, og for å takle dette problemet, adopterer rammeverket flerskalastrategien til ConvNet-arkitekturen, og inkorporerer landemerketrekk ved tilsvarende skalaer i forskjellige blokker av ryggraden. Videre introduserer AniPortrait-rammeverket en ekstra forbedring ved å inkludere landemerkene til referansebildet som en ekstra inngang. Kryssoppmerksomhetsmodulen til PoseGuider-komponenten letter samspillet mellom landemerkene til hver ramme og referanselandemerkene. Denne prosessen gir nettverket ytterligere pekepinner for å forstå sammenhengen mellom utseende og ansikts landemerker, og hjelper dermed til med generering av portrettanimasjoner med mer presis bevegelse. 

AniPortrait: Implementering og resultat

For Audio2Lmk-scenen tar AniPortrait-rammeverket wav2vec2.0-komponenten som ryggrad, og utnytter MediaPipe-arkitekturen for å trekke ut 3D-masker og 6D-positurer for merknader. Modellen henter treningsdataene for Audio2Mesh-komponenten fra det interne datasettet som omfatter nesten 60 minutter med høykvalitets taledata hentet fra en enkelt høyttaler. For å sikre at 3D-nettverket som trekkes ut av MediaPipe-komponenten er stabilt, instrueres stemmeskuespilleren om å vende mot kameraet og opprettholde en jevn hodeposisjon under hele opptaksprosessen. For Lmk2Video-modulen implementerer AniPortrait-rammeverket en to-trinns opplæringstilnærming. I det første trinnet fokuserer rammeverket på trening av ReferenceNet og PoseGuider, 2D-komponenten i ryggraden, og utelater bevegelsesmodulen. I det andre trinnet fryser AniPortrait-rammeverket alle de andre komponentene, og konsentrerer seg om å trene bevegelsesmodulen. For dette stadiet bruker rammeverket to store, høykvalitets ansiktsvideodatasett for å trene modellen, og behandler alle dataene ved å bruke MediaPipe-komponenten for å trekke ut 2D-ansiktslandemerker. Videre, for å øke følsomheten til nettverket mot leppebevegelser, skiller AniPortrait-modellen over- og underleppene med distinkte farger når den gjengir positurbildet fra 2D-landemerker. 

Som vist i det følgende bildet, genererer AniPortrait-rammeverket en serie animasjoner som demonstrerer overlegen kvalitet så vel som realisme.

Rammeverket bruker deretter en mellomliggende 3D-representasjon som kan redigeres for å manipulere utdataene i henhold til kravene. For eksempel kan brukere trekke ut landemerker fra en bestemt kilde og endre IDen, slik at AniPortrait-rammeverket kan skape en ansiktsreenactment-effekt. 

Final Thoughts

I denne artikkelen har vi snakket om AniPortrait, et nytt rammeverk designet for å generere animasjoner av høy kvalitet drevet av et referanseportrettbilde og et lydeksempel. Ved ganske enkelt å legge inn et referansebilde og et lydklipp, er AniPortrait-rammeverket i stand til å generere en portrettvideo som har naturlig bevegelse av hoder og jevn leppebevegelse. Ved å utnytte de robuste generaliseringsmulighetene til diffusjonsmodellen, genererer AniPortrait-rammeverket animasjoner som viser imponerende realistisk bildekvalitet og naturtro bevegelse. Arbeidet med AniPortrait-rammeverket er delt inn i to stadier. Først trekker AniPortrait-rammeverket ut de mellomliggende 3D-representasjonene fra lydprøvene, og projiserer dem til en sekvens av 2D-ansiktslandemerker. Etter dette bruker rammeverket en robust diffusjonsmodell kombinert med en bevegelsesmodul for å konvertere landemerkesekvensene til tidsmessig konsistente og fotorealistiske animasjoner. De eksperimentelle resultatene demonstrerer overlegenheten og evnen til AniPortrait-rammeverket til å generere animasjoner av høy kvalitet med eksepsjonell visuell kvalitet, poseringsmangfold og ansiktsnaturlighet, og tilbyr derfor en forbedret og beriket perseptuell opplevelse. Videre har AniPortrait-rammeverket et bemerkelsesverdig potensiale når det gjelder kontrollerbarhet og fleksibilitet, og kan brukes effektivt på områder inkludert ansiktsreenactment, ansiktsbevegelsesredigering og mer.

"En ingeniør av yrke, en forfatter utenat". Kunal er en teknisk forfatter med en dyp kjærlighet og forståelse for AI og ML, dedikert til å forenkle komplekse konsepter på disse feltene gjennom sin engasjerende og informative dokumentasjon.