Kunstig intelligens
AniPortrait: Lyddrevet syntese af fotorealistisk portrætanimation

Gennem årene har skabelsen af ​​realistiske og udtryksfulde portrætter fra statiske billeder og lyd fundet en række applikationer, herunder spil, digitale medier, virtual reality og meget mere. På trods af dens potentielle anvendelse er det stadig vanskeligt for udviklere at skabe rammer, der er i stand til at generere animationer af høj kvalitet, der bevarer tidsmæssig konsistens og er visuelt fængslende. En væsentlig årsag til kompleksiteten er behovet for indviklet koordinering af læbebevægelser, hovedpositioner og ansigtsudtryk for at skabe en visuelt overbevisende effekt.
I denne artikel vil vi tale om AniPortrait, en ny ramme designet til at generere højkvalitetsanimationer drevet af et referenceportrætbillede og en lydprøve. Arbejdet med AniPortrait-rammen er opdelt i to faser. For det første udtrækker AniPortrait-rammen de mellemliggende 3D-repræsentationer fra lydeksemplerne og projicerer dem ind i en sekvens af 2D-ansigtsvartegn. Efter dette anvender rammeværket en robust diffusionsmodel kombineret med et bevægelsesmodul til at konvertere skelsættende sekvenser til tidsmæssigt konsistente og fotorealistiske animationer. De eksperimentelle resultater demonstrerer overlegenheden og evnen af ​​AniPortrait-rammeværket til at generere højkvalitetsanimationer med exceptionel visuel kvalitet, positur-diversitet og ansigtsnaturlighed, hvilket giver en forbedret og beriget perceptuel oplevelse. Ydermere rummer AniPortrait-rammen et bemærkelsesværdigt potentiale med hensyn til kontrollerbarhed og fleksibilitet og kan anvendes effektivt på områder, herunder ansigtsgenopførelse, redigering af ansigtsbevægelser og mere. Denne artikel har til formål at dække AniPortrait-rammerne i dybden, og vi udforsker mekanismen, metodologien, arkitekturen af ​​rammen sammen med dens sammenligning med state of the art-rammerne. Så lad os komme i gang.
AniPortrait: Fotorealistisk portrætanimation
At skabe realistiske og udtryksfulde portrætanimationer har været i fokus for forskere i et stykke tid nu på grund af dets utrolige potentiale og applikationer, der spænder fra digitale medier og virtual reality til spil og mere. På trods af mange års forskning og udvikling er det stadig en betydelig udfordring at producere animationer af høj kvalitet, der bevarer tidsmæssig sammenhæng og er visuelt fængslende. En stor hindring for udviklere er behovet for indviklet koordination mellem hovedpositioner, visuelle udtryk og læbebevægelser for at skabe en visuelt overbevisende effekt. Eksisterende metoder har ikke kunnet tackle disse udfordringer, primært da et flertal af dem er afhængige af generatorer med begrænset kapacitet som NeRF, bevægelsesbaserede dekodere og GAN til skabelse af visuelt indhold. Disse netværk udviser begrænsede generaliseringsevner og er ustabile til at generere indhold af høj kvalitet. Imidlertid har den nylige fremkomst af diffusionsmodeller lettet genereringen af ​​billeder af høj kvalitet, og nogle rammer bygget oven på diffusionsmodeller sammen med tidsmæssige moduler har lettet oprettelsen af ​​overbevisende videoer, hvilket gør det muligt for diffusionsmodeller at udmærke sig.
AniPortrait-rammeværket bygger på fremskridt inden for diffusionsmodeller og sigter mod at generere animerede portrætter af høj kvalitet ved hjælp af et referencebillede og en lydeksempel. Arbejdet med AniPortrait-rammen er opdelt i to trin. I den første fase anvender AniPortrait-rammeværket transformatorbaserede modeller til at udtrække en sekvens af 3D-ansigtsmasker og hovedposer fra lydinput og projicerer dem efterfølgende ind i en sekvens af 2D-ansigtsvartegn. Det første trin letter AniPortrait-rammen for at fange læbebevægelser og subtile udtryk fra lyden ud over hovedbevægelser, der synkroniserer med lydeksemplets rytme. Det andet trin, AniPortrait-rammen anvender en robust diffusionsmodel og integrerer den med et bevægelsesmodul for at transformere ansigtets skelsættende sekvens til et fotorealistisk og tidsmæssigt konsistent animeret portræt. For at være mere specifik trækker AniPortrait-rammen på netværksarkitekturen fra den eksisterende AnimateAnyone-model, der anvender Stable Diffusion 1.5, en potent diffusionsmodel at generere naturtro og flydende baseret på et referencebillede og en kropsbevægelsessekvens. Det, der er værd at bemærke, er, at AniPortrait-rammen ikke bruger poseguider-modulet i dette netværk, som det er implementeret i AnimateAnyone-rammeværket, men det redesigner det, hvilket gør det muligt for AniPortrait-rammen ikke kun at opretholde et letvægtsdesign, men også udviser forbedret præcision ved generering af læber. bevægelser.
Eksperimentelle resultater demonstrerer overlegenheden af ​​AniPortrait-rammen ved at skabe animationer med imponerende ansigtsnaturlighed, fremragende visuel kvalitet og varierede positurer. Ved at anvende 3D-ansigtsrepræsentationer som mellemliggende funktioner, opnår AniPortrait-rammen fleksibiliteten til at ændre disse repræsentationer i henhold til dets krav. Tilpasningsevnen forbedrer betydeligt anvendeligheden af ​​AniPortrait-rammen på tværs af domæner, herunder ansigtsgenopsætning og redigering af ansigtsbevægelser.
AniPortræt: Arbejde og metode
Den foreslåede AniPortrait-ramme består af to moduler, nemlig Lmk2Video og Audio2Lmk. Audio2Lmk-modulet forsøger at udtrække en sekvens af vartegn, der fanger indviklede læbebevægelser og ansigtsudtryk fra lydinput, mens Lmk2Video-modulet bruger denne skelsættende sekvens til at generere højkvalitets portrætvideoer med tidsmæssig stabilitet. Den følgende figur præsenterer en oversigt over, hvordan AniPortrait-rammen fungerer. Som det kan ses, udtrækker AniPortrait-rammen først 3D-ansigtsmasken og hovedstillingen fra lyden og projicerer disse to elementer ind i 2D-nøglepunkter efterfølgende. I anden fase anvender rammeværket en diffusionsmodel til at transformere 2D-nøglepunkterne til en portrætvideo med to faser, der trænes samtidigt i netværket.
Audio2Lmk
For en given sekvens af taleuddrag er det primære mål med AniPortrait-rammen at forudsige den tilsvarende 3D-ansigtsmaskesekvens med vektorrepræsentationer af translation og rotation. AniPortrait-rammen anvender den fortrænede wav2vec-metode til at udtrække lydfunktioner, og modellen udviser en høj grad af generalisering og er i stand til at genkende intonation og udtale fra lyden nøjagtigt, hvilket spiller en afgørende rolle i genereringen af realistiske ansigtsanimationer. Ved at udnytte de erhvervede robuste talefunktioner er AniPortrait-rammeværket i stand til effektivt at anvende en simpel arkitektur bestående af to fc-lag til at konvertere disse funktioner til 3D-ansigtsmasker. AniPortrait-rammen observerer, at dette enkle design implementeret af modellen ikke kun øger effektiviteten af ​​inferensprocessen, men sikrer også nøjagtighed. Når lyd konverteres til positur, anvender AniPortrait-rammeværket det samme wav2vec-netværk som rygraden, selvom modellen ikke deler vægtene med audio to mesh-modulet. Det er hovedsageligt på grund af det faktum, at positur er mere forbundet med tone og rytme i lyden, hvilket har en anden vægt sammenlignet med lyd til mesh-opgaver. For at tage højde for virkningen af ​​de tidligere tilstande anvender AniPortrait-rammen en transformator-dekoder til at afkode posesekvensen. Under denne proces integrerer rammeværket lydfunktionerne i dekoderen ved hjælp af krydsopmærksomhedsmekanismer, og for begge moduler træner rammeværket dem ved hjælp af L1-tabet. Når først modellen har opnået positur- og mesh-sekvensen, anvender den perspektivprojektion til at transformere disse sekvenser til en 2D-sekvens af ansigts-landmærker, der derefter bruges som inputsignaler til den efterfølgende fase.
Lmk2 Video
For et givet referenceportrætbillede og en sekvens af ansigtslandmærker skaber det foreslåede Lmk2Video-modul en tidsmæssigt konsistent portrætanimation, og denne animation justerer bevægelsen med vartegnsekvensen og bevarer et udseende, der er i overensstemmelse med referencebilledet, og endelig , repræsenterer rammen portrætanimationen som en sekvens af portrætrammer. Designet af Lmk2Videos netværksstruktur søger inspiration fra den allerede eksisterende AnimateAnyone-ramme. AniPortrait-rammen anvender en Stabil diffusion 1.5, en ekstremt potent diffusionsmodel som sin rygrad, og inkorporerer et tidsmæssigt bevægelsesmodul, der effektivt konverterer multi-frame-støjinput til en sekvens af videoframes. Samtidig spejler en ReferencenNet-netværkskomponent strukturen af ​​Stable Diffusion 1.5 og anvender den til at udtrække udseendeinformationen fra referencebilledet og integrere den i rygraden. Det strategiske design sikrer, at ansigts-id'et forbliver ensartet i hele outputvideoen. AniPortrait-rammen, der adskiller sig fra AnimateAnyone-rammen, øger kompleksiteten af ​​PoseGuiders design. Den originale version af AnimateAnyone-rammeværket omfatter kun et par foldningslag, hvor vartegnsfunktionerne smelter sammen med latenterne og inputlaget på rygraden. AniPortrait-rammeværket opdager, at designet kommer til kort med at fange indviklede bevægelser af læberne, og for at tackle dette problem vedtager rammeværket multi-skala-strategien fra ConvNet-arkitekturen og inkorporerer skelsættende træk ved tilsvarende skalaer i forskellige blokke af rygraden. Ydermere introducerer AniPortrait-rammen en yderligere forbedring ved at inkludere referencebilledets vartegn som et ekstra input. Cross-attention-modulet i PoseGuider-komponenten letter interaktionen mellem mål-landmærkerne for hver frame og reference-landemærkerne. Denne proces giver netværket yderligere signaler til at forstå sammenhængen mellem udseende og ansigtets vartegn, og hjælper således med at generere portrætanimationer med mere præcis bevægelse.
AniPortrait: Implementering og resultat
Til Audio2Lmk-scenen anvender AniPortrait-rammeværket wav2vec2.0-komponenten som sin rygrad og udnytter MediaPipe-arkitekturen til at udtrække 3D-masker og 6D-positurer til annoteringer. Modellen henter træningsdataene for Audio2Mesh-komponenten fra dens interne datasæt, der omfatter næsten 60 minutters højkvalitets taledata hentet fra en enkelt højttaler. For at sikre, at 3D-nettet, der udvindes af MediaPipe-komponenten, er stabilt, instrueres stemmeskuespilleren i at vende mod kameraet og opretholde en stabil hovedposition under hele optagelsesprocessen. For Lmk2Video-modulet implementerer AniPortrait-rammeværket en to-trins træningstilgang. I den første fase fokuserer rammen på træning af ReferenceNet og PoseGuider, 2D-komponenten af ​​rygraden, og udelader bevægelsesmodulet. I andet trin fryser AniPortrait rammeværket alle de andre komponenter og koncentrerer sig om at træne bevægelsesmodulet. Til denne fase gør rammeværket brug af to store højkvalitets ansigtsvideodatasæt til at træne modellen og behandler alle data ved hjælp af MediaPipe-komponenten til at udtrække 2D-ansigtsvartegn. Desuden, for at øge netværkets følsomhed over for læbebevægelser, differentierer AniPortrait-modellen over- og underlæberne med distinkte farver, når poseringsbilledet gengives fra 2D-landemærker.
Som vist i det følgende billede genererer AniPortrait-rammeværket en række animationer, der demonstrerer overlegen kvalitet såvel som realisme.
Rammen bruger derefter en mellemliggende 3D-repræsentation, der kan redigeres for at manipulere outputtet i henhold til kravene. For eksempel kan brugere udtrække vartegn fra en bestemt kilde og ændre dens ID, hvilket giver AniPortrait-rammen mulighed for at skabe en ansigtsgenskabende effekt.
Afsluttende tanker
I denne artikel har vi talt om AniPortrait, en ny ramme designet til at generere højkvalitetsanimationer drevet af et referenceportrætbillede og en lydeksempel. Ved blot at indtaste et referencebillede og et lydklip er AniPortrait-rammeværket i stand til at generere en portrætvideo, der har naturlige bevægelser af hoveder og jævn læbebevægelse. Ved at udnytte diffusionsmodellens robuste generaliseringsevner genererer AniPortrait-rammeværket animationer, der viser imponerende realistisk billedkvalitet og naturtro bevægelse. Arbejdet med AniPortrait-rammen er opdelt i to faser. For det første udtrækker AniPortrait-rammen de mellemliggende 3D-repræsentationer fra lydeksemplerne og projicerer dem ind i en sekvens af 2D-ansigtsvartegn. Efter dette anvender rammeværket en robust diffusionsmodel kombineret med et bevægelsesmodul til at konvertere skelsættende sekvenser til tidsmæssigt konsistente og fotorealistiske animationer. De eksperimentelle resultater demonstrerer overlegenheden og evnen af ​​AniPortrait-rammeværket til at generere højkvalitetsanimationer med exceptionel visuel kvalitet, positur-diversitet og ansigtsnaturlighed, hvilket giver en forbedret og beriget perceptuel oplevelse. Ydermere rummer AniPortrait-rammen et bemærkelsesværdigt potentiale med hensyn til kontrollerbarhed og fleksibilitet og kan anvendes effektivt på områder, herunder ansigtsgenopførelse, redigering af ansigtsbevægelser og mere.