Kunstig intelligens

AniPortrait: Audio-Drevet Syntese av Fotorealistiske Portrett-Animasjoner

Published May 3, 2024

Updated April 27, 2026

Kunal Kejriwal

Over årene har skapingen av realistiske og uttrykksfulle portrett-animasjoner fra statiske bilder og lyd funnet en rekke anvendelser, inkludert spill, digitale medier, virtuell virkelighet og mye mer. Til tross for sin potensielle anvendelse, er det fortsatt vanskelig for utviklere å lage rammeverk som kan generere høykvalitets-animasjoner som opprettholder tidsmessig konsistens og er visuelt fengende. En hovedårsak til kompleksiteten er behovet for intrikate koordinering av lebebevegelser, hodeposisjoner og ansiktsuttrykk for å skape en visuelt overbevisende effekt.

I denne artikkelen skal vi snakke om AniPortrait, et nytt rammeverk designet for å generere høykvalitets-animasjoner drevet av et referanseportrett-bilde og en lyd-eksempel. Arbeidet til AniPortrait-rammeverket er delt i to stadier. Først ekstraherer AniPortrait-rammeverket de mellomliggende 3D-representasjonene fra lyd-eksemplene, og projiserer dem inn i en sekvens av 2D-ansiktslandemerker. Deretter anvender rammeverket en robust diffusjonsmodell kombinert med en bevegelsesmodul for å konvertere landmerksekvensene til tidsmessig konsistente og fotorealistiske animasjoner. De eksperimentelle resultater demonstrerer overlegenheten og evnen til AniPortrait-rammeverket til å generere høykvalitets-animasjoner med unik visuell kvalitet, posisjonsdiversitet og ansiktsnaturighet, og tilbyr dermed en forbedret og beriket perseptuell opplevelse. Videre har AniPortrait-rammeverket bemerkelsesverdig potensiale når det gjelder kontroll og fleksibilitet, og kan anvendes effektivt i områder som ansiktsreenactment, ansiktsbevegelsesredigering og mer. Denne artikkelen har som mål å dekke AniPortrait-rammeverket i dybden, og vi utforsker mekanismen, metoden, arkitekturen til rammeverket samt sammenligningen med state-of-the-art-rammeverk. La oss komme i gang.

AniPortrait: Fotorealistiske Portrett-Animasjoner

Å skape realistiske og uttrykksfulle portrett-animasjoner har vært fokus for forskere i en stund nå, på grunn av dens usedvanlige potensiale og anvendelser som spenner fra digitale medier og virtuell virkelighet til spill og mer. Til tross for årevis med forskning og utvikling, er det fortsatt en betydelig utfordring å produsere høykvalitets-animasjoner som opprettholder tidsmessig konsistens og er visuelt fengende. En stor hindring for utviklere er behovet for intrikate koordinering mellom hodeposisjoner, visuelle uttrykk og lebebevegelser for å skape en visuelt overbevisende effekt. Eksisterende metoder har ikke klart å takle disse utfordringene, hovedsakelig fordi de fleste av dem avhenger av begrensede kapasitetsgenereringer som NeRF, bevegelsesbaserte dekodere og GAN for visuell innholdsskapelse. Disse nettverkene viser begrensede generaliseringsmuligheter og er ustabile i å generere høykvalitetsinnhold. Imidlertid har den nylige oppblomstringen av diffusjonsmodeller gjort det mulig å generere høykvalitetsbilder, og noen rammeverk bygget på toppen av diffusjonsmodeller samt tidsmessige moduler har gjort det mulig å skape overbevisende videoer, og lar diffusjonsmodellene utmerke seg.

Bygget på toppen av diffusjonsmodellenes fremgang, har AniPortrait-rammeverket som mål å generere høykvalitets-animerte portretter ved hjelp av et referansebilde og en lyd-eksempel. Arbeidet til AniPortrait-rammeverket er delt i to stadier. I det første stadiet anvender AniPortrait-rammeverket transformer-baserte modeller for å ekstrahere en sekvens av 3D-ansiktsmess og hodeposisjon fra lyd-inndata, og projiserer dem deretter inn i en sekvens av 2D-ansiktslandemerker. Det første stadiet gjør det mulig for AniPortrait-rammeverket å fange lebebevegelser og subtile uttrykk fra lyden, i tillegg til hodebevegelser som synkroniserer med rytmen til lyd-eksemplet. I det andre stadiet anvender AniPortrait-rammeverket en robust diffusjonsmodell og integrerer den med en bevegelsesmodul for å konvertere ansiktslandmerksekvensen til en fotorealistisk og tidsmessig konsistent animert portrett. For å være mer spesifik, bygger AniPortrait-rammeverket på nettverksarkitekturen fra det eksisterende AnimateAnyone-modellen, som anvender Stable Diffusion 1.5, en potensuell diffusjonsmodell for å generere livlige og flytende basert på et referansebilde og en kroppbevegelsessekvens. Det er verdt å merke seg at AniPortrait-rammeverket ikke anvender poseguidermodulen i dette nettverket, som er implementert i AnimateAnyone-rammeverket, men redesigner den, og lar AniPortrait-rammeverket ikke bare opprettholde en lettvektet design, men også utviser forbedret nøyaktighet i å generere lebebevegelser.

Eksperimentelle resultater demonstrerer overlegenheten til AniPortrait-rammeverket i å skape animasjoner med imponerende ansiktsnaturighet, utmerket visuell kvalitet og varierende posisjoner. Ved å anvende 3D-ansiktsrepresentasjoner som mellomliggende funksjoner, får AniPortrait-rammeverket fleksibiliteten til å modifisere disse representasjonene etter eget ønske. Tilpasningen øker betydelig anvendeligheten av AniPortrait-rammeverket over domener, inkludert ansiktsreenactment og ansiktsbevegelsesredigering.

AniPortrait: Arbeid og Metodologi

Det foreslåtte AniPortrait-rammeverket består av to moduler, nemlig Lmk2Video og Audio2Lmk. Audio2Lmk-modulen forsøker å ekstrahere en sekvens av landemerker som fanger intrikate lebebevegelser og ansiktsuttrykk fra lyd-inndata, mens Lmk2Video-modulen anvender denne landmerksekvensen for å generere høykvalitets-portrettvideoer med tidsmessig stabilitet. Følgende figur presenterer en oversikt over arbeidet til AniPortrait-rammeverket. Som det kan observeres, ekstraherer AniPortrait-rammeverket først 3D-ansiktsmess og hodeposisjon fra lyden, og projiserer disse to elementene inn i 2D-nøkkel punkter deretter. I det andre stadiet anvender rammeverket en diffusjonsmodell for å konvertere 2D-nøkkel punktene til en portrettvideo, og de to stadiene trenes samtidig innenfor nettverket.

Audio2Lmk

For en gitt sekvens av tale-utklipp, er det primære målet til AniPortrait-rammeverket å forutsi den tilsvarende 3D-ansiktsmess-sekvensen med vektorrepresentasjoner av translasjon og rotasjon. AniPortrait-rammeverket anvender den forhåndstrengte wav2vec-metoden for å ekstrahere lyd-egenskaper, og modellen utviser en høy grad av generalisering, og er i stand til å gjenkjenne intonasjon og uttale fra lyden nøyaktig, noe som spiller en avgjørende rolle i å generere realistiske ansikts-animasjoner. Ved å utnytte de tilegnede robuste tale-egenskapene, er AniPortrait-rammeverket i stand til å effektivt anvende en enkel arkitektur bestående av to fc-lag for å konvertere disse egenskapene til 3D-ansiktsmess. AniPortrait-rammeverket observerer at denne enkle designen, som er implementert av modellen, ikke bare øker effektiviteten til inferensprosessen, men også sikrer nøyaktighet. Når det gjelder å konvertere lyd til pose, anvender AniPortrait-rammeverket den samme wav2vec-nettverket som ryggraden, selv om modellen ikke deler vektene med audio-til-mesh-modulen. Dette skyldes hovedsakelig det faktum at posisjon er mer assosiert med tone og rytme i lyden, som har en annen betoning sammenlignet med audio-til-mesh-oppdrag. For å ta hensyn til påvirkningen av de forrige tilstandene, anvender AniPortrait-rammeverket en transformer-dekoder for å dekodere posisjonssekvensen. Under denne prosessen integrerer rammeverket lyd-egenskapene inn i dekoderen ved hjelp av cross-attention-mekanismer, og for begge modulene, trenes rammeverket ved hjelp av L1-tap. Når modellen får pose- og mesh-sekvensen, anvender den perspektiv-projeksjon for å konvertere disse sekvensene til en 2D-sekvens av ansiktslandemerker som deretter anvendes som inngangssignaler for det påfølgende stadiet.

Lmk2Video

For en gitt referanseportrett-bilde og en sekvens av ansiktslandemerker, skaper Lmk2Video-modulen en tidsmessig konsistent portrett-animasjon, og denne animasjonen sammenfaller med bevegelsen til landmerksekvensen, og opprettholder et utseende som er i konsistens med referanse-bildet, og til slutt representerer portrett-animasjonen som en sekvens av portrett-rammer. Designet av Lmk2Video-modulens nettverksstruktur søker inspirasjon fra det allerede eksisterende AnimateAnyone-rammeverket. AniPortrait-rammeverket anvender en Stable Diffusion 1.5, en ekstremt potensuell diffusjonsmodell, som ryggraden, og integrerer en tidsmessig bevegelsesmodul som effektivt konverterer multi-ramme-lyd-inndata til en sekvens av video-rammer. Samtidig anvender ReferencenNet-nettverkskomponenten strukturen til Stable Diffusion 1.5, og anvender den til å ekstrahere utseende-informasjonen fra referanse-bildet, og integrerer den inn i ryggraden. Den strategiske designen sikrer at ansikts-ID forblir konsistent gjennom hele utgangs-videoen. I motsetning til AnimateAnyone-rammeverket, forbedrer AniPortrait-rammeverket kompleksiteten til PoseGuider-designet. Den opprinnelige versjonen av AnimateAnyone-rammeverket består bare av noen få konvolusjonslag, etterfulgt av at landmerk-egenskapene sammenfaller med latente på inngangslaget til ryggraden. AniPortrait-rammeverket oppdager at designet mangler i å fange intrikate bevegelser av lebene, og for å takle dette problemet, anvender rammeverket den multi-skala-strategien til ConvNet-arkitekturen, og integrerer landmerk-egenskaper av tilsvarende skalaer inn i ulike blokker av ryggraden. Videre introduserer AniPortrait-rammeverket en ytterligere forbedring ved å inkludere landmerkene til referanse-bildet som en ekstra inngang. Cross-attention-modulen til PoseGuider-komponenten muliggjør interaksjonen mellom mål-landmerkene til hver ramme og referanse-landmerkene. Denne prosessen gir nettverket ekstra hint til å forstå korrelasjonen mellom utseende og ansiktslandemerker, og hjelper dermed i å generere portrett-animasjoner med mer presis bevegelse.

AniPortrait: Implementering og Resultat

For Audio2Lmk-stadiet, anvender AniPortrait-rammeverket wav2vec2.0-komponenten som ryggraden, og anvender MediaPipe-arkitekturen for å ekstrahere 3D-mesh og 6D-pose for annoteringer. Modellen henter treningdata for Audio2Mesh-komponenten fra sin interne datasett, som består av omtrent 60 minutter med høykvalitets tale-data hentet fra en enkelt speaker. For å sikre at 3D-meshen som ekstraheres av MediaPipe-komponenten er stabil, instrueres stemmeskuespilleren til å vende seg mot kameraet og opprettholde en stabil hodeposisjon under hele innspillingsprosessen. For Lmk2Video-modulen, implementerer AniPortrait-rammeverket en to-stegs treningstilnærming. I det første stadiet, fokuserer rammeverket på å trene ReferenceNet og PoseGuider, 2D-komponenten av ryggraden, og lar ut bevegelsesmodulen. I det andre steget, fryser AniPortrait-rammeverket alle andre komponenter og konsentrerer seg om å trene bevegelsesmodulen. For dette stadiet, anvender rammeverket to store, høykvalitets ansiktsvideo-datasett for å trene modellen, og prosesserer all data ved hjelp av MediaPipe-komponenten for å ekstrahere 2D-ansiktslandemerker. Videre, for å øke nettverkets sensitivitet overfor lebebevegelser, differensierer AniPortrait-modellen de øvre og nedre lebene med distinkte farger når de renderer pose-bildet fra 2D-landemerker.

Som vist i følgende bilde, genererer AniPortrait-rammeverket en rekke animasjoner som demonstrerer overlegen kvalitet og realisme.

Rammeverket anvender deretter en mellomliggende 3D-representasjon som kan redigeres for å manipulere utgangen etter behov. For eksempel, kan brukerne ekstrahere landemerker fra en bestemt kilde og endre dens ID, og dermed lar AniPortrait-rammeverket skape en ansiktsreenactment-effekt.

Slutt tanker

I denne artikkelen har vi snakket om AniPortrait, et nytt rammeverk designet for å generere høykvalitets-animasjoner drevet av et referanseportrett-bilde og en lyd-eksempel. Ved å bare innputte et referansebilde og en lyd-klipp, er AniPortrait-rammeverket i stand til å generere en portrettvideo som viser naturlig bevegelse av hoder og glatte lebebevegelser. Ved å utnytte den robuste generaliseringsmuligheten til diffusjonsmodellen, genererer AniPortrait-rammeverket animasjoner som viser imponerende realistisk bildekvalitet og livlig bevegelse. Arbeidet til AniPortrait-rammeverket er delt i to stadier. Først ekstraherer AniPortrait-rammeverket de mellomliggende 3D-representasjonene fra lyd-eksemplene, og projiserer dem inn i en sekvens av 2D-ansiktslandemerker. Deretter anvender rammeverket en robust diffusjonsmodell kombinert med en bevegelsesmodul for å konvertere landmerksekvensene til tidsmessig konsistente og fotorealistiske animasjoner. De eksperimentelle resultater demonstrerer overlegenheten og evnen til AniPortrait-rammeverket til å generere høykvalitets-animasjoner med unik visuell kvalitet, posisjonsdiversitet og ansiktsnaturighet, og tilbyr dermed en forbedret og beriket perseptuell opplevelse. Videre har AniPortrait-rammeverket bemerkelsesverdig potensiale når det gjelder kontroll og fleksibilitet, og kan anvendes effektivt i områder som ansiktsreenactment, ansiktsbevegelsesredigering og mer.