Artificiell intelligens

AniPortrait: Ljudstyrning av Synnerligen Verkliga Porträttanimationer

Published May 3, 2024

Updated April 27, 2026

Kunal Kejriwal

Under åren har skapandet av realistiska och uttrycksfulla porträttanimationer från statiska bilder och ljud funnit en rad tillämpningar, inklusive spel, digitala medier, virtuell verklighet och mycket mer. Trots dess potentiella tillämpning är det fortfarande svårt för utvecklare att skapa ramverk som kan generera högkvalitativa animationer som upprätthåller tidsmässig konsekvens och är visuellt tilltalande. En stor orsak till komplexiteten är behovet av intrikat samordning av läpprörelser, huvudpositioner och ansiktsuttryck för att skapa en visuellt tilltalande effekt.

I den här artikeln kommer vi att prata om AniPortrait, ett nytt ramverk som är utformat för att generera högkvalitativa animationer som drivs av en referensporträttbild och en ljudprov. AniPortraits ramverk är indelat i två faser. Först extraherar AniPortraits ramverk de mellanliggande 3D-representationerna från ljudproverna och projicerar dem sedan till en sekvens av 2D-ansiktslandmärken. Därefter använder ramverket en robust diffusionsmodell i kombination med en rörelsemodul för att omvandla landmärkessekvensen till tidsmässigt konsekventa och synnerligen verkliga animationer. De experimentella resultaten visar AniPortraits ramverks överlägsenhet och förmåga att generera högkvalitativa animationer med exceptionell visuell kvalitet, posdiversitet och ansiktsnaturlighet, vilket erbjuder en förbättrad och berikad perceptuell upplevelse. Dessutom har AniPortraits ramverk en anmärkningsvärd potential när det gäller kontroll och flexibilitet och kan tillämpas effektivt inom områden som ansiktsåtergestaltning, ansiktsrörelseredigering och mer. Den här artikeln syftar till att täcka AniPortraits ramverk i djupet, och vi utforskar mekanismen, metodiken, arkitekturen i ramverket samt dess jämförelse med ramverk i toppklass. Så låt oss komma igång.

AniPortrait: Synnerligen Verkliga Porträttanimationer

Att skapa realistiska och uttrycksfulla porträttanimationer har varit fokus för forskare under en längre tid på grund av dess otroliga potential och tillämpningar som sträcker sig från digitala medier och virtuell verklighet till spel och mer. Trots år av forskning och utveckling presenterar produktionen av högkvalitativa animationer som upprätthåller tidsmässig konsekvens och är visuellt tilltalande fortfarande en betydande utmaning. En stor hinder för utvecklare är behovet av intrikat samordning mellan huvudpositioner, visuella uttryck och läpprörelser för att skapa en visuellt tilltalande effekt. Existerande metoder har misslyckats med att tackla dessa utmaningar, främst eftersom de flesta av dem förlitar sig på begränsade kapacitetsgenereringar som NeRF, rörelsebaserade avkodare och GAN för visuellt innehållsskapande. Dessa nätverk visar begränsad generaliseringsförmåga och är instabila vid generering av högkvalitativt innehåll. Men den nyliga uppkomsten av diffusionsmodeller har underlättat genereringen av högkvalitativa bilder, och vissa ramverk byggda ovanpå diffusionsmodeller tillsammans med tidsmässiga moduler har underlättat skapandet av övertygande videor, vilket gör att diffusionsmodellerna utmärker sig.

Genom att bygga på diffusionsmodellernas framsteg syftar AniPortraits ramverk till att generera högkvalitativa animerade porträtt med hjälp av en referensbild och ett ljudprov. AniPortraits ramverk är indelat i två faser. I den första fasen använder AniPortraits ramverk transformerbaserade modeller för att extrahera en sekvens av 3D-ansiktsnät och huvudposition från ljudinmatning, och projicerar dem sedan till en sekvens av 2D-ansiktslandmärken. Den första fasen möjliggör för AniPortraits ramverk att fånga läpprörelser och subtila uttryck från ljudet, samt huvudrörelser som synkroniserar med ljudprovens rytm. I den andra fasen använder AniPortraits ramverk en robust diffusionsmodell och integrerar den med en rörelsemodul för att omvandla ansiktslandmärkessekvensen till en synnerligen verklig och tidsmässigt konsekvent animerad porträtt. För att vara mer specifik använder AniPortraits ramverk nätverksarkitekturen från den befintliga AnimateAnyone-modellen, som använder Stable Diffusion 1.5, en potent diffusionsmodell för att generera livliga och flytande baserat på en referensbild och en kroppsrörelsesekvens. Vad som är värt att notera är att AniPortraits ramverk inte använder poseguidermodulen inom detta nätverk, som den är implementerad i AnimateAnyone-ramverket, men omformar den, vilket gör att AniPortraits ramverk inte bara upprätthåller en lättviktig design utan också visar förbättrad precision vid generering av läpprörelser.

De experimentella resultaten visar AniPortraits ramverks överlägsenhet vid skapandet av animationer med imponerande ansiktsnaturlighet, utmärkt visuell kvalitet och varierande poser. Genom att använda 3D-ansiktsrepresentationer som mellanliggande funktioner vinner AniPortraits ramverk flexibiliteten att modifiera dessa representationer enligt dess behov. Anpassningen förbättrar avsevärt tillämpbarheten av AniPortraits ramverk inom områden som ansiktsåtergestaltning och ansiktsrörelseredigering.

AniPortrait: Arbete och Metodik

Det föreslagna AniPortraits ramverket består av två moduler, nämligen Lmk2Video och Audio2Lmk. Audio2Lmk-modulen försöker extrahera en sekvens av landmärken som fångar intrikata läpprörelser och ansiktsuttryck från ljudinmatning, medan Lmk2Video-modulen använder denna landmärkessekvens för att generera högkvalitativa porträttvideor med tidsmässig stabilitet. Följande figur presenterar en översikt av AniPortraits ramverks arbete. Som det kan observeras extraherar AniPortraits ramverk först 3D-ansiktsnätet och huvudpositionen från ljudet och projicerar dessa två element till 2D-nyckelpunkter. I den andra fasen använder ramverket en diffusionsmodell för att omvandla 2D-nyckelpunkterna till en porträttvideo, med två faser som tränas samtidigt inom nätverket.

Audio2Lmk

För en given sekvens av talbitar är det primära målet för AniPortraits ramverk att förutsäga den motsvarande 3D-ansiktsnätsekvensen med vektorrepresentationer av translation och rotation. AniPortraits ramverk använder den förtränade wav2vec-metoden för att extrahera ljudfunktioner, och modellen visar en hög grad av generalisering och kan känna igen intonation och uttal från ljudet på ett korrekt sätt, vilket spelar en avgörande roll vid generering av realistiska ansiktsanimationer. Genom att utnyttja de inhämtade robusta tal funktionerna kan AniPortraits ramverk effektivt använda en enkel arkitektur bestående av två fc-lager för att omvandla dessa funktioner till 3D-ansiktsnät. AniPortraits ramverk observerar att denna enkla design som implementeras av modellen inte bara förbättrar effektiviteten i inferensprocessen utan också säkerställer noggrannhet. När det gäller att omvandla ljud till pose använder AniPortraits ramverk samma wav2vec-nätverk som ryggraden, men modellen delar inte viktarna med ljud-till-nätmodulen. Det är främst på grund av att posen är associerad mer med ton och rytm som finns i ljudet, vilket har en annan betoning jämfört med ljud-till-nätuppgifter. För att ta hänsyn till påverkan av tidigare tillstånd använder AniPortraits ramverk en transformer-dekoder för att dekodera possekvensen. Under denna process integrerar ramverket ljudfunktionerna i dekodern med hjälp av cross-attention-mekanismer, och för båda modulerna tränar ramverket dem med hjälp av L1-förlust. När modellen får pose- och nätsekvensen använder den perspektivprojektion för att omvandla dessa sekvenser till en 2D-sekvens av ansiktslandmärken som sedan används som inmatningssignaler för den efterföljande fasen.

Lmk2Video

För en given referensporträttbild och en sekvens av ansiktslandmärken skapar Lmk2Video-modulen en tidsmässigt konsekvent porträttanimation, och denna animation anpassar rörelsen till landmärkessekvensen, och upprätthåller ett utseende som är i överensstämmelse med referensbilden, och slutligen representerar porträttanimationen som en sekvens av porträttbilder. Lmk2Videos nätverksstruktur söker inspiration från den befintliga AnimateAnyone-ramen. AniPortraits ramverk använder en Stable Diffusion 1.5, en extremt potent diffusionsmodell som dess ryggrad, och integrerar en tidsmässig rörelsemodul som effektivt omvandlar multifram-noisinput till en sekvens av videobilder. Samtidigt speglar ReferencenNet-nätverkskomponenten strukturen på Stable Diffusion 1.5 och använder den för att extrahera utseendefunktionerna från referensbilden och integrera dem i ryggraden. Den strategiska designen säkerställer att ansikts-ID förblir konsekvent under hela utgångsvideon. Till skillnad från AnimateAnyone-ramen förbättrar AniPortraits ramverk komplexiteten i PoseGuiders design. Den ursprungliga versionen av AnimateAnyone-ramen består endast av ett fåtal convolution-lager, varefter landmärkesfunktionerna sammanfogas med latenter i ingångslagret till ryggraden. AniPortraits ramverk upptäcker att designen brister i att fånga intrikata läpprörelser, och för att tackla detta problem antar ramverket den multi-skala-strategin i ConvNet-arkitekturen och integrerar landmärkesfunktioner av motsvarande skalor i olika block av ryggraden. Dessutom introducerar AniPortraits ramverk en ytterligare förbättring genom att inkludera landmärkena från referensbilden som en extra inmatning. Cross-attention-modulen i PoseGuider-komponenten möjliggör interaktionen mellan mål-landmärkena för varje bild och referenslandmärkena. Denna process ger nätverket ytterligare ledtrådar för att förstå korrelationen mellan utseende och ansiktslandmärken, vilket hjälper till att generera porträttanimationer med mer exakt rörelse.

AniPortrait: Implementering och Resultat

För Audio2Lmk-fasen använder AniPortraits ramverk wav2vec2.0-komponenten som dess ryggrad och utnyttjar MediaPipe-arkitekturen för att extrahera 3D-nät och 6D-poser för annoteringar. Modellen hämtar träningsdata för Audio2Mesh-komponenten från dess interna dataset som består av nästan 60 minuter av högkvalitativa taldata från en enda talare. För att säkerställa att 3D-nätet som extraheras av MediaPipe-komponenten är stabilt instrueras röstskådespelaren att möta kameran och upprätthålla en stabil huvudposition under hela inspelningen. För Lmk2Video-modulen implementerar AniPortraits ramverk en tvåstegsträningsansats. I den första fasen fokuserar ramverket på att träna ReferenceNet och PoseGuider, 2D-komponenten i ryggraden, och lämnar ut rörelsemodulen. I den andra fasen fryser AniPortraits ramverk alla andra komponenter och koncentrerar sig på att träna rörelsemodulen. För denna fas använder ramverket två stora högkvalitativa ansiktsvideo-dataset för att träna modellen och bearbetar all data med hjälp av MediaPipe-komponenten för att extrahera 2D-ansiktslandmärken. Dessutom för att förbättra nätverkets känslighet för läpprörelser differentierar AniPortraits-modellen de övre och nedre läpparna med olika färger när de renderar pose-bilden från 2D-landmärken.

Som visas i följande bild genererar AniPortraits ramverk en serie animationer som visar överlägsen kvalitet och realism.

Ramverket använder sedan en mellanliggande 3D-representation som kan redigeras för att manipulera utmatningen enligt kraven. Till exempel kan användare extrahera landmärken från en viss källa och ändra dess ID, vilket gör att AniPortraits ramverk kan skapa en ansiktsåtergestaltnings-effekt.

Slutliga Tankar

I den här artikeln har vi talat om AniPortrait, ett nytt ramverk som är utformat för att generera högkvalitativa animationer som drivs av en referensporträttbild och ett ljudprov. Genom att enkelt mata in en referensbild och ett ljudklipp kan AniPortraits ramverk generera en porträttvideo som visar naturlig rörelse av huvuden och smidig läpprörelse. Genom att utnyttja den robusta generaliseringsförmågan hos diffusionsmodellen genererar AniPortraits ramverk animationer som visar imponerande realistisk bildkvalitet och livlig rörelse. AniPortraits ramverks arbete är indelat i två faser. Först extraherar AniPortraits ramverk de mellanliggande 3D-representationerna från ljudproverna och projicerar dem till en sekvens av 2D-ansiktslandmärken. Därefter använder ramverket en robust diffusionsmodell i kombination med en rörelsemodul för att omvandla landmärkessekvensen till tidsmässigt konsekventa och synnerligen verkliga animationer. De experimentella resultaten visar AniPortraits ramverks överlägsenhet och förmåga att generera högkvalitativa animationer med exceptionell visuell kvalitet, posdiversitet och ansiktsnaturlighet, vilket erbjuder en förbättrad och berikad perceptuell upplevelse. Dessutom har AniPortraits ramverk en anmärkningsvärd potential när det gäller kontroll och flexibilitet och kan tillämpas effektivt inom områden som ansiktsåtergestaltning, ansiktsrörelseredigering och mer.