Artificial Intelligence
AniPortrait: audiogestuurde synthese van fotorealistische portretanimatie

Door de jaren heen heeft de creatie van realistische en expressieve portretanimaties op basis van statische beelden en audio een reeks toepassingen gevonden, waaronder gaming, digitale media, virtual reality en nog veel meer. Ondanks de potentiële toepassing ervan is het nog steeds moeilijk voor ontwikkelaars om raamwerken te creëren die animaties van hoge kwaliteit kunnen genereren die de temporele consistentie behouden en visueel boeiend zijn. Een belangrijke oorzaak voor de complexiteit is de behoefte aan ingewikkelde coördinatie van lipbewegingen, hoofdposities en gezichtsuitdrukkingen om een ​​visueel aantrekkelijk effect te creëren.
In dit artikel zullen we het hebben over AniPortrait, een nieuw raamwerk dat is ontworpen om animaties van hoge kwaliteit te genereren, aangestuurd door een referentieportretbeeld en een audiovoorbeeld. De werking van het AniPortrait-framework is verdeeld in twee fasen. Ten eerste extraheert het AniPortrait-framework de tussenliggende 3D-representaties uit de audiofragmenten en projecteert deze in een reeks 2D-gezichtsoriëntatiepunten. Hierna maakt het raamwerk gebruik van een robuust diffusiemodel gekoppeld aan een bewegingsmodule om de historische sequenties om te zetten in tijdelijk consistente en fotorealistische animaties. De experimentele resultaten demonstreren de superioriteit en het vermogen van het AniPortrait-framework om hoogwaardige animaties te genereren met een uitzonderlijke visuele kwaliteit, posediversiteit en natuurlijkheid van het gezicht, waardoor een verbeterde en verrijkte perceptuele ervaring wordt geboden. Bovendien biedt het AniPortrait-framework opmerkelijke mogelijkheden op het gebied van beheersbaarheid en flexibiliteit, en kan het effectief worden toegepast op gebieden als gezichtsre-enactment, gezichtsbewegingsbewerking en meer. Dit artikel heeft tot doel het AniPortrait-framework diepgaand te behandelen, en we onderzoeken het mechanisme, de methodologie en de architectuur van het raamwerk, samen met de vergelijking ervan met de modernste raamwerken. Dus laten we beginnen.
AniPortrait: fotorealistische portretanimatie
Het creëren van realistische en expressieve portretanimaties is al een tijdje de focus van onderzoekers vanwege het ongelooflijke potentieel en de toepassingen ervan, variërend van digitale media en virtual reality tot gaming en meer. Ondanks jaren van onderzoek en ontwikkeling vormt het produceren van hoogwaardige animaties die de temporele consistentie behouden en visueel boeiend zijn, nog steeds een aanzienlijke uitdaging. Een groot obstakel voor ontwikkelaars is de behoefte aan ingewikkelde coördinatie tussen hoofdposities, visuele uitdrukkingen en lipbewegingen om een ​​visueel aantrekkelijk effect te creëren. De bestaande methoden zijn er niet in geslaagd deze uitdagingen aan te pakken, vooral omdat de meerderheid ervan afhankelijk is van generatoren met beperkte capaciteit, zoals NeRF, op beweging gebaseerde decoders en GAN voor het creëren van visuele inhoud. Deze netwerken vertonen beperkte generalisatiemogelijkheden en zijn onstabiel in het genereren van inhoud van hoge kwaliteit. De recente opkomst van diffusiemodellen heeft echter het genereren van beelden van hoge kwaliteit vergemakkelijkt, en sommige raamwerken die bovenop diffusiemodellen zijn gebouwd, samen met temporele modules, hebben de creatie van boeiende video's vergemakkelijkt, waardoor diffusiemodellen kunnen excelleren.
Voortbouwend op de vooruitgang van diffusiemodellen, heeft het AniPortrait-framework tot doel geanimeerde portretten van hoge kwaliteit te genereren met behulp van een referentiebeeld en een audiofragment. De werking van het AniPortrait-framework is in twee fasen opgesplitst. In de eerste fase maakt het AniPortrait-framework gebruik van op transformatoren gebaseerde modellen om een ​​reeks 3D-gezichtsmesh en hoofdhouding uit audio-invoer te extraheren en deze vervolgens te projecteren in een reeks 2D-gezichtsoriëntatiepunten. De eerste fase vergemakkelijkt het AniPortrait-framework om lipbewegingen en subtiele uitdrukkingen uit de audio vast te leggen, naast hoofdbewegingen die synchroniseren met het ritme van de audiosample. In de tweede fase maakt het AniPortrait-framework gebruik van een robuust diffusiemodel en integreert dit met een bewegingsmodule om de reeks gezichtsherkenningspunten om te zetten in een fotorealistisch en temporeel consistent geanimeerd portret. Om specifieker te zijn: het AniPortrait-framework maakt gebruik van de netwerkarchitectuur van het bestaande AnimateAnyone-model dat gebruik maakt van Stable Diffusion 1.5, een krachtig diffusiemodel om levensecht en vloeiend te genereren op basis van een referentiebeeld en een lichaamsbewegingsreeks. Wat het vermelden waard is, is dat het AniPortrait-framework niet de pose guider-module binnen dit netwerk gebruikt zoals deze in het AnimateAnyone-framework is geïmplementeerd, maar dat het deze opnieuw ontwerpt, waardoor het AniPortrait-framework niet alleen een lichtgewicht ontwerp behoudt, maar ook een grotere precisie vertoont bij het genereren van lipbewegingen. bewegingen.
Experimentele resultaten demonstreren de superioriteit van het AniPortrait-framework bij het creëren van animaties met indrukwekkende natuurlijkheid van het gezicht, uitstekende visuele kwaliteit en gevarieerde poses. Door 3D-gezichtsrepresentaties als tussenkenmerken te gebruiken, krijgt het AniPortrait-framework de flexibiliteit om deze representaties aan te passen aan de vereisten. Het aanpassingsvermogen verbetert de toepasbaarheid van het AniPortrait-framework aanzienlijk in domeinen, waaronder gezichtsre-enactment en gezichtsbewegingsbewerking.
AniPortrait: werking en methodologie
Het voorgestelde AniPortrait-framework bestaat uit twee modules, namelijk Lmk2Video en Audio2Lmk. De Audio2Lmk-module probeert een reeks oriëntatiepunten te extraheren die ingewikkelde lipbewegingen en gezichtsuitdrukkingen uit audio-invoer vastleggen, terwijl de Lmk2Video-module deze oriëntatiepuntenreeks gebruikt om portretvideo's van hoge kwaliteit met temporele stabiliteit te genereren. De volgende afbeelding geeft een overzicht van de werking van het AniPortrait-framework. Zoals u kunt zien, extraheert het AniPortrait-framework eerst de 3D-gezichtsmesh en hoofdhouding uit de audio, en projecteert deze twee elementen vervolgens in 2D-hoofdpunten. In de tweede fase maakt het raamwerk gebruik van een diffusiemodel om de 2D-kernpunten om te zetten in een portretvideo, waarbij twee fasen gelijktijdig binnen het netwerk worden getraind.
Audio2Lmk
Voor een bepaalde reeks spraakfragmenten is het primaire doel van het AniPortrait-framework het voorspellen van de overeenkomstige 3D-gezichtsmesh-reeks met vectorrepresentaties van translatie en rotatie. Het AniPortrait-framework maakt gebruik van de vooraf getrainde wav2vec-methode om audiokenmerken te extraheren, en het model vertoont een hoge mate van generalisatie en is in staat om intonatie en uitspraak nauwkeurig uit de audio te herkennen, wat een cruciale rol speelt bij het genereren van realistische gezichtsanimaties. Door gebruik te maken van de verworven robuuste spraakkenmerken kan het AniPortrait-framework effectief gebruik maken van een eenvoudige architectuur bestaande uit twee fc-lagen om deze kenmerken om te zetten in 3D-gezichtsmazen. Het AniPortrait-framework merkt op dat dit eenvoudige ontwerp, geïmplementeerd door het model, niet alleen de efficiëntie van het inferentieproces verbetert, maar ook nauwkeurigheid garandeert. Bij het converteren van audio naar pose gebruikt het AniPortrait-framework hetzelfde wav2vec-netwerk als de backbone, hoewel het model de gewichten niet deelt met de audio-naar-mesh-module. Dit is grotendeels te wijten aan het feit dat pose meer wordt geassocieerd met toon en ritme in de audio, die een andere nadruk legt in vergelijking met audio- en mesh-taken. Om rekening te houden met de impact van de voorgaande toestanden, maakt het AniPortrait-framework gebruik van een transformatordecoder om de pose-reeks te decoderen. Tijdens dit proces integreert het raamwerk de audiofuncties in de decoder met behulp van kruisaandachtsmechanismen, en voor beide modules traint het raamwerk ze met behulp van het L1-verlies. Zodra het model de pose- en mesh-reeks heeft verkregen, maakt het gebruik van perspectiefprojectie om deze reeksen om te zetten in een 2D-reeks van gezichtsoriëntatiepunten die vervolgens worden gebruikt als invoersignalen voor de volgende fase.
Lmk2Video
Voor een bepaald referentieportretbeeld en een reeks gezichtsoriëntatiepunten creëert de voorgestelde Lmk2Video-module een temporeel consistente portretanimatie, en deze animatie lijnt de beweging uit met de oriëntatiepuntreeks, en behoudt een uiterlijk dat consistent is met het referentiebeeld, en ten slotte vertegenwoordigt het raamwerk de portretanimatie als een reeks portretframes. Het ontwerp van de netwerkstructuur van Lmk2Video is geïnspireerd op het reeds bestaande AnimateAnyone-framework. Het AniPortrait-framework maakt gebruik van een Stabiele diffusie 1.5, een extreem krachtig diffusiemodel als ruggengraat, en bevat een temporele bewegingsmodule die multi-frame ruisinvoer effectief omzet in een reeks videoframes. Tegelijkertijd weerspiegelt een ReferencenNet-netwerkcomponent de structuur van Stable Diffusion 1.5 en gebruikt deze om de uiterlijkinformatie uit het referentiebeeld te extraheren en deze in de backbone te integreren. Het strategische ontwerp zorgt ervoor dat de gezichts-ID consistent blijft in de gehele outputvideo. Het AniPortrait-framework onderscheidt zich van het AnimateAnyone-framework en verbetert de complexiteit van het ontwerp van de PoseGuider. De originele versie van het AnimateAnyone-framework bevat slechts een paar convolutielagen waarop de kenmerkende kenmerken samensmelten met de latente elementen in de invoerlaag van de backbone. Het AniPortrait-framework ontdekt dat het ontwerp tekortschiet in het vastleggen van ingewikkelde bewegingen van de lippen, en om dit probleem aan te pakken, neemt het raamwerk de meerschalige strategie van de ConvNet-architectuur over en integreert kenmerkende kenmerken van overeenkomstige schalen in verschillende blokken van de ruggengraat. Bovendien introduceert het AniPortrait-framework een extra verbetering door de oriëntatiepunten van het referentiebeeld als extra invoer op te nemen. De kruisaandachtsmodule van de PoseGuider-component vergemakkelijkt de interactie tussen de doeloriëntatiepunten van elk frame en de referentieoriëntatiepunten. Dit proces geeft het netwerk extra aanwijzingen om de correlatie tussen uiterlijk en gezichtsherkenningspunten te begrijpen, en helpt zo bij het genereren van portretanimaties met nauwkeurigere bewegingen.
AniPortrait: implementatie en resultaat
Voor de Audio2Lmk-fase gebruikt het AniPortrait-framework de wav2vec2.0-component als ruggengraat, en maakt gebruik van de MediaPipe-architectuur om 3D-meshes en 6D-poses voor annotaties te extraheren. Het model haalt de trainingsgegevens voor de Audio2Mesh-component uit de interne dataset die bijna 60 minuten spraakgegevens van hoge kwaliteit omvat, afkomstig van één enkele spreker. Om ervoor te zorgen dat de 3D-mesh die door de MediaPipe-component wordt geëxtraheerd stabiel is, wordt de stemacteur geïnstrueerd om naar de camera te kijken en een stabiele hoofdpositie te behouden gedurende het gehele opnameproces. Voor de Lmk2Video-module implementeert het AniPortrait-framework een trainingsaanpak in twee fasen. In de eerste fase concentreert het raamwerk zich op het trainen van ReferenceNet en PoseGuider, de 2D-component van de backbone, en laat het de bewegingsmodule achterwege. In de tweede stap bevriest het AniPortrait-framework alle andere componenten en concentreert het zich op het trainen van de bewegingsmodule. Voor deze fase maakt het raamwerk gebruik van twee grootschalige gezichtsvideodatasets van hoge kwaliteit om het model te trainen, en verwerkt het alle gegevens met behulp van de MediaPipe-component om 2D-gezichtsoriëntatiepunten te extraheren. Om de gevoeligheid van het netwerk voor lipbewegingen te vergroten, onderscheidt het AniPortrait-model bovendien de boven- en onderlip met verschillende kleuren bij het weergeven van het pose-beeld op basis van 2D-oriëntatiepunten.
Zoals gedemonstreerd in de volgende afbeelding, genereert het AniPortrait-framework een reeks animaties die zowel superieure kwaliteit als realisme demonstreren.
Het raamwerk maakt vervolgens gebruik van een tussenliggende 3D-weergave die kan worden bewerkt om de uitvoer volgens de vereisten te manipuleren. Gebruikers kunnen bijvoorbeeld oriëntatiepunten uit een bepaalde bron halen en de ID ervan wijzigen, waardoor het AniPortrait-framework een gezichtsre-enactment-effect kan creëren.
Conclusie
In dit artikel hebben we gesproken over AniPortrait, een nieuw raamwerk dat is ontworpen om animaties van hoge kwaliteit te genereren, aangestuurd door een referentieportretbeeld en een audiovoorbeeld. Door simpelweg een referentiebeeld en een audiofragment in te voeren, kan het AniPortrait-framework een portretvideo genereren met natuurlijke hoofdbewegingen en vloeiende lipbewegingen. Door gebruik te maken van de robuuste generalisatiemogelijkheden van het diffusiemodel genereert het AniPortrait-framework animaties die een indrukwekkende realistische beeldkwaliteit en levensechte bewegingen weergeven. De werking van het AniPortrait-framework is verdeeld in twee fasen. Ten eerste extraheert het AniPortrait-framework de tussenliggende 3D-representaties uit de audiofragmenten en projecteert deze in een reeks 2D-gezichtsoriëntatiepunten. Hierna maakt het raamwerk gebruik van een robuust diffusiemodel gekoppeld aan een bewegingsmodule om de historische sequenties om te zetten in tijdelijk consistente en fotorealistische animaties. De experimentele resultaten demonstreren de superioriteit en het vermogen van het AniPortrait-framework om hoogwaardige animaties te genereren met een uitzonderlijke visuele kwaliteit, posediversiteit en natuurlijkheid van het gezicht, waardoor een verbeterde en verrijkte perceptuele ervaring wordt geboden. Bovendien heeft het AniPortrait-framework een opmerkelijk potentieel in termen van beheersbaarheid en flexibiliteit, en kan het effectief worden toegepast op gebieden als gezichtsre-enactment, gezichtsbewegingsbewerking en meer.