Künstliche Intelligenz

AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation

Published May 3, 2024

Updated April 27, 2026

Kunal Kejriwal

Über die Jahre hinweg hat die Erstellung realistischer und ausdrucksstarker Porträtanimationen aus statischen Bildern und Audio eine Vielzahl von Anwendungen gefunden, darunter Gaming, digitale Medien, virtuelle Realität und vieles mehr. Trotz ihrer potenziellen Anwendung ist es für Entwickler immer noch schwierig, Frameworks zu erstellen, die in der Lage sind, hochwertige Animationen zu generieren, die temporale Konsistenz aufrechterhalten und visuell ansprechend sind. Ein wesentlicher Grund für die Komplexität ist die Notwendigkeit einer feinen Koordination von Lippenbewegungen, Kopfpositionen und Gesichtsausdrücken, um einen visuell überzeugenden Effekt zu erzeugen.

In diesem Artikel werden wir über AniPortrait sprechen, einem neuen Framework, das designed wurde, um hochwertige Animationen zu generieren, die von einem Referenzporträtbild und einem Audio-Sample angetrieben werden. Die Funktionsweise des AniPortrait-Frameworks ist in zwei Stufen unterteilt. Zuerst extrahiert das AniPortrait-Framework die intermediären 3D-Darstellungen aus den Audio-Samples und projiziert sie in eine Sequenz von 2D-Gesichtsmerkmalen. Anschließend verwendet das Framework ein robustes Diffusionsmodell in Kombination mit einem Bewegungsmodul, um die Merkmalsequenzen in temporale und photorealistische Animationen umzuwandeln. Die experimentellen Ergebnisse demonstrieren die Überlegenheit und Fähigkeit des AniPortrait-Frameworks, hochwertige Animationen mit außergewöhnlicher visueller Qualität, Pose-Vielfalt und Gesichtsnaturalness zu generieren, was zu einem verbesserten und bereicherten Wahrnehmungserlebnis führt. Darüber hinaus bietet das AniPortrait-Framework ein bemerkenswertes Potenzial in Bezug auf Steuerbarkeit und Flexibilität und kann effektiv in Bereichen wie Gesichtsreenactment, Gesichtsbewegungseditierung und mehr eingesetzt werden.

AniPortrait: Photorealistische Porträtanimation

Die Erstellung realistischer und ausdrucksstarker Porträtanimationen ist seit geraumer Zeit das Ziel von Forschern, aufgrund ihres enormen Potenzials und Anwendungen, die von digitalen Medien und virtueller Realität bis hin zu Gaming und mehr reichen. Trotz jahrelanger Forschung und Entwicklung stellt die Erzeugung hochwertiger Animationen, die temporale Konsistenz aufrechterhalten und visuell ansprechend sind, immer noch eine erhebliche Herausforderung dar. Ein wesentlicher Hürde für Entwickler ist die Notwendigkeit einer feinen Koordination zwischen Kopfpositionen, visuellen Ausdrücken und Lippenbewegungen, um einen visuell überzeugenden Effekt zu erzeugen. Bestehende Methoden haben es nicht geschafft, diese Herausforderungen zu meistern, hauptsächlich weil die meisten von ihnen auf begrenzten Kapazitätsgeneratoren wie NeRF, motion-basierten Decodern und GAN für die visuelle Inhaltserschaffung angewiesen sind. Diese Netzwerke zeigen begrenzte Generalisierungsfähigkeiten und sind instabil bei der Erzeugung hochwertiger Inhalte. Die jüngste Entwicklung von Diffusionsmodellen hat jedoch die Erzeugung hochwertiger Bilder ermöglicht, und einige auf Diffusionsmodellen basierende Frameworks haben die Erstellung überzeugender Videos ermöglicht, wodurch Diffusionsmodelle hervorragend abschneiden.

Basierend auf den Fortschritten der Diffusionsmodelle zielt das AniPortrait-Framework darauf ab, hochwertige animierte Porträts unter Verwendung eines Referenzbildes und eines Audio-Samples zu generieren. Die Funktionsweise des AniPortrait-Frameworks ist in zwei Stufen unterteilt. In der ersten Stufe verwendet das AniPortrait-Framework transformer-basierte Modelle, um eine Sequenz von 3D-Gesichtsnetzen und Kopfpositionen aus Audio-Eingaben zu extrahieren und projiziert sie anschließend in eine Sequenz von 2D-Gesichtsmerkmalen. Die erste Stufe ermöglicht es dem AniPortrait-Framework, Lippenbewegungen und subtile Ausdrücke aus dem Audio sowie Kopfbewegungen, die mit dem Rhythmus des Audio-Samples synchronisiert sind, zu erfassen. In der zweiten Stufe verwendet das AniPortrait-Framework ein robustes Diffusionsmodell und integriert es mit einem Bewegungsmodul, um die Gesichtsmerkmalsequenz in eine photorealistische und temporale animierte Porträtumwandlung umzuwandeln. Um spezifischer zu sein, bezieht sich das AniPortrait-Framework auf die Netzwerkarchitektur des bestehenden AnimateAnyone-Modells, das Stable Diffusion 1.5, ein leistungsfähiges Diffusionsmodell, verwendet, um lebendige und flüssige Animationen auf der Grundlage eines Referenzbildes und einer Körperbewegungssequenz zu generieren. Was zu beachten ist, ist, dass das AniPortrait-Framework den Pose-Guide-Modul innerhalb dieses Netzwerks nicht verwendet, wie er im AnimateAnyone-Framework implementiert ist, sondern ihn neu entwirft, was es dem AniPortrait-Framework ermöglicht, nicht nur ein leichtes Design zu mantener, sondern auch eine verbesserte Genauigkeit bei der Erzeugung von Lippenbewegungen zu zeigen.

Die experimentellen Ergebnisse demonstrieren die Überlegenheit des AniPortrait-Frameworks bei der Erstellung von Animationen mit beeindruckender Gesichtsnaturalness, hervorragender visueller Qualität und vielfältigen Posen. Durch die Verwendung von 3D-Gesichtsdarstellungen als intermediäre Merkmale gewinnt das AniPortrait-Framework die Flexibilität, diese Darstellungen nach Bedarf zu modifizieren. Die Anpassungsfähigkeit verbessert die Anwendbarkeit des AniPortrait-Frameworks in Bereichen wie Gesichtsreenactment und Gesichtsbewegungseditierung erheblich.

AniPortrait: Funktionsweise und Methodik

Das vorgeschlagene AniPortrait-Framework besteht aus zwei Modulen, nämlich Lmk2Video und Audio2Lmk. Das Audio2Lmk-Modul versucht, eine Sequenz von Merkmalen zu extrahieren, die feine Lippenbewegungen und Gesichtsausdrücke aus Audio-Eingaben erfassen, während das Lmk2Video-Modul diese Merkmalsequenz verwendet, um hochwertige Porträtvideos mit temporaler Stabilität zu generieren. Die folgende Abbildung zeigt eine Übersicht über die Funktionsweise des AniPortrait-Frameworks. Wie zu sehen ist, extrahiert das AniPortrait-Framework zunächst die 3D-Gesichtsnetze und Kopfpositionen aus dem Audio und projiziert diese beiden Elemente in 2D-Schlüsselpunkte. In der zweiten Stufe verwendet das Framework ein Diffusionsmodell, um die 2D-Schlüsselpunkte in ein Porträtvideo mit zwei Stufen umzuwandeln, die innerhalb des Netzwerks gleichzeitig trainiert werden.

Audio2Lmk

Für eine gegebene Sequenz von Sprachausschnitten ist das primäre Ziel des AniPortrait-Frameworks, die entsprechende 3D-Gesichtsnetzsequenz mit Vektorrepräsentationen von Translation und Rotation vorherzusagen. Das AniPortrait-Framework verwendet die vorgebildete wav2vec-Methode, um Audio-Merkmale zu extrahieren, und das Modell zeigt eine hohe Generalisierungsfähigkeit und ist in der Lage, Intonation und Aussprache aus dem Audio genau zu erkennen, was eine entscheidende Rolle bei der Erzeugung realistischer Gesichtsanimationen spielt. Durch die Nutzung der erworbenen robusten Sprachmerkmale kann das AniPortrait-Framework effektiv ein einfaches Architekturmodell mit zwei fc-Schichten verwenden, um diese Merkmale in 3D-Gesichtsnetze umzuwandeln. Das AniPortrait-Framework stellt fest, dass diese einfache Designimplementierung durch das Modell nicht nur die Effizienz des Inferenzprozesses verbessert, sondern auch die Genauigkeit sicherstellt. Wenn das Audio in Pose umgewandelt wird, verwendet das AniPortrait-Framework das gleiche wav2vec-Netzwerk als Backbone, obwohl das Modell die Gewichte mit dem Audio-zu-Mesh-Modul nicht teilt. Dies liegt hauptsächlich daran, dass die Pose mehr mit dem Ton und Rhythmus im Audio verbunden ist, was einen anderen Schwerpunkt im Vergleich zu Audio-zu-Mesh-Aufgaben hat. Um den Einfluss der vorherigen Zustände zu berücksichtigen, verwendet das AniPortrait-Framework einen Transformer-Decoder, um die Posesequenz zu decodieren. Während dieses Prozesses integriert das Framework die Audio-Merkmale in den Decoder mithilfe von Cross-Attention-Mechanismen, und für beide Module trainiert das Framework sie mithilfe des L1-Verlusts. Sobald das Modell die Pose- und Mesh-Sequenz erhält, verwendet es die Perspektivprojektion, um diese Sequenzen in eine 2D-Sequenz von Gesichtsmerkmalen umzuwandeln, die dann als Eingangssignale für die nachfolgende Stufe verwendet werden.

Lmk2Video

Für ein gegebenes Referenzporträtbild und eine Sequenz von Gesichtsmerkmalen erzeugt das vorgeschlagene Lmk2Video-Modell eine temporale konsistente Porträtanimation, und diese Animation aligniert die Bewegung mit der Merkmalsequenz, und hält ein Aussehen auf, das konsistent mit dem Referenzbild ist, und schließlich stellt das Framework die Porträtanimation als eine Sequenz von Porträtbildern dar. Die Designstruktur des Lmk2Video-Netzwerks sucht Inspiration bei dem bereits bestehenden AnimateAnyone-Framework. Das AniPortrait-Framework verwendet ein Stable Diffusion 1.5, ein extrem leistungsfähiges Diffusionsmodell, als sein Backbone, und integriert ein temporales Bewegungsmodul, das effektiv multi-frame-Rauscheneingaben in eine Sequenz von Video-Bildern umwandelt. Gleichzeitig spiegelt das ReferencenNet-Netzwerk die Struktur von Stable Diffusion 1.5 wider und verwendet es, um die Erscheinungsinformationen aus dem Referenzbild zu extrahieren und in den Backbone zu integrieren. Die strategische Designentscheidung stellt sicher, dass die Gesichts-ID während des gesamten Ausgabevideos konsistent bleibt. Im Gegensatz zum AnimateAnyone-Framework verbessert das AniPortrait-Framework die Komplexität des PoseGuider-Designs. Die ursprüngliche Version des AnimateAnyone-Frameworks umfasst nur einige Konvolutionslayer, nach denen die Merkmalfeatures mit den Latents auf der Eingabeschicht des Backbones fusionieren. Das AniPortrait-Framework entdeckt, dass das Design bei der Erfassung feiner Lippenbewegungen versagt, und um dieses Problem zu lösen, verwendet das Framework die Multi-Scale-Strategie der ConvNet-Architektur und integriert Merkmalfeatures entsprechender Skalen in verschiedene Blöcke des Backbones. Darüber hinaus führt das AniPortrait-Framework eine zusätzliche Verbesserung ein, indem es die Merkmale des Referenzbildes als zusätzlichen Eingang hinzufügt. Der Cross-Attention-Modul des PoseGuider-Moduls ermöglicht die Interaktion zwischen den Zielmerkmalen jedes Rahmens und den Referenzmerkmalen. Dieser Prozess bietet dem Netzwerk zusätzliche Hinweise, um die Korrelation zwischen Erscheinung und Gesichtsmerkmalen zu verstehen, was bei der Erzeugung von Porträtanimationen mit präziserer Bewegung hilft.

AniPortrait: Implementierung und Ergebnis

Für die Audio2Lmk-Stufe verwendet das AniPortrait-Framework die wav2vec2.0-Komponente als Backbone und nutzt die MediaPipe-Architektur, um 3D-Netze und 6D-Posen für Annotationen zu extrahieren. Das Modell bezieht die Trainingsdaten für die Audio2Mesh-Komponente aus seinem internen Datensatz, der etwa 60 Minuten hochwertiger Sprachdaten von einem einzelnen Sprecher umfasst. Um sicherzustellen, dass das 3D-Netz, das von der MediaPipe-Komponente extrahiert wird, stabil ist, wird der Sprecher angewiesen, während des gesamten Aufnahmeprozesses in die Kamera zu blicken und eine feste Kopfposition zu halten. Für das Lmk2Video-Modul implementiert das AniPortrait-Framework einen zweistufigen Trainingsansatz. In der ersten Stufe konzentriert sich das Framework auf das Training von ReferenceNet und PoseGuider, der 2D-Komponente des Backbones, und lässt das Bewegungsmodul aus. In der zweiten Stufe friert das AniPortrait-Framework alle anderen Komponenten ein und konzentriert sich auf das Training des Bewegungsmoduls. Für diese Stufe verwendet das Framework zwei große, hochwertige Gesichts-Video-Datensätze, um das Modell zu trainieren, und verarbeitet alle Daten mithilfe der MediaPipe-Komponente, um 2D-Gesichtsmerkmale zu extrahieren. Darüber hinaus verwendet das AniPortrait-Modell, um die Empfindlichkeit des Netzwerks gegenüber Lippenbewegungen zu erhöhen, die oberen und unteren Lippen mit unterschiedlichen Farben, wenn es die Pose-Bild aus 2D-Merkmalen rendern.

Wie in der folgenden Abbildung demonstriert wird, generiert das AniPortrait-Framework eine Reihe von Animationen, die eine überlegene Qualität und Realismus aufweisen.

Das Framework verwendet dann eine intermediäre 3D-Darstellung, die bearbeitet werden kann, um die Ausgabe entsprechend den Anforderungen zu manipulieren. Zum Beispiel können Benutzer Merkmale aus einer bestimmten Quelle extrahieren und ihre ID ändern, was es dem AniPortrait-Framework ermöglicht, einen Gesichtsreenactment-Effekt zu erzeugen.

Abschließende Gedanken

In diesem Artikel haben wir über AniPortrait gesprochen, einem neuen Framework, das designed wurde, um hochwertige Animationen zu generieren, die von einem Referenzporträtbild und einem Audio-Sample angetrieben werden. Durch die einfache Eingabe eines Referenzbildes und eines Audio-Clips kann das AniPortrait-Framework ein Porträtvideo generieren, das natürliche Kopfbewegungen und glatte Lippenbewegungen aufweist. Durch die Nutzung der robusten Generalisierungsfähigkeiten des Diffusionsmodells generiert das AniPortrait-Framework Animationen, die eine beeindruckende realistische Bildqualität und lebendige Bewegungen aufweisen. Die Funktionsweise des AniPortrait-Frameworks ist in zwei Stufen unterteilt. Zuerst extrahiert das AniPortrait-Framework die intermediären 3D-Darstellungen aus den Audio-Samples und projiziert sie in eine Sequenz von 2D-Gesichtsmerkmalen. Anschließend verwendet das Framework ein robustes Diffusionsmodell in Kombination mit einem Bewegungsmodul, um die Merkmalsequenzen in temporale und photorealistische Animationen umzuwandeln. Die experimentellen Ergebnisse demonstrieren die Überlegenheit und Fähigkeit des AniPortrait-Frameworks, hochwertige Animationen mit außergewöhnlicher visueller Qualität, Pose-Vielfalt und Gesichtsnaturalness zu generieren, was zu einem verbesserten und bereicherten Wahrnehmungserlebnis führt. Darüber hinaus bietet das AniPortrait-Framework ein bemerkenswertes Potenzial in Bezug auf Steuerbarkeit und Flexibilität und kann effektiv in Bereichen wie Gesichtsreenactment, Gesichtsbewegungseditierung und mehr eingesetzt werden.