Andersons Blickwinkel

Dialoge in echte Videos mit KI hinzufügen

mm
Montage of subjects from the demonstration video-clips for FacEDiT. Source: https://facedit.github.io/

Ein neues KI-Framework kann die Worte einer Person in einem Video ohne Neuaufnahme ändern, entfernen oder hinzufügen, in einem einzigen End-to-End-System.

 

Vor drei Jahren wäre das Internet von jedem der 20-30 KI-Video-Veränderungsframeworks, die wöchentlich in akademischen Portalen veröffentlicht werden, schockiert gewesen; wie es ist, ist diese beliebte Forschungsrichtung nun so umfangreich, dass sie fast einen eigenen Zweig von “KI-Slop” darstellt, und ich berichte über weit weniger solcher Veröffentlichungen als ich es vor zwei oder drei Jahren getan hätte.

Ein aktuelles Release in dieser Linie hat jedoch meine Aufmerksamkeit erregt: ein integriertes System, das in echte Videoaufnahmen eingreifen und neue Sprache in das bestehende Video einfügen kann (anstatt ein ganzes generatives Clip aus einem Gesicht oder Rahmen zu erstellen, was viel häufiger ist).

In den folgenden Beispielen, die ich aus einer Vielzahl von Beispielvideos auf der Projektwebsite zusammengestellt habe, sehen wir zunächst den echten Quellclip und dann, darunter, die von der KI eingefügte Sprache in der Mitte des Clips, einschließlich Sprachsynthese und Lippen-Synchronisation:

Click zum Abspielen. Lokale Bearbeitung mit Stitching – eine der mehreren Modalitäten, die von FacEDiT angeboten werden. Bitte besuchen Sie die Quellwebsite für eine bessere Auflösung. Quelle – https://facedit.github.io/

Dieser Ansatz ist einer von drei, die für die neue Methode entwickelt wurden, und dieser wird “lokale Bearbeitung mit Stitching” genannt und ist der, der die Autoren (sowie mich) am meisten interessiert. Im Wesentlichen wird der Clip durch die Verwendung eines der mittleren Frames als Startpunkt für eine neue KI-Interpretation verlängert, und der darauffolgenden (echten) Frame als Ziel, das die generierte Clip erreichen soll. In den oben gezeigten Clips sind diese “Seed”- und “Ziel”-Frames durch die oberste Video-Pause und die geänderte Video darunter dargestellt.

Die Autoren betrachten diesen Ansatz für Gesichts- und Sprachsynthese als das erste vollständig integrierte End-to-End-Verfahren für KI-Video-Bearbeitungen dieser Art und sehen das Potenzial für ein vollständig entwickeltes Framework wie dieses für TV- und Filmproduktionen:

‘Filmmacher und Medienproduzenten müssen oft bestimmte Teile von aufgenommenen Videos ändern – vielleicht wurde ein Wort falsch ausgesprochen oder das Drehbuch geändert, nachdem die Aufnahme bereits gemacht wurde. Zum Beispiel in der ikonischen Szene aus Titanic (1997), in der Rose sagt: “I’ll never let go, Jack,” der Regisseur könnte später entscheiden, dass es “I’ll never forget you, Jack” sein sollte.

‘Traditionell erfordern solche Änderungen eine erneute Aufnahme der gesamten Szene, was kostspielig und zeitaufwändig ist. Die Talking-Face-Synthese bietet eine praktische Alternative, indem sie automatisch die Gesichtsbewegung ändert, um die geänderte Sprache zu entsprechen, und eliminiert die Notwendigkeit für erneute Aufnahmen.’

Obwohl KI-Eingriffe dieser Art auf kulturellen oder industriellen Widerstand stoßen können, können sie auch eine neue Art von Funktionalität in menschlich geführten VFX-Systemen und Werkzeugen darstellen. Jedenfalls sind die Herausforderungen derzeit rein technischer Natur.

Neben der Verlängerung eines Clips durch zusätzliche KI-generierte Dialoge kann das neue System auch bestehende Sprache ändern:

Click zum Abspielen. Ein Beispiel für die Änderung bestehender Dialoge anstelle der Einfügung zusätzlicher Dialoge. Bitte besuchen Sie die Quellwebsite für eine bessere Auflösung.

Aktueller Stand

Es gibt derzeit keine End-to-End-Systeme, die diese Art von Synthese-Fähigkeit bieten; obwohl eine wachsende Anzahl von generativen KI-Plattformen wie Google’s Veo-Serie Audio generieren können, und diverse andere Frameworks Deepfaked-Audio erstellen können, muss man derzeit eine ziemlich umfangreiche Pipeline von verschiedenen Architekturen und Tricks erstellen, um in echte Aufnahmen in der Weise einzugreifen, die das neue System – genannt FacEDiT – erreichen kann.

Das System verwendet Diffusions-Transformer (DiT) in Kombination mit Flow-Matching, um Gesichtsbewegungen zu erstellen, die auf umgebende (kontextuelle) Bewegungen und Sprachaudio-Inhalte konditioniert sind. Das System nutzt bestehende populäre Pakete, die sich mit Gesichtsrekonstruktion befassen, einschließlich LivePortrait (kürzlich von Kling übernommen).

Zusätzlich zu diesem Ansatz haben die Autoren, da ihr Ansatz der erste ist, der diese Herausforderungen in eine einzige Lösung integriert, einen neuen Benchmark namens FacEDiTBench erstellt, zusammen mit mehreren völlig neuen Bewertungsmetriken, die für diese spezifische Aufgabe geeignet sind.

Die neue Arbeit trägt den Titel FacEDiT: Unified Talking Face Editing and Generation via Facial Motion Infilling und stammt von vier Forschern aus der Pohang University of Science and Technology (POSTECH), der Korea Advanced Institute of Science & Technology (KAIST) und der University of Texas at Austin.

Methode

FacEDiT wird trainiert, um Gesichtsbewegungen zu rekonstruieren, indem es lernt, fehlende Teile einer ursprünglichen Leistung eines Schauspielers zu füllen, basierend auf der umgebenden Bewegung und der Sprachaudio-Aufnahme. Wie in dem folgenden Schema gezeigt, ermöglicht dieser Prozess dem Modell, als Lückenfüller während des Trainings zu fungieren, indem es Gesichtsbewegungen vorhersagt, die zur Stimme passen und mit dem ursprünglichen Video konsistent sind:

Überblick über das FacEDiT-System, das zeigt, wie Gesichtsbewegungen durch selbstüberwachtes Füllen während des Trainings gelernt werden, durch bearbeitete Sprache bei der Inferenz geleitet und schließlich zurück in das Video gerendert werden, indem die Erscheinung des ursprünglichen Footage wiederverwendet und nur die Zielbewegung ersetzt wird.

Überblick über das FacEDiT-System, das zeigt, wie Gesichtsbewegungen durch selbstüberwachtes Füllen während des Trainings gelernt werden, durch bearbeitete Sprache bei der Inferenz geleitet und schließlich zurück in das Video gerendert werden, indem die Erscheinung des ursprünglichen Footage wiederverwendet und nur die Zielbewegung ersetzt wird. Quelle

Bei der Inferenz unterstützt die gleiche Architektur zwei verschiedene Ausgaben, je nachdem, wie viel des Videos maskiert ist: partielle Bearbeitungen, bei denen nur ein Satz geändert wird und der Rest unberührt bleibt; oder vollständige Satzgenerierung, bei der neue Bewegung vollständig aus dem Nichts synthetisiert wird.

Das Modell wird durch Flow-Matching trainiert, das Video-Bearbeitungen als eine Art Pfad zwischen zwei Versionen von Gesichtsbewegungen behandelt.

Anstatt zu lernen, zu erraten, wie ein bearbeitetes Gesicht aussehen sollte, lernt Flow-Matching, sich zwischen einem verrauschten Platzhalter und der richtigen Bewegung zu bewegen. Um dies zu ermöglichen, stellt das System Gesichtsbewegungen als eine kompakte Menge von Zahlen dar, die aus jedem Frame mithilfe einer Version des oben genannten LivePortrait-Systems extrahiert werden.

Diese Bewegungsvektoren sind so konzipiert, dass sie Ausdrücke und Kopfhaltung beschreiben, ohne Identität zu verbinden, sodass Sprachänderungen lokalisiert werden können, ohne die Gesamterscheinung der Person zu beeinflussen.

FacEDiT-Training

Um FacEDiT zu trainieren, wurde jeder Video-Clip in eine Reihe von Gesichtsbewegungsschnappschüssen unterteilt, und jeder Frame mit dem entsprechenden Teil der Audio-Aufnahme gepaart. Zufällige Teile der Bewegungsdaten wurden dann verborgen, und das Modell wurde aufgefordert, zu erraten, wie diese fehlenden Bewegungen aussehen sollten, unter Verwendung der Sprache und der umgebenden unmaskierten Bewegung als Kontext.

Weil die maskierten Spannen und ihre Positionen von einem Trainingsbeispiel zum anderen variieren, lernt das Modell allmählich, sowohl kleine interne Bearbeitungen als auch längere Lücken für die vollständige Sequenzgenerierung zu handhaben, je nachdem, wie viel Information es erhält.

Der Diffusions-Transformer des Systems lernt, maskierte Bewegung zu wiederherstellen, indem er verrauschte Eingaben über die Zeit verfeinert. Anstatt Sprache und Bewegung gleichzeitig in das Modell einzugeben, wird die Audio-Aufnahme durch Cross-Attention in jeden Verarbeitungsblock eingeführt, was dem System hilft, Lippenbewegungen genauer an die Audio-Sprache anzupassen.

Um Realismus über Bearbeitungen hinweg zu bewahren, wird die Aufmerksamkeit auf benachbarte Frames anstelle der gesamten Zeitleiste voreingestellt, was das Modell zwingt, sich auf lokale Kontinuität zu konzentrieren und verhindert, dass es bei den Rändern der geänderten Regionen flackert oder sprungartige Bewegungen ausführt. Positionale Einbettungen (die dem Modell sagen, wo jeder Frame in der Sequenz erscheint) helfen dem Modell außerdem, den natürlichen zeitlichen Fluss und Kontext aufrechtzuerhalten.

Während des Trainings lernt das System, fehlende Gesichtsbewegungen vorherzusagen, indem es maskierte Spannen basierend auf Sprache und benachbarter unmaskierter Bewegung rekonstruiert. Bei der Inferenz wird diese Einrichtung wiederverwendet, aber mit den Masken, die jetzt von Bearbeitungen in der Sprache geleitet werden.

Wenn ein Wort oder ein Satz eingefügt, entfernt oder geändert wird, findet das System die betroffene Region, maskiert sie und regeneriert Bewegung, die der neuen Audio-Aufnahme entspricht. Die vollständige Sequenzgenerierung wird als Spezialfall behandelt, bei dem die gesamte Region maskiert und von Grund auf synthetisiert wird.

Daten und Tests

Das Rückgrat des Systems besteht aus 22 Schichten für den Diffusions-Transformer, jede mit 16 Aufmerksamkeitsköpfen und Feed-Forward-Dimensionen von 1024 und 2024px. Bewegungs- und Erscheinungsmerkmale werden mithilfe von festgefrorenen LivePortrait-Komponenten extrahiert, und Sprache wird über WavLM und modifiziert mithilfe von VoiceCraft codiert.

Ein spezieller Projektionslayer kartiert die 786-dimensionalen Sprachmerkmale in den latenten Raum des DiT um, wobei nur der DiT und die Projektionsmodule von Grund auf trainiert werden.

Das Training wurde unter dem AdamW-Optimizer mit einem Ziel-Lernrate von 1e-4 für eine Million Schritte auf zwei A6000-GPUs (jeweils mit 48GB VRAM) bei einer Gesamtbatch-Größe von acht durchgeführt.

FacEDiTBench

Die FacEDiTBench-Datenbank enthält 250 Beispiele, jedes mit einem Video-Clip der ursprünglichen und bearbeiteten Sprache, sowie den Transkripten für beide. Die Videos stammen aus drei Quellen, mit 100 Clips aus HDTF, 100 aus Hallo3 und 50 aus CelebV-Dub. Jedes Beispiel wurde manuell überprüft, um sicherzustellen, dass sowohl Audio als auch Video klar genug für die Bewertung waren.

GPT-4o wurde verwendet, um jedes Transkript zu überarbeiten und grammatisch gültige Bearbeitungen zu erstellen. Diese überarbeiteten Transkripte, zusammen mit der ursprünglichen Sprache, wurden an VoiceCraft übergeben, um neue Audio-Aufnahmen zu erstellen; und in jedem Schritt wurden sowohl das Transkript als auch die generierte Sprache manuell auf Qualität überprüft.

Jedes Beispiel wurde mit dem Bearbeitungstyp, der Zeit der Änderung und der Länge der geänderten Spanne versehen, und Bearbeitungen wurden als Einfügungen, Entfernungen oder Ersetzungen klassifiziert. Die Anzahl der geänderten Wörter reichte von kurzen Bearbeitungen von 1 bis 3 Wörtern, mittleren Bearbeitungen von 4 bis 6 Wörtern und längeren Bearbeitungen von 7 bis 10 Wörtern.

Drei benutzerdefinierte Metriken wurden definiert, um die Bearbeitungsqualität zu bewerten. Photometrische Kontinuität, um zu messen, wie gut die Beleuchtung und Farbe eines bearbeiteten Segments mit dem umgebenden Video übereinstimmen, indem Pixel-Unterschiede an den Grenzen verglichen werden; Bewegungskontinuität, um die Konsistenz der Gesichtsbewegung zu bewerten, indem optische Flussänderungen über bearbeitete und unbearbeitete Frames gemessen werden; und Identitätserhaltung, um zu schätzen, ob das Aussehen des Subjekts nach der Bearbeitung konsistent bleibt, indem Gesichts-Embeddings aus dem ursprünglichen und generierten Sequenzen mithilfe des ArcFace-Gesichtserkennungsmodells verglichen werden.

Tests

Das Testmodell wurde auf Material aus den drei oben genannten Datenbanken trainiert, insgesamt etwa 200 Stunden Video-Inhalt, einschließlich Vlogs und Filmen sowie hochauflösenden YouTube-Videos.

Um die Gesichts-Bearbeitung zu bewerten, wurde FacEDiTBench verwendet, zusätzlich zum HDTF-Testsplit, der zu einem Benchmark-Standard für diese Aufgaben geworden ist.

Da es keine direkt vergleichbaren Systeme gab, die diese Art von End-to-End-Funktionalität umfassen konnten, wählten die Autoren eine Vielzahl von Frameworks aus, die zumindest einige der Ziel-Funktionalität reproduzierten und als Baseline dienen konnten; nämlich KeyFace; EchoMimic; EchoMimicV2; Hallo; Hallo2; Hallo3; V-Express; AniPortrait; und SadTalker.

Mehrere etablierte Metriken wurden auch verwendet, um die Generierungs- und Bearbeitungsqualität zu bewerten, wobei die Lippen-Synchronisationsgenauigkeit durch SyncNet bewertet wurde, wobei sowohl der absolute Fehler zwischen Lippenbewegungen und Audio (LSE-D) als auch ein Vertrauenswert (LSE-C) gemeldet wurden; Fréchet-Video-Distanz (FVD), um zu quantifizieren, wie realistisch das Video insgesamt aussah; und Gelernte Wahrnehmungssimilaritätsmetriken (LPIPS), um die wahrnehmbare Ähnlichkeit zwischen generierten und ursprünglichen Frames zu messen.

Bei der Bearbeitung wurden alle Metriken außer LPIPS nur auf das geänderte Segment angewendet; bei der Generierung wurde das gesamte Video ausgewertet, wobei die Grenzkontinuität ausgeschlossen wurde.

Jedes Modell wurde aufgefordert, ein passendes Video-Segment zu synthetisieren, das dann in den ursprünglichen Clip eingefügt wurde (die Forscher bemerken, dass diese Methode häufig sichtbare Diskontinuitäten einführt, wo das bearbeitete Segment auf das umgebende Footage trifft). Ein zweiter Ansatz wurde auch getestet, bei dem das gesamte Video von der bearbeiteten Audio-Aufnahme neu generiert wurde – aber dies überschrieb unweigerlich unbearbeitete Regionen und konnte die ursprüngliche Leistung nicht erhalten:

<img class=" wp-image-229583" src="https://www.unite.ai/wp-content/uploads/2025/12/table-3-1.jpg" alt="Vergleich der Bearbeitungsleistung über Systeme, die ursprünglich für die Gesichts-Generierung konzipiert wurden, wobei FacEDiT alle Baselines in jeder Metrik übertrifft, eine geringere Lippen-Synchronisationsfehler (LSE-D), eine höhere Synchronisationsvertrauenswerte (LSE-C), eine stärkere Identitätserhaltung (IDSIM), eine größere wahrnehmbare Realistik (FVD) und glattere Übergänge über Bearbeitungsgrenzen (P-Kontinuität, M-Kontinuität) erreicht. Grau schattierte Spalten heben die wichtigsten Kriterien für die Bewertung der Grenzqualität hervor; fett und unterstrichene Werte zeigen die besten und zweitbesten Ergebnisse an.

Was diese Ergebnisse betrifft, bemerken die Autoren:

‘Unser Modell übertrifft bestehende Methoden bei der Bearbeitungsaufgabe erheblich. Es erreicht eine starke Grenzkontinuität und eine hohe Identitätserhaltung, was seine Fähigkeit zeigt, zeitliche und visuelle Konsistenz während der Bearbeitung aufrechtzuerhalten. Darüber hinaus spiegeln seine überlegene Lippen-Synchronisationsgenauigkeit und der niedrige FVD-Wert die Realistik des synthetisierten Videos wider.’

Click zum Abspielen. Ergebnisse, von diesem Autor aus den veröffentlichten Videos auf der Projektwebsite zusammengestellt. Bitte besuchen Sie die Quellwebsite für eine bessere Auflösung.

Des Weiteren wurde eine menschliche Studie durchgeführt, um die wahrgenommene Qualität über Bearbeitung und Generierung hinweg zu bewerten.

Bei jedem Vergleich betrachteten die Teilnehmer sechs Videos und ordneten sie nach der Gesamtqualität, wobei Lippen-Synchronisationsgenauigkeit, Natürlichkeit und Realistik der Kopfbewegung berücksichtigt wurden. Bei Bearbeitungsversuchen bewerteten die Teilnehmer auch die Glätte der Übergänge zwischen bearbeiteten und un bearbeiteten Segmenten:

Durchschnittliche Ranglisten, die von den menschlichen Bewertern zugewiesen wurden, wobei ein niedrigerer Wert besser ist. Bei der Bearbeitung und Generierung bewerteten die Teilnehmer, wie natürlich und synchron jedes Video aussah. Bei der Bearbeitung bewerteten sie auch, wie glatt der Übergang zwischen bearbeiteten und un bearbeiteten Segmenten war.

Durchschnittliche Ranglisten, die von den menschlichen Bewertern zugewiesen wurden, wobei ein niedrigerer Wert besser ist. Bei der Bearbeitung und Generierung bewerteten die Teilnehmer, wie natürlich und synchron jedes Video aussah. Bei der Bearbeitung bewerteten sie auch, wie glatt der Übergang zwischen bearbeiteten und un bearbeiteten Segmenten war.

In der Studie wurde FacEDiT konstant von den Teilnehmern mit einem klaren Vorsprung für Bearbeitungsqualität und Übergangsglätte bewertet, erhielt auch starke Bewertungen in der Generierungsumgebung, was darauf hindeutet, dass seine gemessenen Vorteile in wahrnehmbare Präferenzen umgesetzt werden.

Aufgrund von Platzmangel verweisen wir den Leser auf die Quellarbeit für weitere Details zu Ablationsstudien und zusätzlichen Tests, die in der neuen Arbeit durchgeführt und berichtet wurden. In Wahrheit kämpfen prototypische Forschungsangebote dieser Art oft darum, bedeutungsvolle Testergebnisse zu generieren, da das Kernangebot selbst unweigerlich eine potenzielle Grundlage für spätere Arbeiten darstellt.

Schlussfolgerung

Auch für die Inferenz können Systeme wie dieses erhebliche Rechenressourcen erfordern, was es für nachgelagerte Benutzer – hier wahrscheinlich VFX-Shops – schwierig macht, die Arbeit vor Ort zu halten. Deshalb werden Ansätze, die an realistische lokale Ressourcen angepasst werden können, von Anbietern immer vorgezogen, die unter rechtlicher Verpflichtung stehen, die Footage und allgemeines geistiges Eigentum der Klienten zu schützen.

Das bedeutet nicht, das neue Angebot zu kritisieren, das möglicherweise unter quantisierten Gewichten oder anderen Optimierungen perfekt funktioniert und das erste Angebot seiner Art ist, das mich seit geraumer Zeit wieder zu dieser Forschungsrichtung zurückgeführt hat.

 

Erstveröffentlichung am Mittwoch, den 17. Dezember 202. Bearbeitet am 20.10 EET, am selben Tag, für zusätzlichen Raum im ersten Textabsatz.

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.