Künstliche Intelligenz
Warum Deepfakes derzeit keine subtilen Emotionen vermitteln können

Gestern Premiere der Folge 6 der star Wars Ausgliederung Das Buch von Boba Fett scheint die Meinung der Fans gespalten zu haben. Obwohl die Darstellung allgemeiner Zustimmung erntete, herrscht in den sozialen Netzwerken die weit verbreitete Annahme, dass die deutlich verbesserte Nachbildung eines verjüngten Mark Hamill (im Vergleich zur Figur vorheriges Erscheinen im Finale der zweiten Staffel von Der Mandalorianer im Jahr 2020) ist ein direktes Ergebnis der Einstellung des Amateur-Deepfakes-Praktizierenden Shamook durch Industrial Light and Magic (der hatten ihre Arbeit radikal verbessert mit Open-Source-Software); und dass die Darstellungen der Figur eine Kombination aus Deepfake-Technologie sein müssen, vielleicht mit CGI aufgeräumt.
Derzeit gibt es dafür nur begrenzte Bestätigung, obwohl Shamook seit der Unterzeichnung der vertraglichen Geheimhaltungsvereinbarung mit ILM wenig darüber gesagt hat. Nichtsdestotrotz stellt das Werk eine außerordentliche Verbesserung gegenüber dem CGI von 2020 dar; es weist etwas von dem „Glanz“ auf, der mit Deepfake-Modellen aus Archivwerken verbunden ist; und entspricht im Allgemeinen dem besten aktuellen visuellen Standard für Deepfakes.
Die andere Fan-Meinung ist, dass der neue Versuch von „Young Luke“ eine Verschiedene Mängel als der vorherige. Am aufschlussreichsten ist vielleicht, dass der Mangel an Ausdruckskraft und subtilen, treffenden Emotionen in den sehr langen Sequenzen mit der neuen Skywalker-Nachbildung eher typisch für Deepfakes als für CGI sind; The Verge hat beschrieben die Boba Simulation im Hinblick auf die „unheimliches, leeres Antlitz von Mark Hamills eingefrorenem Gesicht aus dem Jahr 1983“.
Unabhängig von den Technologien, die hinter der neuen ILM-Nachbildung stehen, haben Deepfake-Transformationen ein grundlegendes Problem mit der Subtilität von Emotionen, das entweder durch Änderungen in der Architektur oder durch die Verbesserung des ursprünglichen Schulungsmaterials nur schwer angegangen werden kann und das normalerweise durch sorgfältige Entscheidungen, die verbreitet werden, umgangen wird Machen Deepfaker bei der Auswahl eines Zielvideos.
Einschränkungen der Gesichtsausrichtung
Die beiden am häufigsten verwendeten Deepfake-FOSS-Repositories sind DeepFaceLab (DFL) und Gesicht tauschen, beide abgeleitet vom anonymen und umstritten 2017-Quellcode, wobei die DFL über einen verfügt enormer Vorsprung in der VFX-Branche, trotz ihrer begrenzten Instrumentalität.
Die Aufgabe jedes dieser Pakete besteht zunächst darin, Gesichtsmerkmale aus den Gesichtern zu extrahieren, die es aus dem Quellmaterial identifizieren konnte (z. B. Einzelbilder von Videos und/oder Standbildern).

Das Facial Alignment Network (FAN) in Aktion, aus dem offiziellen Repository. Quelle: https://github.com/1adrianb/face-alignment
Sowohl DFL als auch FaceSwap verwenden das Netzwerk zur Gesichtsausrichtung (FAN)-Bibliothek. FAN kann 2D- und 3D-Landmarken (siehe Bild oben) für extrahierte Gesichter erstellen. 3D-Landmarken können die wahrgenommene Ausrichtung des Gesichts umfassend berücksichtigen, bis hin zu extremen Profilen und relativ spitzen Winkeln.
Es ist jedoch offensichtlich, dass dies sehr rudimentäre Richtlinien zum Hüten und Bewerten von Pixeln sind:

Aus dem FaceSwap-Forum, ein grober Indikator für die verfügbaren Orientierungspunkte für Gesichtszüge. Quelle: https://forum.faceswap.dev/viewtopic.php?f=25&t=27
Die grundlegendsten Gesichtszüge sind berücksichtigt: Augen und Kiefer können sich weiten und schließen, während grundlegende Mundkonfigurationen (wie Lächeln, Stirnrunzeln usw.) nachgezeichnet und angepasst werden können. Das Gesicht kann aus der Perspektive der Kamera in jede Richtung um bis zu 200 Grad gedreht werden.
Darüber hinaus sind dies ziemlich grobe Grenzen für das Verhalten von Pixeln innerhalb dieser Grenzen und stellen die einzigen wirklich mathematischen und präzisen Gesichtsrichtlinien im gesamten Deepfake-Prozess dar. Der Trainingsprozess selbst vergleicht einfach die Art und Weise, wie Pixel innerhalb oder in der Nähe dieser Grenzen angeordnet sind.

Schulung im DeepFaceLab. Quelle: https://medium.com/geekculture/realistic-deepfakes-with-deepfacelab-530e90bd29f2
Da es keine Vorkehrungen für die Topologie der Unterteile des Gesichts gibt (Konvexität und Konkavität der Wangen, Alterungsdetails, Grübchen usw.), ist es nicht einmal möglich, Versuch um solche „subtilen“ Untermerkmale zwischen einer Quelle abzugleichen („Gesicht, über das Sie schreiben möchten“) und ein Ziel („Gesicht, das Sie einfügen möchten“) Identität.
Mit begrenzten Daten auskommen
Der Abgleich von Daten zwischen zwei Identitäten zum Zweck des Deepfakes-Trainings ist nicht einfach. Je ungewöhnlicher der Winkel ist, den Sie anpassen müssen, desto mehr müssen Sie möglicherweise Kompromisse eingehen, ob die (seltene) Winkelübereinstimmung zwischen den Identitäten A und B tatsächlich vorliegt der gleiche Ausdruck.

Nah dran, aber nicht ganz passend.
Im obigen Beispiel sind die beiden Identitäten in ihrer Disposition ziemlich ähnlich, aber dieser Datensatz kommt einer exakten Übereinstimmung am nächsten.
Es gibt deutliche Unterschiede: Winkel und Objektiv passen nicht genau zusammen, ebenso wenig die Beleuchtung; Person A hat im Gegensatz zu Person B die Augen nicht ganz geschlossen; die Bildqualität und Komprimierung ist bei Person A schlechter; und irgendwie wirkt Person B viel glücklicher als Subjekt A.
Aber wissen Sie, es ist alles, was wir haben, also müssen wir trotzdem damit trainieren.
Weil dieses A> unterfit Es oder überangepasst es.
Unteranpassung: Wenn diese Übereinstimmung nur eine Minderheit darstellt (d. h. der übergeordnete Datensatz ist recht groß und weist die Merkmale dieser beiden Fotos nicht häufig auf), wird das Training im Vergleich zu „populäreren“ (d. h. einfachen/neutralen) Paarungen nicht viel Zeit in Anspruch nehmen. Folglich wird dieser Blickwinkel/Ausdruck in einem mit dem trainierten Modell erstellten Deepfake nicht gut dargestellt.
Überfit: In meiner Verzweiflung über die spärlichen Datenübereinstimmungen für so seltene A> Duplizieren Sie die Paarung mehrmals im Datensatz, damit es bessere Chancen hat, ein Feature im endgültigen Modell zu werden. Dies führt zu einer Überanpassung, was bei Deepfake-Videos, die mit dem Modell erstellt wurden, wahrscheinlich der Fall ist pedantisch die Unstimmigkeiten wiederholen Unterschiede, die zwischen den beiden Fotos erkennbar sind, etwa das unterschiedliche Ausmaß der geschlossenen Augen.
Im Bild unten sehen wir, wie Wladimir Putin im DeepFaceLab darauf trainiert wird, einen Austausch mit Kevin Spacey durchzuführen. Hier ist die Ausbildung relativ weit fortgeschritten 160,000 Iterationen.

Quelle: https://i.imgur.com/OdXHLhU.jpg
Der oberflächliche Beobachter könnte behaupten, dass Putin ein wenig, nun ja, aussieht. geräumiger als Spacey in diesen Test-Swaps. Mal sehen, was ein Online-Emotionserkennungsprogramm aus der Diskrepanz in den Ausdrücken macht:
Laut diesem speziellen Orakel, das eine viel detailliertere Gesichtstopographie analysiert als DFL und Faceswap, ist Spacey weniger wütend, angeekelt und verächtlich als der resultierende Putin-Deepfake in dieser Paarung.
Die ungleichen Ausdrücke sind Teil eines verschlungenen Pakets, da die beliebten Deepfakes-Anwendungen nicht in der Lage sind, Ausdrücke oder Emotionen zu registrieren oder zuzuordnen, außer stillschweigend, als rohe Pixel>Pixel-Zuordnung.
Für uns sind die Unterschiede riesig. Wir lernen es Mimik lesen Wir nutzen diese Fähigkeit seit frühester Kindheit als grundlegende Überlebenstechnik und verlassen uns auch im Erwachsenenalter auf sie, um uns sozial zu integrieren, uns weiterzuentwickeln, uns zu paaren und als Rahmen für die fortlaufende Bedrohungsbewertung. Da wir so sensibilisiert für Mikroausdrücke sind, müssen Deepfake-Technologien dies letztendlich berücksichtigen.
Gegen das Korn
Obwohl die Deepfake-Revolution die Möglichkeit bietet, „klassische“ Filmstars in moderne Filme und Fernsehsendungen einzufügen, kann KI nicht in der Zeit zurückgehen und ihre klassischen Werke in einer kompatibleren Auflösung und Qualität drehen, was für diesen Anwendungsfall von entscheidender Bedeutung ist.
Unter der Annahme (und für unsere Zwecke spielt es keine Rolle, ob sie falsch ist), dass die Boba Die Rekonstruktion von Hamill war größtenteils die Arbeit eines geschulten Deepfake-Modells. Der Datensatz für das Modell hätte benötigt werden, um Filmmaterial aus der Zeit nahe der Zeitachse der Show zu nutzen (d. h. Hamill als Anfang Dreißig um die Zeit der Produktion herum). Die Rückkehr der Jedi, 1981-83).
Der Film war Schuss auf Eastman Color Negative 250T 5293/7293, einer 250ASA-Emulsion, die damals als mittel- bis feinkörnig galt, aber Ende der 1980er Jahre in Klarheit, Farbumfang und Wiedergabetreue übertroffen wurde. Es ist ein Material seiner Zeit, und der opernhafte Umfang von Jedi-Ritter selbst den Hauptdarstellern wurden nur wenige Nahaufnahmen ermöglicht, was die Körnigkeit noch kritischer macht, da die Gesichter der Originalquelle nur einen Teil des Bildes einnehmen.

Eine Reihe von Szenen von Hamill in Die Rückkehr der Jedi (1983).
Darüber hinaus wurde ein Großteil des VFX-beladenen Filmmaterials mit Hamill durch einen optischen Drucker laufen gelassen, wodurch die Filmkörnung erhöht wurde. Allerdings könnte der Zugriff auf die Lucasfilm-Archive – die vermutlich die Master-Negative sorgfältig aufbewahrt haben und stundenlanges zusätzliches ungenutztes Rohmaterial bieten könnten – dieses Problem lösen.
Manchmal ist es möglich, einen Zeitraum von mehreren Jahren der Produktion eines Schauspielers abzudecken, um den Deepfake-Datensatz zu erweitern und zu diversifizieren. Im Fall von Hamill werden Deepfaker durch seine Veränderung im Aussehen nach einem Autounfall im Jahr 1977, und die Tatsache, dass er fast unmittelbar danach seine zweite Karriere als gefeierter Synchronsprecher begann Jedi-Ritter, was das Quellenmaterial relativ knapp macht.
Begrenztes Spektrum an Emotionen?
Wenn Ihr Deepfake-Schauspieler die Szenerie aufmischen soll, benötigen Sie Quellmaterial mit einer ungewöhnlich großen Bandbreite an Gesichtsausdrücken. Es kann sein, dass das einzige verfügbare altersgerechte Filmmaterial viele dieser Ausdrücke nicht enthält.
Zum Beispiel, wenn der Handlungsbogen von Die Rückkehr der Jedi Als Hamills Charakter seine Emotionen weitgehend unter Kontrolle hatte, eine Entwicklung, die für die Mythologie des ursprünglichen Franchise absolut zentral war. Wenn man also ein Hamill-Deepfake-Modell aus Jedi-Ritter Daten müssen Sie mit der im Vergleich zu seinen früheren Auftritten in der Franchise eingeschränkteren Bandbreite an Emotionen und der ungewöhnlichen Gelassenheit des Gesichts arbeiten, die Hamills Rolle damals von ihm verlangte.
Auch wenn man bedenkt, dass es Momente gibt Die Rückkehr der Jedi Während die Skywalker-Figur unter Stress steht und Material für eine größere Bandbreite an Gesichtsausdrücken liefern könnte, ist das Gesichtsmaterial in diesen Szenen dennoch flüchtig und unterliegt der für Actionszenen typischen Bewegungsunschärfe und schnellen Bearbeitung. Daher sind die Daten ziemlich unausgewogen.
Verallgemeinerung: Die Verschmelzung von Emotionen
Besitzt das Boba Die Nachbildung von Skywalker ist in der Tat ein Deepfake, der Mangel an Ausdrucksmöglichkeiten, der von manchen Seiten dagegen geäußert wurde, dürfte nicht ausschließlich auf das begrenzte Quellenmaterial zurückzuführen sein. Der Encoder-Decoder-Trainingsprozess von Deepfakes sucht nach einem Verallgemeinert Modell, das aus Tausenden von Bildern erfolgreich zentrale Merkmale destilliert, und das zumindest kann Versuch um einen Winkel zu fälschen, der im Datensatz fehlte oder selten vorkam.
Ohne diese Flexibilität würde eine Deepfake-Architektur einfach Basismorphs pro Frame kopieren und einfügen, ohne zeitliche Anpassung oder Kontext zu berücksichtigen.
Der schmerzhafte Kompromiss für diese Vielseitigkeit besteht jedoch darin, dass die Ausdruckstreue wahrscheinlich ein Opfer des Prozesses ist, und alle Ausdrücke, die dies tun Diese „Subtil“ ist vielleicht nicht das Richtige. Wir alle spielen unsere Gesichter wie ein 100-köpfiges Orchester und sind dafür gut gerüstet, während Deepfake-Software wohl zumindest die Streicher fehlen.
Ungleichheit der Affekte in Ausdrücken
Gesichtsbewegungen und ihre Wirkung auf uns sind nicht bei allen Gesichtern einheitlich; die hochgezogene Augenbraue, die bei Roger Moore unbekümmert wirkt, könnte bei Seth Rogan weniger kultiviert wirken, während die verführerische Anziehungskraft von Marilyn Monroe zu einer negativeren Emotion führen könnte, wenn sie auf eine Person übertragen wird, deren Rolle laut den meisten verfügbaren Daten „wütend“ oder „desillusioniert“ ist (wie etwa Aubrey Plazas Charakter in sieben Staffeln von Parks and Recreation).
Daher Pixel>
Was wohl benötigt wird, ist ein Deepfake-Framework, das nicht nur Ausdrücke erkennen und auf Emotionen schließen kann, sondern auch in der Lage ist, hochrangige Konzepte wie z wütend, verführerisch, gelangweilt, müdeusw., und diese Emotionen und die damit verbundenen Ausdrücke in jeder der beiden Gesichtsidentitäten zu kategorisieren, anstatt die Anordnung eines Mundes oder eines Augenlids zu untersuchen und zu reproduzieren.
Erstveröffentlichung am 3. Februar 2022. Aktualisiert um 7:47 Uhr EET, falsche Namensnennung.











