Künstliche Intelligenz
Warum Deepfakes derzeit nicht in der Lage sind, die Feinheit von Emotionen zu vermitteln

Der gestrige Debüt von Episode 6 der Star Wars-Spin-off-Serie The Book of Boba Fett scheint die Meinung der Fans gespalten zu haben. Die allgemeine Zustimmung wurde von einer weit verbreiteten Annahme in sozialen Netzwerken begleitet, dass die erheblich verbesserte Rekonstruktion eines jugendlichen Mark Hamill (im Vergleich zu seinem vorherigen Auftritt in der zweiten Staffel von The Mandalorian im Jahr 2020) direkt das Ergebnis der Einstellung des Amateur-Deepfake-Praktikers Shamook durch Industrial Light and Magic ist (der seine Arbeit mit Open-Source-Software radikal verbessert hat); und dass die Darstellungen der Figur eine Kombination aus Deepfake-Technologie sein müssen, möglicherweise mit CGI aufgeräumt.
Es gibt derzeit nur begrenzte Bestätigung dafür, obwohl Shamook seit dem Inkrafttreten der ILM-Vertraulichkeitsvereinbarung (NDA) wenig zur Welt gesagt hat. Trotzdem ist die Arbeit eine außergewöhnliche Verbesserung gegenüber der CGI von 2020; zeigt einige der “Glanz” mit Deepfake-Modellen assoziiert, die aus Archivwerken abgeleitet sind; und entspricht im Allgemeinen dem aktuellen visuellen Standard für Deepfakes.
Der andere Strang der Meinung der Fans ist, dass der neue Versuch, “Jungen Luke” darzustellen, eine andere Reihe von Fehlern als der vorherige aufweist. Vielleicht am aussagekräftigsten ist das Fehlen von Ausdrucksvermögen und subtilen, angemessenen Emotionen in den sehr langen Sequenzen, die die neue Skywalker-Rekonstruktion zeigen, typischer für Deepfakes als für CGI; The Verge hat beschrieben, wie die Boba Fett-Simulation in Bezug auf die ‘unheimliche, leere Miene von Mark Hamills eingefrorener 1983-Gesichts’ ist.
Unabhängig von den Technologien hinter der neuen ILM-Rekonstruktion haben Deepfake-Transformationen ein grundlegendes Problem mit der Feinheit von Emotionen, das schwer zu lösen ist, sowohl durch Änderungen in der Architektur als auch durch die Verbesserung des Quell-Trainingsmaterials, und das typischerweise durch die sorgfältige Auswahl vermieden wird, die virale Deepfakers treffen, wenn sie ein Zielvideo auswählen.
Einschränkungen der Gesichtsausrichtung
Die beiden am häufigsten verwendeten Deepfake-FOSS-Repositorys sind DeepFaceLab (DFL) und FaceSwap, die beide aus dem anonymen und umstrittenen Quellcode von 2017 abgeleitet sind, wobei DFL eine enorme Führung in der VFX-Industrie hat, trotz ihrer begrenzten Instrumentalität.
Jedes dieser Pakete wird zunächst mit der Extraktion von Gesichtsmerkmalen aus den Gesichtern beauftragt, die es aus dem Quellmaterial (d. h. Frames von Videos und/oder Stillbildern) identifizieren kann.

Das Gesichtsausrichtungsnetzwerk (FAN) in Aktion, aus dem offiziellen Repository. Quelle: https://github.com/1adrianb/face-alignment
Sowohl DFL als auch FaceSwap verwenden die Gesichtsausrichtungsbibliothek (FAN). FAN kann 2D- und 3D-Merkmale (siehe Bild oben) für extrahierte Gesichter erstellen. 3D-Merkmale können umfassend die wahrgenommene Ausrichtung des Gesichts berücksichtigen, bis hin zu extremen Profilen und relativ spitzen Winkeln.
Es ist jedoch offensichtlich, dass diese sehr rudimentäre Richtlinien für die Lenkung und Bewertung von Pixeln sind:

Aus dem FaceSwap-Forum, ein ungefährer Indikator für die verfügbaren Merkmale für Gesichtslineamente. Quelle: https://forum.faceswap.dev/viewtopic.php?f=25&t=27
Die grundlegendsten Lineamente des Gesichts werden berücksichtigt: Augen können sich weiten und schließen, ebenso wie der Kiefer, während grundlegende Konfigurationen des Mundes (wie Lächeln, Stirnrunzeln usw.) verfolgt und angepasst werden können. Das Gesicht kann in jede Richtung bis zu etwa 200 Grad von der Kamera aus drehen.
Darüber hinaus sind diese ziemlich grobe Zäune für das Verhalten von Pixeln innerhalb dieser Grenzen, und stellen die einzigen wirklich mathematischen und präzisen Gesichtsrichtlinien im gesamten Deepfake-Prozess dar. Der Trainingsprozess selbst vergleicht einfach, wie Pixel innerhalb oder in der Nähe dieser Grenzen angeordnet sind.

Training in DeepFaceLab. Quelle: https://medium.com/geekculture/realistic-deepfakes-with-deepfacelab-530e90bd29f2
Da es keine Vorkehrungen für die Topologie von Teilen des Gesichts (Konvexität und Konkavität der Wangen, Alterungsmerkmale, Grübchen usw.) gibt, ist es nicht einmal möglich, zu versuchen, solche “subtilen” Untermerkmale zwischen einer Quelle (‘Gesicht, das Sie überschreiben möchten’) und einem Ziel (‘Gesicht, das Sie einfügen möchten’) zu entsprechen.
Mit begrenzten Daten zurechtkommen
Das Abrufen von abgestimmten Daten zwischen zwei Identitäten zum Zwecke des Trainings von Deepfakes ist nicht einfach. Je ungewöhnlicher der Winkel, den Sie abgleichen müssen, desto mehr müssen Sie möglicherweise Kompromisse bei der Frage eingehen, ob dieser (seltene) Winkelabgleich zwischen den Identitäten A und B tatsächlich den gleichen Ausdruck aufweist.

Nah dran, aber nicht genau ein Match.
In dem oben gezeigten Beispiel sind die beiden Identitäten ziemlich ähnlich in ihrer Haltung, aber das ist so nah, wie diese Datenmenge an einen exakten Abgleich herankommt.










