Künstliche Intelligenz
Eine neue und einfachere Deepfake-Methode, die frühere Ansätze übertrifft

Eine Zusammenarbeit zwischen einer chinesischen KI-Forschungsgruppe und in den USA ansässigen Forschern hat möglicherweise die erste echte Innovation in der Deepfakes-Technologie seit dem Aufkommen des Phänomens vor vier Jahren entwickelt.
Mit der neuen Methode können FaceSwaps durchgeführt werden, die alle anderen vorhandenen Frameworks für Standard-Wahrnehmungstests übertreffen, ohne dass große dedizierte Datensätze umfassend gesammelt und kuratiert und bis zu einer Woche lang für nur eine einzelne Identität trainiert werden müssen. Für die in der neuen Arbeit vorgestellten Beispiele wurden Modelle darauf trainiert Gesamtheit von zwei beliebten Promi-Datensätzen auf einer NVIDIA Tesla P40 GPU für etwa drei Tage.

Das vollständige Video finden Sie am Ende dieses Artikels. In diesem Beispiel aus einem Video in ergänzenden Materialien, die von einem der Autoren des neuen Artikels bereitgestellt wurden, wird Scarlett Johanssons Gesicht auf das Quellvideo übertragen. CihaNet beseitigt das Problem der Kantenmaskierung beim Austausch, indem es tiefere Beziehungen zwischen Quell- und Zielidentität herstellt und umsetzt. Dies bedeutet das Ende von „offensichtlichen Grenzen“ und anderen Überlagerungsfehlern, die bei herkömmlichen Deepfake-Ansätzen auftreten. Quelle: Quelle: https://mitchellx.github.io/#video
Der neue Ansatz macht es nicht mehr nötig, die transplantierte Identität einfach in das Zielvideo einzufügen, was häufig zu verräterischen Artefakte die dort erscheinen, wo das falsche Gesicht endet und das echte, darunterliegende Gesicht beginnt. Vielmehr werden „Halluzinationskarten“ verwendet, um eine tiefere Vermischung visueller Facetten zu erreichen, da das System Identität weitaus effektiver vom Kontext trennt als aktuelle Methoden und daher die Zielidentität auf einer tieferen Ebene vermischen kann.

Aus dem Papier. CihaNet-Transformationen werden durch Halluzinationskarten (untere Reihe) erleichtert. Das System verwendet Kontextinformationen (z. B. Gesichtsrichtung, Haare, Brille und andere Verdeckungen usw.) vollständig aus dem Bild, in das die neue Identität eingeblendet wird, und Gesichtsidentitätsinformationen vollständig von der Person, die in das Bild eingefügt werden soll. Diese Fähigkeit, Gesicht und Kontext zu trennen, ist entscheidend für den Erfolg des Systems. Quelle: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257
Tatsächlich bietet die neue Halluzinationskarte einen vollständigeren Kontext für den Austausch, im Gegensatz zu den harten Masken, die oft eine umfassende Kuratierung erfordern (und im Fall von DeepFaceLab separate Ausbildung), bietet aber nur begrenzte Flexibilität im Hinblick auf die tatsächliche Integration der beiden Identitäten.

Aus Beispielen, die in den ergänzenden Materialien bereitgestellt werden, unter Verwendung der FFHQ- und Celeb-A HQ-Datensätze, über VGGFace und Forensics++ hinweg. In den ersten beiden Spalten werden die zufällig ausgewählten (echten) Bilder angezeigt, die ausgetauscht werden sollen. Die folgenden vier Spalten zeigen die Ergebnisse des Austauschs mit den vier derzeit effektivsten verfügbaren Methoden, während die letzte Spalte das Ergebnis von CihaNet zeigt. Es wurde das FaceSwap-Repository anstelle des populäreren DeepFaceLab verwendet, da beide Projekte Abzweigungen des ursprünglichen Deepfakes-Codes von 2017 auf GitHub sind. Obwohl jedes Projekt seitdem Modelle, Techniken, verschiedene Benutzeroberflächen und ergänzende Tools hinzugefügt hat, hat sich der zugrunde liegende Code, der Deepfakes ermöglicht, nie geändert und ist beiden weiterhin gemeinsam. Quelle: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip
Die Krepppapierassoziierte Zeichnung mit dem Titel Einstufiges Kontext- und Identitätshalluzinationsnetzwerkwurde von Forschern verfasst, die mit JD AI Research und der University of Massachusetts Amherst verbunden sind, und wurde vom National Key R&D Program of China unter der Fördernummer 2020AAA0103800 unterstützt. Es wurde auf der 29. ACM International Conference on Multimedia vom 20. bis 24. Oktober in Chengdu, China, vorgestellt.
Keine Notwendigkeit für „Face-On“-Parität
Sowohl die derzeit beliebteste Deepfake-Software, DeepFaceLab, als auch der konkurrierende Fork FaceSwap führen komplizierte und häufig manuell kuratierte Arbeitsabläufe durch, um zu erkennen, in welche Richtung ein Gesicht geneigt ist, welche Hindernisse im Weg sind und (wiederum manuell) berücksichtigt werden müssen, und müssen mit vielen anderen irritierenden Hemmnissen (einschließlich der Beleuchtung) zurechtkommen, die ihre Verwendung weit entfernt von dem „Point-and-Click“-Erlebnis machen, das seit dem Aufkommen von Deepfakes in den Medien ungenau dargestellt wird.
Im Gegensatz dazu erfordert CihaNet nicht, dass zwei Bilder direkt auf die Kamera gerichtet sind, um nützliche Identitätsinformationen aus einem einzelnen Bild zu extrahieren und zu nutzen.

In diesen Beispielen steht eine Reihe von Deepfake-Software-Kandidaten vor der Aufgabe, Gesichter auszutauschen, die nicht nur identitätsmäßig unterschiedlich sind, sondern auch nicht in die gleiche Richtung blicken. Software aus dem ursprünglichen Deepfake-Repository (wie das äußerst beliebte DeepFaceLab und FaceSwap, siehe Abbildung oben) kann die unterschiedlichen Winkel zwischen den beiden auszutauschenden Bildern nicht verarbeiten (siehe dritte Spalte). CihaNet hingegen kann die Identität korrekt abstrahieren, da die „Pose“ des Gesichts nicht zwingend Teil der Identitätsinformationen ist.
Architektur
Das CihaNet-Projekt wurde nach Angaben der Autoren von der Zusammenarbeit zwischen Microsoft Research und der Peking-Universität aus dem Jahr 2019 inspiriert FaceShifter, obwohl es einige bemerkenswerte und kritische Änderungen an der Kernarchitektur der älteren Methode vornimmt.
FaceShifter verwendet zwei adaptive Instanznormalisierungen (AdaIN) Netzwerke zur Verarbeitung von Identitätsinformationen, deren Daten dann über eine Maske in das Zielbild übertragen werden, ähnlich wie bei aktueller beliebter Deepfake-Software (und mit allen damit verbundenen Einschränkungen), unter Verwendung einer zusätzlichen HEAR-Net (einschließlich eines separat trainierten Subnetzes, das auf Okklusionshindernisse trainiert wurde – eine zusätzliche Ebene der Komplexität).
Stattdessen verwendet die neue Architektur diese „kontextuellen“ Informationen direkt für den Transformationsprozess selbst, und zwar über eine zweistufige, einzelne Cascading Adaptive Instance Normalization (C-AdaIN)-Operation, die für die Konsistenz des Kontexts (d. h. Gesichtshaut und Okklusionen) der ID-relevanten Bereiche sorgt.
Das zweite für das System entscheidende Subnetz heißt Swapping Block (SwapBlk). Es generiert ein integriertes Feature aus dem Kontext des Referenzbilds und den eingebetteten „Identitäts“-Informationen aus dem Quellbild und umgeht dabei die vielen Schritte, die mit herkömmlichen Mitteln hierfür notwendig sind.
Um die Unterscheidung zwischen Kontext und Identität zu erleichtern, a Halluzinationskarte wird für jede Ebene generiert, ersetzt eine Soft-Segmentierungsmaske und wirkt auf eine breitere Palette von Funktionen für diesen kritischen Teil des Deepfake-Prozesses.

Mit zunehmendem Wert der Halluzinationskarte (Bild unten rechts) entsteht ein klarerer Weg zwischen den Identitäten.
Auf diese Weise erfolgt der gesamte Austauschvorgang in einem einzigen Schritt und ohne Nachbearbeitung.
Daten und Tests
Um das System auszuprobieren, trainierten die Forscher vier Modelle mit zwei äußerst beliebten und vielfältigen offenen Bilddatensätzen – CelebA-HQ und NVIDIAs Flickr-Faces-HQ-Datensatz (FFHQ), die jeweils 30,000 bzw. 70,000 Bilder enthalten.
Für diese Basisdatensätze wurde keine Bereinigung oder Filterung durchgeführt. In jedem Fall trainierten die Forscher den gesamten Datensatz über drei Tage hinweg auf der einzelnen Tesla-GPU, mit einer Lernrate von 0.0002 bei der Adam-Optimierung.
Anschließend führten sie eine Reihe zufälliger Vertauschungen unter den Tausenden von Persönlichkeiten in den Datensätzen durch, ohne Rücksicht darauf, ob die Gesichter ähnlich oder sogar geschlechtsgleich waren, und verglichen die Ergebnisse von CihaNet mit der Ausgabe von vier führenden Deepfake-Frameworks: Gesicht tauschen (was für das populärere steht DeepFaceLab, da es eine Root-Codebasis in der teilt Original-Repository von 2017 das brachte Deepfakes in die Welt); der oben genannte FaceShifter; FSGANeschriebenen Art und Weise; und SimSwap.
Beim Vergleich der Ergebnisse über VGG-Gesicht, FFHQ, CelebA-HQ und FaceForensics ++stellten die Autoren fest, dass ihr neues Modell alle Vorgängermodelle übertraf, wie in der folgenden Tabelle angegeben.

Die drei zur Auswertung der Ergebnisse verwendeten Metriken waren strukturelle Ähnlichkeit (SSIM), Posenschätzungsfehler und Genauigkeit der ID-Abfrage, der auf der Grundlage des Prozentsatzes erfolgreich abgerufener Paare berechnet wird.
Die Forscher behaupten, dass CihaNet einen überlegenen Ansatz in Bezug auf qualitative Ergebnisse und einen bemerkenswerten Fortschritt gegenüber dem aktuellen Stand der Technik bei Deepfake-Technologien darstellt, indem die Belastung durch umfangreiche und arbeitsintensive Maskierungsarchitekturen und -methoden beseitigt und ein nützlicherer Ansatz erreicht wird und umsetzbare Trennung von Identität und Kontext.
Schauen Sie sich unten weitere Videobeispiele der neuen Technik an. Das Video in voller Länge finden Sie hier werden auf dieser Seite erläutert.
Aus ergänzenden Materialien für das neue Papier führt CihaNet einen Faceswapping bei verschiedenen Identitäten durch. Quelle: https://mitchellx.github.io/#video














