Stummel Eine neue und einfachere Deepfake-Methode, die frühere Ansätze übertrifft – Unite.AI
Vernetzen Sie sich mit uns

Artificial Intelligence

Eine neue und einfachere Deepfake-Methode, die frühere Ansätze übertrifft

mm
Aktualisiert on

Eine Zusammenarbeit zwischen einer chinesischen KI-Forschungsgruppe und in den USA ansässigen Forschern hat möglicherweise die erste echte Innovation in der Deepfakes-Technologie seit dem Aufkommen des Phänomens vor vier Jahren entwickelt.

Mit der neuen Methode können FaceSwaps durchgeführt werden, die alle anderen vorhandenen Frameworks für Standard-Wahrnehmungstests übertreffen, ohne dass große dedizierte Datensätze umfassend gesammelt und kuratiert und bis zu einer Woche lang für nur eine einzelne Identität trainiert werden müssen. Für die in der neuen Arbeit vorgestellten Beispiele wurden Modelle darauf trainiert Gesamtheit von zwei beliebten Promi-Datensätzen auf einer NVIDIA Tesla P40 GPU für etwa drei Tage.

Das vollständige Video ist am Ende dieses Artikels eingebettet. In diesem Beispiel aus einem Video in ergänzenden Materialien für die neue Arbeit wird Scarlett Johanssons Gesicht auf das Quellvideo übertragen. CihaNet beseitigt das Problem der Kantenmaskierung bei der Durchführung eines Austauschs, indem tiefere Beziehungen zwischen den Quell- und Zielidentitäten gebildet und umgesetzt werden. Dies bedeutet ein Ende der „offensichtlichen Grenzen“ und anderer Überlagerungsfehler, die bei herkömmlichen Deepfake-Ansätzen auftreten. Quelle: Quelle: https://mitchellx.github.io/#video

Das vollständige Video finden Sie am Ende dieses Artikels. In diesem Beispiel aus einem Video in ergänzenden Materialien, die von einem der Autoren des neuen Artikels bereitgestellt wurden, wird Scarlett Johanssons Gesicht auf das Quellvideo übertragen. CihaNet beseitigt das Problem der Kantenmaskierung bei der Durchführung eines Austauschs, indem tiefere Beziehungen zwischen den Quell- und Zielidentitäten gebildet und umgesetzt werden. Dies bedeutet ein Ende der „offensichtlichen Grenzen“ und anderer Überlagerungsfehler, die bei herkömmlichen Deepfake-Ansätzen auftreten. Quelle: Quelle: https://mitchellx.github.io/#video

Durch den neuen Ansatz entfällt die Notwendigkeit, die transplantierte Identität grob in das Zielvideo einzufügen, was häufig zu Verräterien führt Artefakte die dort erscheinen, wo das falsche Gesicht aufhört und das echte, darunter liegende Gesicht beginnt. Vielmehr werden „Halluzinationskarten“ verwendet, um eine tiefere Vermischung visueller Facetten durchzuführen, da das System die Identität viel effektiver vom Kontext trennt als aktuelle Methoden und daher die Zielidentität auf einer tieferen Ebene vermischen kann.

Aus dem Papier. CihaNet-Transformationen werden durch Halluzinationskarten (untere Reihe) erleichtert. Das System verwendet Kontextinformationen (z. B. Gesichtsrichtung, Haare, Brille und andere Verdeckungen usw.) vollständig aus dem Bild, in das die neue Identität eingeblendet wird, und Gesichtsidentitätsinformationen vollständig von der Person, die in das Bild eingefügt werden soll. Diese Fähigkeit, Gesicht und Kontext zu trennen, ist entscheidend für den Erfolg des Systems. Quelle: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

Aus dem Papier. CihaNet-Transformationen werden durch Halluzinationskarten (untere Reihe) erleichtert. Das System verwendet Kontextinformationen (z. B. Gesichtsrichtung, Haare, Brille und andere Verdeckungen usw.) vollständig aus dem Bild, in das die neue Identität eingeblendet wird, und Gesichtsidentitätsinformationen vollständig von der Person, die in das Bild eingefügt werden soll. Diese Fähigkeit, Gesicht und Kontext zu trennen, ist entscheidend für den Erfolg des Systems. Quelle: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

Tatsächlich bietet die neue Halluzinationskarte einen vollständigeren Kontext für den Austausch, im Gegensatz zu den harten Masken, die oft eine umfassende Kuratierung erfordern (und im Fall von DeepFaceLab separate Ausbildung), bietet aber nur begrenzte Flexibilität im Hinblick auf die tatsächliche Integration der beiden Identitäten.

Aus Beispielen, die in den ergänzenden Materialien bereitgestellt werden, unter Verwendung der FFHQ- und Celeb-A HQ-Datensätze, über VGGFace und Forensics++ hinweg. In den ersten beiden Spalten werden die zufällig ausgewählten (echten) Bilder angezeigt, die ausgetauscht werden sollen. Die folgenden vier Spalten zeigen die Ergebnisse des Austauschs mit den vier derzeit effektivsten verfügbaren Methoden, während die letzte Spalte das Ergebnis von CihaNet zeigt. Es wurde das FaceSwap-Repository anstelle des populäreren DeepFaceLab verwendet, da beide Projekte Abzweigungen des ursprünglichen Deepfakes-Codes von 2017 auf GitHub sind. Obwohl jedes Projekt seitdem Modelle, Techniken, verschiedene Benutzeroberflächen und ergänzende Tools hinzugefügt hat, hat sich der zugrunde liegende Code, der Deepfakes ermöglicht, nie geändert und ist beiden weiterhin gemeinsam. Quelle: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip

Das Krepppapier, Betitelt Einstufiges Kontext- und Identitätshalluzinationsnetzwerkwurde von Forschern verfasst, die mit JD AI Research und der University of Massachusetts Amherst verbunden sind, und wurde vom National Key R&D Program of China unter der Fördernummer 2020AAA0103800 unterstützt. Es wurde auf der 29. ACM International Conference on Multimedia vom 20. bis 24. Oktober in Chengdu, China, vorgestellt.

Keine Notwendigkeit für „Face-On“-Parität

Sowohl die beliebteste aktuelle Deepfake-Software, DeepFaceLab, als auch die konkurrierende Abzweigung FaceSwap führen mühsame und häufig von Hand kuratierte Arbeitsabläufe durch, um festzustellen, in welche Richtung ein Gesicht geneigt ist und welche Hindernisse sich im Weg befinden, die (wiederum manuell) berücksichtigt werden müssen. , und muss mit vielen anderen irritierenden Hindernissen (einschließlich der Beleuchtung) zurechtkommen, die dazu führen, dass ihre Nutzung weit von dem „Point-and-Click“-Erlebnis entfernt ist, das in den Medien seit dem Aufkommen von Deepfakes unzutreffend dargestellt wird.

Im Gegensatz dazu erfordert CihaNet nicht, dass zwei Bilder direkt auf die Kamera gerichtet sind, um nützliche Identitätsinformationen aus einem einzelnen Bild zu extrahieren und zu nutzen.

In diesen Beispielen steht eine Reihe von Deepfake-Software-Anwärtern vor der Aufgabe, Gesichter auszutauschen, die sich nicht nur in ihrer Identität unterscheiden, sondern auch nicht in die gleiche Richtung blicken. Aus dem ursprünglichen Deepfakes-Repository abgeleitete Software (wie das äußerst beliebte DeepFaceLab und FaceSwap, oben abgebildet) kann die Winkelunterschiede zwischen den beiden auszutauschenden Bildern nicht bewältigen (siehe dritte Spalte). Mittlerweile kann Cihanet die Identität korrekt abstrahieren, da die „Pose“ des Gesichts nicht unbedingt Teil der Identitätsinformationen ist.

In diesen Beispielen steht eine Reihe von Deepfake-Software-Anwärtern vor der Aufgabe, Gesichter auszutauschen, die sich nicht nur in ihrer Identität unterscheiden, sondern auch nicht in die gleiche Richtung blicken. Aus dem ursprünglichen Deepfakes-Repository abgeleitete Software (wie das äußerst beliebte DeepFaceLab und FaceSwap, oben abgebildet) kann die Winkelunterschiede zwischen den beiden auszutauschenden Bildern nicht bewältigen (siehe dritte Spalte). Mittlerweile kann CihaNet die Identität korrekt abstrahieren, da die „Pose“ des Gesichts nicht unbedingt Teil der Identitätsinformationen ist.

Architektur

Das CihaNet-Projekt wurde nach Angaben der Autoren von der Zusammenarbeit zwischen Microsoft Research und der Peking-Universität aus dem Jahr 2019 inspiriert FaceShifter, obwohl es einige bemerkenswerte und kritische Änderungen an der Kernarchitektur der älteren Methode vornimmt.

FaceShifter verwendet zwei adaptive Instanznormalisierungen (AdaIN) Netzwerke zur Verarbeitung von Identitätsinformationen, deren Daten dann über eine Maske in das Zielbild übertragen werden, ähnlich wie bei aktueller beliebter Deepfake-Software (und mit allen damit verbundenen Einschränkungen), unter Verwendung einer zusätzlichen HEAR-Net (einschließlich eines separat trainierten Subnetzes, das auf Okklusionshindernisse trainiert wurde – eine zusätzliche Ebene der Komplexität).

Stattdessen nutzt die neue Architektur diese „kontextuellen“ Informationen direkt für den Transformationsprozess selbst, und zwar über eine zweistufige, einzelne Cascading Adaptive Instance Normalization (C-AdaIN)-Operation, die für Konsistenz des Kontexts (d. h. Gesichtshaut und Verdeckungen) von ID sorgt. relevante Bereiche.

Das zweite für das System entscheidende Subnetz heißt Swapping Block (SwapBlk). Es generiert ein integriertes Feature aus dem Kontext des Referenzbilds und den eingebetteten „Identitäts“-Informationen aus dem Quellbild und umgeht dabei die dafür erforderlichen mehreren Schritte herkömmliche Strommittel.

Um die Unterscheidung zwischen Kontext und Identität zu erleichtern, a Halluzinationskarte wird für jede Ebene generiert, ersetzt eine Soft-Segmentierungsmaske und wirkt auf eine breitere Palette von Funktionen für diesen kritischen Teil des Deepfake-Prozesses.

Mit zunehmendem Wert der Halluzinationskarte (Bild unten rechts) entsteht ein klarerer Weg zwischen den Identitäten.

Mit zunehmendem Wert der Halluzinationskarte (Bild unten rechts) entsteht ein klarerer Weg zwischen den Identitäten.

Auf diese Weise erfolgt der gesamte Austauschvorgang in einem einzigen Schritt und ohne Nachbearbeitung.

Daten und Tests

Um das System auszuprobieren, trainierten die Forscher vier Modelle mit zwei äußerst beliebten und vielfältigen offenen Bilddatensätzen – CelebA-HQ  und NVIDIAs Flickr-Faces-HQ-Datensatz (FFHQ), die jeweils 30,000 bzw. 70,000 Bilder enthalten.

Für diese Basisdatensätze wurde keine Bereinigung oder Filterung durchgeführt. In jedem Fall trainierten die Forscher den gesamten Datensatz über drei Tage hinweg auf der einzelnen Tesla-GPU, mit einer Lernrate von 0.0002 bei der Adam-Optimierung.

Anschließend führten sie eine Reihe zufälliger Austausche zwischen den Tausenden von Persönlichkeiten durch, die in den Datensätzen enthalten waren, ohne Rücksicht darauf, ob die Gesichter ähnlich oder sogar geschlechtsübereinstimmend waren, und verglichen die Ergebnisse von CihaNet mit den Ergebnissen von vier führenden Deepfake-Frameworks: Gesicht tauschen (was für das populärere steht DeepFaceLab, da es eine Root-Codebasis in der teilt Original-Repository von 2017 das brachte Deepfakes in die Welt); der oben genannte FaceShifter; FSGANeschriebenen Art und Weise; und SimSwap.

Beim Vergleich der Ergebnisse über VGG-Gesicht, FFHQ, CelebA-HQ und FaceForensics ++stellten die Autoren fest, dass ihr neues Modell alle Vorgängermodelle übertraf, wie in der folgenden Tabelle angegeben.

Die drei zur Auswertung der Ergebnisse verwendeten Metriken waren strukturelle Ähnlichkeit (SSIM), Posenschätzungsfehler und Genauigkeit der ID-Abfrage, der auf der Grundlage des Prozentsatzes erfolgreich abgerufener Paare berechnet wird.

Die Forscher behaupten, dass CihaNet einen überlegenen Ansatz in Bezug auf qualitative Ergebnisse und einen bemerkenswerten Fortschritt gegenüber dem aktuellen Stand der Technik bei Deepfake-Technologien darstellt, indem die Belastung durch umfangreiche und arbeitsintensive Maskierungsarchitekturen und -methoden beseitigt und ein nützlicherer Ansatz erreicht wird und umsetzbare Trennung von Identität und Kontext.

Schauen Sie sich unten weitere Videobeispiele der neuen Technik an. Das Video in voller Länge finden Sie hier hier.

Aus ergänzenden Materialien für das neue Papier führt CihaNet einen Faceswapping bei verschiedenen Identitäten durch. Quelle: https://mitchellx.github.io/#video