Künstliche Intelligenz
Ein neues und einfacheres Deepfake-Verfahren, das vorherige Ansätze übertrifft

Eine Zusammenarbeit zwischen einer chinesischen KI-Forschungsgruppe und US-amerikanischen Forschern hat möglicherweise die erste echte Innovation in der Deepfake-Technologie seit dem Auftauchen des Phänomens vor vier Jahren entwickelt.
Das neue Verfahren kann Gesichtsaustausche durchführen, die alle anderen bestehenden Frameworks auf Standard-Perzeptions-tests überbieten, ohne dass es notwendig ist, umfangreiche und sorgfältig kuratierte große Datenbanken zu sammeln und für bis zu einer Woche für eine einzelne Identität zu trainieren. Für die in dem neuen Papier vorgestellten Beispiele wurden Modelle auf dem gesamten Umfang von zwei beliebten Celebrity-Datensätzen trainiert, auf einem NVIDIA Tesla P40 GPU für etwa drei Tage.

Vollständiges Video am Ende dieses Artikels. In diesem Beispiel aus einem Video in den ergänzenden Materialien, die von einem der Autoren des neuen Papiers bereitgestellt wurden, wird Scarlett Johanssons Gesicht auf das Quellvideo übertragen. CihaNet entfernt das Problem des Edge-Maskings beim Austausch, indem es tiefere Beziehungen zwischen der Quell- und Zielidentität herstellt, was bedeutet, dass es ein Ende der “offensichtlichen Grenzen” und anderen Überlagerungsfehlern gibt, die in herkömmlichen Deepfake-Ansätzen auftreten. Quelle: Quelle: https://mitchellx.github.io/#video
Das neue Verfahren entfernt die Notwendigkeit, die transplantierte Identität grob in das Zielvideo einzufügen, was häufig zu verräterischen Artefakten führt, die dort erscheinen, wo das gefälschte Gesicht endet und das echte, zugrunde liegende Gesicht beginnt. Stattdessen werden “Halluzinationskarten” verwendet, um eine tiefere Vermischung von visuellen Aspekten durchzuführen, da das System Identität von Kontext viel effektiver trennt als aktuelle Methoden und daher die Zielidentität auf einer tieferen Ebene vermischen kann.

Aus dem Papier. CihaNet-Transformationen werden durch Halluzinationskarten (untere Reihe) ermöglicht. Das System verwendet Kontextinformationen (z. B. Gesichtsrichtung, Haare, Brille und andere Verdeckungen usw.) vollständig aus dem Bild, in das die neue Identität überlagert wird, und Gesichtsidentitätsinformationen vollständig von der Person, die in das Bild eingefügt werden soll. Diese Fähigkeit, Gesicht von Kontext zu trennen, ist für den Erfolg des Systems von entscheidender Bedeutung. Quelle: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257
Effektiv bietet die neue Halluzinationskarte einen vollständigeren Kontext für den Austausch, im Gegensatz zu den harten Masken, die oft eine umfangreiche Kuratierung (und im Falle von DeepFaceLab, separate Schulung) erfordern, während sie eine begrenzte Flexibilität in Bezug auf die tatsächliche Einbeziehung der beiden Identitäten bieten.

Aus den Beispielen, die in den ergänzenden Materialien bereitgestellt werden, unter Verwendung der FFHQ- und Celeb-A-HQ-Datensätze, über VGGFace und Forensics++. Die ersten beiden Spalten zeigen die zufällig ausgewählten (echten) Bilder, die ausgetauscht werden sollen. Die folgenden vier Spalten zeigen die Ergebnisse des Austauschs unter Verwendung der vier effektivsten Methoden, die derzeit verfügbar sind, während die letzte Spalte das Ergebnis von CihaNet zeigt. Das FaceSwap-Repository wurde verwendet, anstelle des beliebteren DeepFaceLab, da beide Projekte Forks des ursprünglichen Deepfakes-Codes auf GitHub sind. Obwohl jedes Projekt seitdem Modelle, Techniken, diverse Benutzeroberflächen und ergänzende Tools hinzugefügt hat, ist der zugrunde liegende Code, der Deepfakes möglich macht, nie geändert worden und bleibt beiden gemeinsam. Quelle: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip
Das Papier, betitelt One-stage Context and Identity Hallucination Network, ist von Forschern verfasst, die mit JD AI Research und der University of Massachusetts Amherst verbunden sind, und wurde von dem National Key R&D Program of China unter Grant No. 2020AAA0103800 unterstützt. Es wurde auf der 29. ACM International Conference on Multimedia, vom 20. bis 24. Oktober, in Chengdu, China, vorgestellt.
Kein Bedarf an “Face-On”-Parität
Sowohl die derzeit beliebtesten Deepfake-Software, DeepFaceLab, als auch die konkurrierende Fork FaceSwap, führen mühsame und häufig handgeführte Workflows durch, um zu bestimmen, in welche Richtung ein Gesicht geneigt ist, welche Hindernisse im Weg sind, die berücksichtigt werden müssen (wiederum manuell), und müssen mit vielen anderen ärgerlichen Hindernissen (einschließlich Beleuchtung) umgehen, die ihre Verwendung weit von der “Point-and-Click”-Erfahrung entfernen, die in den Medien seit dem Auftauchen von Deepfakes ungenau dargestellt wird.
Im Gegensatz dazu benötigt CihaNet nicht, dass zwei Bilder direkt in die Kamera schauen, um nützliche Identitätsinformationen aus einem einzelnen Bild zu extrahieren und auszunutzen.

In diesen Beispielen werden eine Reihe von Deepfake-Software-Konkurrenten mit der Aufgabe konfrontiert, Gesichter auszutauschen, die nicht nur in ihrer Identität unterschiedlich sind, sondern auch nicht in die gleiche Richtung schauen. Software, die aus dem ursprünglichen Deepfakes-Repository (wie die sehr beliebte DeepFaceLab und FaceSwap, oben abgebildet) abgeleitet ist, kann die Differenz in den Winkeln zwischen den beiden auszutauschenden Bildern nicht verarbeiten (siehe dritte Spalte). Währenddessen kann CihaNet die Identität richtig abstrahieren, da die “Pose” des Gesichts nicht intrinsisch Teil der Identitätsinformation ist.
Architektur
Das CihaNet-Projekt, so die Autoren, wurde von der Zusammenarbeit zwischen Microsoft Research und Peking University im Jahr 2019 inspiriert, die als FaceShifter bezeichnet wird, obwohl es einige bemerkenswerte und kritische Änderungen an der Kernarchitektur der älteren Methode vornimmt.
FaceShifter verwendet zwei Adaptive Instance Normalization (AdaIN)-Netzwerke, um Identitätsinformationen zu verarbeiten, die dann in das Zielbild übertragen werden, indem eine Maske verwendet wird, auf eine Weise, die ähnlich zu der derzeitigen beliebten Deepfake-Software (und mit allen damit verbundenen Einschränkungen) ist, unter Verwendung eines zusätzlichen HEAR-Net (das eine separat trainierte Sub-Netz enthält, das auf Verdeckungs-Hindernisse trainiert wurde – eine zusätzliche Ebene der Komplexität).
Stattdessen verwendet die neue Architektur diese “kontextuellen” Informationen direkt für den Transformationsprozess selbst, über eine zweistufige einzelne Cascading Adaptive Instance Normalization (C-AdaIN)-Operation, die die Konsistenz des Kontexts (z. B. Gesichtshaut und Verdeckungen) von ID-relevanten Bereichen bietet.
Das zweite Sub-Netz, das für das System von entscheidender Bedeutung ist, wird als Swapping Block (SwapBlk) bezeichnet, das ein integriertes Merkmal aus dem Kontext des Referenzbildes und den eingebetteten “Identitäts”-Informationen aus dem Quellbild generiert, indem es die mehrstufigen Prozesse umgeht, die notwendig sind, um dies auf herkömmliche Weise zu erreichen.
Um zwischen Kontext und Identität zu unterscheiden, wird für jedes Level eine Halluzinationskarte generiert, die als weiche Segmentierungsmaske fungiert und auf eine breitere Palette von Merkmalen für diesen kritischen Teil des Deepfake-Prozesses einwirkt.

Wenn der Wert der Halluzinationskarte (rechts abgebildet) zunimmt, entsteht ein klarerer Pfad zwischen den Identitäten.
Auf diese Weise wird der gesamte Austauschprozess in einer einzigen Stufe und ohne Nachbearbeitung durchgeführt.
Daten und Tests
Um das System zu testen, trainierten die Forscher vier Modelle auf zwei sehr beliebten und vielfältigen offenen Bild-Datensätzen – CelebA-HQ und NVIDIAs Flickr-Faces-HQ-Datensatz (FFHQ), die jeweils 30.000 und 70.000 Bilder enthalten.
Es wurden keine Ausdünnung oder Filterung auf diese Basis-Datensätze durchgeführt. In jedem Fall trainierten die Forscher den gesamten Datensatz auf einem einzelnen Tesla-GPU über drei Tage, mit einer Lernrate von 0,0002 auf Adam-Optimierung.
Sie renderten dann eine Reihe von zufälligen Austauschen unter den Tausenden von Persönlichkeiten, die in den Datensätzen vorkommen, ohne Rücksicht darauf, ob die Gesichter ähnlich oder sogar geschlechtsspezifisch waren, und verglichen die Ergebnisse von CihaNet mit den Ausgaben von vier führenden Deepfake-Frameworks: FaceSwap (das für das beliebtere DeepFaceLab steht, da es eine gemeinsame Codebasis im ursprünglichen Repository von 2017 hat, das Deepfakes in die Welt brachte); das bereits erwähnte FaceShifter; FSGAN; und SimSwap.
Bei der Vergleich der Ergebnisse über VGG-Face, FFHQ, CelebA-HQ und FaceForensics++ fanden die Autoren heraus, dass ihr neues Modell alle vorherigen Modelle übertraf, wie in der folgenden Tabelle angegeben.

Die drei Metriken, die zur Bewertung der Ergebnisse verwendet wurden, waren Structural Similarity (SSIM), Pose-Schätzer-Fehler und ID-Rückgewinnungs-Genauigkeit, die auf der Grundlage des Prozentsatzes der erfolgreich abgerufenen Paare berechnet wird.
Die Forscher behaupten, dass CihaNet einen überlegenen Ansatz in Bezug auf qualitative Ergebnisse darstellt und einen bemerkenswerten Fortschritt im aktuellen Stand der Deepfake-Technologien darstellt, indem es die Last umfangreicher und arbeitsintensiver Masken-Architekturen und -Methoden entfernt und eine nützlichere und handhabbarere Trennung von Identität und Kontext erreicht.
Werfen Sie einen Blick nach unten, um weitere Video-Beispiele der neuen Technik zu sehen. Sie können das vollständige Video hier finden.
Aus den ergänzenden Materialien für das neue Papier, CihaNet führt Gesichtsaustausche auf verschiedenen Identitäten durch. Quelle: https://mitchellx.github.io/#video












