Artificial Intelligence
Eine neue und einfachere Deepfake-Methode, die frühere Ansätze übertrifft
Eine Zusammenarbeit zwischen einer chinesischen KI-Forschungsgruppe und in den USA ansässigen Forschern hat möglicherweise die erste echte Innovation in der Deepfakes-Technologie seit dem Aufkommen des Phänomens vor vier Jahren entwickelt.
Mit der neuen Methode können FaceSwaps durchgeführt werden, die alle anderen vorhandenen Frameworks für Standard-Wahrnehmungstests übertreffen, ohne dass große dedizierte Datensätze umfassend gesammelt und kuratiert und bis zu einer Woche lang für nur eine einzelne Identität trainiert werden müssen. Für die in der neuen Arbeit vorgestellten Beispiele wurden Modelle darauf trainiert Gesamtheit von zwei beliebten Promi-Datensätzen auf einer NVIDIA Tesla P40 GPU für etwa drei Tage.
Durch den neuen Ansatz entfällt die Notwendigkeit, die transplantierte Identität grob in das Zielvideo einzufügen, was häufig zu Verräterien führt Artefakte die dort erscheinen, wo das falsche Gesicht aufhört und das echte, darunter liegende Gesicht beginnt. Vielmehr werden „Halluzinationskarten“ verwendet, um eine tiefere Vermischung visueller Facetten durchzuführen, da das System die Identität viel effektiver vom Kontext trennt als aktuelle Methoden und daher die Zielidentität auf einer tieferen Ebene vermischen kann.
Tatsächlich bietet die neue Halluzinationskarte einen vollständigeren Kontext für den Austausch, im Gegensatz zu den harten Masken, die oft eine umfassende Kuratierung erfordern (und im Fall von DeepFaceLab separate Ausbildung), bietet aber nur begrenzte Flexibilität im Hinblick auf die tatsächliche Integration der beiden Identitäten.
Das Krepppapier, Betitelt Einstufiges Kontext- und Identitätshalluzinationsnetzwerkwurde von Forschern verfasst, die mit JD AI Research und der University of Massachusetts Amherst verbunden sind, und wurde vom National Key R&D Program of China unter der Fördernummer 2020AAA0103800 unterstützt. Es wurde auf der 29. ACM International Conference on Multimedia vom 20. bis 24. Oktober in Chengdu, China, vorgestellt.
Keine Notwendigkeit für „Face-On“-Parität
Sowohl die beliebteste aktuelle Deepfake-Software, DeepFaceLab, als auch die konkurrierende Abzweigung FaceSwap führen mühsame und häufig von Hand kuratierte Arbeitsabläufe durch, um festzustellen, in welche Richtung ein Gesicht geneigt ist und welche Hindernisse sich im Weg befinden, die (wiederum manuell) berücksichtigt werden müssen. , und muss mit vielen anderen irritierenden Hindernissen (einschließlich der Beleuchtung) zurechtkommen, die dazu führen, dass ihre Nutzung weit von dem „Point-and-Click“-Erlebnis entfernt ist, das in den Medien seit dem Aufkommen von Deepfakes unzutreffend dargestellt wird.
Im Gegensatz dazu erfordert CihaNet nicht, dass zwei Bilder direkt auf die Kamera gerichtet sind, um nützliche Identitätsinformationen aus einem einzelnen Bild zu extrahieren und zu nutzen.
Architektur
Das CihaNet-Projekt wurde nach Angaben der Autoren von der Zusammenarbeit zwischen Microsoft Research und der Peking-Universität aus dem Jahr 2019 inspiriert FaceShifter, obwohl es einige bemerkenswerte und kritische Änderungen an der Kernarchitektur der älteren Methode vornimmt.
FaceShifter verwendet zwei adaptive Instanznormalisierungen (AdaIN) Netzwerke zur Verarbeitung von Identitätsinformationen, deren Daten dann über eine Maske in das Zielbild übertragen werden, ähnlich wie bei aktueller beliebter Deepfake-Software (und mit allen damit verbundenen Einschränkungen), unter Verwendung einer zusätzlichen HEAR-Net (einschließlich eines separat trainierten Subnetzes, das auf Okklusionshindernisse trainiert wurde – eine zusätzliche Ebene der Komplexität).
Stattdessen nutzt die neue Architektur diese „kontextuellen“ Informationen direkt für den Transformationsprozess selbst, und zwar über eine zweistufige, einzelne Cascading Adaptive Instance Normalization (C-AdaIN)-Operation, die für Konsistenz des Kontexts (d. h. Gesichtshaut und Verdeckungen) von ID sorgt. relevante Bereiche.
Das zweite für das System entscheidende Subnetz heißt Swapping Block (SwapBlk). Es generiert ein integriertes Feature aus dem Kontext des Referenzbilds und den eingebetteten „Identitäts“-Informationen aus dem Quellbild und umgeht dabei die dafür erforderlichen mehreren Schritte herkömmliche Strommittel.
Um die Unterscheidung zwischen Kontext und Identität zu erleichtern, a Halluzinationskarte wird für jede Ebene generiert, ersetzt eine Soft-Segmentierungsmaske und wirkt auf eine breitere Palette von Funktionen für diesen kritischen Teil des Deepfake-Prozesses.
Auf diese Weise erfolgt der gesamte Austauschvorgang in einem einzigen Schritt und ohne Nachbearbeitung.
Daten und Tests
Um das System auszuprobieren, trainierten die Forscher vier Modelle mit zwei äußerst beliebten und vielfältigen offenen Bilddatensätzen – CelebA-HQ und NVIDIAs Flickr-Faces-HQ-Datensatz (FFHQ), die jeweils 30,000 bzw. 70,000 Bilder enthalten.
Für diese Basisdatensätze wurde keine Bereinigung oder Filterung durchgeführt. In jedem Fall trainierten die Forscher den gesamten Datensatz über drei Tage hinweg auf der einzelnen Tesla-GPU, mit einer Lernrate von 0.0002 bei der Adam-Optimierung.
Anschließend führten sie eine Reihe zufälliger Austausche zwischen den Tausenden von Persönlichkeiten durch, die in den Datensätzen enthalten waren, ohne Rücksicht darauf, ob die Gesichter ähnlich oder sogar geschlechtsübereinstimmend waren, und verglichen die Ergebnisse von CihaNet mit den Ergebnissen von vier führenden Deepfake-Frameworks: Gesicht tauschen (was für das populärere steht DeepFaceLab, da es eine Root-Codebasis in der teilt Original-Repository von 2017 das brachte Deepfakes in die Welt); der oben genannte FaceShifter; FSGANeschriebenen Art und Weise; und SimSwap.
Beim Vergleich der Ergebnisse über VGG-Gesicht, FFHQ, CelebA-HQ und FaceForensics ++stellten die Autoren fest, dass ihr neues Modell alle Vorgängermodelle übertraf, wie in der folgenden Tabelle angegeben.
Die drei zur Auswertung der Ergebnisse verwendeten Metriken waren strukturelle Ähnlichkeit (SSIM), Posenschätzungsfehler und Genauigkeit der ID-Abfrage, der auf der Grundlage des Prozentsatzes erfolgreich abgerufener Paare berechnet wird.
Die Forscher behaupten, dass CihaNet einen überlegenen Ansatz in Bezug auf qualitative Ergebnisse und einen bemerkenswerten Fortschritt gegenüber dem aktuellen Stand der Technik bei Deepfake-Technologien darstellt, indem die Belastung durch umfangreiche und arbeitsintensive Maskierungsarchitekturen und -methoden beseitigt und ein nützlicherer Ansatz erreicht wird und umsetzbare Trennung von Identität und Kontext.
Schauen Sie sich unten weitere Videobeispiele der neuen Technik an. Das Video in voller Länge finden Sie hier hier.
Aus ergänzenden Materialien für das neue Papier führt CihaNet einen Faceswapping bei verschiedenen Identitäten durch. Quelle: https://mitchellx.github.io/#video