Vernetzen Sie sich mit uns

Künstliche Intelligenz

„Kreative“ Gesichtsverifizierung mit generativen gegnerischen Netzwerken

mm

Ein neues Papier der Stanford University hat eine neue Methode vorgeschlagen, um Gesichtsauthentifizierungssysteme in Plattformen wie Dating-Apps auszutricksen, indem a Generative Adversarial Network (GAN), um alternative Gesichtsbilder zu erstellen, die dieselben wesentlichen ID-Informationen wie ein echtes Gesicht enthalten.

Die Methode umging erfolgreich Gesichtsverifizierungsprozesse in den Dating-Apps Tinder und Bumble und gab in einem Fall sogar ein geschlechtsvertauschtes (männliches) Gesicht als authentisch für die ursprüngliche (weibliche) Identität aus.

Verschiedene generierte Identitäten, die die spezifische Kodierung des Autors des Artikels aufweisen (siehe erstes Bild oben). Quelle: https://arxiv.org/pdf/2203.15068.pdf

Verschiedene generierte Identitäten, die die spezifische Kodierung des Autors des Dokuments aufweisen (siehe erstes Bild oben). Quelle: https://arxiv.org/pdf/2203.15068.pdf

Nach Angaben des Autors stellt die Arbeit den ersten Versuch dar, die Gesichtsverifizierung durch die Verwendung generierter Bilder zu umgehen, die mit spezifischen Identitätsmerkmalen durchdrungen sind, die jedoch versuchen, eine alternative oder wesentlich veränderte Identität darzustellen.

Die Technik wurde auf einem benutzerdefinierten lokalen Gesichtsverifizierungssystem getestet und schnitt dann in Black-Box-Tests mit zwei Dating-Anwendungen, die eine Gesichtsverifizierung an vom Benutzer hochgeladenen Bildern durchführen, gut ab.

The new Krepppapier ist betitelt Umgehung der Gesichtsüberprüfung, und stammt von Sanjana Sarda, einer Forscherin am Department of Electrical Engineering der Stanford University.

Den Gesichtsraum kontrollieren

Durch das „Einfügen“ von ID-spezifischen Merkmalen (z. B. von Gesichtern, Straßenschilderusw.) in gestaltete Bilder ist ein Grundbestandteil von gegnerische AngriffeDie neue Studie legt jedoch etwas anderes nahe: dass der Forschungssektor wachsende Fähigkeit zu Smartgeräte App Der latente Raum von GANs wird schließlich die Entwicklung von Architekturen ermöglichen, die etwas schaffen können konsistent alternative Identitäten zu der eines Benutzers – und ermöglichen effektiv die Extraktion von Identitätsmerkmalen aus im Internet verfügbaren Bildern eines ahnungslosen Benutzers, um diese in eine „Schattenidentität“ zu integrieren.

Konsistenz und Navigierbarkeit sind seit der Einführung Generative Adversarial Networks die größten Herausforderungen im latenten Raum des GAN. Ein GAN, das eine Sammlung von Trainingsbildern erfolgreich in seinen latenten Raum integriert hat, bietet keine einfache Karte, um Features von einer Klasse in eine andere zu „schieben“.

Während Techniken und Tools wie die Gradientengewichtete Klassenaktivierungszuordnung (Grad-CAM) kann bei der Etablierung helfen latente Richtungen zwischen den etablierten Klassen und ermöglichen Transformationen (siehe Bild unten), die weitere Herausforderung von Verschränkung Dies führt normalerweise zu einer „ungefähren“ Fahrt mit eingeschränkter Feinsteuerung des Übergangs.

Eine holprige Reise zwischen kodierten Vektoren im latenten Raum eines GANs, die eine aus Daten abgeleitete männliche Identität in die „weiblichen“ Kodierungen auf der anderen Seite einer der vielen linearen Hyperebenen im komplexen und geheimnisvollen latenten Raum schiebt. Bild abgeleitet aus Material unter https://www.youtube.com/watch?v=dCKbRCUyop8

Eine grobe Reise zwischen codierten Vektoren im latenten Raum eines GAN, die eine aus Daten abgeleitete männliche Identität in die „weiblichen“ Codierungen auf der anderen Seite einer der vielen linearen Hyperebenen im komplexen und geheimnisvollen latenten Raum schiebt. Bild abgeleitet aus Material unter https://www.youtube.com/watch?v=dCKbRCUyop8

Die Fähigkeit, ID-spezifische Merkmale „einzufrieren“ und zu schützen und sie gleichzeitig in transformative Kodierungen an anderer Stelle im latenten Raum zu verschieben, ermöglicht möglicherweise die Schaffung eines konsistenten (und sogar animierbaren) Individuums, dessen Identität von Maschinensystemen als die eines anderen gelesen wird.

Methodik

Die Autorin verwendete zwei Datensätze als Grundlage für Experimente: einen menschlichen Benutzerdatensatz, der aus 310 Bildern ihres Gesichts über einen Zeitraum von vier Jahren mit unterschiedlicher Beleuchtung, Alter und Blickwinkeln besteht, wobei beschnittene Gesichter über extrahiert wurden Caffe; und die rassistisch ausgewogenen 108,501 Bilder im FairFace Datensatz, ebenfalls extrahiert und beschnitten.

Das lokale Gesichtsverifizierungsmodell wurde aus einer Basisimplementierung von abgeleitet FaceNet mit einem Tiefes Gesicht, vorab trainiert ConvNet-Anfang, wobei jedes Bild durch einen 128-dimensionalen Vektor dargestellt wird.

Der Ansatz verwendet Gesichtsbilder aus einer trainierten Teilmenge von FairFace. Um die Gesichtsverifizierung zu bestehen, wird die berechnete Distanz, die durch die Frobenius-Norm wird mit dem Zielbenutzer in der Datenbank verrechnet. Jedes Bild unter dem Schwellenwert von 0.7 entspricht derselben Identität, andernfalls gilt die Überprüfung als fehlgeschlagen.

Ein StyleGAN-Modell wurde anhand des persönlichen Datensatzes der Autorin optimiert. Das Ergebnis war ein Modell, das erkennbare Variationen ihrer Identität generierte, obwohl keines dieser generierten Bilder mit den Trainingsdaten identisch war. Dies wurde erreicht durch Einfrieren die ersten vier Schichten im Diskriminator, um eine Überanpassung der Daten zu vermeiden und eine vielfältige Ausgabe zu erzeugen.

Obwohl mit dem StyleGAN-Basismodell unterschiedliche Bilder erhalten wurden, veranlassten die geringe Auflösung und Wiedergabetreue einen zweiten Versuch mit StarGAN V2, was das Training von Seed-Bildern in Richtung einer Zielfläche ermöglicht.

Das StarGAN V2-Modell wurde mithilfe des FairFace-Validierungssatzes mit einer Batchgröße von vier und einer Validierungsgröße von 10 über einen Zeitraum von etwa 8 Stunden vortrainiert. Beim erfolgreichsten Ansatz wurde der persönliche Datensatz des Autors als Quelle mit Trainingsdaten als Referenz verwendet.

Verifizierungsexperimente

Auf Basis einer Teilmenge von 1000 Bildern wurde ein Modell zur Gesichtsverifizierung erstellt, um ein beliebiges Bild aus der Menge zu verifizieren. Bilder, die die Verifizierung erfolgreich bestanden, wurden anschließend mit der ID des Autors verglichen.

Links der Autor der Zeitung, ein echtes Foto; Mitte: ein beliebiges Bild, dessen Überprüfung fehlgeschlagen ist; Rechts: ein unabhängiges Bild aus dem Datensatz, der die Überprüfung als Autor bestanden hat.

Links der Autor des Artikels, ein echtes Foto; in der Mitte ein beliebiges Bild, dessen Überprüfung fehlgeschlagen ist; rechts ein nicht verwandtes Bild aus dem Datensatz, das die Überprüfung als Autor bestanden hat.

Das Ziel der Experimente bestand darin, eine möglichst große Lücke zwischen der wahrgenommenen visuellen Identität zu schaffen und gleichzeitig die definierenden Merkmale der Zielidentität beizubehalten. Dies wurde mit ausgewertet Mahalanobis Entfernung, eine Metrik, die in der Bildverarbeitung für die Muster- und Vorlagensuche verwendet wird.

Für das generative Basismodell weisen die erhaltenen Ergebnisse mit niedriger Auflösung trotz bestandener lokaler Gesichtsüberprüfung eine begrenzte Diversität auf. StarGAN V2 erwies sich als besser in der Lage, verschiedene Bilder zu erstellen, die eine Authentifizierung ermöglichten.

Alle abgebildeten Bilder haben die lokale Gesichtsverifizierung bestanden. Oben sind die StyleGAN-Basisgenerationen mit niedriger Auflösung aufgeführt, unten die StarGAN V2-Generationen mit höherer Auflösung und höherer Qualität.

Alle abgebildeten Bilder haben die lokale Gesichtsverifizierung bestanden. Oben sind die StyleGAN-Basisgenerationen mit niedriger Auflösung aufgeführt, unten die StarGAN V2-Generationen mit höherer Auflösung und höherer Qualität.

Die letzten drei oben dargestellten Bilder verwendeten den Gesichtsdatensatz des Autors als Quelle und Referenz, während die vorhergehenden Bilder Trainingsdaten als Referenz und den Datensatz des Autors als Quelle verwendeten.

Die generierten Bilder wurden mit der Identität des Autors als Basis mit den Gesichtsverifizierungssystemen der Dating-Apps Bumble und Tinder getestet und bestanden die Verifizierung. Eine „männliche“ Version des Autorgesichts bestand den Verifizierungsprozess von Bumble ebenfalls, allerdings musste die Beleuchtung im generierten Bild angepasst werden, bevor es akzeptiert wurde. Tinder akzeptierte die männliche Version nicht.

„Verfälschte“ Versionen der (weiblichen) Identität der Autorin.

„Männliche“ Versionen der (weiblichen) Identität der Autorin.

Fazit

Dies sind bahnbrechende Experimente zur Identitätsprojektion im Kontext der GAN-Latentraummanipulation, die in der Bildsynthese- und Deepfake-Forschung nach wie vor eine außergewöhnliche Herausforderung darstellt. Dennoch eröffnet die Arbeit das Konzept, hochspezifische Merkmale konsistent über verschiedene Identitäten hinweg einzubetten und „alternative“ Identitäten zu schaffen, die als jemand anderes „gelesen“ werden.

 

Erstveröffentlichung am 30. März 2022.

Autor zum Thema maschinelles Lernen, Fachspezialist für die Synthese menschlicher Bilder. Ehemaliger Leiter für Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai