Stummel Deepfakes können viele wichtige Gesichts-„Lebendigkeits“-APIs effektiv täuschen – Unite.AI
Vernetzen Sie sich mit uns

Künstliche Intelligenz

Deepfakes können viele wichtige „Liveness“-APIs für das Gesicht effektiv täuschen

mm
Aktualisiert on
Von DeepFace Live – Arnold Schwarzenegger 224 3.03 Mio. Iterationen | RTX A6000 – https://www.youtube.com/watch?v=9tr35y-yQRY
Aus 'DeepFace Live - Arnold Schwarzenegger 224 3.03 Mio. Iterationen | RTX A6000' – https://www.youtube.com/watch?v=9tr35y-yQRY

Eine neue Forschungskooperation zwischen den USA und China hat die Anfälligkeit einiger der größten gesichtsbasierten Authentifizierungssysteme der Welt für Deepfakes untersucht und festgestellt, dass die meisten von ihnen anfällig für sich entwickelnde und neu auftretende Formen von Deepfake-Angriffen sind.

Bei der Untersuchung wurden Deepfake-basierte Eingriffe mithilfe eines benutzerdefinierten Frameworks durchgeführt, das gegen FLV-Systeme (Facial Liveness Verification) eingesetzt wurde, die üblicherweise von großen Anbietern bereitgestellt und als Service an nachgelagerte Kunden wie Fluggesellschaften und Versicherungsunternehmen verkauft werden.

In dem Artikel finden Sie einen Überblick über die Funktionsweise von FLV-APIs (Facial Liveness Verification) bei großen Anbietern. Quelle: https://arxiv.org/pdf/2202.10673.pdf

In dem Artikel finden Sie einen Überblick über die Funktionsweise von FLV-APIs (Facial Liveness Verification) bei großen Anbietern. Quelle: https://arxiv.org/pdf/2202.10673.pdf

Facial Liveness soll den Einsatz von Techniken wie abwehren gegnerische Bildangriffe, die Verwendung von Masken und voraufgezeichnetes Video, sog „Meistergesichter“und andere Formen von Visuelles Klonen von IDs.

Die Studie kommt zu dem Schluss, dass die begrenzte Anzahl von Deepfake-Erkennungsmodulen, die in diesen Systemen eingesetzt werden, von denen viele Millionen von Kunden bedienen, alles andere als unfehlbar sind und möglicherweise auf Deepfake-Techniken konfiguriert wurden, die mittlerweile veraltet sind, oder möglicherweise zu architekturspezifisch sind .

Die Autoren bemerken:

„[Verschiedene] Deepfake-Methoden zeigen auch Unterschiede zwischen verschiedenen Anbietern … Ohne Zugriff auf die technischen Details der Ziel-FLV-Anbieter spekulieren wir, dass solche Unterschiede auf die von verschiedenen Anbietern eingesetzten Abwehrmaßnahmen zurückzuführen sind.“ Beispielsweise können bestimmte Anbieter Abwehrmaßnahmen gegen bestimmte Deepfake-Angriffe ergreifen.“

Und fortsetzen:

„[Die meisten] FLV-APIs verwenden keine Anti-Deepfake-Erkennung; Selbst für diejenigen, die über solche Abwehrmechanismen verfügen, ist deren Wirksamkeit besorgniserregend (z. B. kann es zwar synthetische Videos in hoher Qualität erkennen, aber nicht in der Lage sein, qualitativ minderwertige Videos zu erkennen).“

Die Forscher stellen in diesem Zusammenhang fest, dass „Authentizität“ relativ ist:

„[Selbst] wenn ein synthetisiertes Video für Menschen unwirklich ist, kann es dennoch den aktuellen Anti-Deepfake-Erkennungsmechanismus mit einer sehr hohen Erfolgsquote umgehen.“

Oben sehen Sie Beispiele von Deepfake-Bildern, die in den Experimenten der Autoren authentifiziert werden konnten. Unten offenbar weitaus realistischere gefälschte Bilder, bei denen die Authentifizierung fehlschlug.

Oben sehen Sie Beispiele von Deepfake-Bildern, die in den Experimenten der Autoren authentifiziert werden konnten. Unten offenbar weitaus realistischere gefälschte Bilder, bei denen die Authentifizierung fehlschlug.

Ein weiteres Ergebnis war, dass die aktuelle Konfiguration allgemeiner Gesichtsverifizierungssysteme auf weiße Männer ausgerichtet ist. Anschließend stellte sich heraus, dass weibliche und nicht-weiße Identitäten Verifizierungssysteme effektiver umgehen konnten, wodurch Kunden in diesen Kategorien einem höheren Risiko von Sicherheitsverletzungen durch Deepfake-basierte Techniken ausgesetzt waren.

Der Bericht kommt zu dem Schluss, dass die Identität weißer Männer durch die gängigen APIs zur Überprüfung der Gesichtslebendigkeit am strengsten und genauesten beurteilt wird. In der obigen Tabelle sehen wir, dass weibliche und nicht-weiße Identitäten leichter zur Umgehung der Systeme genutzt werden können.

Der Bericht kommt zu dem Schluss, dass die Identität weißer Männer durch die gängigen APIs zur Überprüfung der Gesichtslebendigkeit am strengsten und genauesten beurteilt wird. In der obigen Tabelle sehen wir, dass weibliche und nicht-weiße Identitäten leichter zur Umgehung der Systeme genutzt werden können.

Das Papier stellt dies fest „Es gibt Vorurteile bei der [Gesichtsverifizierung], die für eine bestimmte Personengruppe erhebliche Sicherheitsrisiken mit sich bringen können.“

Die Autoren führten auch ethische Gesichtsauthentifizierungsangriffe gegen eine chinesische Regierung, eine große chinesische Fluggesellschaft, eine der größten Lebensversicherungsgesellschaften in China und andere durch R360, eine der größten Unicorn-Investmentgruppen der Welt, und berichten von Erfolgen bei der Umgehung der nachgelagerten Nutzung der untersuchten APIs durch diese Organisationen.

Im Falle einer erfolgreichen Umgehung der Authentifizierung für die chinesische Fluggesellschaft verlangte die Downstream-API vom Benutzer ein „Kopfschütteln“, um sich vor potenziellem Deepfake-Material zu schützen. Dies funktionierte jedoch nicht gegen das von den Forschern entwickelte Framework, das sechs umfasst Deepfake-Architekturen.

Trotz der Auswertung des Kopfschüttelns eines Nutzers durch die Fluggesellschaft konnten Deepfake-Inhalte den Test bestehen.

Trotz der Auswertung des Kopfschüttelns eines Nutzers durch die Fluggesellschaft konnten Deepfake-Inhalte den Test bestehen.

Das Papier stellt fest, dass die Autoren die beteiligten Anbieter kontaktiert haben, die Berichten zufolge die Arbeit anerkannt haben.

Die Autoren geben eine Reihe von Empfehlungen für Verbesserungen im aktuellen Stand der Technik bei FLV, einschließlich der Abkehr von der Einzelbild-Authentifizierung („Bildbasiertes FLV“), bei der die Authentifizierung auf einem einzelnen Bild aus dem Kamera-Feed eines Kunden basiert; eine flexiblere und umfassendere Aktualisierung von Deepfake-Erkennungssystemen über Bild- und Sprachdomänen hinweg; Einführung der Notwendigkeit, dass die sprachbasierte Authentifizierung in Benutzervideos mit Lippenbewegungen synchronisiert werden muss (was derzeit im Allgemeinen nicht der Fall ist); und von Benutzern die Ausführung von Gesten und Bewegungen verlangen, die für Deepfake-Systeme derzeit schwierig zu reproduzieren sind (z. B. Profilansichten und teilweise Verschleierung des Gesichts).

Das Krepppapier ist betitelt Sehen ist Leben? Überdenken der Sicherheit der Überprüfung der Gesichtslebendigkeit in der Deepfake-Äraund stammt von den gemeinsamen Hauptautoren Changjiang Li und Li Wang sowie fünf weiteren Autoren von der Pennsylvania State University, der Zhejiang University und der Shandong University.

Die Kernziele

Die Forscher zielten auf die „sechs repräsentativsten“ Anbieter von Facial Liveness Verification (FLV) ab, die in der Untersuchung mit Kryptonymen anonymisiert wurden.

Die Anbieter sind wie folgt vertreten: 'BD' und 'TC' stellen einen Konglomeratanbieter mit der größten Anzahl gesichtsbezogener API-Aufrufe und dem größten Anteil an Chinas KI-Cloud-Diensten dar; 'HW' ist „einer der Anbieter mit dem größten [chinesischen] Public-Cloud-Markt“; 'CW' hat die schnellste Wachstumsrate im Bereich Computer Vision und erreicht eine führende Marktposition“; 'ST' gehört zu den größten Computer-Vision-Anbietern; Und 'iFT' zählt zu den größten KI-Softwareanbietern in China.

Daten und Architektur

Zu den dem Projekt zugrunde liegenden Daten gehört ein Datensatz mit 625,537 Bildern der chinesischen Initiative CelebA-Parodie, zusammen mit Live-Videos von der Michigan State University 2019 SiW-M Datensatz.

Alle Experimente wurden auf einem Server mit zwei 2.40-GHz-Intel-Xeon-E5-2640-v4-CPUs durchgeführt, die auf 256 GB RAM mit einer 4-TB-Festplatte und vier orchestrierten 1080Ti-NVIDIA-GPUs liefen, also insgesamt 44 GB operativer VRAM.

Sechs in einem

Der von den Autoren des Papiers entwickelte Rahmen heißt LiveBuggerund umfasst sechs hochmoderne Deepfake-Frameworks, die den vier Hauptverteidigungen in FLV-Systemen entgegenwirken.

LiveBugger enthält verschiedene Deepfake-Ansätze und konzentriert sich auf die vier Hauptangriffsvektoren in FLV-Systemen.

LiveBugger enthält verschiedene Deepfake-Ansätze und konzentriert sich auf die vier Hauptangriffsvektoren in FLV-Systemen.

Die sechs verwendeten Deepfake-Frameworks sind: 2018 der Universität Oxford X2Face; die akademische Zusammenarbeit der USA ICface; zwei Variationen des israelischen Projekts von 2019 FSGAN; der Italiener Methodenmodell erster Ordnung (FOMM), ab Anfang 2020; und die Microsoft Research-Zusammenarbeit der Peking-Universität FaceShifter (Da FaceShifter jedoch kein Open Source ist, mussten die Autoren es basierend auf den veröffentlichten Architekturdetails rekonstruieren).

Zu den in diesen Frameworks verwendeten Methoden gehörten die Verwendung vorgerenderter Videos, in denen die Probanden des gefälschten Videos Routineaktionen ausführen, die aus den API-Authentifizierungsanforderungen in einem früheren Evaluierungsmodul von LiveBugger extrahiert wurden, sowie die Verwendung effektiver „Deepfake-Puppenspiele“. ', das die Live-Bewegungen einer Person in einen Deepfake-Stream übersetzt, der in einen kooptierten Webcam-Stream eingefügt wurde.

Ein Beispiel für Letzteres ist DeepFaceLive, Die debütierte letzten Sommer als Zusatzprogramm zum beliebten DeepFaceLab, um Deepfake-Streaming in Echtzeit zu ermöglichen, was jedoch nicht in die Forschung der Autoren einbezogen wird.

Angriff auf die vier Vektoren

Die vier Angriffsvektoren innerhalb eines typischen FLV-Systems sind: bildbasiertes FLV, bei dem ein einzelnes vom Benutzer bereitgestelltes Foto als Authentifizierungstoken für eine Gesichtserkennung verwendet wird, die im System gespeichert ist; Stille-basiertes FLV, was erfordert, dass der Benutzer einen Videoclip von sich selbst hochlädt; aktionsbasiertes FLV, was erfordert, dass der Benutzer von der Plattform vorgegebene Aktionen ausführt; Und sprachbasiertes FLV, das die Eingabeaufforderung eines Benutzers mit dem Datenbankeintrag des Systems für das Sprachmuster dieses Benutzers abgleicht.

Die erste Herausforderung für das System besteht darin, das Ausmaß festzulegen, in dem eine API ihre Anforderungen offenlegt, da diese dann vorhergesehen und im Deepfaking-Prozess berücksichtigt werden können. Dies wird von der Intelligence Engine in LiveBugger übernommen, die Informationen zu Anforderungen aus öffentlich zugänglicher API-Dokumentation und anderen Quellen sammelt.

Da die veröffentlichten Anforderungen (aus verschiedenen Gründen) in den tatsächlichen Routinen der API fehlen können, enthält die Intelligence Engine eine Sonde, die implizite Informationen basierend auf den Ergebnissen explorativer API-Aufrufe sammelt. Im Forschungsprojekt wurde dies durch offizielle Offline-Test-APIs erleichtert, die den Entwicklern zur Verfügung gestellt wurden, sowie durch Freiwillige, die anboten, ihre eigenen Live-Konten zum Testen zu verwenden.

Die Intelligence Engine sucht nach Beweisen dafür, ob eine API derzeit einen bestimmten Ansatz verwendet, der bei Angriffen nützlich sein könnte. Zu den Merkmalen dieser Art können gehören Kohärenzerkennung, das überprüft, ob die Frames in einem Video zeitlich kontinuierlich sind – eine Anforderung, die durch das Senden verschlüsselter Videoframes und die Beobachtung, ob dies zum Authentifizierungsfehler beiträgt, ermittelt werden kann.

Das Modul sucht auch nach Erkennung der Lippensprache, wobei die API möglicherweise prüft, ob der Ton im Video vorhanden ist synchronisiert mit den Lippenbewegungen des Benutzers (Das ist selten der Fall – siehe „Ergebnisse“ unten).

Die Ergebnisse

Die Autoren stellten fest, dass alle sechs bewerteten APIs zum Zeitpunkt der Experimente keine Kohärenzerkennung verwendeten, was es der Deepfaker-Engine in LiveBugger ermöglichte, synthetisiertes Audio einfach mit Deepfake-Video zusammenzufügen, basierend auf von Freiwilligen beigesteuertem Material.

Es wurde jedoch festgestellt, dass einige nachgelagerte Anwendungen (z. B. Kunden der API-Frameworks) dem Prozess eine Kohärenzerkennung hinzugefügt haben, was die vorherige Aufzeichnung eines Videos erforderlich machte, um dies zu umgehen.

Darüber hinaus verwenden nur wenige API-Anbieter die Erkennung von Lippensprachen; Bei den meisten von ihnen werden Video und Audio als separate Größen analysiert und es gibt keine Funktion, die versucht, die Lippenbewegung mit dem bereitgestellten Audio abzugleichen.

Verschiedene Ergebnisse, die das Spektrum der in LiveBugger verfügbaren Fake-Techniken gegen die vielfältigen Angriffsvektoren in FLV-APIs abdecken. Höhere Zahlen deuten darauf hin, dass der Angreifer mithilfe von Deepfake-Techniken erfolgreich in die Authentifizierung eingedrungen ist. Nicht alle APIs umfassen alle möglichen Abwehrmaßnahmen für FLV; Einige bieten beispielsweise keinen Schutz vor Deepfakes, während andere bei der Authentifizierung nicht prüfen, ob Lippenbewegung und Ton im vom Benutzer übermittelten Video übereinstimmen.

Verschiedene Ergebnisse, die das Spektrum der in LiveBugger verfügbaren Fake-Techniken gegen die vielfältigen Angriffsvektoren in FLV-APIs abdecken. Höhere Zahlen deuten auf eine größere Erfolgsquote beim Eindringen in FLV mithilfe von Deepfake-Techniken hin. Nicht alle APIs umfassen alle möglichen Abwehrmaßnahmen für FLV; Einige bieten beispielsweise keinen Schutz vor Deepfakes, während andere bei der Authentifizierung nicht prüfen, ob Lippenbewegung und Ton im vom Benutzer übermittelten Video übereinstimmen.

Zusammenfassung

Die Ergebnisse und Hinweise des Papiers für die Zukunft von FLV-APIs sind labyrinthisch, und die Autoren haben sie zu einer funktionalen „Architektur von Schwachstellen“ verkettet, die FLV-Entwicklern helfen könnte, einige der aufgedeckten Probleme besser zu verstehen.“

Das Netzwerk von Empfehlungen des Papiers zur bestehenden und potenziellen Anfälligkeit gesichtsbasierter Videoidentifizierungsroutinen für Deepfake-Angriffe.

Das Netzwerk von Empfehlungen des Papiers zur bestehenden und potenziellen Anfälligkeit gesichtsbasierter Videoidentifizierungsroutinen für Deepfake-Angriffe.

In den Empfehlungen heißt es:

„Die Sicherheitsrisiken von FLV sind in vielen realen Anwendungen weit verbreitet und gefährden somit die Sicherheit von Millionen von Endbenutzern.“

Die Autoren stellen außerdem fest, dass die Verwendung von aktionsbasiertem FLV „marginal“ ist und dass eine Erhöhung der Anzahl der Aktionen, die Benutzer ausführen müssen, „keinen Sicherheitsgewinn bringen kann“.

Darüber hinaus stellen die Autoren fest, dass die Kombination von Spracherkennung und zeitlicher Gesichtserkennung (in Video) eine erfolglose Verteidigung ist, es sei denn, die API-Anbieter fordern, dass Lippenbewegungen mit Audio synchronisiert werden.

Das Papier steht im Lichte einer aktuellen FBI-Warnung an Unternehmen der Gefahren von Deepfake-Betrug, fast ein Jahr nach ihrer Vorahnung der Technologie Verwendung bei Operationen mit ausländischer EinflussnahmeUnd der allgemeine Ängste dass die Live-Deepfake-Technologie eine neuartige Kriminalitätswelle in einer Öffentlichkeit auslösen wird, die immer noch Sicherheitsarchitekturen für die Videoauthentifizierung vertraut.

Dies sind noch die Anfänge von Deepfake als Angriffsfläche für die Authentifizierung. im Jahr 2020 waren es 35 Millionen Dollar betrügerisch erbeutet von einer Bank in den Vereinigten Arabischen Emiraten mithilfe von Deepfake-Audio-Technologie, und ein britischer Manager wurde ebenfalls dazu betrogen, 243,000 US-Dollar auszuzahlen im Jahr 2019 angegeben.

 

Erstveröffentlichung am 23. Februar 2022.