Künstliche Intelligenz
Deepfakes können viele wichtige „Liveness“-APIs für das Gesicht effektiv täuschen

Eine neue Forschungskooperation zwischen den USA und China hat die Anfälligkeit einiger der größten gesichtsbasierten Authentifizierungssysteme der Welt für Deepfakes untersucht und festgestellt, dass die meisten von ihnen anfällig für sich entwickelnde und neu auftretende Formen von Deepfake-Angriffen sind.
Bei der Untersuchung wurden Deepfake-basierte Eingriffe mithilfe eines benutzerdefinierten Frameworks durchgeführt, das gegen FLV-Systeme (Facial Liveness Verification) eingesetzt wurde, die üblicherweise von großen Anbietern bereitgestellt und als Service an nachgelagerte Kunden wie Fluggesellschaften und Versicherungsunternehmen verkauft werden.

In dem Artikel finden Sie einen Überblick über die Funktionsweise von FLV-APIs (Facial Liveness Verification) bei großen Anbietern. Quelle: https://arxiv.org/pdf/2202.10673.pdf
Facial Liveness soll den Einsatz von Techniken wie abwehren gegnerische Bildangriffe, die Verwendung von Masken und voraufgezeichnetes Video, sog „Meistergesichter“und andere Formen von Visuelles Klonen von IDs.
Die Studie kommt zu dem Schluss, dass die begrenzte Anzahl von Deepfake-Erkennungsmodulen, die in diesen Systemen eingesetzt werden, von denen viele Millionen von Kunden bedienen, alles andere als unfehlbar sind und möglicherweise auf Deepfake-Techniken konfiguriert wurden, die mittlerweile veraltet sind, oder möglicherweise zu architekturspezifisch sind .
Die Autoren bemerken:
„[Verschiedene] Deepfake-Methoden weisen auch bei verschiedenen Anbietern Unterschiede auf … Da wir keinen Zugriff auf die technischen Details der anvisierten FLV-Anbieter haben, vermuten wir, dass diese Unterschiede auf die von den verschiedenen Anbietern eingesetzten Abwehrmaßnahmen zurückzuführen sind. Beispielsweise könnten bestimmte Anbieter Abwehrmaßnahmen gegen bestimmte Deepfake-Angriffe einsetzen.“
Und fortsetzen:
„[Die meisten] FLV-APIs verwenden keine Anti-Deepfake-Erkennung. Selbst bei solchen mit solchen Abwehrmechanismen ist ihre Wirksamkeit besorgniserregend (z. B. können sie synthetisierte Videos in hoher Qualität erkennen, aber keine in niedriger Qualität).“
Die Forscher stellen in diesem Zusammenhang fest, dass „Authentizität“ relativ ist:
„[Selbst] wenn ein synthetisiertes Video für Menschen unwirklich erscheint, kann es den aktuellen Anti-Deepfake-Erkennungsmechanismus dennoch mit einer sehr hohen Erfolgsquote umgehen.“

Oben sehen Sie Beispiele für Deepfake-Bilder, die in den Experimenten der Autoren authentifiziert werden konnten. Unten sehen Sie scheinbar weitaus realistischere gefälschte Bilder, deren Authentifizierung fehlschlug.
Ein weiteres Ergebnis war, dass die aktuelle Konfiguration allgemeiner Gesichtsverifizierungssysteme auf weiße Männer ausgerichtet ist. Anschließend stellte sich heraus, dass weibliche und nicht-weiße Identitäten Verifizierungssysteme effektiver umgehen konnten, wodurch Kunden in diesen Kategorien einem höheren Risiko von Sicherheitsverletzungen durch Deepfake-basierte Techniken ausgesetzt waren.

Der Bericht kommt zu dem Schluss, dass die Identität weißer Männer durch die gängigen APIs zur Überprüfung der Gesichtslebendigkeit am strengsten und genauesten beurteilt wird. In der obigen Tabelle sehen wir, dass weibliche und nicht-weiße Identitäten leichter zur Umgehung der Systeme genutzt werden können.
Das Papier stellt dies fest „Es gibt Verzerrungen bei der [Gesichtserkennung], die für eine bestimmte Personengruppe erhebliche Sicherheitsrisiken mit sich bringen können.“
Die Autoren führten auch ethische Gesichtsauthentifizierungsangriffe gegen eine chinesische Regierung, eine große chinesische Fluggesellschaft, eine der größten Lebensversicherungsgesellschaften in China und andere durch R360, eine der größten Einhorn-Investmentgruppen der Welt, und berichten von Erfolgen bei der Umgehung der nachgelagerten Nutzung der untersuchten APIs durch diese Organisationen.
Im Falle einer erfolgreichen Umgehung der Authentifizierung für die chinesische Fluggesellschaft musste der Benutzer in der nachgelagerten API als Beweis gegen potenzielles Deepfake-Material „den Kopf schütteln“. Dies erwies sich jedoch als nicht wirksam gegen das von den Forschern entwickelte Framework, das sechs Deepfake-Architekturen umfasst.

Trotz der Auswertung des Kopfschüttelns eines Nutzers durch die Fluggesellschaft konnte der Deepfake-Inhalt den Test bestehen.
Das Papier stellt fest, dass die Autoren die beteiligten Anbieter kontaktiert haben, die Berichten zufolge die Arbeit anerkannt haben.
Die Autoren bieten eine Reihe von Empfehlungen zur Verbesserung des aktuellen Stands der Technik im FLV-Bereich an, darunter die Abkehr von der Einzelbild-Authentifizierung („Bildbasiertes FLV“), bei der die Authentifizierung auf einem einzigen Bild aus dem Kamera-Feed eines Kunden basiert; eine flexiblere und umfassendere Aktualisierung der Deepfake-Erkennungssysteme in den Bereichen Bild und Sprache; die Einführung der Notwendigkeit, dass die sprachbasierte Authentifizierung in Benutzervideos mit Lippenbewegungen synchronisiert wird (was derzeit im Allgemeinen nicht der Fall ist); und die Anforderung an die Benutzer, Gesten und Bewegungen auszuführen, die für Deepfake-Systeme derzeit nur schwer reproduzierbar sind (zum Beispiel Profilansichten und teilweise Verschleierung des Gesichts).
Das Krepppapier ist betitelt Sehen ist Leben? Überdenken der Sicherheit der Überprüfung der Gesichtslebendigkeit in der Deepfake-Äraund stammt von den gemeinsamen Hauptautoren Changjiang Li und Li Wang sowie fünf weiteren Autoren von der Pennsylvania State University, der Zhejiang University und der Shandong University.
Die Kernziele
Die Forscher konzentrierten sich auf die „sechs repräsentativsten“ Anbieter von Facial Liveness Verification (FLV), die im Rahmen der Untersuchung mit Kryptonymen anonymisiert wurden.
Die Anbieter sind wie folgt vertreten: 'BD' sowie 'TC' ist ein Konglomeratlieferant mit der größten Anzahl gesichtsbezogener API-Aufrufe und dem größten Anteil an Chinas KI-Cloud-Diensten; 'HW' ist „einer der Anbieter mit dem größten [chinesischen] öffentlichen Cloud-Markt“; 'CW' weist die schnellste Wachstumsrate im Bereich Computer Vision auf und erreicht eine führende Marktposition‘; 'ST' gehört zu den größten Computer-Vision-Anbietern; Und „iFT“ zählt zu den größten KI-Softwareanbietern in China.
Daten und Architektur
Zu den dem Projekt zugrunde liegenden Daten gehört ein Datensatz mit 625,537 Bildern der chinesischen Initiative CelebA-Parodie, zusammen mit Live-Videos von der Michigan State University 2019 SiW-M Datensatz.
Alle Experimente wurden auf einem Server mit zwei 2.40-GHz-Intel-Xeon-E5-2640-v4-CPUs durchgeführt, die auf 256 GB RAM mit einer 4-TB-Festplatte und vier orchestrierten 1080Ti-NVIDIA-GPUs liefen, also insgesamt 44 GB operativer VRAM.
Sechs in einem
Der von den Autoren des Papiers entwickelte Rahmen heißt LiveBuggerund umfasst sechs hochmoderne Deepfake-Frameworks, die den vier Hauptverteidigungen in FLV-Systemen entgegenwirken.

LiveBugger enthält verschiedene Deepfake-Ansätze und konzentriert sich auf die vier Hauptangriffsvektoren in FLV-Systemen.
Die sechs verwendeten Deepfake-Frameworks sind: Oxford University’s 2018 X2Face; die akademische Zusammenarbeit der USA ICface; zwei Variationen des israelischen Projekts von 2019 FSGAN; der Italiener Methodenmodell erster Ordnung (FOMM), ab Anfang 2020; und die Microsoft Research-Zusammenarbeit der Peking-Universität FaceShifter (Da FaceShifter jedoch kein Open Source ist, mussten die Autoren es basierend auf den veröffentlichten Architekturdetails rekonstruieren).
Zu den in diesen Frameworks eingesetzten Methoden gehörte die Verwendung vorgerenderter Videos, in denen die Personen des gefälschten Videos routinemäßige Aktionen ausführen, die aus den API-Authentifizierungsanforderungen in einem früheren Evaluierungsmodul von LiveBugger extrahiert wurden, sowie die Verwendung effektiver „Deepfake-Puppenspiele“, bei denen die Live-Bewegungen einer Person in einen Deepfaked-Stream übersetzt werden, der in einen kooptierten Webcam-Stream eingefügt wurde.
Ein Beispiel für Letzteres ist DeepFaceLive, Die debütierte letzten Sommer als Zusatzprogramm zum beliebten DeepFaceLab, um Deepfake-Streaming in Echtzeit zu ermöglichen, das jedoch nicht in die Forschung der Autoren einbezogen ist.
Angriff auf die vier Vektoren
Die vier Angriffsvektoren innerhalb eines typischen FLV-Systems sind: bildbasiertes FLV, das ein einzelnes vom Benutzer bereitgestelltes Foto als Authentifizierungstoken für eine im System gespeicherte Gesichts-ID verwendet; Stille-basiertes FLV, was erfordert, dass der Benutzer einen Videoclip von sich selbst hochlädt; aktionsbasiertes FLV, was erfordert, dass der Benutzer von der Plattform vorgegebene Aktionen ausführt; Und sprachbasiertes FLV, das die Sprachausgabe eines Benutzers mit dem Datenbankeintrag des Systems für das Sprachmuster dieses Benutzers abgleicht.
Die erste Herausforderung für das System besteht darin, das Ausmaß festzulegen, in dem eine API ihre Anforderungen offenlegt, da diese dann vorhergesehen und im Deepfaking-Prozess berücksichtigt werden können. Dies wird von der Intelligence Engine in LiveBugger übernommen, die Informationen zu Anforderungen aus öffentlich zugänglicher API-Dokumentation und anderen Quellen sammelt.
Da die veröffentlichten Anforderungen (aus verschiedenen Gründen) in den tatsächlichen Routinen der API fehlen können, enthält die Intelligence Engine eine Sonde, die implizite Informationen basierend auf den Ergebnissen explorativer API-Aufrufe sammelt. Im Forschungsprojekt wurde dies durch offizielle Offline-Test-APIs für Entwickler sowie durch Freiwillige ermöglicht, die ihre eigenen Live-Konten für Tests nutzten.
Die Intelligence Engine sucht nach Beweisen dafür, ob eine API derzeit einen bestimmten Ansatz verwendet, der bei Angriffen nützlich sein könnte. Zu den Merkmalen dieser Art können gehören Kohärenzerkennung, das überprüft, ob die Frames in einem Video zeitlich kontinuierlich sind – eine Anforderung, die durch das Senden verschlüsselter Videoframes und die Beobachtung, ob dies zum Authentifizierungsfehler beiträgt, ermittelt werden kann.
Das Modul sucht auch nach Erkennung der Lippensprache, wobei die API möglicherweise prüft, ob der Ton im Video vorhanden ist synchronisiert mit den Lippenbewegungen des Benutzers (selten der Fall – siehe „Ergebnisse“ unten).
Ergebnisse
Die Autoren stellten fest, dass alle sechs bewerteten APIs zum Zeitpunkt der Experimente keine Kohärenzerkennung verwendeten, was es der Deepfaker-Engine in LiveBugger ermöglichte, synthetisiertes Audio einfach mit Deepfake-Video zusammenzufügen, basierend auf von Freiwilligen beigesteuertem Material.
Es wurde jedoch festgestellt, dass einige nachgelagerte Anwendungen (z. B. Kunden der API-Frameworks) dem Prozess eine Kohärenzerkennung hinzugefügt haben, was die vorherige Aufzeichnung eines Videos erforderlich machte, um dies zu umgehen.
Darüber hinaus verwenden nur wenige API-Anbieter die Erkennung von Lippensprachen; Bei den meisten von ihnen werden Video und Audio als separate Größen analysiert und es gibt keine Funktion, die versucht, die Lippenbewegung mit dem bereitgestellten Audio abzugleichen.

Verschiedene Ergebnisse, die das Spektrum der in LiveBugger verfügbaren Fake-Techniken gegen die vielfältigen Angriffsvektoren in FLV-APIs abdecken. Höhere Zahlen deuten auf eine größere Erfolgsquote beim Eindringen in FLV mithilfe von Deepfake-Techniken hin. Nicht alle APIs umfassen alle möglichen Abwehrmaßnahmen für FLV; Einige bieten beispielsweise keinen Schutz vor Deepfakes, während andere bei der Authentifizierung nicht prüfen, ob Lippenbewegung und Ton im vom Benutzer übermittelten Video übereinstimmen.
Fazit
Die Ergebnisse und Hinweise des Papiers für die Zukunft der FLV-APIs sind labyrinthisch, und die Autoren haben sie zu einer funktionalen „Architektur der Schwachstellen“ verkettet, die FLV-Entwicklern helfen könnte, einige der aufgedeckten Probleme besser zu verstehen.“

Das Netzwerk von Empfehlungen des Papiers hinsichtlich der bestehenden und potenziellen Anfälligkeit gesichtsbasierter Videoidentifizierungsroutinen für Deepfake-Angriffe.
In den Empfehlungen heißt es:
„Die Sicherheitsrisiken von FLV sind in vielen realen Anwendungen weit verbreitet und bedrohen somit die Sicherheit von Millionen von Endbenutzern.“
Die Autoren stellen außerdem fest, dass die Verwendung von aktionsbasiertem FLV „marginal“ sei und dass eine Erhöhung der Anzahl der von den Benutzern auszuführenden Aktionen „keinen Sicherheitsgewinn bringen“ könne.
Darüber hinaus stellen die Autoren fest, dass die Kombination von Spracherkennung und zeitlicher Gesichtserkennung (in Video) eine erfolglose Verteidigung ist, es sei denn, die API-Anbieter fordern, dass Lippenbewegungen mit Audio synchronisiert werden.
Das Papier erscheint im Lichte einer kürzlichen Warnung des FBI an die Wirtschaft vor den Gefahren des Deepfake-Betrugs, fast ein Jahr nach ihrer Vorhersage, dass die Technologie bei ausländischen Einflussoperationen eingesetzt werden könnte, und von allgemeine Ängste dass die Live-Deepfake-Technologie eine neuartige Kriminalitätswelle in einer Öffentlichkeit auslösen wird, die immer noch Sicherheitsarchitekturen für die Videoauthentifizierung vertraut.
Dies sind noch die Anfänge von Deepfake als Angriffsfläche für die Authentifizierung. im Jahr 2020 waren es 35 Millionen Dollar betrügerisch erbeutet von einer Bank in den Vereinigten Arabischen Emiraten mithilfe von Deepfake-Audio-Technologie, und ein britischer Manager wurde ebenfalls dazu betrogen, 243,000 US-Dollar auszuzahlen im Jahr 2019 angegeben.
Erstveröffentlichung am 23. Februar 2022.