Connect with us

Erkennung von Deepfake-Videoanrufen durch Monitorbeleuchtung

Künstliche Intelligenz

Erkennung von Deepfake-Videoanrufen durch Monitorbeleuchtung

mm

Eine neue Zusammenarbeit zwischen einem Forscher der National Security Agency (NSA) der Vereinigten Staaten und der University of California at Berkeley bietet eine neue Methode zur Erkennung von Deepfake-Inhalten in einem Live-Video-Kontext – indem sie die Auswirkungen der Monitorbeleuchtung auf das Aussehen der Person am anderen Ende des Videoanrufs beobachtet.

Der beliebte DeepFaceLive-Benutzer Druuzil Tech & Games testet sein eigenes Christian-Bale-DeepFaceLab-Modell in einer Live-Sitzung mit seinen Followern, während die Lichtquellen wechseln. Quelle: https://www.youtube.com/watch?v=XPQLDnogLKA

Der beliebte DeepFaceLive-Benutzer Druuzil Tech & Games testet sein eigenes Christian-Bale-DeepFaceLab-Modell in einer Live-Sitzung mit seinen Followern, während die Lichtquellen wechseln. Quelle: https://www.youtube.com/watch?v=XPQLDnogLKA

Das System funktioniert, indem es ein grafisches Element auf dem Bildschirm des Benutzers platziert, das eine enge Farbbandbreite schneller ändert, als ein typisches Deepfake-System reagieren kann – sogar wenn es, wie die Echtzeit-Deepfake-Streaming-Implementierung DeepFaceLive (oben abgebildet), eine gewisse Fähigkeit hat, die Live-Farbübertragung aufrechtzuerhalten und die Umgebungsbeleuchtung zu berücksichtigen.

Das einheitliche Farbbild, das auf dem Monitor der Person am anderen Ende (d. h. des potenziellen Deepfake-Betrügers) angezeigt wird, wechselt durch eine begrenzte Variation von Farbveränderungen, die so konzipiert sind, dass sie die automatische Weißabgleich-Funktion der Webcam und andere ad hoc-Beleuchtungskompensations-Systeme nicht aktivieren, was die Methode beeinträchtigen würde.

Aus dem Paper, eine Abbildung der Änderung der Beleuchtungsbedingungen vom Monitor vor einem Benutzer, der effektiv als diffuse 'Flächenbeleuchtung' fungiert. Quelle: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

Aus dem Paper, eine Abbildung der Änderung der Beleuchtungsbedingungen vom Monitor vor einem Benutzer, der effektiv als diffuse ‘Flächenbeleuchtung’ fungiert. Quelle: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

Die Theorie hinter dem Ansatz ist, dass Live-Deepfake-Systeme nicht schnell genug auf die Änderungen reagieren können, die im Bildschirmgrafik dargestellt werden, was die ‘Verzögerung’ des Deepfake-Effekts in bestimmten Teilen des Farbspektrums erhöht und seine Anwesenheit offenbart.

Um das reflektierte Monitorlicht genau zu messen, muss das System die allgemeine Umgebungsbeleuchtung, die nicht mit dem Licht vom Monitor zusammenhängt, berücksichtigen und dann ausschließen. Es kann dann die Mängel in der Messung der aktiven Beleuchtungsfarbe und der Gesichtsfarbe der Benutzer erkennen, was eine zeitliche Verschiebung von 1-4 Frames zwischen jedem darstellt:

Indem die Forscher die Hue-Variationen im Bildschirmgrafik begrenzt haben und sicherstellen, dass die Webcam des Benutzers nicht dazu veranlasst wird, ihre Aufnahmeeinstellungen durch übermäßige Änderungen der Monitorbeleuchtung automatisch anzupassen, konnten sie eine verräterische Verzögerung in der Anpassung des Deepfake-Systems an die Beleuchtungsänderungen erkennen.

Indem die Forscher die Hue-Variationen im Bildschirmgrafik begrenzt haben und sicherstellen, dass die Webcam des Benutzers nicht dazu veranlasst wird, ihre Aufnahmeeinstellungen durch übermäßige Änderungen der Monitorbeleuchtung automatisch anzupassen, konnten sie eine verräterische Verzögerung in der Anpassung des Deepfake-Systems an die Beleuchtungsänderungen erkennen.

Das Paper schließt:

‘Da wir berechtigtes Vertrauen in Live-Videoanrufe setzen und die zunehmende Verbreitung von Videoanrufen in unserem persönlichen und beruflichen Leben, schlagen wir vor, dass Techniken zur Authentifizierung von Video- (und Audio-) Anrufen nur an Bedeutung gewinnen werden.’

Die Studie trägt den Titel Erkennung von Echtzeit-Deep-Fake-Videos mithilfe von aktiver Beleuchtung und stammt von Candice R. Gerstner, einer angewandten Forschungsmathematikerin des US-Verteidigungsministeriums, und Professor Hany Farid von Berkeley.

Erosion des Vertrauens

Die Anti-Deepfake-Forschung hat sich in den letzten sechs Monaten deutlich von der allgemeinen Deepfake-Erkennung (d. h. der Erkennung von vorab aufgezeichneten Videos und pornografischem Inhalt) abgewandt und sich auf die ‘Liveness’-Erkennung konzentriert, als Reaktion auf eine wachsende Welle von Vorfällen von Deepfake-Nutzung in Video-Konferenzanrufen und als Reaktion auf die jüngste Warnung des FBI bezüglich der zunehmenden Nutzung solcher Technologien in Anwendungen für Remote-Arbeit.

Sogar wenn ein Videoanruf nicht deepgefaked wurde, beginnt die zunehmende Verfügbarkeit von AI-gesteuerten Video-Impersonatoren Paranoia zu erzeugen.

Das neue Paper besagt:

‘Die Erstellung von Echtzeit-Deepfakes [birgt] einzigartige Bedrohungen, da sie das allgemeine Vertrauen in Live-Video- oder Telefonanrufe untergraben und die Erkennung von Deepfakes in Echtzeit erschweren, während der Anruf stattfindet.’

Die Forschungsgemeinschaft hat sich seit Langem das Ziel gesetzt, unfehlbare Anzeichen von Deepfake-Inhalten zu finden, die nicht leicht kompensiert werden können. Obwohl die Medien dies typischerweise als technologischen Krieg zwischen Sicherheitsforschern und Deepfake-Entwicklern dargestellt haben, sind die meisten Widerlegungen früherer Ansätze (wie Blinkanalyse, Kopfhaltungserkennung und Verhaltensanalyse) einfach deshalb erfolgt, weil die Entwickler und Benutzer versucht haben, realistischere Deepfakes im Allgemeinen zu erstellen, anstatt den neuesten ‘Tell’ der Sicherheitsgemeinschaft direkt anzusprechen.

Licht auf Live-Deepfake-Videos werfen

Die Erkennung von Deepfakes in Live-Video-Umgebungen trägt die Last, schlechte Videoverbindungen zu berücksichtigen, die in Video-Konferenz-Szenarien sehr häufig sind. Selbst ohne eine dazwischenliegende Deepfake-Schicht kann Video-Inhalt von NASA-ähnlichen Verzögerungen, Rendern-Artefakten und anderen Arten von Degradationen in Audio und Video betroffen sein. Diese können dazu beitragen, die rauhen Kanten in einer Live-Deepfake-Architektur zu verbergen, sowohl in Bezug auf Video als auch auf Audio-Deepfakes.

Das neue System verbessert die Ergebnisse und Methoden, die in einer Veröffentlichung von 2020 des Center for Networked Computing an der Temple University in Philadelphia vorgestellt wurden.

Aus der Veröffentlichung von 2020, können wir die Änderung der 'in-filled' Gesichtsbeleuchtung beobachten, wenn der Inhalt des Benutzers Bildschirms wechselt. Quelle: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

Aus der Veröffentlichung von 2020, können wir die Änderung der ‘in-filled’ Gesichtsbeleuchtung beobachten, wenn der Inhalt des Benutzers Bildschirms wechselt. Quelle: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

Der Unterschied in der neuen Arbeit besteht darin, dass sie die Art und Weise berücksichtigt, wie Webcams auf Beleuchtungsänderungen reagieren. Die Autoren erklären:

‘Da alle modernen Webcams Auto-Exposure durchführen, ist die Art von hochintensiver aktiver Beleuchtung [wie in der vorherigen Arbeit verwendet] wahrscheinlich dazu geeignet, die Auto-Exposure der Kamera auszulösen, was wiederum das aufgezeichnete Gesichtsbild beeinträchtigen würde. Um dies zu vermeiden, verwenden wir eine aktive Beleuchtung, die aus einer isoluminanten Farbänderung besteht.

‘Während dies die Auto-Exposure der Kamera vermeidet, könnte es die Weißabgleich-Funktion der Kamera auslösen, was wiederum das aufgezeichnete Gesichtsbild beeinträchtigen würde. Um dies zu vermeiden, operieren wir in einem Farbbereich, den wir empirisch bestimmt haben, der die Weißabgleich-Funktion nicht auslöst.’

Für diese Initiative haben die Autoren auch ähnliche vorherige Bemühungen berücksichtigt, wie LiveScreen, das eine unauffällige Beleuchtungsmuster auf den Monitor des Endbenutzers aufdrängt, um Deepfake-Inhalte aufzudecken.

Obwohl dieses System eine Genauigkeitsrate von 94,8 % erreichte, kommen die Forscher zu dem Schluss, dass die Subtilität der Lichtmuster es schwierig machen würde, einen solchen versteckten Ansatz in hellen Umgebungen umzusetzen, und schlagen stattdessen vor, dass ihr eigenes System oder eines, das ähnliche Linien verfolgt, öffentlich und standardmäßig in beliebte Video-Konferenz-Software integriert werden könnte:

‘Unser vorgeschlagener Eingriff könnte entweder durch einen Anrufer realisiert werden, der einfach seinen Bildschirm teilt und das zeitlich variierende Muster anzeigt, oder, idealerweise, direkt in den Video-Anruf-Client integriert werden.’

Tests

Die Autoren verwendeten eine Mischung aus synthetischen und realen Testpersonen, um ihren Dlib-gesteuerten Deepfake-Detektor zu testen. Für das synthetische Szenario verwendeten sie Mitsuba, einen Forward- und Inverse-Renderer des Schweizerischen Bundesinstituts für Technologie in Lausanne.

Beispiele aus dem simulierten Datensatz, mit variierender Hauttönung, Lichtquellengröße, Umgebungslichtintensität und Kameranähe.

Beispiele aus dem simulierten Datensatz, mit variierender Hauttönung, Lichtquellengröße, Umgebungslichtintensität und Kameranähe.

Die dargestellte Szene umfasst einen parametrischen CGI-Kopf, der von einer virtuellen Kamera mit einem 90-Grad-Blickwinkel aufgenommen wird. Die Köpfe weisen Lambert-Reflexion und neutrale Hauttöne auf und sind 2 Fuß vor der virtuellen Kamera positioniert.

Um den Rahmen über eine Reihe von möglichen Hauttönen und Einrichtungen zu testen, führten die Forscher eine Reihe von Tests durch, bei denen sie diverse Aspekte sequentiell variierten. Die geänderten Aspekte umfassten Hauttönung, Entfernung und Beleuchtungslichtgröße.

Die Autoren kommentieren:

‘In der Simulation, mit unseren verschiedenen Annahmen erfüllt, ist unsere vorgeschlagene Technik sehr robust gegenüber einer breiten Palette von Bildkonfigurationen.’

Für das reale Szenario verwendeten die Forscher 15 Freiwillige mit einer Reihe von Hauttönen, in verschiedenen Umgebungen. Jeder wurde zwei Zyklen der eingeschränkten Hue-Variation unterzogen, unter Bedingungen, bei denen eine 30-Hz-Display-Refresh-Rate mit der Webcam synchronisiert war, was bedeutet, dass die aktive Beleuchtung nur für eine Sekunde gleichzeitig bestand. Die Ergebnisse waren im Allgemeinen mit den synthetischen Tests vergleichbar, obwohl die Korrelationen mit größeren Beleuchtungswerten deutlich zunahmen.

Zukünftige Richtungen

Das System, räumen die Forscher ein, berücksichtigt nicht typische Gesichtsverdeckungen, wie Bangs, Brillen oder Bart. Sie bemerken jedoch, dass eine solche Maskierung in späteren Systemen (durch Markierung und anschließende semantische Segmentierung) hinzugefügt werden kann, die ausschließlich Werte aus den wahrgenommenen Hautbereichen des Zielobjekts übernehmen können.

Die Autoren schlagen auch vor, dass ein ähnliches Paradigma zur Erkennung von Deepfake-Audio-Anrufen eingesetzt werden könnte und dass das erforderliche Erkennungssignal in einer Frequenz außerhalb des normalen menschlichen Hörbereichs abgespielt werden könnte.

Vielleicht am interessantesten ist, dass die Forscher auch vorschlagen, dass die Erweiterung der Bewertungsfläche über das Gesicht hinaus in einem umfassenderen Erfassungsrahmen die Möglichkeit der Deepfake-Erkennung erheblich verbessern könnte:

‘Eine komplexere 3-D-Schätzung der Beleuchtung würde wahrscheinlich ein reichhaltigeres Erscheinungsbild liefern, das für einen Fälscher noch schwieriger zu umgehen wäre. Während wir uns nur auf das Gesicht konzentrierten, beleuchtet der Computer-Bildschirm auch den Hals, den Oberkörper und den umgebenden Hintergrund, von dem ähnliche Messungen vorgenommen werden könnten.

‘Diese zusätzlichen Messungen würden den Fälscher zwingen, die gesamte 3-D-Szene und nicht nur das Gesicht zu berücksichtigen.’

 

* Meine Umwandlung der inline-Zitate der Autoren in Hyperlinks.

Erstveröffentlicht am 6. Juli 2022.

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.