Artificial Intelligence

Erkennen gefälschter Videoanrufe durch Monitorbeleuchtung

Aktualisiert on 9. Dezember 2022

Eine neue Zusammenarbeit zwischen einem Forscher der National Security Agency (NSA) der Vereinigten Staaten und der University of California in Berkeley bietet eine neuartige Methode zur Erkennung von Deepfake-Inhalten in einem Live-Videokontext – durch Beobachtung der Auswirkung der Monitorbeleuchtung auf das Erscheinungsbild des Person am anderen Ende des Videoanrufs.

Der beliebte DeepFaceLive-Benutzer Druuzil Tech & Games probiert sein eigenes DeepFaceLab-Modell von Christian Bale in einer Live-Sitzung mit seinen Followern aus, während sich die Beleuchtungsquellen ändern. Quelle: https://www.youtube.com/watch?v=XPQLDnogLKA

Das System funktioniert, indem es ein grafisches Element auf dem Bildschirm des Benutzers platziert, das einen schmalen Farbbereich schneller ändert, als ein typisches Deepfake-System reagieren kann – selbst wenn es wie bei einer Echtzeit-Deepfake-Streaming-Implementierung ist DeepFaceLive (siehe Abbildung oben) verfügt es über eine gewisse Fähigkeit, die Live-Farbübertragung aufrechtzuerhalten und die Umgebungsbeleuchtung zu berücksichtigen.

Das einheitliche Farbbild, das auf dem Monitor der Person am anderen Ende (d. h. des potenziellen Deepfake-Betrügers) angezeigt wird, durchläuft eine begrenzte Variation von Farbtonänderungen, die nicht darauf ausgelegt sind, den automatischen Weißabgleich einer Webcam usw. zu aktivieren ad hoc Beleuchtungskompensationssysteme, die das Verfahren beeinträchtigen würden.

Aus dem Papier geht eine Darstellung der Änderung der Lichtverhältnisse auf dem Monitor vor einem Benutzer hervor, der effektiv als diffuses „Flächenlicht“ fungiert. Quelle: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

Die Theorie hinter diesem Ansatz besteht darin, dass Live-Deepfake-Systeme nicht rechtzeitig auf die in der Bildschirmgrafik dargestellten Änderungen reagieren können, wodurch die „Verzögerung“ des Deepfake-Effekts in bestimmten Teilen des Farbspektrums zunimmt und dessen Präsenz sichtbar wird.

Um das reflektierte Monitorlicht genau messen zu können, muss das System die Auswirkungen der allgemeinen Umgebungsbeleuchtung, die nichts mit dem Licht des Monitors zu tun hat, berücksichtigen und dann ausschließen. Es ist dann in der Lage, Defizite bei der Messung des Farbtons bei aktiver Beleuchtung und des Gesichtsfarbtons der Benutzer zu erkennen, die eine zeitliche Verschiebung von 1–4 Bildern Unterschied zwischen den einzelnen Bildern darstellen:

Durch die Begrenzung der Farbtonschwankungen in der „Detektor“-Grafik auf dem Bildschirm und die Sicherstellung, dass die Webcam des Benutzers nicht durch übermäßige Änderungen der Monitorbeleuchtungsstärke dazu aufgefordert wird, ihre Aufnahmeeinstellungen automatisch anzupassen, konnten die Forscher eine aussagekräftige Aussage treffen: Es kommt zu Verzögerungen bei der Anpassung des Deepfake-Systems an die Beleuchtungsänderungen.

Das Papier kommt zu dem Schluss:

„Aufgrund des angemessenen Vertrauens, das wir Live-Videoanrufen entgegenbringen, und der zunehmenden Allgegenwärtigkeit von Videoanrufen in unserem Privat- und Berufsleben schlagen wir vor, dass Techniken zur Authentifizierung von Video- (und Audio-)Anrufen nur noch an Bedeutung gewinnen werden.“

Das Studie ist betitelt Erkennen von Deep-Fake-Videos in Echtzeit mithilfe aktiver Beleuchtung, und stammt von Candice R. Gerstner, einer Mathematikerin für angewandte Forschung am US-Verteidigungsministerium, und Professor Hany Farid aus Berkeley.

Erosion des Vertrauens

Die Anti-Deepfake-Forschungsszene hat sich in den letzten sechs Monaten deutlich gewandelt, weg von der allgemeinen Deepfake-Erkennung (d. h. gezielte Ausrichtung auf vorab aufgezeichnete Videos und pornografische Inhalte) und hin zur „Liveness“-Erkennung, als Reaktion auf eine wachsende Welle von Vorfällen der Deepfake-Nutzung in Videokonferenzen und auf die jüngste Warnung des FBI vor dem zunehmenden Einsatz solcher Technologien bei Bewerbungen für Remote-Arbeit.

Selbst wenn sich herausstellt, dass ein Videoanruf nicht gefälscht wurde, sind die Möglichkeiten für KI-gesteuerte Video-Imitatoren größer beginnt, Paranoia zu erzeugen.

Im neuen Papier heißt es:

„Die Erstellung von Deep Fakes in Echtzeit stellt einzigartige Bedrohungen dar, da ein allgemeines Vertrauensgefühl bei einem Live-Video- oder Telefonanruf herrscht und die Herausforderung besteht, Deep Fakes in Echtzeit zu erkennen, während ein Anruf stattfindet.“

Längst hat es sich die Forschungsgemeinschaft zum Ziel gesetzt, untrügliche Anzeichen für Deepfake-Inhalte zu finden, die nicht einfach zu kompensieren sind. Obwohl die Medien dies typischerweise als einen technologischen Krieg zwischen Sicherheitsforschern und Deepfake-Entwicklern charakterisiert haben, sind die meisten Ablehnungen früher Ansätze (wie z. B Augenzwinkeranalyse, Unterscheidung der Kopfhaltung und Verhaltensanalyse) sind einfach deshalb aufgetreten, weil die Entwickler und Benutzer generell versucht haben, realistischere Deepfakes zu erstellen, anstatt sich speziell mit den neuesten „Tells“ der Sicherheitsgemeinschaft auseinanderzusetzen.

Wir werfen Licht auf Live-Deepfake-Videos

Das Erkennen von Deepfakes in Live-Videoumgebungen bringt die Belastung mit sich, schlechte Videoverbindungen zu berücksichtigen, die in Videokonferenzszenarien sehr häufig vorkommen. Selbst ohne eine dazwischenliegende Deepfake-Schicht kann es bei Videoinhalten zu Verzögerungen im NASA-Stil, Rendering-Artefakten und anderen Arten der Verschlechterung von Audio und Video kommen. Diese können dazu dienen, die Ecken und Kanten einer Live-Deepfake-Architektur zu verbergen, sowohl in Bezug auf Video als auch Audio-Deepfakes.

Das neue System der Autoren verbessert die Ergebnisse und Methoden, die in a enthalten sind 2020 Veröffentlichung vom Center for Networked Computing der Temple University in Philadelphia.

Aus dem Papier von 2020 können wir die Veränderung der „ausgefüllten“ Gesichtsbeleuchtung beobachten, wenn sich der Inhalt des Bildschirms des Benutzers ändert. Quelle: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

Der Unterschied in der neuen Arbeit besteht darin, dass sie die Art und Weise berücksichtigt, wie Webcams auf Lichtänderungen reagieren. Die Autoren erklären:

„Da alle modernen Webcams eine automatische Belichtung durchführen, wird die Art der aktiven Beleuchtung mit hoher Intensität [die in der vorherigen Arbeit verwendet wurde] wahrscheinlich die automatische Belichtung der Kamera auslösen, was wiederum das aufgezeichnete Gesichtsbild verfälschen wird.“ Um dies zu vermeiden, verwenden wir eine aktive Beleuchtung, die aus einer isoluminanten Farbtonänderung besteht.

„Dadurch wird zwar die automatische Belichtung der Kamera umgangen, es könnte jedoch den Weißabgleich der Kamera auslösen, was wiederum das aufgezeichnete Gesichtsbild verfälschen würde.“ Um dies zu vermeiden, arbeiten wir in einem Farbtonbereich, von dem wir empirisch festgestellt haben, dass er keinen Weißabgleich auslöst.“

Für diese Initiative berücksichtigten die Autoren auch ähnliche frühere Bemühungen, wie z LiveScreen, das ein unauffälliges Lichtmuster auf den Monitor des Endbenutzers zwingt, um Deepfake-Inhalte aufzudecken.

Obwohl dieses System eine Genauigkeitsrate von 94.8 % erreichte, kommen die Forscher zu dem Schluss, dass die Subtilität der Lichtmuster die Implementierung eines solchen verdeckten Ansatzes in hell erleuchteten Umgebungen erschweren würde, und schlagen stattdessen vor, dass ihr eigenes System oder ein System mit ähnlichen Mustern könnte öffentlich und standardmäßig in gängige Videokonferenzsoftware integriert werden:

„Unser vorgeschlagener Eingriff könnte entweder durch eine Anrufteilnehmerin realisiert werden, die einfach ihren Bildschirm teilt und das zeitlich variierende Muster anzeigt, oder sie könnte im Idealfall direkt in den Videoanruf-Client integriert werden.“

Tests

Die Autoren verwendeten eine Mischung aus synthetischen und realen Probanden, um ihre Ergebnisse zu testen Dlib-gesteuert Deepfake-Detektor. Für das synthetische Szenario verwendeten sie Mitsuba, ein Vorwärts- und Inverse-Renderer der Eidgenössischen Technischen Hochschule in Lausanne.

Beispiele aus dem simulierten Datensatz mit unterschiedlichem Hautton, unterschiedlicher Lichtquellengröße, Umgebungslichtintensität und Nähe zur Kamera.

Beispiele aus den simulierten Umgebungstests mit unterschiedlichem Hautton, unterschiedlicher Lichtquellengröße, Umgebungslichtintensität und Nähe zur Kamera.

Die abgebildete Szene enthält einen parametrischen CGI-Kopf, der von einer virtuellen Kamera mit einem 90°-Sichtfeld aufgenommen wurde. Die Köpfe sind vorhanden Lambertsche Reflexion und neutrale Hauttöne und befinden sich 2 cm vor der virtuellen Kamera.

Um das Framework für eine Reihe möglicher Hauttöne und -konfigurationen zu testen, führten die Forscher eine Reihe von Tests durch, bei denen verschiedene Facetten nacheinander variiert wurden. Zu den geänderten Aspekten gehörten Hautton, Nähe und Lichtstärke der Beleuchtung.

Die Autoren kommentieren:

„Wenn unsere verschiedenen Annahmen in der Simulation erfüllt sind, ist unsere vorgeschlagene Technik äußerst robust gegenüber einem breiten Spektrum von Bildgebungskonfigurationen.“

Für das reale Szenario setzten die Forscher 15 Freiwillige mit unterschiedlichen Hauttönen in unterschiedlichen Umgebungen ein. Jedes wurde zwei Zyklen der eingeschränkten Farbtonvariation unter Bedingungen ausgesetzt, bei denen eine Bildwiederholfrequenz von 30 Hz mit der Webcam synchronisiert war, was bedeutete, dass die aktive Beleuchtung jeweils nur eine Sekunde anhielt. Die Ergebnisse waren weitgehend mit den synthetischen Tests vergleichbar, obwohl die Korrelationen mit höheren Beleuchtungswerten deutlich zunahmen.

Zukünftige Richtungen

Die Forscher räumen ein, dass das System typische Gesichtsverdeckungen wie Pony, Brille oder Gesichtsbehaarung nicht berücksichtigt. Sie stellen jedoch fest, dass eine Maskierung dieser Art zu späteren Systemen hinzugefügt werden kann (durch Kennzeichnung und anschließende semantische Segmentierung), die so trainiert werden könnten, dass sie Werte ausschließlich aus wahrgenommenen Hautbereichen des Zielsubjekts übernehmen.

Die Autoren schlagen außerdem vor, dass ein ähnliches Paradigma zur Erkennung gefälschter Audioanrufe eingesetzt werden könnte und dass der erforderliche Erkennungston in einer Frequenz abgespielt werden könnte, die außerhalb des normalen menschlichen Hörbereichs liegt.

Am interessantesten ist vielleicht, dass die Forscher auch vorschlagen, dass die Erweiterung des Auswertungsbereichs über das Gesicht hinaus in einem umfassenderen Erfassungsrahmen die Möglichkeit der Deepfake-Erkennung deutlich verbessern könnte*:

„Ein anspruchsvolleres 3D.“ Einschätzung der Beleuchtung würde wahrscheinlich ein reichhaltigeres Erscheinungsbild liefern, das für einen Fälscher noch schwieriger zu umgehen wäre. Während wir uns nur auf das Gesicht konzentrierten, beleuchtet das Computerdisplay auch den Hals, den Oberkörper und den umgebenden Hintergrund, von dem aus ähnliche Messungen durchgeführt werden konnten.

„Diese zusätzlichen Messungen würden den Fälscher dazu zwingen, die gesamte 3D-Szene zu berücksichtigen, nicht nur das Gesicht.“

* Meine Umwandlung der Inline-Zitate der Autoren in Hyperlinks.

Erstveröffentlichung am 6. Juli 2022.

Als nächstes

Welchen Einfluss hat KI auf die Automobilindustrie?

Verpassen Sie nicht

Ein Erkennungssystem für reine Bildsynthese-Frameworks wie DALL-E 2

Martin Anderson

Autor über maschinelles Lernen, künstliche Intelligenz und Big Data.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai

Unite.AI

Erkennen gefälschter Videoanrufe durch Monitorbeleuchtung

Artificial Intelligence