Vernetzen Sie sich mit uns

Internet-Sicherheit

Optischer gegnerischer Angriff kann die Bedeutung von Verkehrszeichen verändern

mm

Forscher in den USA haben einen Angriffsmechanismus entwickelt, der die Fähigkeit von maschinellen Lernsystemen, das Gesehene korrekt zu interpretieren – darunter auch geschäftskritische Objekte wie Verkehrsschilder – durch die Bestrahlung realer Objekte mit gemustertem Licht behindert. In einem Experiment gelang es mit diesem Ansatz, die Bedeutung eines „STOP“-Schildes am Straßenrand in ein „30 mph“-Geschwindigkeitsbegrenzungsschild zu verwandeln.

Störungen auf einem Schild, die durch die Bestrahlung mit künstlichem Licht entstehen, verzerren die Interpretation in einem maschinellen Lernsystem. Quelle: https://arxiv.org/pdf/2108.06247.pdf

Störungen auf einem Schild, die durch die Bestrahlung mit künstlichem Licht entstehen, verzerren die Interpretation in einem maschinellen Lernsystem. Quelle: https://arxiv.org/pdf/2108.06247.pdf

Das Forschungsprojekte ist berechtigt Optischer gegnerischer Angriff, und kommt von der Purdue University in Indiana.

Ein OPADversarial-Angriff (OPAD), wie er in der Arbeit vorgeschlagen wird, nutzt strukturierte Beleuchtung, um das Erscheinungsbild von Zielobjekten zu verändern, und erfordert lediglich einen Standardprojektor, eine Kamera und einen Computer. Mit dieser Technik konnten die Forscher sowohl White-Box- als auch Black-Box-Angriffe erfolgreich durchführen.

Der OPAD-Aufbau und die minimal wahrgenommenen (von Menschen) Verzerrungen, die ausreichen, um eine Fehlklassifizierung zu verursachen.

Der OPAD-Aufbau und die minimal wahrgenommenen (von Menschen) Verzerrungen, die ausreichen, um eine Fehlklassifizierung zu verursachen.

Das OPAD-Setup besteht aus einem ViewSonic 3600 Lumen SVGA-Projektor, einer Canon T6i-Kamera und einem Laptop.

Black Box und gezielte Angriffe

White-Box-Angriffe sind unwahrscheinliche Szenarien, in denen ein Angreifer direkten Zugriff auf das Trainingsmodellverfahren oder die Verwaltung der Eingabedaten erhält. Black-Box-Angriffe hingegen basieren typischerweise auf der Erschließung der Zusammensetzung oder zumindest des Verhaltens eines maschinellen Lernsystems. Dazu werden „Schattenmodelle“ erstellt und feindliche Angriffe entwickelt, die auf das ursprüngliche Modell abzielen.

Hier sehen wir das Ausmaß der visuellen Störung, das erforderlich ist, um den Klassifikator zu täuschen.

Hier sehen wir, wie groß die visuelle Störung ist, die erforderlich ist, um die Klassifizierung zu täuschener.

Im letzteren Fall ist kein spezieller Zugriff erforderlich, obwohl solche Angriffe durch die Allgegenwärtigkeit von Open-Source-Computer-Vision-Bibliotheken und -Datenbanken in der aktuellen akademischen und kommerziellen Forschung erheblich unterstützt werden.

Bei allen in der neuen Studie beschriebenen OPAD-Angriffen handelt es sich um „zielgerichtete“ Angriffe, die gezielt darauf abzielen, die Interpretation bestimmter Objekte zu verändern. Obwohl das System auch für allgemeine, abstrakte Angriffe geeignet ist, gehen die Forscher davon aus, dass ein Angreifer in der realen Welt ein spezifischeres, störendes Ziel verfolgen würde.

Der OPAD-Angriff ist lediglich eine praxisnahe Umsetzung des häufig erforschten Prinzips, Rauschen in Bilder einzufügen, die in Computer-Vision-Systemen zum Einsatz kommen. Der Vorteil dieses Ansatzes liegt darin, dass man die Störungen einfach auf das Zielobjekt „projizieren“ kann, um die Fehlklassifizierung auszulösen. Es ist hingegen schwieriger sicherzustellen, dass im Trainingsprozess „trojanische Pferde“-Bilder landen.

Im Fall, dass OPAD die Hash-Bedeutung des Bildes „Geschwindigkeit 30“ in einem Datensatz auf ein „STOP“-Schild übertragen konnte, wurde das Basisbild durch gleichmäßige Beleuchtung des Objekts mit einer Intensität von 140/255 erstellt. Anschließend wurde eine projektorkompensierte Beleuchtung als projiziertes Gradientenabstiegsangriff.

Beispiele fĂĽr OPAD-Fehlklassifizierungsangriffe.

Die Forscher stellen fest, dass die größte Herausforderung des Projekts darin bestand, den Projektormechanismus so zu kalibrieren und einzurichten, dass eine saubere „Täuschung“ möglich ist, da Winkel, Optik und verschiedene andere Faktoren eine Herausforderung für den Exploit darstellen.

Zudem funktioniert dieser Ansatz wahrscheinlich nur nachts. Auch die Frage, ob die offensichtliche Beleuchtung den Hack erkennen lässt, spielt eine Rolle. Ist ein Objekt wie ein Schild bereits beleuchtet, muss der Projektor dies kompensieren, und die reflektierte Störung muss zudem scheinwerferresistent sein. Dieses System dürfte am besten in städtischen Umgebungen funktionieren, wo die Umgebungsbeleuchtung stabiler sein dürfte.

Die Forschung baut effektiv eine ML-orientierte Iteration der Columbia University auf 2004-Forschung dazu, das Aussehen von Objekten zu verändern, indem andere Bilder auf sie projiziert werden – ein auf Optik basierendes Experiment, dem das bösartige Potenzial von OPAD fehlt.

Im Test konnte OPAD einen Klassifikator bei 31 von 64 Angriffen täuschen – eine Erfolgsquote von 48 %. Die Forscher weisen darauf hin, dass die Erfolgsquote stark von der Art des angegriffenen Objekts abhängt. Gefleckte oder gekrümmte Oberflächen (z. B. ein Teddybär bzw. eine Tasse) können nicht ausreichend direkte Reflektivität bieten, um den Angriff auszuführen. Andererseits sind absichtlich reflektierende flache Oberflächen wie Verkehrsschilder ideale Umgebungen für eine OPAD-Verzerrung.

Open-Source-Angriffsoberflächen

Alle Angriffe richteten sich gegen eine bestimmte Datenbank: die Deutsche Verkehrszeichenerkennungsdatenbank (GTSRB, in der neuen Arbeit GTSRB-CNN genannt), mit dem das Modell für a trainiert wurde Ähnliches Angriffsszenario im Jahr 2018; das ImageNet VGG16 Datensatz; und das ImageNet Resnet-50 gesetzt.

Sind diese Angriffe also „rein theoretischer Natur“, da sie sich gegen Open-Source-Datensätze und nicht gegen die proprietären, geschlossenen Systeme in autonomen Fahrzeugen richten? Das wäre der Fall, wenn die großen Forschungszweige nicht auf die Open-Source-Ökosysteme, einschließlich Algorithmen und Datensätzen, angewiesen wären, sondern stattdessen im Geheimen an der Entwicklung von Closed-Source-Datensätzen und undurchsichtigen Erkennungsalgorithmen arbeiten würden.

Aber im Allgemeinen funktioniert das nicht so. Meilenstein-Datensätze werden zum Maßstab, an dem jeglicher Fortschritt (und Anerkennung) gemessen wird, während Open-Source-Bilderkennungssysteme wie die YOLO-Serie durch gemeinsame globale Zusammenarbeit jedem intern entwickelten, geschlossenen System, das nach ähnlichen Prinzipien funktionieren soll, davonlaufen.

Die FOSS-EnthĂĽllung

Selbst wenn die Daten in einem Computer-Vision-Framework letztendlich durch vollständig geschlossene Daten ersetzt werden, werden die Gewichte der „entleerten“ Modelle in den frühen Entwicklungsphasen häufig noch durch FOSS-Daten kalibriert, die nie vollständig verworfen werden – was bedeutet, dass die resultierenden Systeme potenziell mit FOSS-Methoden angegriffen werden können.

Darüber hinaus ermöglicht die Verwendung eines Open-Source-Ansatzes für CV-Systeme dieser Art privaten Unternehmen die Nutzung verzweigter Innovationen aus anderen globalen Forschungsprojekten, was einen finanziellen Anreiz darstellt, die Architektur zugänglich zu halten. Danach können sie versuchen, das System erst zum Zeitpunkt der Kommerzialisierung zu schließen, wenn zu diesem Zeitpunkt eine ganze Reihe ableitbarer FOSS-Metriken tief darin verankert sind.

 

Autor zum Thema maschinelles Lernen, Fachspezialist fĂĽr die Synthese menschlicher Bilder. Ehemaliger Leiter fĂĽr Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschĂĽtzt]
Twitter: @manders_ai