Künstliche Intelligenz
Die „geheimen Routen“, die Fußgängererkennungssysteme austricksen können

Eine neue Forschungskooperation zwischen Israel und Japan geht davon aus, dass Fußgängererkennungssysteme inhärente Schwächen aufweisen, die es gut informierten Personen ermöglichen, Gesichtserkennungssysteme zu umgehen, indem sie sorgfältig geplante Routen durch Bereiche wählen, in denen Überwachungsnetze am wenigsten effektiv sind.
Mit Hilfe von öffentlich verfügbares Filmmaterial aus Tokio, New York und San Francisco entwickelten die Forscher eine automatisierte Methode zur Berechnung solcher Pfade, basierend auf den gängigsten Objekterkennungssystemen, die vermutlich in öffentlichen Netzwerken im Einsatz sind.

Die drei in der Studie verwendeten Kreuzungen: Shibuya Crossing in Tokio, Japan; Broadway, New York; und Castro District, San Francisco. Quelle: https://arxiv.org/pdf/2501.15653
Mit dieser Methode ist es möglich, Konfidenz-Heatmaps die Bereiche innerhalb des Kamerabildes abgrenzen, in denen die Wahrscheinlichkeit, dass Fußgänger einen positiven Treffer bei der Gesichtserkennung liefern, am geringsten ist:

Rechts sehen wir die von der Methode der Forscher erstellte Konfidenz-Heatmap. Die roten Bereiche zeigen geringe Konfidenz sowie eine Konfiguration von Haltung, Kameraposition und anderen Faktoren an, die die Gesichtserkennung wahrscheinlich erschweren.
Theoretisch könnte eine solche Methode in eine ortsbezogene App oder eine andere Art von Plattform integriert werden, um die am wenigsten „erkennungsfreundlichen“ Pfade von A nach B an jedem berechneten Standort zu verbreiten.
Das neue Papier schlägt eine solche Methodik vor, mit dem Titel Standortbasierte Technik zur Verbesserung der Privatsphäre (L-PET); es schlägt auch eine Gegenmaßnahme vor, die Standortbasierter adaptiver Schwellenwert (L-BAT), das im Wesentlichen genau dieselben Routinen durchführt, die Informationen dann aber verwendet, um die Überwachungsmaßnahmen zu verstärken und zu verbessern, anstatt Wege zu finden, um einer Erkennung zu entgehen. In vielen Fällen wären solche Verbesserungen ohne weitere Investitionen in die Überwachungsinfrastruktur nicht möglich.
Das Dokument beschreibt daher die Entwicklung eines potenziellen technologischen Krieges zwischen jenen, die ihre Routen optimieren wollen, um nicht entdeckt zu werden, und der Fähigkeit von Überwachungssystemen, Gesichtserkennungstechnologien voll auszunutzen.
Frühere Methoden zur Erkennung von Fehlschlägen sind weniger elegant und konzentrieren sich auf kontroverse Ansätze, sowie TnT-Angriffeund die Verwendung von gedruckte Muster um den Erkennungsalgorithmus zu verwirren.

Die Arbeit aus dem Jahr 2019 „Automatisierte Überwachungskameras täuschen: Gegnerische Patches zum Angriff auf die Personenerkennung“ demonstrierte ein gegnerisches gedrucktes Muster, das ein Erkennungssystem davon überzeugen kann, dass keine Person erkannt wird, und so eine Art „Unsichtbarkeit“ ermöglicht. Quelle: https://arxiv.org/pdf/1904.08653
Die Forscher hinter der neuen Abhandlung weisen darauf hin, dass ihr Ansatz weniger Vorbereitung erfordert und es nicht notwendig ist, gegnerische tragbare Gegenstände zu entwickeln (siehe Abbildung oben).
Die Krepppapier ist betitelt Eine Technik zur Verbesserung der Privatsphäre, um der Erkennung durch Straßenvideokameras zu entgehen, ohne feindliches Zubehör zu verwendenund stammt von fünf Forschern der Ben-Gurion-Universität des Negev und von Fujitsu Limited.
Methode und Tests
In Übereinstimmung mit früheren Arbeiten wie Gegnerische Maske, AdvHat, gegnerische Patchesund verschiedenen anderen ähnlichen Ausflügen gehen die Forscher davon aus, dass der Fußgänger-Angreifer weiß, welches Objekterkennungssystem im Überwachungsnetzwerk verwendet wird. Dies ist eigentlich keine unangemessene Annahme, da hochmoderne Open-Source-Systeme wie YOLO in Überwachungssystemen von Unternehmen wie Cisco sowie Ultralytika (derzeit die zentrale treibende Kraft in der YOLO-Entwicklung).
Das Papier geht außerdem davon aus, dass der Fußgänger Zugang zu einem Live-Stream im Internet hat, der auf die zu berechnenden Standorte festgelegt ist, was wiederum eine vernünftige Annahme an den meisten Orten, wo wahrscheinlich eine intensive Berichterstattung vorliegt.

Websites wie 511ny.org bieten Zugriff auf viele Überwachungskameras im Raum New York. Quelle: https://511ny.or
Darüber hinaus benötigt der Fußgänger Zugang zu der vorgeschlagenen Methode und zur Situation selbst (d. h. zu den Kreuzungen und Wegen, auf denen ein „sicherer“ Weg eingerichtet werden soll).
Um L-PET zu entwickeln, untersuchten die Autoren die Auswirkungen des Fußgängerwinkels im Verhältnis zur Kamera, die Auswirkungen der Kamerahöhe, die Auswirkungen der Entfernung und die Auswirkungen der Tageszeit. Um die Wahrheit zu ermitteln, fotografierten sie eine Person in den Winkeln 0°, 45°, 90°, 135°, 180°, 225°, 270° und 315°.

Von den Forschern durchgeführte Ground-Truth-Beobachtungen.
Sie wiederholten diese Variationen bei drei verschiedenen Kamerahöhen (0.6 m, 1.8 m, 2.4 m) und bei unterschiedlichen Lichtbedingungen (Morgen, Nachmittag, Nacht und „Labor“-Bedingungen).
Das Einspeisen dieses Filmmaterials an die Schnelleres R-CNN sowie YOlov3 Bei ihrer Untersuchung von Objektdetektoren stellten sie fest, dass die Zuverlässigkeit des Objekts von der Winkelschärfe des Fußgängers, der Entfernung des Fußgängers, der Kamerahöhe und den Wetter-/Lichtbedingungen* abhängt.
Die Autoren testeten dann eine größere Bandbreite an Objektdetektoren im selben Szenario: Faster R-CNN; YOLOv3; SSD; DiffusionDeteschriebenen Art und Weise; und RTMDet.
Die Autoren geben an:
„Wir haben festgestellt, dass alle fünf Objektdetektorarchitekturen von der Fußgängerposition und dem Umgebungslicht beeinflusst werden. Darüber hinaus haben wir festgestellt, dass der Effekt bei drei der fünf Modelle (YOLOv3, SSD und RTMDet) bei allen Umgebungslichtstärken anhält.“
Um den Umfang zu erweitern, verwendeten die Forscher Filmmaterial von öffentlich zugänglichen Verkehrskameras an drei Standorten: Shibuya Crossing in Tokio, Broadway in New York und dem Castro District in San Francisco.
Jeder Standort lieferte zwischen fünf und sechs Aufnahmen, mit ungefähr vier Stunden Filmmaterial pro Aufnahme. Um die Erkennungsleistung zu analysieren, wurde alle zwei Sekunden ein Frame extrahiert und mit einem Faster R-CNN-Objektdetektor verarbeitet. Für jedes Pixel in den erhaltenen Frames schätzte die Methode die durchschnittliche Wahrscheinlichkeit, dass die Begrenzungsrahmen für die „Personen“-Erkennung in diesem Pixel vorhanden sind.
„Wir haben festgestellt, dass an allen drei Standorten die Zuverlässigkeit des Objektdetektors je nach Position der Personen im Bild variierte. So gibt es beispielsweise im Filmmaterial von der Shibuya-Kreuzung große Bereiche mit geringer Zuverlässigkeit weiter von der Kamera entfernt als auch näher an der Kamera, wo ein Mast vorbeigehende Fußgänger teilweise verdeckt.“
Bei der L-PET-Methode handelt es sich im Wesentlichen um ein solches Verfahren, das man als Waffe einsetzen kann, um einen Weg durch ein Stadtgebiet zu finden, bei dem die Wahrscheinlichkeit einer erfolgreichen Erkennung des Fußgängers am geringsten ist.
Im Gegensatz dazu folgt L-BAT demselben Verfahren, mit dem Unterschied, dass es die Ergebnisse im Erkennungssystem aktualisiert und so eine Rückkopplungsschleife erstellt, die den L-PET-Ansatz überflüssig machen und die „blinden Bereiche“ des Systems effektiver machen soll.
(In der Praxis würde eine Verbesserung der Abdeckung auf Grundlage der erhaltenen Heatmaps allerdings mehr erfordern als nur ein Upgrade der Kamera an der erwarteten Position; basierend auf den Testkriterien, einschließlich des Standorts, wäre die Installation zusätzlicher Kameras erforderlich, um die vernachlässigten Bereiche abzudecken – daher könnte man argumentieren, dass die L-PET-Methode diesen speziellen „Kalten Krieg“ tatsächlich zu einem sehr teuren Szenario eskalieren lässt)

Die durchschnittliche Fußgängererkennungssicherheit für jedes Pixel über verschiedene Detektorsysteme hinweg im beobachteten Bereich der Castro Street wurde anhand von fünf Videos analysiert. Jedes Video wurde unter unterschiedlichen Lichtbedingungen aufgenommen: Sonnenaufgang, Tag, Sonnenuntergang und zwei verschiedene Nachteinstellungen. Die Ergebnisse werden für jedes Beleuchtungsszenario separat dargestellt.
Nach der Umwandlung der pixelbasierten Matrixdarstellung in eine grafische Darstellung Um die Aufgabe zu erfüllen, passten die Forscher die Dijkstra-Algorithmus um optimale Wege für Fußgänger zu berechnen, damit diese durch Bereiche mit reduzierter Überwachungserkennung navigieren können.
Anstatt den kürzesten Weg zu finden, wurde der Algorithmus modifiziert, um die Erkennungssicherheit zu minimieren, indem Regionen mit hoher Sicherheit als Bereiche mit höheren „Kosten“ behandelt wurden. Diese Anpassung ermöglichte es dem Algorithmus, Routen zu identifizieren, die durch tote Winkel oder Bereiche mit geringer Erkennungsrate verlaufen, und Fußgänger effektiv über Wege zu leiten, die für Überwachungssysteme weniger sichtbar sind.

Eine Visualisierung, die die Transformation der Heatmap der Szene von einer pixelbasierten Matrix in eine graphenbasierte Darstellung darstellt.
Die Forscher bewerteten die Auswirkungen des L-BAT-Systems auf die Fußgängererkennung anhand eines Datensatzes, der aus den oben genannten vierstündigen Aufzeichnungen des öffentlichen Fußgängerverkehrs erstellt wurde. Um die Sammlung zu füllen, wurde alle zwei Sekunden ein Frame mithilfe eines SSD-Objektdetektors verarbeitet.
Aus jedem Frame wurde ein Begrenzungsrahmen ausgewählt, der eine erkannte Person als positive Probe enthielt, und ein anderer zufälliger Bereich ohne erkannte Personen wurde als negative Probe verwendet. Diese Zwillingsproben bildeten einen Datensatz zur Auswertung zweier Faster R-CNN-Modelle – eines mit angewendetem L-BAT und eines ohne.
Die Leistung der Modelle wurde beurteilt, indem überprüft wurde, wie genau sie positive und negative Proben identifizierten: Ein Begrenzungsrahmen, der eine positive Probe überlappte, wurde als echtes Positiv betrachtet, während ein Begrenzungsrahmen, der eine negative Probe überlappte, als falsches Positiv gekennzeichnet wurde.
Zur Bestimmung der Nachweiszuverlässigkeit von L-BAT wurden folgende Metriken verwendet: Fläche unter der Kurve (AUC); Richtig-Positiv-Rate (TPR); Falsch-Positiv-Rate (FPR); und durchschnittliche True-Positive-Zuverlässigkeit. Die Forscher behaupten, dass die Verwendung von L-BAT die Erkennungszuverlässigkeit erhöht und gleichzeitig eine hohe True-Positive-Rate aufrechterhält (wenn auch mit einer leichten Zunahme der Falsch-Positive).
Abschließend weisen die Autoren darauf hin, dass der Ansatz einige Einschränkungen hat. Eine davon ist, dass die von ihrer Methode generierten Heatmaps auf eine bestimmte Tageszeit beschränkt sind. Obwohl sie dies nicht näher erläutern, deutet dies darauf hin, dass ein umfassenderer, mehrstufiger Ansatz erforderlich wäre, um die Tageszeit bei einer flexibleren Bereitstellung zu berücksichtigen.
Sie stellen außerdem fest, dass die Heatmaps nicht auf andere Modellarchitekturen übertragbar sind und an ein bestimmtes Objektdetektormodell gebunden sind. Da es sich bei der vorgeschlagenen Arbeit im Wesentlichen um einen Proof of Concept handelt, könnten vermutlich auch ausgefeiltere Architekturen entwickelt werden, um diese technische Schuld zu beheben.
Fazit
Jede neue Angriffsmethode, für die die Lösung darin besteht, „neue Überwachungskameras zu kaufen“, hat gewisse Vorteile, da der Ausbau von Kameranetzwerken in stark überwachten Gebieten politisch herausfordernd, und stellt zudem einen erheblichen Kostenfaktor für die Bürger dar, für den in der Regel ein Wählermandat erforderlich ist.
Die vielleicht größte Frage, die sich aus dieser Arbeit ergibt, ist „Nutzen Closed-Source-Überwachungssysteme Open-Source-SOTA-Frameworks wie YOLO?“. Das lässt sich natürlich nicht genau sagen, da die Hersteller der proprietären Systeme, auf denen so viele staatliche und öffentliche Kameranetzwerke (zumindest in den USA) basieren, argumentieren würden, dass die Offenlegung einer solchen Nutzung sie angreifbar machen könnte.
Dennoch lässt die Migration staatlicher IT und proprietären Inhouse-Codes zu globalem Open-Source-Code darauf schließen, dass jeder, der die Behauptung der Autoren beispielsweise mit YOLO testet, möglicherweise sofort den Jackpot knacken könnte.
* Normalerweise würde ich zugehörige Tabellenergebnisse einschließen, wenn sie im Dokument bereitgestellt werden, in diesem Fall sind sie aufgrund ihrer Komplexität für den gelegentlichen Leser jedoch nicht aufschlussreich, und eine Zusammenfassung ist daher nützlicher.
Erstveröffentlichung: Dienstag, 28. Januar 2025