Künstliche Intelligenz
Die ‘Geheimrouten’, die Fußgängerkennungssysteme aushebeln können

Eine neue Forschungskooperation zwischen Israel und Japan behauptet, dass Fußgängerkennungssysteme inhärente Schwächen aufweisen, die es gut informierten Personen ermöglichen, Gesichtserkennungssysteme durch sorgfältig geplante Routen in Bereichen zu vermeiden, in denen Überwachungsnetzwerke am wenigsten effektiv sind.
Mit Hilfe von öffentlich zugänglichen Aufnahmen aus Tokio, New York und San Francisco entwickelten die Forscher eine automatisierte Methode zur Berechnung solcher Pfade, basierend auf den populärsten Objekterkennungssystemen, die wahrscheinlich in öffentlichen Netzwerken verwendet werden.

Die drei Kreuzungen, die in der Studie verwendet wurden: Shibuya Crossing in Tokio, Japan; Broadway, New York; und Castro District, San Francisco. Quelle: https://arxiv.org/pdf/2501.15653
Durch diese Methode ist es möglich, Vertrauenswärmebilder zu generieren, die Bereiche innerhalb der Kameraaufnahme markieren, in denen Fußgänger am wenigsten wahrscheinlich eine positive Gesichtserkennung auslösen:

Rechts sehen wir das Vertrauenswärmebild, das von der Methode der Forscher generiert wurde. Die roten Bereiche zeigen geringes Vertrauen, und eine Konfiguration von Haltung, Kameraposition und anderen Faktoren, die wahrscheinlich die Gesichtserkennung behindern.
Theoretisch könnte eine solche Methode in eine ortsbasierte App oder eine andere Plattform umgesetzt werden, um die wenigsten “erkennungsfreundlichen” Pfade von A nach B in jedem berechneten Ort zu disseminieren.
Das neue Papier schlägt eine solche Methodik vor, die als Ortsbasierte Privatsphäre-Verbesserungstechnik (L-PET) bezeichnet wird; es schlägt auch eine Gegenmaßnahme vor, die als Ortsbasierte Adaptive Schwelle (L-BAT) bezeichnet wird, die im Wesentlichen die gleichen Routinen ausführt, aber dann die Informationen verwendet, um die Überwachungsmaßnahmen zu verstärken und zu verbessern, anstatt Wege zu finden, um nicht erkannt zu werden; und in vielen Fällen wären solche Verbesserungen ohne weitere Investitionen in die Überwachungsinfrastruktur nicht möglich.
Das Papier stellt somit einen potenziellen technologischen Eskalationskrieg zwischen denen, die ihre Routen optimieren möchten, um der Erkennung zu entgehen, und der Fähigkeit von Überwachungssystemen, Gesichtserkennungstechnologien voll auszunutzen.
Frühere Methoden, um die Erkennung zu vermeiden, sind weniger elegant als diese und basieren auf adversarialen Ansätzen, wie TnT-Angriffen und der Verwendung von gedruckten Mustern, um den Erkennungsalgorithmus zu verwirren.

Die 2019er Arbeit ‘Fooling automated surveillance cameras: adversarial patches to attack person detection’ demonstrierte ein adversarial gedrucktes Muster, das in der Lage war, ein Erkennungssystem zu überzeugen, dass keine Person erkannt wurde, was eine Art ‘ Unsichtbarkeit ermöglichte. Quelle: https://arxiv.org/pdf/1904.08653
Die Forscher hinter dem neuen Papier bemerken, dass ihr Ansatz weniger Vorbereitung erfordert, mit keinem Bedarf an adversarialen tragbaren Gegenständen (siehe Bild oben).
Das Papier trägt den Titel Ein Privatsphäre-Verbesserungsverfahren, um die Erkennung durch Straßenvideokameras ohne die Verwendung adversarialer Zubehörteile zu vermeiden und stammt von fünf Forschern der Ben-Gurion-Universität und Fujitsu Limited.
Methode und Tests
In Übereinstimmung mit früheren Arbeiten wie Adversarial Mask, AdvHat, adversarialen Patches und verschiedenen anderen ähnlichen Arbeiten, nehmen die Forscher an, dass der Fußgänger “Angreifer” weiß, welches Objekterkennungssystem in dem Überwachungsnetzwerk verwendet wird. Dies ist tatsächlich keine unvernünftige Annahme, aufgrund der weit verbreiteten Verwendung von Open-Source-Systemen wie YOLO in Überwachungssystemen von Unternehmen wie Cisco und Ultralytics (derzeit die zentrale treibende Kraft bei der YOLO-Entwicklung).
Das Papier geht auch davon aus, dass der Fußgänger Zugang zu einem Live-Stream im Internet hat, der auf die zu berechnenden Orte fokussiert ist, was wiederum eine vernünftige Annahme in den meisten Orten mit intensiver Abdeckung ist.

Seiten wie 511ny.org bieten Zugang zu vielen Überwachungskameras im NYC-Gebiet. Quelle: https://511ny.or
Neben diesem benötigt der Fußgänger Zugang zu der vorgeschlagenen Methode und zur Szene selbst (d. h. den Kreuzungen und Routen, in denen eine “sichere” Route etabliert werden soll).
Um L-PET zu entwickeln, bewerteten die Autoren die Auswirkungen des Fußgängerblickwinkels in Bezug auf die Kamera; die Auswirkungen der Kamerahöhe; die Auswirkungen der Entfernung; und die Auswirkungen des Tageszeitpunkts. Um die Grundwahrheit zu erhalten, fotografierten sie eine Person in den Winkeln 0°, 45°, 90°, 135°, 180°, 225°, 270° und 315°.

Ground-Truth-Beobachtungen, die von den Forschern durchgeführt wurden.
Sie wiederholten diese Variationen bei drei verschiedenen Kamerahöhen (0,6 m, 1,8 m, 2,4 m) und mit verschiedenen Beleuchtungsbedingungen (Morgen, Nachmittag, Nacht und “Lab”-Bedingungen).
Indem sie diese Aufnahmen dem Faster R-CNN und dem YOLOv3 Objekterkennungsalgorithmus zuführten, fanden sie heraus, dass das Vertrauen des Objekts von der Schärfe des Winkels des Fußgängers, der Entfernung des Fußgängers, der Kamerahöhe und den Wetter-/Beleuchtungsbedingungen abhängt*.
Die Autoren testeten dann eine breitere Palette von Objekterkennungsalgorithmen in der gleichen Szene: Faster R-CNN; YOLOv3; SSD; DiffusionDet; und RTMDet.
Die Autoren erklären:
Wir fanden heraus, dass alle fünf Objekterkennungsarchitekturen von der Fußgängerposition und dem Umgebungslicht betroffen sind. Darüber hinaus fanden wir heraus, dass für drei der fünf Modelle (YOLOv3, SSD und RTMDet) der Effekt durch alle Umgebungslichtniveaus hindurch besteht.
Um den Umfang zu erweitern, verwendeten die Forscher Aufnahmen von öffentlich zugänglichen Verkehrskameras in drei Orten: Shibuya Crossing in Tokio, Broadway in New York und der Castro District in San Francisco.
Jeder Ort lieferte zwischen fünf und sechs Aufnahmen, mit etwa vier Stunden Aufnahmedauer pro Aufnahme. Um die Erkennungsleistung zu analysieren, wurde ein Frame alle zwei Sekunden extrahiert und mit einem Faster R-CNN-Objekterkennungsalgorithmus verarbeitet. Für jeden Pixel in den erhaltenen Frames schätzte die Methode das durchschnittliche Vertrauen der “Person”-Erkennungsbegrenzungsboxen, die in diesem Pixel vorhanden waren.
Wir fanden heraus, dass in allen drei Orten das Vertrauen des Objekterkennungsalgorithmus je nach Position der Menschen im Frame variierte. Zum Beispiel gab es in den Aufnahmen von Shibuya Crossing große Bereiche mit geringem Vertrauen weiter entfernt von der Kamera sowie näher an der Kamera, wo ein Pfosten vorbeifahrende Fußgänger teilweise verdeckte.
Die L-PET-Methode ist im Wesentlichen dieses Verfahren, das man als “bewaffnet” bezeichnen könnte, um einen Pfad durch ein städtisches Gebiet zu erhalten, der am wenigsten wahrscheinlich zu einer erfolgreichen Erkennung des Fußgängers führt.
Im Gegensatz dazu folgt L-BAT dem gleichen Verfahren, mit dem Unterschied, dass es die Punktzahl im Erkennungssystem aktualisiert und eine Rückkopplungsschleife erstellt, die darauf ausgelegt ist, den L-PET-Ansatz zu vermeiden und die “blinden Bereiche” des Systems effektiver zu machen.
(In praktischen Begriffen jedoch würde die Verbesserung der Abdeckung auf der Grundlage der erhaltenen Wärmebilder mehr als nur ein Upgrade der Kamera erfordern, die in der erwarteten Position sitzt; basierend auf den Testkriterien, einschließlich des Ortes, würde es die Installation zusätzlicher Kameras erfordern, um die vernachlässigten Bereiche abzudecken – daher könnte man argumentieren, dass die L-PET-Methode diesen bestimmten “Kalten Krieg” in ein sehr teures Szenario eskaliert)

Das durchschnittliche Fußgängerdetektionsvertrauen für jeden Pixel, über verschiedene Erkennungsframeworks hinweg, im beobachteten Bereich der Castro Street, analysiert über fünf Videos. Jedes Video wurde unter verschiedenen Beleuchtungsbedingungen aufgenommen: Sonnenaufgang, Tag, Sonnenuntergang und zwei verschiedene Nachtbedingungen. Die Ergebnisse werden getrennt für jede Beleuchtungssituation präsentiert.
Indem sie die pixelbasierte Matrixdarstellung in eine Graphendarstellung umwandelten, die für die Aufgabe geeignet war, passten die Forscher den Dijkstra-Algorithmus an, um optimale Pfade für Fußgänger zu berechnen, um durch Bereiche mit verringerter Überwachungserkennung zu navigieren.
Stattdessen suchte der Algorithmus nicht den kürzesten Pfad, sondern minimierte das Erkennungsvertrauen, indem er Hochvertrauensbereiche als Bereiche mit höheren “Kosten” behandelte. Diese Anpassung ermöglichte es dem Algorithmus, Routen zu identifizieren, die durch blinde Flecken oder Bereiche mit geringer Erkennung führten, und führte Fußgänger effektiv entlang von Routen, die für Überwachungssysteme weniger sichtbar waren.

<emEine Visualisierung, die die Umwandlung der Szene von einer pixelbasierten Matrix in eine graphbasierte Darstellung zeigt.
Die Forscher bewerteten die Auswirkungen des L-BAT-Systems auf die Fußgängerdetektion mit einem Datensatz, der aus den vierstündigen Aufnahmen des öffentlichen Fußgängerverkehrs erstellt wurde. Um die Sammlung zu erstellen, wurde ein Frame alle zwei Sekunden mit einem SSD-Objekterkennungsalgorithmus verarbeitet.
Aus jedem Frame wurde eine Begrenzungsbox ausgewählt, die eine erkannte Person enthielt, als positive Probe, und ein weiterer zufälliger Bereich ohne erkannte Personen als negative Probe. Diese Zwillingsproben bildeten einen Datensatz für die Bewertung von zwei Faster-R-CNN-Modellen – eines mit L-BAT und eines ohne.
Die Leistung der Modelle wurde durch die Überprüfung ihrer Fähigkeit beurteilt, positive und negative Proben genau zu identifizieren: Eine Begrenzungsbox, die eine positive Probe überlappte, wurde als wahres Positiv angesehen, während eine Begrenzungsbox, die eine negative Probe überlappte, als falsches Positiv gekennzeichnet wurde.
Die Metriken, die zur Bestimmung der Erkennungsverlässlichkeit von L-BAT verwendet wurden, waren Fläche unter der Kurve (AUC); wahres Positivverhältnis (TPR); Falsch-Positiv-Verhältnis (FPR); und durchschnittliches wahres Positivvertrauen. Die Forscher behaupten, dass die Verwendung von L-BAT das Erkennungsvertrauen verbesserte, während ein hohes wahres Positivverhältnis (wenn auch mit einer leichten Zunahme von Falschpositiven) beibehalten wurde.
Um zu schließen, bemerken die Autoren, dass der Ansatz einige Einschränkungen aufweist. Eine davon ist, dass die durch ihre Methode generierten Wärmebilder spezifisch für einen bestimmten Tageszeitpunkt sind. Obwohl sie dies nicht weiter ausführen, würde dies darauf hindeuten, dass ein umfassenderer, mehrstufiger Ansatz erforderlich wäre, um den Tageszeitpunkt in einer flexibleren Bereitstellung zu berücksichtigen.
Sie bemerken auch, dass die Wärmebilder nicht auf unterschiedliche Modellarchitekturen übertragbar sind und an ein bestimmtes Objekterkennungsmodell gebunden sind. Da die vorgeschlagene Arbeit im Wesentlichen ein Konzeptbeweis ist, könnten auch adäquatere Architekturen entwickelt werden, um diese technische Schulden zu begleichen.
Fazit
Jede neue Angriffsmethode, für die die Lösung “Bezahlen von neuen Überwachungskameras” ist, hat einen Vorteil, da die Erweiterung von städtischen Kamernetzwerken in hoch überwachten Gebieten politisch herausfordernd sein kann, sowie einen erheblichen städtischen Aufwand darstellt, der in der Regel eine Wahlmandat benötigt.
Vielleicht ist die größte Frage, die durch die Arbeit aufgeworfen wird, “Nutzen geschlossene Überwachungssysteme Open-Source-SOTA-Frameworks wie YOLO?”. Dies ist natürlich unmöglich zu wissen, da die Hersteller der proprietären Systeme, die so viele staatliche und städtische Kamernetzwerke (zumindest in den USA) antreiben, argumentieren würden, dass die Offenlegung einer solchen Verwendung sie möglicherweise anfällig für Angriffe machen könnte.
Dennoch würde die Migration von Regierungs-IT und internen proprietären Code zu globalen und Open-Source-Code nahelegen, dass jeder, der die Behauptung der Autoren mit (z. B.) YOLO testet, möglicherweise sofort den Jackpot gewinnt.
* Ich würde normalerweise damit fortfahren, damit verwandte Tabellenergebnisse einzuschließen, wenn sie im Papier bereitgestellt werden, aber in diesem Fall machen die Komplexität des Papiers Tabellen unerhellend für den Durchschnittsleser, und eine Zusammenfassung ist daher nützlicher.
Erstveröffentlichung am Dienstag, 28. Januar 2025












