Connect with us

Kunstmatige intelligentie

De ‘Geheime Routes’ Die Voetgangersherkenningssystemen Kunnen Ontwijken

mm
ChatGPT-4o: Variation on prompt: ‘a 1792x1024 feature image depicting an orthogonal ariel view looking down on NYC's 42nd street area. Most of the image should have a blue hue, but within the sidewalk areas there should be red-tinted pathways indicated, like a kind of map route. Make it like The Sims.’

Een nieuwe onderzoeks samenwerking tussen Israël en Japan stelt dat voetgangersdetectiesystemen inherente zwakheden hebben, waardoor goed geïnformeerde personen facial recognition systemen kunnen ontwijken door zorgvuldig geplande routes te nemen door gebieden waar surveillancenetwerken het minst effectief zijn.

Met behulp van openbaar beschikbare beelden uit Tokio, New York en San Francisco, ontwikkelden de onderzoekers een geautomatiseerde methode om dergelijke paden te berekenen, op basis van de meest populaire objectherkenningssystemen die waarschijnlijk in gebruik zijn in openbare netwerken.

De drie kruispunten die in de studie zijn gebruikt: Shibuya Crossing in Tokio, Japan; Broadway, New York; en Castro District, San Francisco. Bron: https://arxiv.org/pdf/2501.15653

De drie kruispunten die in de studie zijn gebruikt: Shibuya Crossing in Tokio, Japan; Broadway, New York; en Castro District, San Francisco. Bron: https://arxiv.org/pdf/2501.15653

Door deze methode is het mogelijk om betrouwbaarheidsheatmaps te genereren die gebieden binnen de camerabeelden aanduiden waar voetgangers het minst waarschijnlijk een positieve facial recognition hit zullen opleveren:

Aan de rechterkant zien we de betrouwbaarheidsheatmap gegenereerd door de methode van de onderzoekers. De rode gebieden geven lage betrouwbaarheid aan, en een configuratie van houding, camerapositie en andere factoren die waarschijnlijk de facial recognition zullen hinderen.

Aan de rechterkant zien we de betrouwbaarheidsheatmap gegenereerd door de methode van de onderzoekers. De rode gebieden geven lage betrouwbaarheid aan, en een configuratie van houding, camerapositie en andere factoren die waarschijnlijk de facial recognition zullen hinderen.

In theorie kan een dergelijke methode worden geïnstrumentaliseerd in een locatie-gevoelige app, of een soortgelijk platform om de minst ‘herkenning-vriendelijke’ paden van A naar B in elke berekende locatie te verspreiden.

Het nieuwe artikel stelt een dergelijke methodologie voor, getiteld Locatie-gebaseerde Privacy-verhogende Techniek (L-PET); het stelt ook een tegenmaatregel voor, getiteld Locatie-gebaseerde Adaptieve Drempel (L-BAT), die essentieel dezelfde routines uitvoert, maar dan gebruikt om de surveillance-maatregelen te versterken en te verbeteren, in plaats van manieren te vinden om herkend te worden; en in veel gevallen zouden dergelijke verbeteringen niet mogelijk zijn zonder verdere investeringen in de surveillance-infrastructuur.

Het artikel zet dus een potentieel technologische escalatie tussen degenen die proberen hun routes te optimaliseren om detectie te vermijden en de mogelijkheid van surveillance-systemen om volledig gebruik te maken van facial recognition-technologieën.

Vorige methoden om detectie te ontwijken zijn minder elegant dan deze, en concentreren zich op adversarial benaderingen, zoals TnT-aanvallen, en het gebruik van geprinte patronen om de detectie-algoritme te verwarren.

Het werk uit 2019 'Fooling automated surveillance cameras: adversarial patches to attack person detection' toonde een adversarial geprint patroon aan dat een recognition-systeem kon overtuigen dat er geen persoon werd gedetecteerd, waardoor een soort 'onzichtbaarheid' ontstond. Bron: https://arxiv.org/pdf/1904.08653

Het werk uit 2019 ‘Fooling automated surveillance cameras: adversarial patches to attack person detection’ toonde een adversarial geprint patroon aan dat een recognition-systeem kon overtuigen dat er geen persoon werd gedetecteerd, waardoor een soort ‘onzichtbaarheid’ ontstond. Bron: https://arxiv.org/pdf/1904.08653

De onderzoekers achter het nieuwe artikel merken op dat hun benadering minder voorbereiding vereist, zonder de noodzaak om adversarial draagbare items (zie afbeelding hierboven) te ontwikkelen.

Het artikel is getiteld Een Privacy-verhogende Techniek om Detectie te Ontwijken door Straatvideo-camera’s Zonder het Gebruik van Adversarial Accessoires, en komt van vijf onderzoekers uit Ben-Gurion Universiteit van de Negev en Fujitsu Limited.

Methode en Tests

In overeenstemming met eerdere werken zoals Adversarial Mask, AdvHat, adversarial patches, en verschillende andere soortgelijke uitgaven, gaan de onderzoekers ervan uit dat de voetganger ‘aanvaller’ weet welk objectdetectiesysteem in het surveillancenetwerk wordt gebruikt. Dit is eigenlijk geen onredelijke veronderstelling, vanwege de wijdverbreide adoptie van state-of-the-art open source-systemen zoals YOLO in surveillancesystemen van bedrijven als Cisco en Ultralytics (momenteel de centrale drijvende kracht achter de YOLO-ontwikkeling).

Het artikel gaat er ook van uit dat de voetganger toegang heeft tot een livestream op internet die is gericht op de locaties die moeten worden berekend, wat, opnieuw, een redelijke veronderstelling is in de meeste plaatsen die waarschijnlijk een intensiteit van dekking hebben.

Sites zoals 511ny.org bieden toegang tot veel surveillance-camera's in het NYC-gebied. Bron: https://511ny.or

Sites zoals 511ny.org bieden toegang tot veel surveillance-camera’s in het NYC-gebied. Bron: https://511ny.or

Behalve dit, heeft de voetganger toegang nodig tot de voorgestelde methode, en tot de scène zelf (d.w.z. de kruispunten en routes waarlangs een ‘veilige’ route moet worden vastgesteld).

Om L-PET te ontwikkelen, hebben de auteurs het effect van de voetgangerhoek in relatie tot de camera onderzocht; het effect van de camerahoogte; het effect van de afstand; en het effect van de tijd van de dag. Om de grondwaarheid te verkrijgen, hebben ze een persoon gefotografeerd bij de hoeken 0°, 45°, 90°, 135°, 180°, 225°, 270° en 315°.

Grondwaarheidsobservaties uitgevoerd door de onderzoekers.

Grondwaarheidsobservaties uitgevoerd door de onderzoekers.

Ze hebben deze variaties herhaald bij drie verschillende camerahoogtes (0,6 m, 1,8 m, 2,4 m), en met variabele lichtomstandigheden (ochtend, middag, nacht en ‘lab’-omstandigheden).

Door deze beelden te voeden aan de Faster R-CNN en YOLOv3 objectdetectoren, hebben ze ontdekt dat de betrouwbaarheid van het object afhankelijk is van de scherpte van de hoek van de voetganger, de afstand van de voetganger, de camerahoogte en de weers-/lichtomstandigheden*.

De auteurs hebben vervolgens een bredere reeks objectdetectoren getest in hetzelfde scenario: Faster R-CNN; YOLOv3; SSD; DiffusionDet; en RTMDet.

De auteurs verklaren:

‘We vonden dat alle vijf objectdetectie-architecturen worden beïnvloed door de positie van de voetganger en de omgevingslicht. Bovendien vonden we dat voor drie van de vijf modellen (YOLOv3, SSD en RTMDet) het effect door alle omgevingslichtniveaus heen aanhoudt.’

Om de reikwijdte uit te breiden, hebben de onderzoekers beelden gebruikt die zijn opgenomen met openbaar beschikbare verkeerscamera’s in drie locaties: Shibuya Crossing in Tokio, Broadway in New York en de Castro District in San Francisco.

Elke locatie leverde tussen de vijf en zes opnames op, met ongeveer vier uur aan beeld per opname. Om de detectieprestaties te analyseren, werd één frame per twee seconden geëxtraheerd en verwerkt met een Faster R-CNN-objectdetector. Voor elk pixel in de verkregen frames schatte de methode de gemiddelde betrouwbaarheid van de ‘persoon’-detectie-bounding boxes die in dat pixel aanwezig waren.

‘We vonden dat in alle drie de locaties de betrouwbaarheid van de objectdetector afhankelijk was van de locatie van mensen in het frame. Bijvoorbeeld, in de Shibuya Crossing-beelden, zijn er grote gebieden met lage betrouwbaarheid verder weg van de camera, evenals dichter bij de camera, waar een paal gedeeltelijk passerende voetgangers verhult.’

De L-PET-methode is eigenlijk deze procedure, die kan worden ‘bewapend’ om een pad door een stedelijk gebied te verkrijgen dat het minst waarschijnlijk zal resulteren in de voetganger die met succes wordt herkend.

In tegenstelling tot L-BAT, volgt dezelfde procedure, met het verschil dat het de scores in het detectiesysteem bijwerkt, waardoor een feedbacklus ontstaat die is ontworpen om de L-PET-aanpak te verhinderen en de ‘blinde gebieden’ van het systeem effectiever te maken.

(In praktische zin, echter, zou het verbeteren van de dekking op basis van de gegenereerde heatmaps meer vereisen dan alleen een upgrade van de camera die in de verwachte positie zit; op basis van de testcriteria, inclusief locatie, zou het de installatie van extra camera’s vereisen om de verwaarloosde gebieden te dekken – dus kan worden betoogd dat de L-PET-methode deze specifieke ‘koude oorlog’ escalerend maakt tot een zeer dure scenario)

De gemiddelde voetgangerdetectiebetrouwbaarheid voor elk pixel, over diverse detectorframeworks, in het waargenomen gebied van Castro Street, geanalyseerd over vijf video's. Elke video werd opgenomen onder verschillende lichtomstandigheden: zonsopgang, dag, zonsondergang en twee verschillende nachtinstellingen. De resultaten worden afzonderlijk gepresenteerd voor elk lichtscenario.

De gemiddelde voetgangerdetectiebetrouwbaarheid voor elk pixel, over diverse detectorframeworks, in het waargenomen gebied van Castro Street, geanalyseerd over vijf video’s. Elke video werd opgenomen onder verschillende lichtomstandigheden: zonsopgang, dag, zonsondergang en twee verschillende nachtinstellingen. De resultaten worden afzonderlijk gepresenteerd voor elk lichtscenario.

Door de pixel-gebaseerde matrixweergave om te zetten in een grafische weergave die geschikt is voor de taak, hebben de onderzoekers de Dijkstra-algoritme aangepast om optimale paden voor voetgangers te berekenen om door gebieden met verminderde surveillancedetectie te navigeren.

In plaats van het kortste pad te vinden, werd het algoritme gewijzigd om de detectiebetrouwbaarheid te minimaliseren, waarbij hoge-betrouwbaarheidsgebieden werden behandeld als gebieden met hogere ‘kosten’. Deze aanpassing stelde het algoritme in staat om routes te identificeren die door blinde vlekken of lage-detectiezones liepen, waardoor voetgangers effectief langs paden met verminderde zichtbaarheid voor surveillancesystemen werden geleid.

Een visualisatie die de transformatie van de scène's heatmap van een pixel-gebaseerde matrix naar een grafische weergave weergeeft.

Een visualisatie die de transformatie van de scène’s heatmap van een pixel-gebaseerde matrix naar een grafische weergave weergeeft.

De onderzoekers hebben de impact van het L-BAT-systeem op voetgangerdetectie geëvalueerd met een dataset die is opgebouwd uit de eerder genoemde vier uur durende opnames van openbaar voetgangersverkeer. Om de collectie te bevolken, werd één frame per twee seconden verwerkt met een SSD-objectdetector.

Van elk frame werd één bounding box geselecteerd die een gedetecteerde persoon bevatte als een positieve sample, en een andere willekeurige gebied zonder gedetecteerde personen werd gebruikt als een negatieve sample. Deze tweeling-samples vormden een dataset voor het evalueren van twee Faster R-CNN-modellen – één met L-BAT toegepast, en één zonder.

De prestaties van de modellen werden beoordeeld door te controleren hoe nauwkeurig ze positieve en negatieve samples identificeerden: een bounding box die een positieve sample overlapte, werd beschouwd als een ware positief; een bounding box die een negatieve sample overlapte, werd gelabeld als een valse positief.

Metrieken die werden gebruikt om de detectiebetrouwbaarheid van L-BAT te bepalen, waren Area Under the Curve (AUC); ware positieve rate (TPR); valse positieve rate (FPR); en gemiddelde ware positieve betrouwbaarheid. De onderzoekers beweren dat het gebruik van L-BAT de detectiebetrouwbaarheid verbeterde, terwijl het een hoge ware positieve rate (hoewel met een lichte toename van valse positieven) handhaafde.

Ten slotte merken de auteurs op dat de benadering enkele beperkingen heeft. Een daarvan is dat de door hun methode gegenereerde heatmaps specifiek zijn voor een bepaald tijdstip van de dag. Hoewel ze hier niet verder op ingaan, zou dit aangeven dat een grotere, meerlagige benadering nodig zou zijn om het tijdstip van de dag in een flexibele implementatie te verwerken.

Ze merken ook op dat de heatmaps niet kunnen worden overgedragen naar verschillende modelarchitecturen en zijn gekoppeld aan een specifiek objectdetectiemodel. Aangezien het voorgestelde werk eigenlijk een proof-of-concept is, kunnen meer bedreven architectuurontwerpen ook worden ontwikkeld om deze technische schuld te herstellen.

Conclusie

Elke nieuwe aanvals methode waarvan de oplossing ‘betalen voor nieuwe surveillance-camera’s’ is, heeft enig voordeel, omdat het uitbreiden van burgercamera-netwerken in sterk bewaakte gebieden politiek uitdagend kan zijn, evenals een aanzienlijke burgeruitgave die meestal een kiezersmandaat nodig heeft.

Misschien is de grootste vraag die door het werk wordt gesteld ‘Gebruiken gesloten surveillance-systemen open source SOTA-kaders zoals YOLO?’. Dit is, natuurlijk, onmogelijk te weten, omdat de makers van de propriëtaire systemen die zoveel staat- en burgercamera-netwerken aandrijven (ten minste in de VS) zouden beweren dat het bekendmaken van een dergelijk gebruik hen mogelijk aanvallen zou openstellen.

Niettemin zou de migratie van overheids-IT en in-huis propriëtaire code naar wereldwijde en open source-code suggereren dat iedereen die de bewering van de auteurs test met (bijvoorbeeld) YOLO, mogelijk meteen de jackpot zou kunnen winnen.

 

* Ik zou normaal gesproken gerelateerde tabelresultaten opnemen wanneer ze in het artikel worden verstrekt, maar in dit geval maken de complexiteit van de tabelresultaten van het artikel ze niet verhelderend voor de gemiddelde lezer, en is een samenvatting daarom nuttiger.

Eerst gepubliceerd op dinsdag 28 januari 2025

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.