Anslut dig till vårt nätverk!

Artificiell intelligens

De "hemliga vägarna" som kan hämma igenkänningssystem för fotgängare

mm
ChatGPT-4o: Variation på prompt: 'en 1792x1024 funktionsbild som visar en ortogonal arielvy som tittar ner på NYC:s 42:a gatuområde. Större delen av bilden ska ha en blå nyans, men inom trottoarområdena ska det finnas rödtonade vägar indikerade, som en slags kartväg. Gör det som The Sims.'

Ett nytt forskningssamarbete mellan Israel och Japan hävdar att system för detektering av fotgängare har inneboende svagheter, vilket gör att välinformerade individer kan undvika ansiktsigenkänningssystem genom att navigera noggrant planerade rutter genom områden där övervakningsnätverk är minst effektiva.

Med hjälp av allmänt tillgänglig film från Tokyo, New York och San Francisco utvecklade forskarna en automatiserad metod för att beräkna sådana vägar, baserad på de mest populära objektigenkänningssystem som sannolikt kommer att användas i offentliga nätverk.

De tre korsningarna som användes i studien: Shibuya Crossing i Tokyo, Japan; Broadway, New York; och Castro District, San Francisco. Källa: https://arxiv.org/pdf/2501.15653

De tre korsningarna som användes i studien: Shibuya Crossing i Tokyo, Japan; Broadway, New York; och Castro District, San Francisco. Källa: https://arxiv.org/pdf/2501.15653

Med denna metod är det möjligt att generera värmekartor för förtroende som avgränsar områden i kameraflödet där fotgängare är minst benägna att ge en positiv ansiktsigenkänningsträff:

Till höger ser vi den förtroendevärmekarta som genereras av forskarnas metod. De röda områdena indikerar lågt självförtroende och en konfiguration av ställning, kameraställning och andra faktorer som sannolikt hindrar ansiktsigenkänning.

Till höger ser vi den förtroendevärmekarta som genereras av forskarnas metod. De röda områdena indikerar lågt självförtroende och en konfiguration av ställning, kameraställning och andra faktorer som sannolikt hindrar ansiktsigenkänning.

I teorin skulle en sådan metod kunna instrumentaliseras till en platsmedveten app, eller någon annan typ av plattform för att sprida de minst "igenkänningsvänliga" vägarna från A till B på vilken som helst beräknad plats.

Den nya artikeln föreslår en sådan metodik, med titeln Platsbaserad teknik för förbättrad integritet (L-PET); den föreslår också en motåtgärd med titeln Platsbaserad adaptiv tröskel (L-BAT), som i princip kör exakt samma rutiner, men som sedan använder informationen för att förstärka och förbättra övervakningsåtgärderna, istället för att ta fram sätt att undvika att bli igenkänd; och i många fall skulle sådana förbättringar inte vara möjliga utan ytterligare investeringar i övervakningsinfrastrukturen.

Tidningen skapar därför ett potentiellt tekniskt eskaleringskrig mellan dem som vill optimera sina rutter för att undvika upptäckt och övervakningssystemens förmåga att fullt ut utnyttja ansiktsigenkänningsteknik.

Tidigare metoder för att detektera foliering är mindre eleganta än detta och fokuserar på motstridiga tillvägagångssätt, Såsom TnT attackeroch användningen av tryckta mönster för att förvirra detektionsalgoritmen.

2019 års arbete "Lura automatiserade övervakningskameror: motstridiga lappar för att upptäcka personer" demonstrerade ett motstridigt tryckt mönster som kan övertyga ett igenkänningssystem om att ingen person upptäcks, vilket tillåter ett slags "osynlighet". Källa: https://arxiv.org/pdf/1904.08653

2019 års arbete "Lura automatiserade övervakningskameror: motstridiga lappar för att upptäcka personer" demonstrerade ett motstridigt tryckt mönster som kan övertyga ett igenkänningssystem om att ingen person upptäcks, vilket tillåter ett slags "osynlighet". Källa: https://arxiv.org/pdf/1904.08653

Forskarna bakom det nya dokumentet observerar att deras tillvägagångssätt kräver mindre förberedelser, utan att behöva ta fram kontradiktoriska bärbara föremål (se bilden ovan).

Ocuco-landskapet papper har titeln En integritetsförbättrande teknik för att undvika upptäckt av gatuvideokameror utan att använda motstridiga tillbehör, och kommer från fem forskare från Ben-Gurion University of the Negev och Fujitsu Limited.

Metod och tester

I enlighet med tidigare arbeten som t.ex Motstridig mask, AdvHat, motstridiga plåster, och olika andra liknande utflykter, antar forskarna att fotgängarens "angripare" vet vilket objektdetekteringssystem som används i övervakningsnätverket. Detta är faktiskt inte ett orimligt antagande, på grund av det utbredda antagandet av state-of-the-art system med öppen källkod som YOLO i övervakningssystem från t.ex. Cisco och Ultralytika (för närvarande den centrala drivkraften i YOLO-utvecklingen).

Tidningen förutsätter också att fotgängaren har tillgång till en livestream på internet som är fixerad på de platser som ska beräknas, vilket återigen är en rimligt antagande på de flesta platser som sannolikt har en intensitet av täckning.

artiklar som 511ny.org erbjuder tillgång till många övervakningskameror i NYC-området. Källa: https://511ny.or

Webbplatser som 511ny.org erbjuder tillgång till många övervakningskameror i NYC-området. Källa: https://511ny.or

Utöver detta behöver fotgängaren tillgång till den föreslagna metoden och till själva platsen (dvs. korsningarna och vägarna där en "säker" väg ska etableras).

För att utveckla L-PET utvärderade författarna effekten av fotgängarvinkeln i förhållande till kameran; effekten av kamerahöjd; effekten av avstånd; och effekten av tiden på dygnet. För att få fram sanningen fotograferade de en person i vinklarna 0°, 45°, 90°, 135°, 180°, 225°, 270° och 315°.

Ground sanningsobservationer utförda av forskarna.

Ground sanningsobservationer utförda av forskarna.

De upprepade dessa variationer vid tre olika kamerahöjder (0.6 m, 1.8 m, 2.4 m) och med varierande ljusförhållanden (morgon, eftermiddag, natt och "labb"-förhållanden).

Matar denna film till Snabbare R-CNN och YOLOv3 objektdetektorer, fann de att objektets tillförlitlighet beror på skarpheten i fotgängarens vinkel, fotgängarens avstånd, kamerahöjden och väder-/ljusförhållandena*.

Författarna testade sedan ett bredare utbud av objektdetektorer i samma scenario: Snabbare R-CNN; YOLOv3; SSD; DiffusionDet; Och RTMDet.

Författarna säger:

"Vi fann att alla fem objektdetektorarkitekturerna påverkas av fotgängarens position och omgivande ljus. Dessutom fann vi att för tre av de fem modellerna (YOLOv3, SSD och RTMDet) kvarstår effekten genom alla omgivande ljusnivåer.'

För att utöka omfattningen använde forskarna bilder tagna från allmänt tillgängliga trafikkameror på tre platser: Shibuya Crossing i Tokyo, Broadway i New York och Castro District i San Francisco.

Varje plats levererade mellan fem och sex inspelningar, med cirka fyra timmars inspelning per inspelning. För att analysera detektionsprestanda extraherades en bildruta varannan sekund och bearbetades med en Faster R-CNN-objektdetektor. För varje pixel i de erhållna ramarna uppskattade metoden den genomsnittliga konfidensen för "person"-detekteringsgränsrutorna som finns i den pixeln.

"Vi fann att på alla tre platserna varierade förtroendet för objektdetektorn beroende på var personerna var i bilden. Till exempel, i bilderna från Shibuya Crossing, finns det stora områden med låg självförtroende längre bort från kameran, såväl som närmare kameran, där en stolpe delvis skymmer förbipasserande fotgängare.'

L-PET-metoden är i huvudsak denna procedur, utan tvekan "vapenbehandlad" för att erhålla en väg genom ett stadsområde som är minst sannolikt att leda till att fotgängaren framgångsrikt blir igenkänd.

Däremot följer L-BAT samma procedur, med skillnaden att den uppdaterar poängen i detektionssystemet, vilket skapar en återkopplingsslinga utformad för att undvika L-PET-metoden och göra de "blinda områdena" i systemet mer effektiva.

(I praktiska termer skulle dock en förbättring av täckningen baserat på erhållna värmekartor kräva mer än bara en uppgradering av kameran som sitter i den förväntade positionen; baserat på testkriterierna, inklusive plats, skulle det kräva installation av ytterligare kameror för att täcka det försummade områden – därför skulle det kunna hävdas att L-PET-metoden eskalerar just detta "kalla krig" till ett mycket dyrt scenario)

Det genomsnittliga förtroendet för fotgängardetektering för varje pixel, över olika detektorramar, i det observerade området på Castro Street, analyserat över fem videor. Varje video spelades in under olika ljusförhållanden: soluppgång, dagtid, solnedgång och två distinkta nattinställningar. Resultaten presenteras separat för varje ljusscenario.

Det genomsnittliga förtroendet för fotgängardetektering för varje pixel, över olika detektorramar, i det observerade området på Castro Street, analyserat över fem videor. Varje video spelades in under olika ljusförhållanden: soluppgång, dagtid, solnedgång och två distinkta nattinställningar. Resultaten presenteras separat för varje ljusscenario.

Efter att ha konverterat den pixelbaserade matrisrepresentationen till en grafrepresentation lämplig för uppgiften, anpassade forskarna Dijkstra algoritm att beräkna optimala vägar för fotgängare att navigera genom områden med minskad övervakningsdetektering.

Istället för att hitta den kortaste vägen modifierades algoritmen för att minimera detektionsförtroendet och behandlade regioner med hög konfidens som områden med högre "kostnad". Denna anpassning gjorde det möjligt för algoritmen att identifiera rutter som passerar genom döda vinklar eller lågdetekteringszoner, vilket effektivt guidade fotgängare längs stigar med minskad sikt till övervakningssystem.

En visualisering som visar transformationen av scenens värmekarta från en pixelbaserad matris till en grafbaserad representation.

En visualisering som visar omvandlingen av scenens värmekarta från en pixelbaserad matris till en grafbaserad representation.

Forskarna utvärderade effekten av L-BAT-systemet på fotgängardetektering med en datauppsättning byggd från de tidigare nämnda fyra timmar långa inspelningarna av allmän fotgängartrafik. För att fylla samlingen bearbetades en bildruta varannan sekund med en SSD-objektdetektor.

Från varje bildruta valdes en begränsningsruta som innehöll en detekterad person som ett positivt prov, och ett annat slumpmässigt område utan upptäckta personer användes som ett negativt prov. Dessa tvillingprover bildade en datauppsättning för att utvärdera två Faster R-CNN-modeller – en med L-BAT tillämpad och en utan.

Modellernas prestanda utvärderades genom att kontrollera hur noggrant de identifierade positiva och negativa prover: en gränsruta som överlappade ett positivt prov ansågs vara riktigt positiv, medan en gränsruta som överlappade ett negativt prov märktes som ett falskt positivt.

Mått som användes för att bestämma detektionstillförlitligheten för L-BAT var Område under kurvan (AUC); verklig positiv kurs (TPR); falsk positiv frekvens (FPR); och genomsnittligt positivt förtroende. Forskarna hävdar att användningen av L-BAT förbättrade detektionsförtroendet samtidigt som de bibehöll en hög sann positiv frekvens (om än med en liten ökning av falska positiva).

Avslutningsvis noterar författarna att tillvägagångssättet har vissa begränsningar. En är att värmekartorna som genereras av deras metod är specifika för en viss tid på dygnet. Även om de inte redogör för det, skulle detta indikera att ett större tillvägagångssätt med flera nivåer skulle behövas för att ta hänsyn till tiden på dygnet i en mer flexibel distribution.

De observerar också att värmekartorna inte kommer att överföras till olika modellarkitekturer, utan är knutna till en specifik objektdetektormodell. Eftersom det föreslagna arbetet i huvudsak är ett proof-of-concept, skulle man förmodligen också kunna utveckla fler skickliga arkitekturer för att avhjälpa denna tekniska skuld.

Slutsats

Varje ny attackmetod där lösningen är att "betala för nya övervakningskameror" har vissa fördelar, eftersom utvidgning av medborgarkameranätverk i högt övervakade områden kan vara politiskt utmanande, samt representerar en anmärkningsvärd samhällskostnad som vanligtvis kommer att behöva ett väljarmandat.

Den kanske största frågan som verket ställer är "Använder övervakningssystem med sluten källkod öppen källkod SOTA-ramverk som YOLO?". Detta är naturligtvis omöjligt att veta, eftersom tillverkarna av de egenutvecklade systemen som driver så många statliga och civila kameranätverk (åtminstone i USA) skulle hävda att avslöjande av sådan användning kan öppna dem för attacker.

Icke desto mindre skulle migreringen av statlig IT och intern proprietär kod till global och öppen källkod tyda på att alla som testar författarnas påstående med (till exempel) YOLO mycket väl kan få jackpotten omedelbart.

 

* Jag skulle normalt inkludera relaterade tabellresultat när de finns i tidningen, men i det här fallet gör tidningens tabeller komplexiteten dem obelysande för den tillfälliga läsaren, och en sammanfattning är därför mer användbar.

Första gången publicerad tisdagen den 28 januari 2025