Intelligenza Artificiale

I "percorsi segreti" che possono eludere i sistemi di riconoscimento dei pedoni

Pubblicato il Gennaio 28, 2025

Martin Anderson

ChatGPT-4o: variazione del prompt: "un'immagine caratteristica 1792x1024 raffigurante una vista aerea ortogonale che guarda dall'alto la zona della 42nd Street di New York. La maggior parte dell'immagine dovrebbe avere una tonalità blu, ma all'interno delle aree dei marciapiedi dovrebbero essere indicati dei percorsi colorati di rosso, come una specie di percorso su mappa. Rendila come The Sims".

Una nuova collaborazione di ricerca tra Israele e Giappone sostiene che i sistemi di rilevamento dei pedoni presentano debolezze intrinseche, consentendo a individui ben informati di eludere i sistemi di riconoscimento facciale orientandosi lungo percorsi attentamente pianificati attraverso aree in cui le reti di sorveglianza sono meno efficaci.

Con l'aiuto di filmati disponibili al pubblico Da Tokyo, New York e San Francisco, i ricercatori hanno sviluppato un metodo automatizzato per calcolare tali percorsi, basato sui più diffusi sistemi di riconoscimento degli oggetti probabilmente utilizzati nelle reti pubbliche.

I tre attraversamenti utilizzati nello studio: Shibuya Crossing a Tokyo, Giappone; Broadway, New York; e Castro District, San Francisco. Fonte: https://arxiv.org/pdf/2501.15653

I tre attraversamenti pedonali utilizzati nello studio: l'incrocio di Shibuya a Tokyo, Giappone; Broadway, New York; e Castro District, San Francisco. Fonte: https://arxiv.org/pdf/2501.15653

Con questo metodo è possibile generare mappe di calore della fiducia che delimitano le aree all'interno del feed della telecamera in cui è meno probabile che i pedoni forniscano un riscontro positivo di riconoscimento facciale:

Sulla destra, vediamo la mappa di calore della fiducia generata dal metodo dei ricercatori. Le aree rosse indicano una bassa fiducia e una configurazione di posizione, posa della telecamera e altri fattori che potrebbero impedire il riconoscimento facciale.

In teoria, un metodo del genere potrebbe essere sfruttato in un'app che riconosce la posizione o in un altro tipo di piattaforma per diffondere i percorsi meno "riconoscibili" da A a B in qualsiasi posizione calcolata.

Il nuovo documento propone tale metodologia, intitolata Tecnica di miglioramento della privacy basata sulla posizione (L-PET); propone inoltre una contromisura denominata Soglia adattiva basata sulla posizione (L-BAT), che sostanzialmente esegue esattamente le stesse routine, ma poi utilizza le informazioni per rafforzare e migliorare le misure di sorveglianza, invece di escogitare modi per evitare di essere riconosciuto; e in molti casi, tali miglioramenti non sarebbero possibili senza ulteriori investimenti nell'infrastruttura di sorveglianza.

Il documento delinea quindi una potenziale guerra tecnologica di escalation tra coloro che cercano di ottimizzare i propri percorsi per evitare di essere scoperti e la capacità dei sistemi di sorveglianza di sfruttare appieno le tecnologie di riconoscimento facciale.

I metodi precedenti di rilevamento del foiling sono meno eleganti di questo e si concentrano su approcci avversariali, come Attacchi TnTe l'uso di motivi stampati per confondere l'algoritmo di rilevamento.

Il lavoro del 2019 "Ingannare le telecamere di sorveglianza automatizzate: patch avversarie per attaccare il rilevamento delle persone" ha dimostrato un modello stampato avversariale in grado di convincere un sistema di riconoscimento che non è stata rilevata alcuna persona, consentendo una sorta di "invisibilità". Fonte: https://arxiv.org/pdf/1904.08653

I ricercatori che hanno redatto il nuovo articolo osservano che il loro approccio richiede una preparazione minore e non necessita di ideare oggetti indossabili antagonisti (vedere l'immagine sopra).

Migliori carta è intitolato Una tecnica di miglioramento della privacy per eludere il rilevamento da parte delle telecamere di videosorveglianza stradali senza utilizzare accessori avversarie proviene da cinque ricercatori della Ben-Gurion University del Negev e della Fujitsu Limited.

Metodo e test

In accordo con lavori precedenti come Maschera avversaria, AdvHat, patch avversarie, e altre uscite simili, i ricercatori presumono che l'"attaccante" pedonale sappia quale sistema di rilevamento degli oggetti viene utilizzato nella rete di sorveglianza. In realtà, questa non è un'ipotesi irragionevole, data l'adozione diffusa di sistemi open source all'avanguardia come YOLO nei sistemi di sorveglianza da parte di aziende come Cisco e Ultralitici (attualmente la forza trainante centrale nello sviluppo di YOLO).

Il documento presuppone inoltre che il pedone abbia accesso a un flusso live su Internet fissato nelle posizioni da calcolare, il che, ancora una volta, è un presupposto ragionevole nella maggior parte dei luoghi in cui è probabile che vi sia una copertura intensa.

siti come 511ny.org offrono accesso a molte telecamere di sorveglianza nell'area di New York. Fonte: https://511ny.or

Siti come 511ny.org offrono accesso a numerose telecamere di sorveglianza nell'area di New York. Fonte: https://511ny.or

Oltre a ciò, il pedone deve avere accesso al metodo proposto e alla scena stessa (vale a dire agli attraversamenti e ai percorsi in cui deve essere stabilito un percorso "sicuro").

Per sviluppare la L-PET, gli autori hanno valutato l'effetto dell'angolazione del pedone rispetto alla telecamera; l'effetto dell'altezza della telecamera; l'effetto della distanza; e l'effetto dell'ora del giorno. Per ottenere la verità di base, hanno fotografato una persona agli angoli 0°, 45°, 90°, 135°, 180°, 225°, 270° e 315°.

Osservazioni concrete condotte dai ricercatori.

Hanno ripetuto queste variazioni a tre diverse altezze della telecamera (0.6 m, 1.8 m, 2.4 m) e con diverse condizioni di illuminazione (mattina, pomeriggio, notte e condizioni di "laboratorio").

Fornire questo filmato al R-CNN più veloce e YOLOv3 rilevatori di oggetti, hanno scoperto che l'affidabilità dell'oggetto dipende dall'ampiezza dell'angolazione del pedone, dalla distanza del pedone, dall'altezza della telecamera e dalle condizioni meteorologiche/di illuminazione*.

Gli autori hanno poi testato una gamma più ampia di rilevatori di oggetti nello stesso scenario: Faster R-CNN; YOLOv3; SSD; DiffusioneDet, E RTMDeselezionare.

Gli autori affermano:

"Abbiamo scoperto che tutte e cinque le architetture dei rilevatori di oggetti sono influenzate dalla posizione del pedone e dalla luce ambientale. Inoltre, abbiamo scoperto che per tre dei cinque modelli (YOLOv3, SSD e RTMDet) l'effetto persiste attraverso tutti i livelli di luce ambientale".

Per ampliare la portata dello studio, i ricercatori hanno utilizzato filmati registrati dalle telecamere del traffico accessibili al pubblico in tre località: l'incrocio di Shibuya a Tokyo, Broadway a New York e il quartiere Castro a San Francisco.

Ogni posizione ha fornito tra cinque e sei registrazioni, con circa quattro ore di riprese per registrazione. Per analizzare le prestazioni di rilevamento, è stato estratto un frame ogni due secondi ed elaborato utilizzando un rilevatore di oggetti Faster R-CNN. Per ogni pixel nei frame ottenuti, il metodo ha stimato la confidenza media della presenza dei bounding box di rilevamento "persona" in quel pixel.

"Abbiamo scoperto che in tutte e tre le posizioni, l'affidabilità del rilevatore di oggetti variava a seconda della posizione delle persone nell'inquadratura. Ad esempio, nel filmato dell'incrocio di Shibuya, ci sono ampie aree di bassa affidabilità più lontane dalla telecamera, così come più vicine alla telecamera, dove un palo oscura parzialmente i pedoni di passaggio".

Il metodo L-PET è essenzialmente questa procedura, presumibilmente "armata" per ottenere un percorso attraverso un'area urbana che abbia meno probabilità di consentire il riconoscimento del pedone.

Al contrario, L-BAT segue la stessa procedura, con la differenza che aggiorna i punteggi nel sistema di rilevamento, creando un ciclo di feedback progettato per ovviare all'approccio L-PET e rendere più efficaci le "aree cieche" del sistema.

(In termini pratici, tuttavia, migliorare la copertura in base alle mappe di calore ottenute richiederebbe più di un semplice aggiornamento della telecamera posizionata nella posizione prevista; in base ai criteri di test, inclusa la posizione, richiederebbe l'installazione di telecamere aggiuntive per coprire le aree trascurate, pertanto si potrebbe sostenere che il metodo L-PET trasforma questa particolare "guerra fredda" in uno scenario davvero molto costoso)

La confidenza media di rilevamento dei pedoni per ogni pixel, attraverso diversi framework di rilevatori, nell'area osservata di Castro Street, analizzata attraverso cinque video. Ogni video è stato registrato in diverse condizioni di illuminazione: alba, giorno, tramonto e due distinte impostazioni notturne. I risultati sono presentati separatamente per ogni scenario di illuminazione.

Dopo aver convertito la rappresentazione della matrice basata sui pixel in una rappresentazione grafica adatti al compito, i ricercatori hanno adattato il Algoritmo di Dijkstra per calcolare i percorsi ottimali che i pedoni devono seguire per muoversi in aree con rilevamento di sorveglianza ridotto.

Invece di trovare il percorso più breve, l'algoritmo è stato modificato per ridurre al minimo la confidenza di rilevamento, trattando le regioni ad alta confidenza come aree con un "costo" più elevato. Questo adattamento ha consentito all'algoritmo di identificare percorsi che attraversano angoli ciechi o zone a bassa rilevazione, guidando efficacemente i pedoni lungo percorsi con visibilità ridotta per i sistemi di sorveglianza.

Una visualizzazione che raffigura la trasformazione della mappa termica della scena da una matrice basata su pixel a una rappresentazione basata su grafici.

Una visualizzazione che illustra la trasformazione della mappa termica della scena da una matrice basata su pixel a una rappresentazione basata su grafici.

I ricercatori hanno valutato l'impatto del sistema L-BAT sul rilevamento dei pedoni con un set di dati costruito dalle suddette registrazioni di quattro ore del traffico pedonale pubblico. Per popolare la raccolta, un frame è stato elaborato ogni due secondi utilizzando un rilevatore di oggetti SSD.

Da ogni frame, è stato selezionato un bounding box contenente una persona rilevata come campione positivo, e un'altra area casuale senza persone rilevate è stata utilizzata come campione negativo. Questi campioni gemelli hanno formato un set di dati per valutare due modelli Faster R-CNN, uno con L-BAT applicato e uno senza.

Le prestazioni dei modelli sono state valutate verificando la precisione con cui identificavano campioni positivi e negativi: un riquadro di delimitazione sovrapposto a un campione positivo è stato considerato un vero positivo, mentre un riquadro di delimitazione sovrapposto a un campione negativo è stato etichettato come falso positivo.

Le metriche utilizzate per determinare l'affidabilità del rilevamento di L-BAT sono state Area sotto la curva (UCA); tasso di veri positivi (TPR); tasso di falsi positivi (FPR); e confidenza media dei veri positivi. I ricercatori affermano che l'uso di L-BAT ha migliorato la confidenza di rilevamento mantenendo un alto tasso di veri positivi (sebbene con un leggero aumento dei falsi positivi).

In chiusura, gli autori notano che l'approccio presenta alcune limitazioni. Una è che le mappe di calore generate dal loro metodo sono specifiche per un particolare momento della giornata. Sebbene non ne parlino, ciò indicherebbe che sarebbe necessario un approccio più ampio e multilivello per tenere conto del momento della giornata in un'implementazione più flessibile.

Osservano inoltre che le heatmap non si trasferiranno a diverse architetture di modelli e sono legate a uno specifico modello di rilevatore di oggetti. Poiché il lavoro proposto è essenzialmente una prova di concetto, potrebbero presumibilmente essere sviluppate anche architetture più abili per rimediare a questo debito tecnico.

Conclusione

Ogni nuovo metodo di attacco per il quale la soluzione è "pagare per nuove telecamere di sorveglianza" ha qualche vantaggio, poiché l'espansione delle reti di telecamere civiche in aree altamente sorvegliate può essere politicamente impegnativo, oltre a rappresentare una notevole spesa civica che solitamente richiederà un mandato da parte degli elettori.

Forse la domanda più grande posta dall'opera è "I sistemi di sorveglianza closed-source sfruttano framework SOTA open source come YOLO?". Ovviamente, è impossibile saperlo, poiché i creatori dei sistemi proprietari che alimentano così tante reti di telecamere statali e civiche (almeno negli Stati Uniti) sosterrebbero che rivelare tale utilizzo potrebbe esporli ad attacchi.

Ciononostante, la migrazione dell'IT governativo e del codice proprietario interno al codice globale e open source suggerirebbe che chiunque testasse la tesi degli autori con (ad esempio) YOLO potrebbe benissimo fare immediatamente centro.

* Normalmente includerei i risultati delle tabelle correlate quando sono forniti nell'articolo, ma in questo caso la complessità delle tabelle dell'articolo le rende poco illuminanti per il lettore occasionale e pertanto un riepilogo risulta più utile.

Prima pubblicazione martedì 28 gennaio 2025

Martin Anderson

Scrittore di machine learning, specialista di dominio nella sintesi di immagini umane. Ex responsabile dei contenuti di ricerca presso Metaphysic.ai.
Sito personale: martinandson.ai
Contatti: [email protected]
Twitter: @manders_ai

Unite.AI

I "percorsi segreti" che possono eludere i sistemi di riconoscimento dei pedoni

Metodo e test

Conclusione

Ti potrebbe piacere