Connect with us

L’AI Svela l’Attività Segreta Rivelata dalle Pareti Vuote

Sorveglianza

L’AI Svela l’Attività Segreta Rivelata dalle Pareti Vuote

mm

Una collaborazione di ricerca, che include contributori da NVIDIA e MIT, ha sviluppato un metodo di apprendimento automatico che può identificare persone nascoste semplicemente osservando l’illuminazione indiretta su una parete vicina, anche quando le persone non sono vicine alle fonti di luce. Il metodo ha un’accuratezza vicina al 94% quando tenta di identificare il numero di persone nascoste e può anche identificare l’attività specifica di una persona nascosta amplificando massicciamente i rimbalzi di luce che sono invisibili agli occhi umani e ai metodi standard di amplificazione dell’immagine.

Imperceptibili perturbazioni di luce, amplificate dal nuovo metodo, che utilizza reti neurali convoluzionali per identificare aree di cambiamento. Source: https://www.youtube.com/watch?v=K4PapXyX-bI

Imperceptibili perturbazioni di luce, amplificate dal nuovo metodo, che utilizza reti neurali convoluzionali per identificare aree di cambiamento. Source: https://www.youtube.com/watch?v=K4PapXyX-bI

Il nuovo paper è intitolato Cosa Puoi Imparare Guardando una Parete Vuota, con contributi da NVIDIA e MIT, nonché dall’Istituto di Tecnologia di Israele.

Gli approcci precedenti per “vedere intorno ai muri” si sono basati su fonti di luce controllabili o su conoscenze pregresse di fonti di oscuramento note, mentre la nuova tecnica può generalizzare a qualsiasi nuova stanza, senza richiedere una ricallibratura. Le due reti neurali convoluzionali che individuano le persone nascoste hanno utilizzato dati ottenuti da solo 20 scene.

Il progetto è rivolto a situazioni ad alto rischio, critiche per la sicurezza, per operazioni di ricerca e salvataggio, compiti di sorveglianza generale della polizia, scenari di risposta di emergenza, per la rilevazione delle cadute tra gli anziani e come mezzo per rilevare pedoni nascosti per veicoli autonomi.

Valutazione Passiva

Come spesso accade nei progetti di visione computerizzata, il compito centrale era identificare, classificare e operazionalizzare i cambiamenti di stato percepiti in un flusso di immagini. Concatenare i cambiamenti conduce a modelli di firma che possono essere utilizzati per identificare un numero di individui o per rilevare l’attività di uno o più individui.

Il lavoro apre la possibilità di una valutazione della scena completamente passiva, senza la necessità di utilizzare superfici riflettenti, segnali Wi-Fi, radar, suono o qualsiasi altra “circostanza speciale” richiesta in altri sforzi di ricerca degli ultimi anni che hanno cercato di stabilire la presenza umana nascosta in un ambiente pericoloso o critico.

Un esempio di scenario di raccolta dei dati utilizzato per la nuova ricerca. I soggetti sono posizionati con cura per non proiettare ombre o oscurare direttamente le luci, e non sono ammesse superfici riflettenti o altri “vettori di imbroglio”. Source: https://arxiv.org/pdf/2108.13027.pdf

Effettivamente, la luce ambientale per lo scenario tipico previsto per l’applicazione sovrasterebbe qualsiasi perturbazione minore causata dalla luce riflessa dalle persone nascoste altrove nella scena. I ricercatori calcolano che il contributo della luce-disturbazione degli individui sarebbe tipicamente inferiore all’1% della luce visibile totale.

Rimozione dell’Illuminazione Statica

Per estrarre il movimento da un’immagine di parete apparentemente statica, è necessario calcolare la media temporale del video e rimuoverla da ogni frame. I modelli di movimento risultanti sono solitamente al di sotto della soglia di rumore anche di attrezzature video di buona qualità, e in effetti gran parte del movimento si verifica all’interno di uno spazio di pixel negativi.

Per rimediare a ciò, i ricercatori campionano il video con un fattore di 16 e lo riportano a una scala superiore con un fattore di 50, aggiungendo un livello di grigio medio per discernere la presenza di pixel negativi (che non potevano essere contabilizzati dal rumore della sensore video di base).

La differenza tra la parete percepita dall'uomo e la perturbazione estratta di individui nascosti. Poiché la qualità dell'immagine è un problema centrale in questa ricerca, si prega di fare riferimento al video ufficiale alla fine dell'articolo per un'immagine di qualità superiore.

La differenza tra la parete percepita dall’uomo e la perturbazione estratta di individui nascosti. Poiché la qualità dell’immagine è un problema centrale in questa ricerca, si prega di fare riferimento al video ufficiale alla fine dell’articolo per un’immagine di qualità superiore.

La finestra di opportunità per percepire il movimento è molto fragile e può essere influenzata anche dal flicker delle luci a una frequenza di 60 Hz AC. Pertanto, anche questa perturbazione naturale deve essere valutata e rimossa dal footage prima che emerga il movimento indotto dalle persone.

Infine, il sistema produce tracciati spazio-temporali che segnalano un numero specifico di abitanti della stanza nascosti – firme visive discrete:

Tracciati spazio-temporali di firma che rappresentano diversi numeri di persone nascoste in una stanza.

Tracciati spazio-temporali di firma che rappresentano diversi numeri di persone nascoste in una stanza.

Diverse attività umane produrranno anche perturbazioni di firma che possono essere classificate e successivamente riconosciute:

I tracciati spazio-temporali di firma per inattività, camminata, accosciamento, oscillazione delle mani e salto.

I tracciati spazio-temporali di firma per inattività, camminata, accosciamento, oscillazione delle mani e salto.

Al fine di produrre un flusso di lavoro automatizzato basato sull’apprendimento automatico per il riconoscimento di persone nascoste, sono stati utilizzati footage variati da 20 scenari appropriati per addestrare due reti neurali che operano su configurazioni ampiamente simili – una per contare il numero di persone in una scena e l’altra per identificare qualsiasi movimento che si verifichi.

Test

I ricercatori hanno testato il sistema addestrato in dieci ambienti reali non visti progettati per ricreare le limitazioni anticipate per il dispiegamento finale. Il sistema è stato in grado di raggiungere un’accuratezza del 94,4% (su 256 frame – tipicamente poco più di 8 secondi di video) nella classificazione del numero di persone nascoste e fino al 93,7% (nelle stesse condizioni) nella classificazione delle attività. Sebbene l’accuratezza diminuisca con meno frame di origine, non è una diminuzione lineare, e anche 64 frame possono raggiungere un tasso di accuratezza del 79,4% per la valutazione del “numero di persone” (contro quasi il 95% per quattro volte il numero di frame).

Sebbene il metodo sia robusto rispetto ai cambiamenti di luce dovuti al tempo, fatica in una scena illuminata da un televisore o in circostanze in cui le persone indossano abbigliamento monocromatico dello stesso colore della parete riflettente.

Ulteriori dettagli della ricerca, compresi footage di qualità superiore delle estrazioni, possono essere visti nel video ufficiale qui sotto.

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.