Angolo di Anderson

Rilevamento del contatto visivo da pose del corpo con apprendimento automatico

mm

I ricercatori di Francia e Svizzera hanno sviluppato un sistema di visione computerizzata in grado di stimare se una persona stia guardando direttamente la “camera ego” di un sistema di intelligenza artificiale basandosi solo sul modo in cui la persona si trova in piedi o si muove.

Il nuovo framework utilizza informazioni molto riduttive per effettuare questa valutazione, sotto forma di punti chiave semantici (vedi immagine sotto), piuttosto che analizzare principalmente la posizione degli occhi nelle immagini dei volti. Ciò rende il metodo di rilevamento risultante molto leggero e agile, rispetto ad architetture di rilevamento di oggetti più datore-intensive, come YOLO.

Il nuovo framework valuta se una persona per strada stia guardando il sensore di cattura dell'AI, basandosi solo sulla disposizione del suo corpo. Qui, le persone evidenziate in verde sono probabilmente quelle che stanno guardando la camera, mentre quelle in rosso sono più probabilmente quelle che stanno guardando altrove. Fonte: https://arxiv.org/pdf/2112.04212.pdf

Il nuovo framework valuta se una persona per strada stia guardando il sensore di cattura dell’AI, basandosi solo sulla disposizione del suo corpo. Qui, le persone evidenziate in verde sono probabilmente quelle che stanno guardando la camera, mentre quelle in rosso sono più probabilmente quelle che stanno guardando altrove. Fonte: https://arxiv.org/pdf/2112.04212.pdf

Sebbene il lavoro sia motivato dallo sviluppo di migliori sistemi di sicurezza per veicoli autonomi, gli autori del nuovo articolo ammettono che potrebbe avere applicazioni più generali in altri settori, osservando ‘anche nelle città intelligenti, il rilevamento del contatto visivo può essere utile per comprendere meglio i comportamenti dei pedoni, ad esempio identificare dove si concentrano le loro attenzioni o quali segnali pubblici stanno guardando’.

Per aiutare ulteriori sviluppi di questo e successivi sistemi, i ricercatori hanno compilato un nuovo e completo set di dati chiamato LOOK, che affronta direttamente le sfide specifiche del rilevamento del contatto visivo in scenari arbitrari come scene stradali percepite dalla telecamera di un veicolo autonomo, o scene di folla casuale attraverso cui un robot potrebbe dover navigare e deferire al percorso dei pedoni.

Risultati del framework, con 'guardanti' identificati in verde.

Risultati del framework, con ‘guardanti’ identificati in verde.

La ricerca è intitolata Do Pedestrians Pay Attention? Eye Contact Detection in the Wild, e proviene da quattro ricercatori dell’iniziativa di ricerca Visual Intelligence for Transportation (VITA) in Svizzera, e uno della Sorbonne Université.

Architettura

La maggior parte dei lavori precedenti in questo campo si è concentrata sull’attenzione del conducente, utilizzando l’apprendimento automatico per analizzare l’output delle telecamere rivolte al conducente, e facendo affidamento su una vista costante, fissa e ravvicinata del conducente – un lusso che non è probabile essere disponibile nei feed a bassa risoluzione delle telecamere pubbliche, dove le persone possono essere troppo lontane per un sistema di analisi del viso per risolvere la loro disposizione degli occhi, e dove altre occlusioni (come gli occhiali da sole) si frappongono anche.

More centrale all’obiettivo del progetto, le telecamere rivolte all’esterno nei veicoli autonomi non saranno necessariamente in uno scenario ottimale, rendendo l’informazione ‘di basso livello’ dei punti chiave ideale come base per un framework di analisi dello sguardo. I sistemi di veicoli autonomi necessitano di un modo altamente reattivo e veloce per comprendere se un pedone – che potrebbe scendere dal marciapiede nel percorso del veicolo – ha visto il veicolo autonomo. In tale situazione, la latenza potrebbe significare la differenza tra la vita e la morte.

L’architettura modulare sviluppata dai ricercatori accetta un’immagine (di solito) a corpo intero di una persona da cui vengono estratti 2D articolazioni in una forma base, scheletrica.

L'architettura del nuovo sistema di rilevamento del contatto visivo franco-svizzero.

L’architettura del nuovo sistema di rilevamento del contatto visivo franco-svizzero.

La posa viene normalizzata per rimuovere le informazioni sull’asse Y, per creare una rappresentazione ‘piatta’ della posa che la mette in parità con le migliaia di pose conosciute apprese dall’algoritmo (che sono state anch’esse ‘appiattite’), e le loro bandiere binarie/etichette associate (ad esempio 0: Non guardando o 1:Guardando).

La posa viene confrontata con la conoscenza interna dell’algoritmo di come corrisponde bene quella postura a immagini di altri pedoni che sono stati identificati come ‘guardanti la camera’ – annotazioni fatte utilizzando strumenti personalizzati del browser sviluppati dagli autori per i lavoratori di Amazon Mechanical Turk che hanno partecipato allo sviluppo del set di dati LOOK.

Ogni immagine in LOOK è stata soggetta a scrutinio da parte di quattro lavoratori di AMT, e solo le immagini in cui tre lavoratori su quattro hanno concordato sull’esito sono state incluse nella raccolta finale.

Le informazioni sulla raccolta della testa, il nucleo di molto lavoro precedente, sono tra gli indicatori di sguardo meno affidabili in scenari urbani arbitrari, e vengono incorporate come flusso di dati opzionale nell’architettura dove la qualità di cattura e la copertura sono sufficienti per supportare una decisione su se la persona stia guardando la camera o no. Nel caso di persone molto lontane, ciò non sarà un dato utile.

Dati

I ricercatori hanno derivato LOOK da diversi set di dati precedenti che non sono per default adatti a questo compito. I due unici set di dati che condividono direttamente l’ambito del progetto sono JAAD e PIE, e ciascuno ha limitazioni.

JAAD è un’offerta del 2017 dell’Università di York a Toronto, contenente 390.000 esempi etichettati di pedoni, comprese scatole delimitanti e annotazioni di comportamento. Di questi, solo 17.000 sono etichettati come Guardanti il conducente (ad esempio la camera ego). Il set di dati presenta 346 clip a 30 fps che girano a 5-10 secondi di filmati della telecamera a bordo registrati in Nord America ed Europa. JAAD ha un alto incidente di ripetizioni, e il numero totale di pedoni unici è solo 686.

Il più recente (2019) PIE, dell’Università di York a Toronto, è simile a JAAD, in quanto presenta filmati a bordo a 30 fps, questa volta derivati da sei ore di guida attraverso il centro di Toronto, che produce 700.000 pedoni annotati e 1.842 pedoni unici, solo 180 dei quali stanno guardando la camera.

Invece, i ricercatori per il nuovo articolo hanno compilato i dati più adatti da tre set di dati precedenti di guida autonoma: KITTI, JRDB, e NuScenes, rispettivamente dal Karlsruhe Institute of Technology in Germania, Stanford e Monash University in Australia, e uno spin-off di MIT.

Questa cura ha portato a un insieme molto diversificato di catture da quattro città – Boston, Singapore, Tübingen e Palo Alto. Con circa 8000 prospettive di pedoni etichettate, gli autori sostengono che LOOK sia il set di dati più diversificato per il rilevamento del contatto visivo ‘in natura’.

Formazione e risultati

Estrazione, formazione e valutazione sono state eseguite su un’unica NVIDIA GeForce GTX 1080ti con 11gb di VRAM, operante su un processore Intel Core i7-8700 a 3,20GHz.

Gli autori hanno scoperto che il loro metodo non solo migliora le basi SOTA di almeno il 5%, ma anche che i modelli risultanti formati su JAAD generalizzano molto bene sui dati non visti, uno scenario testato incrociando una serie di set di dati.

Dal momento che il test eseguito era complesso e doveva fare provisione per modelli basati su ritagli (mentre l’isolamento e il ritaglio del viso non sono centrali nell’architettura della nuova iniziativa), vedere l’articolo per i risultati dettagliati.

Risultati per la precisione media (AP) come percentuale e funzione dell'altezza della scatola delimitante in pixel per il test attraverso il set di dati JAAD, con i risultati degli autori in grassetto.

Risultati per la precisione media (AP) come percentuale e funzione dell’altezza della scatola delimitante in pixel per il test attraverso il set di dati JAAD, con i risultati degli autori in grassetto.

I ricercatori hanno rilasciato il loro codice pubblicamente, con il set di dati disponibile qui, e il codice sorgente su GitHub.

Gli autori concludono con la speranza che il loro lavoro ispiri ulteriori sforzi di ricerca in quello che descrivono come un ‘argomento importante ma trascurato’.

JAAD dataset, con i risultati degli autori in grassetto.[/caption] I ricercatori hanno rilasciato il loro codice pubblicamente, con il set di dati disponibile qui, e il codice sorgente su GitHub. Gli autori concludono con la speranza che il loro lavoro ispiri ulteriori sforzi di ricerca in quello che descrivono come un ‘argomento importante ma trascurato’.

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.