Kunstig intelligens
Deteksjon av øyekontakt fra kroppsholdning med maskinlæring

Forskere fra Frankrike og Sveits har utviklet et datavisjonssystem som kan anslå om en person ser direkte på ‘ego’-kameraet til et AI-system basert bare på måten personen står eller beveger seg på.
Det nye rammeverket bruker svært redusert informasjon for å gjøre denne vurderingen, i form av semantiske nøkkelpunkter (se bildet under), i stedet for å forsøke å analysere øyeposisjon i bilder av ansikter. Dette gjør den resulterende deteksjonsmetoden svært lett og smidig, i sammenligning med mer dataintensive objektgjenkjenningarkitekturer, som YOLO.

Det nye rammeverket vurderer om en person på gaten ser på AI-sensoren, basert bare på kroppsholdningen. Her er personer som er merket med grønt sannsynligvis å se på kameraet, mens de som er merket med rødt er mer sannsynlig å se bort. Source: https://arxiv.org/pdf/2112.04212.pdf
Selv om arbeidet er motivert av utviklingen av bedre sikkerhetssystemer for autonome kjøretøy, innrømmer forfatterne av den nye artikkelen at det kunne ha mer generelle anvendelser i andre industrier, og observerer ‘even i smarte byer, kan øyekontaktdeteksjon være nyttig for å bedre forstå fotgjengeres atferd, f.eks. identifisere hvor deres oppmerksomhet går eller hva offentlige skilt de ser på’.
For å hjelpe med videre utvikling av dette og påfølgende systemer, har forskerne samlet en ny og omfattende datasett kalt LOOK, som direkte adresserer de spesifikke utfordringene med øyekontaktdeteksjon i vilkårlige scenarier som gatebilder oppfattet fra et selvstyrt kjøretøys kamera, eller uformelle folkemengder som en robot må navigere og vike for fotgjenernes vei.

Resultater fra rammeverket, med ‘seere’ identifisert i grønt.
Forskningen er tittelen forskning og har tittelen Do Pedestrians Pay Attention? Eye Contact Detection in the Wild, og kommer fra fire forskere ved Visual Intelligence for Transportation (VITA) forskningsinitiativet i Sveits, og en ved Sorbonne Université.
Arkitektur
De fleste tidligere arbeider i dette feltet har vært sentrert på sjåfør oppmerksomhet, og har brukt maskinlæring til å analysere utgangen fra sjåfør-orienterte kameraer, og har avhengig av en konstant, fast og nært syn på sjåføren – en luksus som ikke er sannsynlig å være tilgjengelig i de ofte lavoppløste strømmene av offentlige TV-kameraer, hvor personer kan være for langt borte for et ansiktsanalyse-system å løse deres øyedisposisjon, og hvor andre forstyrrelser (som solbriller) også kommer i veien.
Mer sentral til prosjektets uttalte mål, vil de utvendige kameraene i autonome kjøretøy ikke nødvendigvis være i en optimal situasjon heller, og gjør ‘lav-nivå’ nøkkelinformasjon ideell som basis for en gaze-analyse rammeverk. Autonome kjøretøysystemer trenger en svært responsiv og lyn-rask måte å forstå om en fotgjenger – som kan gå av fortauet inn i kjøretøys banen – har sett AV. I en slik situasjon kan forsinkelse bety forskjellen mellom liv og død.
Den modulære arkitekturen utviklet av forskerne tar inn et (vanligvis) fullkropps bilde av en person fra hvilken 2D ledd er trukket ut i en base, skjelettform.

Arkitekturen til det nye fransk-sveitsiske øyekontaktdetekteringssystemet.
Kroppsholdningen er normalisert for å fjerne informasjon om Y-aksen, for å skape en ‘flat’ representasjon av kroppsholdningen som setter den i paritet med de tusenvis av kjente kroppsholdninger som er lært av algoritmen (som også er ‘flattet’), og deres assosierte binære flagg/merker (dvs. 0: Ikke ser eller 1:Ser).
Kroppsholdningen sammenlignes med algoritmens interne kunnskap om hvor godt den posturen korresponderer med bilder av andre fotgjengere som er identifisert som ‘ser på kamera’ – annotasjoner gjort ved hjelp av tilpassede nettleser-verktøy utviklet av forfatterne for Amazon Mechanical Turk-arbeiderne som deltok i utviklingen av LOOK-datasettet.
Hver bilde i LOOK var underlagt skarpsyn av fire AMT-arbeidere, og bare bilder hvor tre av fire var enige om resultatet ble inkludert i den endelige samlingen.
Hodekroppsinformasjon, kjernen i mye tidligere arbeid, er blant de minst pålitelige indikatorer for gaze i vilkårlige byscenarier, og er inkludert som en valgfri datastrøm i arkitekturen hvor opptakskvaliteten og dekningen er tilstrekkelig til å støtte en beslutning om hvorvidt personen ser på kameraet eller ikke. I tilfelle av svært fjerne personer, vil dette ikke være nyttig informasjon.
Data
Forskerne har avledet LOOK fra flere tidligere datasett som ikke er egnet for denne oppgaven. De to datasettene som direkte deler prosjektets ambisjon er JAAD og PIE, og hver har begrensninger.
JAAD er et tilbud fra 2017 fra York University i Toronto, som inneholder 390 000 merkte eksempler på fotgjengere, inkludert bounding bokser og atferdsannotasjoner. Av disse er bare 17 000 merket som Se på sjåføren (dvs. ego-kameraet). Datasettet inneholder 346 30fps-klipp som kjører i 5-10 sekunder av on-board kameraopptak innspilt i Nord-Amerika og Europa. JAAD har en høy forekomst av gjentakelser, og det totale antallet unike fotgjengere er bare 686.
Det mer nylige (2019) PIE, fra York University i Toronto, er lignende JAAD, i og med at det inneholder on-board 30fps-opptak, denne gangen avledet fra seks timers kjøring gjennom downtown Toronto, som gir 700 000 annoterte fotgjengere og 1 842 unike fotgjengere, hvor bare 180 ser på kameraet.
I stedet har forskerne for den nye artikkelen samlet den mest egnede data fra tre tidligere autonome kjøringdatasett: KITTI, JRDB og NuScenes, henholdsvis fra Karlsruhe Institute of Technology i Tyskland, Stanford og Monash University i Australia, og en tidligere MIT-spin-off Nutonomy.
Denne kurasjonen resulterte i en svært diversifisert samling av opptak fra fire byer – Boston, Singapore, Tübingen og Palo Alto. Med rundt 8000 merkte fotgjengerperspektiver, hevder forfatterne at LOOK er det mest diverse datasettet for ‘i villmark’ øyekontaktdeteksjon.
Trening og resultater
Ekstraksjon, trening og evaluering ble alle utført på en enkelt NVIDIA GeForce GTX 1080ti med 11gb VRAM, som opererte på en Intel Core i7-8700 CPU som kjørte på 3,20GHz.
Forfatterne fant at ikke bare deres metode forbedrer SOTA-baselinjer med minst 5%, men også at de resulterende modellene trent på JAAD generaliserer svært godt til usette data, en scenario testet ved å blande en rekke datasett.
Siden testingen var kompleks, og måtte gjøre provisjon for avkroppsmodeller (mens ansiktsisolering og avkropping ikke er sentrale i den nye initiativets arkitektur), se artikkelen for detaljerte resultater.

Resultater for gjennomsnittlig presisjon (AP) som prosent og funksjon av bounding boks høyde i piksler for testing over JAAD-datasettet, med forfatternes resultater i fet skrift.
Forskerne har gjort koden offentlig tilgjengelig, med datasettet tilgjengelig her, og kildekoden på GitHub.
Forfatterne konkluderer med håp om at deres arbeid vil inspirere videre forskningsinnsats i hva de beskriver som en ‘viktig men oversett emne’.












