Kontakt med oss

Kunstig intelligens

Oppdager øyekontakt fra kroppspositur med maskinlæring

mm

Forskere fra Frankrike og Sveits har utviklet et datasynssystem som kan anslå om en person ser direkte inn i «ego»-kameraet til et AI-system, utelukkende basert på måten personen står eller beveger seg på.

Det nye rammeverket bruker svært reduktiv informasjon for å gjøre denne vurderingen, i form av semantiske nøkkelpunkter (se bildet nedenfor), i stedet for å først og fremst forsøke å analysere øyeposisjon i bilder av ansikter. Dette gjør den resulterende deteksjonsmetoden veldig lett og smidig, sammenlignet med mer dataintensive objektdeteksjonsarkitekturer, slik som YOLO.

Det nye rammeverket evaluerer om en person på gaten ser på AIs fangstsensor eller ikke, utelukkende basert på kroppens disposisjon. Her er det sannsynlig at personer som er uthevet i grønt, ser på kameraet, mens de i rødt er mer sannsynlig å se bort. Kilde: https://arxiv.org/pdf/2112.04212.pdf

Det nye rammeverket evaluerer hvorvidt en person på gaten ser på AI-ens opptakssensor, utelukkende basert på kroppens holdning. Her er det mer sannsynlig at personer markert med grønt ser på kameraet, mens de markert med rødt ser bort. Kilde: https://arxiv.org/pdf/2112.04212.pdf

Selv om arbeidet er motivert av utviklingen av bedre sikkerhetssystemer for autonome kjøretøy, innrømmer forfatterne av den nye artikkelen at den kan ha mer generelle anvendelser på tvers av andre bransjer, og observerer «Selv i smarte byer kan øyekontaktdeteksjon være nyttig for å bedre forstå fotgjengeres atferd, f.eks. identifisere hvor oppmerksomheten deres går eller hvilke offentlige skilt de ser på.».

For å hjelpe videreutviklingen av dette og påfølgende systemer, har forskerne satt sammen et nytt og omfattende datasett kalt LOOK, som direkte adresserer de spesifikke utfordringene med øyekontaktdeteksjon i vilkårlige scenarier som gatescener oppfattet fra det omstreifende kameraet til en selvkjørende kjøretøy, eller tilfeldige publikumsscener der en robot kan trenge å navigere og utsette seg for fotgjengere.

Resultater fra rammeverket, med "lookers" identifisert i grønt.

Resultater fra rammeverket, med «oversiktspersoner» markert med grønt.

Ocuco forskning har tittelen Tar fotgjengere oppmerksomhet? Øyekontaktdeteksjon i naturen, og kommer fra fire forskere ved forskningsinitiativet Visual Intelligence for Transportation (VITA) i Sveits, og en ved Sorbonne Université.

arkitektur

Det meste av tidligere arbeid på dette feltet har vært sentrert rundt sjåførens oppmerksomhet, ved å bruke maskinlæring til å analysere utdataene fra kameraer vendt mot sjåføren, og ved å stole på et konstant, fast og nært syn på sjåføren – en luksus som neppe er tilgjengelig i de ofte lavoppløselige feedene fra offentlige TV-kameraer, der folk kan være for langt unna til at et ansiktsanalysesystem kan løse øyets disposisjon, og der andre okklusjoner (som solbriller) også kommer i veien.

Mer sentralt for prosjektets uttalte mål er det at de utovervendte kameraene i autonome kjøretøy heller ikke nødvendigvis vil være i et optimalt scenario, noe som gjør «lavnivå»-nøkkelpunktinformasjon ideelt som grunnlag for et rammeverk for blikkanalyse. Autonome kjøretøysystemer trenger en svært responsiv og lynrask måte å forstå om en fotgjenger – som kan gå av fortauet og ut i bilens vei – har sett det autonome kjøretøyet. I en slik situasjon kan latens bety forskjellen mellom liv og død.

Den modulære arkitekturen utviklet av forskerne tar inn et (vanligvis) helkroppsbilde av en person som 2D-ledd trekkes ut fra til en base, skjelettform.

Arkitekturen til det nye fransk/sveitsiske øyekontaktdeteksjonssystemet.

Arkitekturen til det nye fransk/sveitsiske øyekontaktdeteksjonssystemet.

Positionen normaliseres for å fjerne informasjon på Y-aksen, for å lage en «flat» representasjon av posituren som setter den i paritet med de tusenvis av kjente positurene som er lært av algoritmen (som også har blitt «flatet»), og deres tilhørende binære flagg/etiketter (dvs. 0: Ser ikke or 1: Ser).

Posisjonen sammenlignes med algoritmens interne kunnskap om hvor godt denne holdningen samsvarer med bilder av andre fotgjengere som har blitt identifisert som «ser inn i kameraet» – merknader laget ved hjelp av tilpassede nettleserverktøy utviklet av forfatterne for Amazon Mechanical Turk-arbeiderne som deltok i utviklingen av LOOK-datasettet.

Hvert bilde i LOOK ble gjenstand for gransking av fire AMT-arbeidere, og kun bilder der tre av fire var enige om resultatet ble inkludert i den endelige samlingen.

Hodeavlingsinformasjon, kjernen i mye tidligere arbeid, er blant de minst pålitelige indikatorene for blikk i vilkårlige urbane scenarier, og er integrert som en valgfri datastrøm i arkitekturen der fangstkvaliteten og dekningen er tilstrekkelig til å støtte en beslutning om hvorvidt person ser på kameraet eller ikke. Når det gjelder mennesker som er langt unna, vil ikke dette være nyttige data.

Data

Forskerne utledet LOOK fra flere tidligere datasett som ikke som standard er egnet for denne oppgaven. De eneste to datasettene som direkte deler prosjektets omfang er JAAD og PIE, og hver har begrensninger.

JAAD er et 2017-tilbud fra York University i Toronto, som inneholder 390,000 17,000 merkede eksempler på fotgjengere, inkludert avgrensingsbokser og adferdsanmerkninger. Av disse er bare XNUMX XNUMX merket som Ser på sjåføren (dvs. ego-kameraet). Datasettet inneholder 346 30fps-klipp som kjører på 5–10 sekunder med innebygde kameraopptak tatt opp i Nord-Amerika og Europa. JAAD har et høyt antall gjentakelser, og det totale antallet unike fotgjengere er bare 686.

Den nyere (2019) PIE, fra York University i Toronto, ligner på JAAD, ved at den har innebygde 30fps-opptak, denne gangen hentet fra seks timers kjøring gjennom Toronto sentrum, som gir 700,000 1,842 kommenterte fotgjengere og 180 unike fotgjengere, hvorav bare XNUMX ser mot kameraet.

I stedet kompilerte forskerne for den nye artikkelen de mest passende dataene fra tre tidligere datasett for autonom kjøring: KITTI, JRDBog NuScenes, henholdsvis fra Karlsruhe Institute of Technology i Tyskland, Stanford og Monash University i Australia, og en gang MIT spin-off Nutonomy.

Denne kurateringen resulterte i et bredt variert sett med bilder fra fire byer – Boston, Singapore, Tübingen og Palo Alto. Med rundt 8000 merkede fotgjengerperspektiver hevder forfatterne at LOOK er det mest varierte datasettet for øyekontaktdeteksjon «i naturen».

Trening og resultater

Ekstraksjon, trening og evaluering ble alle utført på en enkelt NVIDIA GeForce GTX 1080ti med 11 GB VRAM, som opererer på en Intel Core i7-8700 CPU som kjører på 3.20 GHz.

Forfatterne fant at metoden deres ikke bare forbedres på SOTA-grunnlinjer med minst 5 %, men også at de resulterende modellene som er trent på JAAD, generaliserer veldig godt til usynlige data, et scenario som er testet ved å kryssmikse en rekke datasett.

Siden testingen som ble utført var kompleks og måtte legge til rette for avlingsbaserte modeller (selv om ansiktsisolering og beskjæring ikke er sentralt i det nye initiativets arkitektur), se artikkelen for detaljerte resultater.

Resultater for gjennomsnittlig presisjon (AP) som en prosentandel og funksjon av grenserammehøyde i piksler for testing på tvers av JAAD-datasettet, med forfatternes resultater i fet skrift.

Resultater for gjennomsnittlig presisjon (AP) som prosentandel og funksjon av avgrensningsbokshøyde i piksler for testing på tvers av JAAD-datasettet, med forfatternes resultater i fet skrift.

Forskerne har gitt ut koden sin offentlig, med datasettet tilgjengelig her., og kildekoden på GitHub.

Forfatterne konkluderer med forhåpninger om at arbeidet deres vil inspirere til videre forskningsarbeid i det de beskriver som en «viktig, men oversett tema».

 

Forfatter på maskinlæring, domenespesialist i menneskelig bildesyntese. Tidligere leder for forskningsinnhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-postbeskyttet]
Twitter: @manders_ai