Kunstig intelligens
Registrering af øjenkontakt fra kropspositur med maskinindlæring

Forskere fra Frankrig og Schweiz har udviklet et computervisionssystem, der kan vurdere, om en person ser direkte ind i 'ego'-kameraet i et AI-system, udelukkende baseret på den måde, personen står eller bevæger sig på.
Den nye ramme bruger meget reduktiv information til at foretage denne vurdering, i form af semantiske nøglepunkter (se billedet nedenfor), snarere end at forsøge primært at analysere øjenposition i billeder af ansigter. Dette gør den resulterende detekteringsmetode meget let og smidig sammenlignet med mere dataintensive objektdetekteringsarkitekturer, såsom YOLO.

Det nye framework evaluerer, om en person på gaden kigger på AI'ens optagesensor, udelukkende baseret på deres kropsholdning. Her er det sandsynligt, at personer markeret med grønt kigger på kameraet, mens dem markeret med rødt er mere tilbøjelige til at kigge væk. Kilde: https://arxiv.org/pdf/2112.04212.pdf
Selvom arbejdet er motiveret af udviklingen af bedre sikkerhedssystemer til autonome køretøjer, indrømmer forfatterne af det nye papir, at det kunne have mere generelle anvendelser på tværs af andre industrier, idet de observerer Selv i smarte byer kan øjenkontaktdetektion være nyttig til bedre at forstå fodgængeres adfærd, f.eks. til at identificere, hvor deres opmærksomhed går hen, eller hvilke offentlige skilte de kigger på..
For at hjælpe med videreudviklingen af dette og efterfølgende systemer har forskerne udarbejdet et nyt og omfattende datasæt kaldet LOOK, som direkte adresserer de specifikke udfordringer ved øjenkontaktdetektion i vilkårlige scenarier, såsom gadebilleder opfattet fra et selvkørende kamera. køretøj eller tilfældige publikumsscener, hvorigennem en robot muligvis skal navigere og udskyde fodgængeres vej.

Resultater fra rammeværket, hvor 'observatører' er markeret med grønt.
forskning er titlen Er fodgængere opmærksomme? Øjenkontaktdetektion i naturen, og kommer fra fire forskere ved forskningsinitiativet Visual Intelligence for Transportation (VITA) i Schweiz og en ved Sorbonne Université.
arkitektur
Det meste tidligere arbejde på dette felt har været centreret om førerens opmærksomhed, hvor man bruger maskinlæring til at analysere outputtet fra kameraer, der vender mod føreren, og hvor man er afhængig af et konstant, fast og tæt udsyn til føreren – en luksus, der sandsynligvis ikke er tilgængelig i de ofte lavopløsningsfeeds fra offentlige tv-kameraer, hvor folk kan være for langt væk til, at et ansigtsanalysesystem kan analysere deres øjenopfattelse, og hvor andre okklusioner (såsom solbriller) også kommer i vejen.
Mere centralt for projektets erklærede mål er, at de udadvendte kameraer i selvkørende køretøjer heller ikke nødvendigvis vil være i et optimalt scenarie, hvilket gør 'lavniveau'-nøglepunktsinformation ideel som grundlag for en blikanalyseramme. Selvkørende køretøjssystemer har brug for en meget responsiv og lynhurtig måde at forstå, om en fodgænger – som måske træder af fortovet og ud i bilens bane – har set det selvkørende køretøj. I en sådan situation kan latenstid betyde forskellen mellem liv og død.
Den modulære arkitektur udviklet af forskerne tager et (normalt) helkropsbillede af en person, hvorfra 2D-led udvindes til en base-skeletform.

Arkitekturen af det nye fransk/schweiziske øjenkontaktdetektionssystem.
Positionen normaliseres for at fjerne information på Y-aksen for at skabe en 'flad' repræsentation af posituren, der sætter den i paritet med de tusindvis af kendte positurer, som algoritmen har lært (som ligeledes er blevet 'fladet'), og deres tilhørende binære flag/etiketter (dvs. 0: Ser ikke or 1: Kigger).
Positionen sammenlignes med algoritmens interne viden om, hvor godt denne positur svarer til billeder af andre fodgængere, der er blevet identificeret som "kigger ind i kameraet" – annoteringer lavet ved hjælp af brugerdefinerede browserværktøjer udviklet af forfatterne til Amazon Mechanical Turk-medarbejderne, der deltog i udviklingen af LOOK-datasættet.
Hvert billede i LOOK blev gennemgået af fire AMT-arbejdere, og kun billeder, hvor tre ud af fire var enige om resultatet, blev inkluderet i den endelige samling.
Hovedafgrødeinformation, kernen i meget tidligere arbejde, er blandt de mindst pålidelige indikatorer for blik i vilkårlige byscenarier og er inkorporeret som en valgfri datastrøm i arkitekturen, hvor fangstkvaliteten og dækningen er tilstrækkelig til at understøtte en beslutning om, hvorvidt person kigger på kameraet eller ej. I tilfælde af meget fjerne mennesker vil dette ikke være nyttige data.
Data
Forskerne udledte LOOK fra adskillige tidligere datasæt, der ikke som standard er egnede til denne opgave. De eneste to datasæt, der direkte deler projektets omfang, er JAAD og PIE, og hver har begrænsninger.
JAAD er et 2017-tilbud fra York University i Toronto, der indeholder 390,000 mærkede eksempler på fodgængere, herunder afgrænsningsfelter og adfærdsanmærkninger. Heraf er kun 17,000 mærket som Kigger på chaufføren (altså ego-kameraet). Datasættet indeholder 346 30fps klip, der kører på 5-10 sekunder af indbyggede kameraoptagelser optaget i Nordamerika og Europa. JAAD har et højt antal gentagelser, og det samlede antal unikke fodgængere er kun 686.
Den nyere (2019) PIE fra York University i Toronto ligner JAAD, idet den indeholder indbyggede 30fps-optagelser, denne gang taget fra seks timers kørsel gennem Torontos centrum, hvilket giver 700,000 kommenterede fodgængere og 1,842 unikke fodgængere, hvoraf kun 180 kigger på kameraet.
I stedet kompilerede forskerne til det nye papir de mest passende data fra tre tidligere datasæt for autonom kørsel: KITTI, JRDBog NuScenes, henholdsvis fra Karlsruhe Institute of Technology i Tyskland, Stanford og Monash University i Australien, og engangs MIT-spin-off Nutonomy.
Denne kuratering resulterede i et bredt varieret sæt af billeder fra fire byer – Boston, Singapore, Tübingen og Palo Alto. Med omkring 8000 mærkede fodgængerperspektiver hævder forfatterne, at LOOK er det mest forskelligartede datasæt til øjenkontaktdetektion "i naturen".
Træning og resultater
Udvinding, træning og evaluering blev alle udført på en enkelt NVIDIA GeForce GTX 1080ti med 11gb VRAM, der opererer på en Intel Core i7-8700 CPU, der kører ved 3.20GHz.
Forfatterne fandt ud af, at deres metode ikke kun forbedres på SOTA-baselines med mindst 5 %, men også at de resulterende modeller trænet på JAAD generaliserer meget godt til usete data, et scenarie testet ved at krydsmixe en række datasæt.
Da den udførte testning var kompleks og måtte sørge for afgrødebaserede modeller (selvom ansigtsisolering og beskæring ikke er centrale for det nye initiativs arkitektur), se rapporten for detaljerede resultater.

Resultater for gennemsnitlig præcision (AP) som en procentdel og funktion af afgrænsningsboksens højde i pixels til test på tværs af JAAD-datasættet, med forfatternes resultater fremhævet med fed skrift.
Forskerne har frigivet deres kode offentligt med datasættet tilgængeligt link., og kildekoden hos GitHub.
Forfatterne afslutter med håb om, at deres arbejde vil inspirere til yderligere forskningsbestræbelser i det, de beskriver som en 'vigtigt men overset emne'.