Artificiell intelligens

Upptäck ögonkontakt från kroppsställning med maskininlärning

Uppdaterad on December 9, 2022

Forskare från Frankrike och Schweiz har utvecklat ett datorseendesystem som kan uppskatta om en person tittar direkt på "ego"-kameran i ett AI-system baserat enbart på hur personen står eller rör sig.

Det nya ramverket använder mycket reduktiv information för att göra denna bedömning, i form av semantiska nyckelpunkter (se bilden nedan), snarare än att försöka analysera ögonpositionen i bilder av ansikten. Detta gör den resulterande detekteringsmetoden mycket lätt och smidig, i jämförelse med mer dataintensiva objektdetekteringsarkitekturer, såsom YOLO.

Det nya ramverket utvärderar huruvida en person på gatan tittar på AI:s fångstsensor eller inte, baserat enbart på kroppens disposition. Här är det troligt att personer som är markerade i grönt tittar på kameran, medan de i rött är mer benägna att titta bort. Källa: https://arxiv.org/pdf/2112.04212.pdf

Även om arbetet motiveras av utvecklingen av bättre säkerhetssystem för autonoma fordon, medger författarna till det nya dokumentet att det skulle kunna ha mer allmänna tillämpningar inom andra industrier, iakttar "även i smarta städer kan ögonkontaktsdetektion vara användbar för att bättre förstå fotgängares beteenden, t.ex. identifiera vart deras uppmärksamhet går eller vilka offentliga skyltar de tittar på".

För att underlätta vidareutvecklingen av detta och efterföljande system har forskarna sammanställt en ny och omfattande datauppsättning kallad LOOK, som direkt tar itu med de specifika utmaningarna med ögonkontaktsdetektering i godtyckliga scenarier som gatuscener som uppfattas från en självkörande kamera. fordon, eller tillfälliga folksamlingsscener genom vilka en robot kan behöva navigera och skjuta sig till fotgängarnas väg.

Resultat från ramverket, med "lookers" identifierade i grönt.

Smakämnen forskning har titeln Är fotgängare uppmärksam? Detektion av ögonkontakt i det vilda, och kommer från fyra forskare vid forskningsinitiativet Visual Intelligence for Transportation (VITA) i Schweiz, och en vid Sorbonne Université.

arkitektur

Det mesta tidigare arbetet inom detta område har varit centrerat på förarens uppmärksamhet, med hjälp av maskininlärning för att analysera resultatet från kameror som är vända mot föraren, och förlitat sig på en konstant, fast och nära bild av föraren – en lyx som sannolikt inte kommer att finnas tillgänglig i ofta lågupplösta flöden av offentliga TV-kameror, där människor kan vara för långt borta för att ett ansiktsanalyssystem ska kunna lösa deras ögondisposition, och där andra ocklusioner (som solglasögon) också kommer i vägen.

Mer centralt för projektets uttalade mål är att de utåtriktade kamerorna i autonoma fordon inte heller nödvändigtvis kommer att vara i ett optimalt scenario, vilket gör nyckelpunktsinformation på "låg nivå" idealisk som grund för ett ramverk för blickanalys. Autonoma fordonssystem behöver ett mycket lyhört och blixtsnabbt sätt att förstå om en fotgängare – som kan kliva av trottoaren in i bilens väg – har sett AV. I en sådan situation kan latens betyda skillnaden mellan liv och död.

Den modulära arkitekturen som utvecklats av forskarna tar in en (vanligtvis) helkroppsbild av en person från vilken 2D-leder extraheras till en bas, skelettform.

Arkitekturen för det nya franska/schweiziska ögonkontaktsdetektionssystemet.

Posen normaliseras för att ta bort information på Y-axeln, för att skapa en "plat" representation av posen som sätter den i paritet med de tusentals kända poser som lärts av algoritmen (som likaså har "plattats ut") och deras associerade binära flaggor/etiketter (dvs 0: Tittar inte or 1: Tittar).

Positionen jämförs med algoritmens interna kunskap om hur väl den hållningen motsvarar bilder av andra fotgängare som har identifierats som "titta på kameran" – anteckningar gjorda med hjälp av anpassade webbläsarverktyg utvecklade av författarna för Amazon Mechanical Turk-arbetarna som deltog i utvecklingen av datasetet LOOK.

Varje bild i LOOK var föremål för granskning av fyra AMT-arbetare, och endast bilder där tre av fyra var överens om resultatet inkluderades i den slutliga samlingen.

Information om huvudgröda, kärnan i mycket tidigare arbete, är bland de minst tillförlitliga indikatorerna på blick i godtyckliga urbana scenarier och är inkorporerad som en valfri dataström i arkitekturen där fångstkvaliteten och täckningen är tillräcklig för att stödja ett beslut om huruvida person tittar på kameran eller inte. När det gäller mycket avlägsna människor kommer detta inte att vara användbar information.

Data

Forskarna härledde LOOK från flera tidigare datamängder som inte är som standard lämpade för denna uppgift. De enda två datamängder som direkt delar projektets omfattning är JAAD och PAJ, och var och en har begränsningar.

JAAD är ett erbjudande 2017 från York University i Toronto, som innehåller 390,000 17,000 märkta exempel på fotgängare, inklusive avgränsningsrutor och beteendekommentarer. Av dessa är endast XNUMX XNUMX märkta som Tittar på föraren (dvs egokameran). Datauppsättningen innehåller 346 30fps-klipp som körs på 5-10 sekunder av inbyggd kamerafilm inspelad i Nordamerika och Europa. JAAD har ett stort antal upprepningar och det totala antalet unika fotgängare är bara 686.

Den nyare (2019) PIE, från York University i Toronto, liknar JAAD, genom att den har ombord 30 fps-filmer, denna gång hämtade från sex timmars körning genom centrala Toronto, vilket ger 700,000 1,842 kommenterade fotgängare och 180 XNUMX unika fotgängare , varav endast XNUMX tittar på kameran.

Istället sammanställde forskarna för det nya dokumentet de mest lämpliga data från tre tidigare datauppsättningar för autonom körning: KITTI, JRDBoch NuScenes, respektive från Karlsruhe Institute of Technology i Tyskland, Stanford och Monash University i Australien, och en gång MIT spin-off Nutonomy.

Denna kuration resulterade i en mycket varierad uppsättning fångster från fyra städer – Boston, Singapore, Tübingen och Palo Alto. Med omkring 8000 XNUMX märkta fotgängarperspektiv hävdar författarna att LOOK är den mest mångsidiga datamängden för att upptäcka ögonkontakt "i det vilda".

Träning och resultat

Extraktion, utbildning och utvärdering utfördes alla på en enda NVIDIA GeForce GTX 1080ti med 11 GB VRAM, som kördes på en Intel Core i7-8700 CPU som körs på 3.20 GHz.

Författarna fann att deras metod inte bara förbättras på SOTA-baslinjer med minst 5 %, utan också att de resulterande modellerna som tränats på JAAD generaliserar mycket väl till osynliga data, ett scenario som testats genom att korsmixa en rad datauppsättningar.

Eftersom testerna som utfördes var komplexa och var tvungna att tillhandahålla grödabaserade modeller (medan ansiktsisolering och beskärning inte är centrala för det nya initiativets arkitektur), se artikeln för detaljerade resultat.

Resultat för genomsnittlig precision (AP) i procent och funktion av begränsningsrutans höjd i pixlar för testning över JAAD-datauppsättningen, med författarnas resultat i fet stil.

Forskarna har släppt sin kod offentligt, med datauppsättningen tillgänglig här.och källkoden på GitHub.

Författarna avslutar med förhoppningar om att deras arbete kommer att inspirera till ytterligare forskningsinsatser i vad de beskriver som en "viktigt men förbisett ämne".