Liity verkostomme!

Tekoäly

Katsekontaktin tunnistaminen vartaloasennosta koneoppimisen avulla

mm

Ranskalaiset ja sveitsiläiset tutkijat ovat kehittäneet konenäköjärjestelmän, joka pystyy arvioimaan, katsooko henkilö suoraan tekoälyjärjestelmän "ego"-kameraan pelkästään sen perusteella, miten henkilö seisoo tai liikkuu.

Uusi viitekehys käyttää erittäin pelkistävää tietoa tämän arvioinnin tekemiseen, semanttisten avainpisteiden muodossa (katso kuva alla), sen sijaan, että yritetään ensisijaisesti analysoida silmien asentoa kasvojen kuvissa. Tämä tekee tuloksena olevasta tunnistusmenetelmästä erittäin kevyen ja ketterän verrattuna dataintensiivisimpiin objektientunnistusarkkitehtuureihin, kuten YOLO.

Uusi kehys arvioi, katsooko kadulla oleva henkilö tekoälyn sieppausanturia vai ei, pelkästään kehonsa asennon perusteella. Tässä vihreällä korostetut ihmiset katsovat todennäköisesti kameraan, kun taas punaisella korostetut ihmiset katsovat todennäköisemmin poispäin. Lähde: https://arxiv.org/pdf/2112.04212.pdf

Uusi viitekehys arvioi, katsooko kadulla oleva henkilö tekoälyn kuvausanturia, pelkästään hänen kehonsa asennon perusteella. Tässä vihreällä korostetut ihmiset katsovat todennäköisemmin kameraan, kun taas punaisella korostetut katsovat todennäköisemmin poispäin. Lähde: https://arxiv.org/pdf/2112.04212.pdf

Vaikka työn taustalla on parempien turvajärjestelmien kehittäminen autonomisille ajoneuvoille, uuden paperin kirjoittajat myöntävät, että sillä voisi olla yleisempiä sovelluksia muilla teollisuudenaloilla. ”Jopa älykaupungeissa katsekontaktin havaitseminen voi olla hyödyllistä jalankulkijoiden käyttäytymisen ymmärtämiseksi paremmin, esimerkiksi sen tunnistamiseksi, mihin heidän huomionsa kohdistuu tai mitä julkisia kylttejä he katsovat.”.

Tämän ja myöhempien järjestelmien jatkokehityksen helpottamiseksi tutkijat ovat koonneet uuden ja kattavan tietojoukon nimeltä LOOK, joka vastaa suoraan katsekontaktin havaitsemiseen liittyviin erityishaasteisiin mielivaltaisissa skenaarioissa, kuten katukuvauksissa, jotka havaitaan itse ajavan auton kiertävästä kamerasta. ajoneuvot tai satunnaiset ihmisjoukkokohtaukset, joiden läpi robotin voi joutua navigoimaan ja siirtymään jalankulkijoiden polulle.

Tulokset viitekehyksestä, jossa "näyttäjät" on merkitty vihreällä.

Tulokset viitekehyksestä, jossa "katsojat" on merkitty vihreällä.

- tutkimus on otsikko Kiinnittävätkö jalankulkijat huomiota? Silmäkosketuksen tunnistus luonnossa, ja tulee neljältä tutkijalta Visual Intelligence for Transportation (VITA) -tutkimusaloitteesta Sveitsissä ja yhdeltä Sorbonnen yliopistosta.

arkkitehtuuri

Suurin osa aiemmasta työstä tällä alalla on keskittynyt kuljettajan huomiokykyyn, käyttäen koneoppimista kuljettajaan päin olevien kameroiden tuotoksen analysointiin ja luottaen jatkuvaan, kiinteään ja läheiseen näkymään kuljettajasta – ylellisyys, joka ei todennäköisesti ole saatavilla julkisten televisiokameroiden usein matalan resoluution syötteissä, joissa ihmiset saattavat olla liian kaukana kasvojen analysointijärjestelmälle, jotta he pystyisivät selvittämään heidän silmiensä asennon, ja joissa muutkin esteet (kuten aurinkolasit) ovat myös tiellä.

Projektin ilmoitetun tavoitteen kannalta keskeisempää on se, että autonomisten ajoneuvojen ulospäin suunnatut kamerat eivät välttämättä ole optimaalisessa skenaariossa, joten "matalatason" avainpisteinformaatio on ihanteellinen perusta katseanalyysikehykselle. Autonomiset ajoneuvojärjestelmät tarvitsevat erittäin reagoivan ja salamannopean tavan ymmärtää, onko jalankulkija – joka saattaa astua jalkakäytävältä auton eteen – nähnyt autonomisen ajoneuvon. Tällaisessa tilanteessa latenssi voi olla elämän ja kuoleman kysymys.

Tutkijoiden kehittämä modulaarinen arkkitehtuuri ottaa (yleensä) koko kehon kuvan ihmisestä, josta 2D-nivelet irrotetaan perusrunkomuotoon.

Uuden ranskalaisen/sveitsiläisen katsekontaktintunnistusjärjestelmän arkkitehtuuri.

Uuden ranskalaisen/sveitsiläisen katsekontaktintunnistusjärjestelmän arkkitehtuuri.

Asento normalisoidaan poistamalla Y-akselin tiedot, jolloin luodaan asennon "litistetty" esitys, joka asettaa sen pariteettiin algoritmin oppimien tuhansien tunnettujen asentojen (jotka on samoin "litistetty") ja niihin liittyvien binäärilippujen/tunnisteiden (eli 0: Ei katso or 1: Katson).

Asentoa verrataan algoritmin sisäiseen tietämykseen siitä, kuinka hyvin asento vastaa kuvia muista jalankulkijoista, jotka on tunnistettu "kameraan katsoviksi" – merkinnät on tehty käyttämällä LOOK-tietojoukon kehittäjiä Amazon Mechanical Turkin työntekijöille kehittämiään mukautettuja selaintyökaluja.

Neljä AMT:n työntekijää tarkasteli jokaisen kuvan LOOKissa, ja vain kuvat, joissa kolme neljästä oli samaa mieltä lopputuloksesta, sisällytettiin lopulliseen kokoelmaan.

Pääsatotiedot, useiden aikaisempien töiden ydin, ovat yksi vähiten luotettavia katseen indikaattoreita mielivaltaisissa kaupunkiskenaarioissa, ja se on sisällytetty valinnaisena tietovirtana arkkitehtuuriin, jossa kaappauksen laatu ja kattavuus ovat riittävät tukemaan päätöstä siitä, onko katsooko henkilö kameraan vai ei. Hyvin etäisten ihmisten tapauksessa tämä ei ole hyödyllinen tieto.

Päiväys

Tutkijat johtivat LOOKin useista aiemmista aineistoista, jotka eivät oletusarvoisesti sovellu tähän tehtävään. Ainoat kaksi aineistoa, jotka suoraan jakavat projektin soveltamisalan, ovat JAAD ja PIIRAKKA, ja jokaisella on rajoituksensa.

JAAD on Toronton Yorkin yliopiston vuoden 2017 tarjous, joka sisältää 390,000 17,000 merkittyä esimerkkiä jalankulkijoista, mukaan lukien rajoituslaatikot ja käyttäytymismerkinnät. Näistä vain XNUMX XNUMX on merkitty nimellä Katsomassa kuljettajaa (eli egokamera). Tietojoukko sisältää 346 30 kuvaa sekunnissa 5-10 sekuntia kestävää videota, jotka on tallennettu Pohjois-Amerikassa ja Euroopassa. JAADissa on paljon toistuvia tapauksia, ja yksittäisten jalankulkijoiden kokonaismäärä on vain 686.

Uudempi (2019) PIE, Yorkin yliopiston Torontossa tekemä, on samankaltainen kuin JAAD siinä mielessä, että siinä on 30 kuvaa sekunnissa kuvattua videomateriaalia, joka on tällä kertaa peräisin kuuden tunnin ajosta Toronton keskustassa. Video tuottaa 700,000 1,842 kommentoitua jalankulkijaa ja 180 XNUMX ainutlaatuista jalankulkijaa, joista vain XNUMX katsoo kameraan.

Sen sijaan uuden paperin tutkijat kokosivat osuvimmat tiedot kolmesta aikaisemmasta autonomisen ajon tietojoukosta: KITTI, JRDBja NuScenes, vastaavasti Karlsruhen teknologiainstituutista Saksasta, Stanfordin ja Monashin yliopistosta Australiasta ja kertaluonteisesta MIT-spin-off Nutonomystä.

Tämä kuratointi tuotti hyvin monipuolisen joukon kuvia neljästä kaupungista – Bostonista, Singaporesta, Tübingenistä ja Palo Altosta. Noin 8000 merkityn jalankulkijan näkökulman perusteella kirjoittajat väittävät, että LOOK on monipuolisin aineisto katsekontaktin havaitsemiseen luonnossa.

Koulutus ja tulokset

Purkaminen, koulutus ja arviointi suoritettiin yhdellä NVIDIA GeForce GTX 1080ti:llä, jossa oli 11 Gt VRAM-muistia ja joka toimi Intel Core i7-8700 -suorittimella, joka toimii 3.20 GHz:n taajuudella.

Kirjoittajat havaitsivat, että heidän menetelmänsä ei ainoastaan ​​paranna SOTA-perustasoista vähintään 5 prosentilla, vaan myös, että tuloksena saadut JAADilla koulutetut mallit yleistyvät erittäin hyvin näkymättömään dataan, skenaario testattiin sekoittamalla erilaisia ​​tietojoukkoja.

Koska suoritettu testaus oli monimutkaista ja siinä piti ottaa huomioon satopohjaiset mallit (vaikka kasvojen eristäminen ja rajaaminen eivät ole keskeisiä uuden aloitteen arkkitehtuurissa), katso yksityiskohtaiset tulokset artikkelista.

Tulokset keskimääräiselle tarkkuudelle (AP) prosentteina ja funktiona rajauslaatikon korkeudesta pikseleinä testausta varten JAAD-tietojoukossa, tekijöiden tulokset lihavoituna.

Keskimääräisen tarkkuuden (AP) tulokset prosentteina ja funktiona rajaavan laatikon korkeudesta pikseleinä JAAD-aineiston testeissä, kirjoittajien tulokset lihavoituna.

Tutkijat ovat julkaisseet koodinsa julkisesti tietojoukon ollessa saatavilla tätä, ja lähdekoodi GitHubissa.

Kirjoittajat päättävät toivoen, että heidän työnsä inspiroi lisätutkimusta heidän kuvailemassaan tutkimuksessa "tärkeä mutta unohdettu aihe".