stub Tiskopri Kuntatt mal-Għajnejn Mill-Pose tal-Korp Bil-Machine Learning - Unite.AI
Kuntatt magħna

Intelliġenza Artifiċjali

L-iskoperta tal-Kuntatt tal-Għajnejn Mill-Pose tal-Korp Bil-Machine Learning

mm
Aġġornata on

Riċerkaturi minn Franza u l-Iżvizzera żviluppaw sistema ta’ viżjoni bil-kompjuter li tista’ tistma jekk persuna tkunx qed tħares direttament lejn il-kamera ‘ego’ ta’ sistema AI bbażata biss fuq il-mod kif il-persuna tkun wieqfa jew tiċċaqlaq.

Il-qafas il-ġdid juża informazzjoni riduttiva ħafna biex jagħmel din il-valutazzjoni, fil-forma ta 'punti ewlenin semantiċi (ara l-immaġni hawn taħt), aktar milli jipprova primarjament janalizza l-pożizzjoni tal-għajnejn fl-immaġini tal-uċuħ. Dan jagħmel il-metodu ta 'skoperta li jirriżulta ħafif ħafna u b'aġilità, meta mqabbel ma' arkitetturi ta 'skoperta ta' oġġetti aktar intensivi fid-dejta, bħal YOLO.

Il-qafas il-ġdid jevalwa jekk persuna fit-triq hijiex tħares lejn is-sensor tal-qbid tal-AI, ibbażat biss fuq id-dispożizzjoni tal-ġisem tagħha. Hawnhekk, in-nies enfasizzati bl-aħdar x'aktarx ikunu qed iħarsu lejn il-kamera, filwaqt li dawk bl-aħmar huma aktar probabbli li jkunu qed iħarsu 'l bogħod. Sors: https://arxiv.org/pdf/2112.04212.pdf

Il-qafas il-ġdid jevalwa jekk persuna fit-triq hijiex tħares lejn is-sensor tal-qbid tal-AI, ibbażat biss fuq id-dispożizzjoni tal-ġisem tagħha. Hawnhekk, in-nies enfasizzati bl-aħdar x'aktarx ikunu qed iħarsu lejn il-kamera, filwaqt li dawk bl-aħmar huma aktar probabbli li jkunu qed iħarsu 'l bogħod. Sors: https://arxiv.org/pdf/2112.04212.pdf

Għalkemm ix-xogħol huwa motivat mill-iżvilupp ta' sistemi ta' sikurezza aħjar għal vetturi awtonomi, l-awturi tad-dokument il-ġdid jammettu li jista' jkollu applikazzjonijiet aktar ġenerali f'industriji oħra, billi josservaw 'anki fi bliet intelliġenti, l-iskoperta tal-kuntatt mal-għajnejn tista' tkun utli biex tifhem aħjar l-imġieba tal-persuni mexjin, eż. jidentifikaw fejn imorru l-attenzjoni tagħhom jew liema sinjali pubbliċi qed iħarsu lejhom'.

Biex jgħinu fl-iżvilupp ulterjuri ta’ dan u s-sistemi sussegwenti, ir-riċerkaturi kkumpilaw sett ta’ dejta ġdid u komprensiv imsejjaħ LOOK, li jindirizza direttament l-isfidi speċifiċi ta’ skoperta ta’ kuntatt mal-għajnejn f’xenarji arbitrarji bħal xeni tat-toroq perċepiti mill-kamera roving ta’ vettura li taħdem għal rasha. vettura, jew xeni tal-folla każwali li permezz tagħhom robot jista’ jkollu bżonn jinnaviga u jiddeferixxi għall-mogħdija tal-pedestrians.

Riżultati mill-qafas, b''lookers' identifikati bl-aħdar.

Riżultati mill-qafas, b''lookers' identifikati bl-aħdar.

il riċerka huwa intitolat Il-persuni mexjin jagħtu attenzjoni? Sejbien ta' Kuntatt mal-Għajnejn fis-Selvaġġ, u ġej minn erba’ riċerkaturi fl-inizjattiva ta’ riċerka dwar l-Intelliġenza Viżwali għat-Trasport (VITA) fl-Isvizzera, u wieħed f’Sorbonne Université.

arkitettura

Il-biċċa l-kbira tax-xogħol preċedenti f'dan il-qasam kien iċċentrat fuq l-attenzjoni tas-sewwieq, bl-użu tat-tagħlim tal-magni biex janalizza l-output ta 'kameras li jħarsu lejn is-sewwieq, u bbażat ruħha fuq dehra kostanti, fissa u mill-qrib tas-sewwieq - lussu li mhux probabbli li jkun disponibbli fil- spiss għalf b'riżoluzzjoni baxxa ta 'kameras tat-TV pubbliċi, fejn in-nies jistgħu jkunu 'l bogħod wisq għal sistema ta' analiżi tal-wiċċ biex issolvi d-dispożizzjoni tal-għajnejn tagħhom, u fejn okklużjonijiet oħra (bħal nuċċalijiet tax-xemx) ukoll ifixklu.

Iktar ċentrali għall-għan iddikjarat tal-proġett, il-kameras li jħarsu 'l barra f'vetturi awtonomi mhux bilfors ikunu f'xenarju ottimali lanqas, u jagħmlu l-informazzjoni dwar il-punti ewlenin ta' 'livell baxx' ideali bħala l-bażi għal qafas ta' analiżi tal-ħarsa. Is-sistemi awtonomi tal-vetturi jeħtieġu mod li jirrispondu ħafna u veloċi sajjetti biex jifhmu jekk pedestrian – li jista’ jinżel mill-bankina lejn il-mogħdija tal-karozza – rax l-AV. F'sitwazzjoni bħal din, latency tista 'tfisser id-differenza bejn il-ħajja u l-mewt.

L-arkitettura modulari żviluppata mir-riċerkaturi tieħu (ġeneralment) immaġni tal-ġisem sħiħ ta 'persuna li minnha l-ġonot 2D huma estratti f'forma bażi, skeletriċi.

L-arkitettura tas-sistema l-ġdida ta 'skoperta ta' kuntatt mal-għajnejn Franċiż/Svizzera.

L-arkitettura tas-sistema l-ġdida ta 'skoperta ta' kuntatt mal-għajnejn Franċiż/Svizzera.

Il-poża hija normalizzata biex tneħħi l-informazzjoni fuq l-assi Y, biex tinħoloq rappreżentazzjoni 'ċatta' tal-poża li tpoġġiha f'parità mal-eluf ta' pożizzjonijiet magħrufa li tgħallmu mill-algoritmu (li bl-istess mod ġew 'iċċattjati'), u assoċjati magħhom. bnadar/tikketti binarji (ie 0: Mhux Tħares or 1: Tħares).

Il-poża titqabbel mal-għarfien intern tal-algoritmu ta’ kemm dik il-qagħda tikkorrispondi tajjeb ma’ immaġini ta’ nies mexjin oħra li ġew identifikati bħala ‘li jħarsu lejn il-kamera’ – annotazzjonijiet magħmula bl-użu ta’ għodod tal-browser personalizzati żviluppati mill-awturi għall-ħaddiema tal-Amazon Mechanical Turk li pparteċipaw f’ l-iżvilupp tas-sett tad-dejta LOOK.

Kull immaġini f'LOOK kienet soġġetta għal skrutinju minn erba' ħaddiema tal-AMT, u immaġini biss fejn tlieta minn erbgħa qablu dwar ir-riżultat ġew inklużi fil-ġbir finali.

L-informazzjoni dwar l-uċuħ tar-raba’ tar-ras, il-qalba ta’ ħafna xogħol preċedenti, hija fost l-inqas indikaturi affidabbli tal-ħarsa f’xenarji urbani arbitrarji, u hija inkorporata bħala fluss ta’ data fakultattiv fl-arkitettura fejn il-kwalità tal-qbid u l-kopertura hija biżżejjed biex tappoġġja deċiżjoni dwar jekk il- persuna qed tħares lejn il-kamera jew le. Fil-każ ta 'nies imbiegħda ħafna, din mhix se tkun dejta ta' għajnuna.

Data

Ir-riċerkaturi dderivaw LOOK minn diversi settijiet ta 'dejta preċedenti li mhumiex adattati awtomatikament għal dan il-kompitu. L-uniċi żewġ settijiet ta' data li jaqsmu direttament l-ambitu tal-proġett huma JAAD u, TORTA, u kull wieħed għandu limitazzjonijiet.

JAAD hija offerta tal-2017 mill-Università ta 'York f'Toronto, li fiha 390,000 eżempju ttikkettat ta' nies mexjin, inklużi kaxxi tal-konfini u annotazzjoni tal-imġieba. Minn dawn, 17,000 biss huma ttikkettjati bħala Ħarsa lejn ix-xufier (jiġifieri l-ego camera). Is-sett tad-dejta fih 346 klipp ta' 30fps li jaħdmu f'5-10 sekondi ta' filmati tal-kamera abbord irreġistrati fl-Amerika ta' Fuq u fl-Ewropa. JAAD għandu inċident għoli ta 'repetizzjonijiet, u n-numru totali ta' persuni mexjin uniċi huwa biss 686.

L-aktar PIE riċenti (2019), mill-Università ta’ York f’Toronto, hija simili għal JAAD, peress li fiha filmati abbord ta’ 30fps, din id-darba derivati ​​minn sitt sigħat ta’ sewqan fiċ-ċentru ta’ Toronto, li jagħti 700,000 pedestrians annotati u 1,842 pedestrians uniku. , 180 minnhom biss qed ifittxu l-kamera.

Minflok, ir-riċerkaturi għad-dokument il-ġdid ikkumpilaw l-aktar dejta xierqa minn tliet settijiet ta’ dejta tas-sewqan awtonomu preċedenti: KITTI, JRDB, u NuScenes, rispettivament mill-Istitut tat-Teknoloġija ta 'Karlsruhe fil-Ġermanja, Stanford u Monash University fl-Awstralja, u Nutonomy spin-off tal-MIT ta' darba.

Din il-kura rriżultat f'sett varjat ħafna ta' qbid minn erba' bliet - Boston, Singapor, Tübingen, u Palo Alto. B'madwar 8000 perspettiva pedonali ttikkettjati, l-awturi jsostnu li LOOK huwa l-aktar sett ta 'dejta divers għall-iskoperta tal-kuntatt mal-għajnejn 'in the wild'.

Taħriġ u Riżultati

L-estrazzjoni, it-taħriġ u l-evalwazzjoni twettqu kollha fuq NVIDIA GeForce GTX 1080ti waħda bi 11gb ta 'VRAM, li topera fuq CPU Intel Core i7-8700 li taħdem f'3.20GHz.

L-awturi sabu li mhux biss il-metodu tagħhom itejjeb fuq il-linji bażi SOTA b'mill-inqas 5%, iżda wkoll li l-mudelli li jirriżultaw mħarrġa fuq JAAD jiġġeneralizzaw tajjeb ħafna għal data li ma tidhirx, xenarju ttestjat billi tħallat firxa ta 'settijiet ta' data.

Peress li l-ittestjar li sar kien kumpless, u kellu jagħmel dispożizzjoni għal mudelli bbażati fuq l-uċuħ tar-raba '(filwaqt li l-iżolament tal-wiċċ u l-ħsad mhumiex ċentrali għall-arkitettura tal-inizjattiva l-ġdida), ara d-dokument għal riżultati dettaljati.

Riżultati għall-preċiżjoni medja (AP) bħala persentaġġ u funzjoni tal-għoli tal-kaxxa tal-konfini f'pixels għall-ittestjar fis-sett tad-dejta JAAD, bir-riżultati tal-awturi b'tipa grassa.

Riżultati għall-preċiżjoni medja (AP) bħala persentaġġ u funzjoni tal-għoli tal-kaxxa tal-konfini f'pixels għall-ittestjar fis-sett tad-dejta JAAD, bir-riżultati tal-awturi b'tipa grassa.

Ir-riċerkaturi ħarġu l-kodiċi tagħhom pubblikament, bis-sett tad-dejta disponibbli hawn, u l-kodiċi tas-sors fuq GitHub.

L-awturi jikkonkludu bit-tama li x-xogħol tagħhom jispira aktar sforzi ta 'riċerka f'dak li jiddeskrivu bħala 'suġġett importanti iżda injorat'.