cung Të dhënat sintetike: Kalimi i hendekut të mbylljes me makinën Grand Theft Auto - Unite.AI
Lidhu me ne

Inteligjenca artificiale

Të dhëna sintetike: Kapërcimi i hendekut të mbylljes me Grand Theft Auto

mm
Përditësuar on

Studiuesit në Universitetin e Illinois kanë krijuar një grup të ri të dhënash për vizionin kompjuterik që përdor imazhe sintetike të krijuara nga një motor lojërash Grand Theft Auto për të ndihmuar në zgjidhjen e një prej pengesave më të mprehta në segmentimin semantik - njohjen e objekteve që janë vetëm pjesërisht të dukshme në imazhet dhe videot burimore.

Për këtë qëllim, siç përshkruhet në letra, kërkuesit kanë përdorur motorin e lojërave video GTA-V për të gjeneruar një grup të dhënash sintetike që jo vetëm përmban një numër rekord të rasteve të okluzionit, por që përmban segmentim dhe etiketim të përsosur semantik, dhe llogarit informacionin kohor në një mënyrë që nuk është adresuar nga grupe të dhënash të ngjashme me burim të hapur.

Kuptimi i plotë i skenës

Videoja më poshtë, e publikuar si material mbështetës për hulumtimin, ilustron avantazhet e një kuptimi të plotë 3D të një skene, në atë që objektet e errësuar njihen dhe ekspozohen në skenë në të gjitha rrethanat, duke i mundësuar sistemit të vlerësimit të mësojë të shoqërojë pamjet e pjesshme të mbyllura. me të gjithë objektin (etiketuar).

Burimi: http://sailvos.web.illinois.edu/_site/index.html

Të dhënat e rezultuara, të quajtura SAIL-VOS 3D, pretendohen nga autorët se janë grupi i parë sintetik i të dhënave me rrjetë video me shënime kornizë për kornizë, segmentim në nivel shembulli, thellësi të së vërtetës tokësore për pamjet e skenës dhe shënime 2D të përvijuara nga kutitë kufizuese.

Burim (Kliko për ta zmadhuar)

Shënimet e SAIL-VOS 3D përfshijnë thellësinë, modale të nivelit të shembullit dhe amodal segmentimi, etiketat semantike dhe rrjetat 3D. Të dhënat përfshijnë 484 video që arrijnë gjithsej 237,611 korniza me rezolucion 1280×800, duke përfshirë tranzicionet e shkrepjeve.

Më sipër, kornizat origjinale CGI; rreshti i dytë, segmentimi në nivel shembulli; rreshti i tretë, segmentimi amodal, i cili ilustron thellësinë e të kuptuarit të skenës dhe transparencën e disponueshme në të dhëna. Burimi

Më sipër, kornizat origjinale CGI; rreshti i dytë, segmentimi në nivel shembulli; rreshti i tretë, segmentimi amodal, i cili ilustron thellësinë e të kuptuarit të skenës dhe transparencën e disponueshme në të dhëna. Burim (Kliko për ta zmadhuar)

Seti ndahet në 6,807 klipe me një mesatare prej 34.6 kornizash secila, dhe të dhënat janë të shënuara me 3,460,213 raste objektesh të origjinës nga 3,576 modele rrjetë në motorin e lojës GTA-V. Këto u caktohen gjithsej 178 kategorive semantike.

Rindërtimi i rrjetës dhe etiketimi i automatizuar

Meqenëse kërkimi i mëvonshëm i të dhënave ka të ngjarë të ndodhë në imazhet e botës reale, rrjetat në SAIL-VOS 3D krijohen nga korniza e mësimit të makinerisë, në vend që të rrjedhin nga motori GTA-V.

Me një kuptim programor dhe në thelb 'holografik' të të gjithë paraqitjes së skenës, imazhet 3D SAIL-VOS mund të sintetizojnë përfaqësime të objekteve të fshehura zakonisht nga mbylljet, siç është krahu larg i personazhit që rrotullohet këtu, në një mënyrë që përndryshe do të varen nga shumë shembuj përfaqësues në pamjet e botës reale. Burimi: https://arxiv.org/pdf/2105.08612.pdf

Me një kuptim programor dhe në thelb 'holografik' të të gjithë paraqitjes së skenës, imazhet 3D SAIL-VOS mund të sintetizojnë përfaqësime të objekteve të fshehura zakonisht nga mbylljet, siç është krahu larg i personazhit që rrotullohet këtu, në një mënyrë që përndryshe do të varen nga shumë shembuj përfaqësues në pamjet e botës reale. (Kliko për ta zmadhuar) Burimi: https://arxiv.org/pdf/2105.08612.pdf

Meqenëse çdo objekt në botën GTA-V përmban një ID unike, SAIL-VOS i merr ato nga motori i interpretimit duke përdorur bibliotekën e skriptit GTA-V. Kjo zgjidh problemin e rimarrjes së subjektit nëse duhet të largohet përkohësisht nga fusha e shikimit, pasi etiketimi është i qëndrueshëm dhe i besueshëm. Ekzistojnë 162 objekte të disponueshme në mjedis, të cilat kërkuesit i vendosën në një numër korrespondues klasash.

Një shumëllojshmëri skenash dhe objektesh

Shumë nga objektet në motorin GTA-V janë të zakonshme në natyrë, dhe për këtë arsye inventari SAIL-VOS përmban 60% me fat të klasave të pranishme në 2014-ën e përdorur shpesh nga Microsoft. Të dhënat e të dhënave MS-COCO.

Baza e të dhënave SAIL-VOS përfshin një larmi të madhe skenash të brendshme dhe të jashtme në kushte të ndryshme moti, me personazhe të veshur me veshje të ndryshme.

Baza e të dhënave SAIL-VOS përfshin një larmi të madhe skenash të brendshme dhe të jashtme në kushte të ndryshme moti, me personazhe të veshur me veshje të ndryshme. (Kliko për ta zmadhuar)

Zbatueshmëria

Për të siguruar përputhshmërinë me rrjedhën e përgjithshme të kërkimit në këtë fushë dhe për të konfirmuar se kjo qasje sintetike mund të përfitojë projekte jo sintetike, studiuesit vlerësuan grupin e të dhënave duke përdorur qasjen e zbulimit të bazuar në kornizë të përdorur për MS-COCO dhe 2012 Sfida e klasave të objekteve pamore (VOC) PASCAL, me saktësi mesatare si metrikë.

Studiuesit zbuluan se trajnimi paraprak në grupin e të dhënave SAIL-VOS përmirëson performancën e Kryqëzimit mbi Union (IoU) me 19%, me një përmirësim përkatës në VideoNdeshje performanca, nga 55% në 74% në të dhënat e padukshme.

Megjithatë, në rastet e okluzionit ekstrem, kishte raste kur të gjitha metodat e vjetra mbetën të paaftë për të identifikuar një objekt ose person, megjithëse studiuesit parashikuan se kjo mund të korrigjohej në të ardhmen duke ekzaminuar kornizat ngjitur për të përcaktuar arsyetimin për maskën amodale. .

Në dy imazhet e djathta, algoritmet tradicionale të segmentimit nuk kanë arritur të identifikojnë figurën femërore nga pjesa shumë e kufizuar e kokës së saj që është e dukshme. Inovacionet e mëvonshme me vlerësimin e rrjedhës optike mund t'i përmirësojnë këto rezultate.

Në dy imazhet e djathta, algoritmet tradicionale të segmentimit nuk kanë arritur të identifikojnë figurën femërore nga pjesa shumë e kufizuar e kokës së saj që është e dukshme. Inovacionet e mëvonshme me vlerësimin e rrjedhës optike mund t'i përmirësojnë këto rezultate. (Kliko për ta zmadhuar)