Inteligjenca artificiale
Të dhëna sintetike: Kapërcimi i hendekut të mbylljes me Grand Theft Auto
Studiuesit në Universitetin e Illinois kanë krijuar një grup të ri të dhënash për vizionin kompjuterik që përdor imazhe sintetike të krijuara nga një motor lojërash Grand Theft Auto për të ndihmuar në zgjidhjen e një prej pengesave më të mprehta në segmentimin semantik - njohjen e objekteve që janë vetëm pjesërisht të dukshme në imazhet dhe videot burimore.
Për këtë qëllim, siç përshkruhet në letra, kërkuesit kanë përdorur motorin e lojërave video GTA-V për të gjeneruar një grup të dhënash sintetike që jo vetëm përmban një numër rekord të rasteve të okluzionit, por që përmban segmentim dhe etiketim të përsosur semantik, dhe llogarit informacionin kohor në një mënyrë që nuk është adresuar nga grupe të dhënash të ngjashme me burim të hapur.
Kuptimi i plotë i skenës
Videoja më poshtë, e publikuar si material mbështetës për hulumtimin, ilustron avantazhet e një kuptimi të plotë 3D të një skene, në atë që objektet e errësuar njihen dhe ekspozohen në skenë në të gjitha rrethanat, duke i mundësuar sistemit të vlerësimit të mësojë të shoqërojë pamjet e pjesshme të mbyllura. me të gjithë objektin (etiketuar).
Burimi: http://sailvos.web.illinois.edu/_site/index.html
Të dhënat e rezultuara, të quajtura SAIL-VOS 3D, pretendohen nga autorët se janë grupi i parë sintetik i të dhënave me rrjetë video me shënime kornizë për kornizë, segmentim në nivel shembulli, thellësi të së vërtetës tokësore për pamjet e skenës dhe shënime 2D të përvijuara nga kutitë kufizuese.
Shënimet e SAIL-VOS 3D përfshijnë thellësinë, modale të nivelit të shembullit dhe amodal segmentimi, etiketat semantike dhe rrjetat 3D. Të dhënat përfshijnë 484 video që arrijnë gjithsej 237,611 korniza me rezolucion 1280×800, duke përfshirë tranzicionet e shkrepjeve.
Seti ndahet në 6,807 klipe me një mesatare prej 34.6 kornizash secila, dhe të dhënat janë të shënuara me 3,460,213 raste objektesh të origjinës nga 3,576 modele rrjetë në motorin e lojës GTA-V. Këto u caktohen gjithsej 178 kategorive semantike.
Rindërtimi i rrjetës dhe etiketimi i automatizuar
Meqenëse kërkimi i mëvonshëm i të dhënave ka të ngjarë të ndodhë në imazhet e botës reale, rrjetat në SAIL-VOS 3D krijohen nga korniza e mësimit të makinerisë, në vend që të rrjedhin nga motori GTA-V.
Meqenëse çdo objekt në botën GTA-V përmban një ID unike, SAIL-VOS i merr ato nga motori i interpretimit duke përdorur bibliotekën e skriptit GTA-V. Kjo zgjidh problemin e rimarrjes së subjektit nëse duhet të largohet përkohësisht nga fusha e shikimit, pasi etiketimi është i qëndrueshëm dhe i besueshëm. Ekzistojnë 162 objekte të disponueshme në mjedis, të cilat kërkuesit i vendosën në një numër korrespondues klasash.
Një shumëllojshmëri skenash dhe objektesh
Shumë nga objektet në motorin GTA-V janë të zakonshme në natyrë, dhe për këtë arsye inventari SAIL-VOS përmban 60% me fat të klasave të pranishme në 2014-ën e përdorur shpesh nga Microsoft. Të dhënat e të dhënave MS-COCO.
Zbatueshmëria
Për të siguruar përputhshmërinë me rrjedhën e përgjithshme të kërkimit në këtë fushë dhe për të konfirmuar se kjo qasje sintetike mund të përfitojë projekte jo sintetike, studiuesit vlerësuan grupin e të dhënave duke përdorur qasjen e zbulimit të bazuar në kornizë të përdorur për MS-COCO dhe 2012 Sfida e klasave të objekteve pamore (VOC) PASCAL, me saktësi mesatare si metrikë.
Studiuesit zbuluan se trajnimi paraprak në grupin e të dhënave SAIL-VOS përmirëson performancën e Kryqëzimit mbi Union (IoU) me 19%, me një përmirësim përkatës në VideoNdeshje performanca, nga 55% në 74% në të dhënat e padukshme.
Megjithatë, në rastet e okluzionit ekstrem, kishte raste kur të gjitha metodat e vjetra mbetën të paaftë për të identifikuar një objekt ose person, megjithëse studiuesit parashikuan se kjo mund të korrigjohej në të ardhmen duke ekzaminuar kornizat ngjitur për të përcaktuar arsyetimin për maskën amodale. .