Dirbtinis intelektas
Sintetiniai duomenys: okliuzijos tarpo panaikinimas naudojant „Grand Theft Auto“.
Ilinojaus universiteto mokslininkai sukūrė naują kompiuterinio matymo duomenų rinkinį, kuriame naudojami sintetiniai vaizdai, generuojami Grand Theft Auto žaidimo variklio, kad padėtų išspręsti vieną iš sunkiausių semantinio segmentavimo kliūčių – atpažinti objektus, kurie tik iš dalies matomi šaltinio vaizduose ir vaizdo įrašuose.
Šiuo tikslu, kaip aprašyta popierius, tyrėjai panaudojo GTA-V vaizdo žaidimų variklį, kad sukurtų sintetinį duomenų rinkinį, kuriame yra ne tik rekordinis okliuzijos atvejų skaičius, bet ir tobulas semantinis segmentavimas bei žymėjimas, o laikinoji informacija atsižvelgiama taip, kad sprendžiami panašiais atvirojo kodo duomenų rinkiniais.
Visiškas scenos supratimas
Toliau pateiktame vaizdo įraše, paskelbtame kaip pagalbinė tyrimo medžiaga, iliustruojami pilno 3D scenos supratimo pranašumai, nes užtemdyti objektai yra žinomi ir matomi scenoje bet kokiomis aplinkybėmis, todėl vertinimo sistema gali išmokti susieti iš dalies uždengtus vaizdus. su visu (pažymėtu) objektu.
Šaltinis: http://sailvos.web.illinois.edu/_site/index.html
Autoriai teigia, kad gautas duomenų rinkinys, vadinamas SAIL-VOS 3D, yra pirmasis sintetinis vaizdo tinklo duomenų rinkinys su kadro anotacija, egzempliorių lygio segmentavimu, scenos vaizdų tiesos gyliu ir 2D anotacijomis, pažymėtomis ribojančiais langeliais.
SAIL-VOS 3D anotacijose yra gylis, egzempliorių lygio modalinis ir amodalinis segmentavimas, semantinės etiketės ir 3D tinkleliai. Duomenys apima 484 vaizdo įrašus, iš viso 237,611 1280 kadrų 800 × XNUMX raiška, įskaitant kadrų perėjimus.
Rinkinys suskirstytas į 6,807 34.6 klipus, kurių kiekviename yra vidutiniškai 3,460,213 kadrų, o duomenys komentuojami 3,576 178 XNUMX objektų egzemplioriais, gautais iš XNUMX XNUMX tinklelio modelių GTA-V žaidimo variklyje. Iš viso jos priskirtos XNUMX semantinėms kategorijoms.
Tinklo rekonstrukcija ir automatizuotas ženklinimas
Kadangi vėliau duomenų rinkinio tyrimai greičiausiai bus atliekami naudojant realaus pasaulio vaizdus, SAIL-VOS 3D tinkleliai generuojami naudojant mašininio mokymosi sistemą, o ne iš GTA-V variklio.
Kadangi kiekvienas objektas GTA-V pasaulyje turi unikalų ID, SAIL-VOS nuskaito juos iš atvaizdavimo variklio naudodamas GTA-V scenarijaus kablio biblioteką. Tai išsprendžia objekto atkūrimo problemą, jei jis laikinai palieka matymo lauką, nes žymėjimas yra patvarus ir patikimas. Aplinkoje yra 162 objektai, kuriuos mokslininkai susiejo su atitinkamu klasių skaičiumi.
Scenų ir objektų įvairovė
Daugelis GTA-V variklio objektų yra įprasti, todėl SAIL-VOS inventoriuje yra 60 % klasių, esančių Microsoft dažnai naudojamoje 2014 m. MS-COCO duomenų rinkinys.
Taikomumas
Siekdami užtikrinti suderinamumą su bendrais šios srities tyrimais ir patvirtinti, kad šis sintetinis metodas gali būti naudingas nesintetiniams projektams, tyrėjai įvertino duomenų rinkinį taikydami kadru pagrįstą aptikimo metodą, taikomą MS-COCO ir 2012 m. PASCAL vizualinių objektų klasių (VOC) iššūkis, naudojant vidutinį tikslumą kaip metriką.
Tyrėjai nustatė, kad išankstinis mokymas apie SAIL-VOS duomenų rinkinį pagerina sankryžos virš Sąjungos našumą (IoU) 19 %, atitinkamai pagerėjus VideoMatch našumas, nuo 55 % iki 74 % pagal nematytus duomenis.
Tačiau ekstremalaus okliuzijos atvejais buvo atvejų, kai visi senesni metodai negalėjo identifikuoti objekto ar asmens, nors mokslininkai prognozuoja, kad tai gali būti ištaisyta ateityje, tiriant gretimus kadrus, kad būtų nustatyta amodalinės kaukės priežastis. .