Dirbtinis intelektas

Sintetiniai duomenys: okliuzijos tarpo panaikinimas naudojant „Grand Theft Auto“.

Atnaujinta on Gruodis 9, 2022

Ilinojaus universiteto mokslininkai sukūrė naują kompiuterinio matymo duomenų rinkinį, kuriame naudojami sintetiniai vaizdai, generuojami Grand Theft Auto žaidimo variklio, kad padėtų išspręsti vieną iš sunkiausių semantinio segmentavimo kliūčių – atpažinti objektus, kurie tik iš dalies matomi šaltinio vaizduose ir vaizdo įrašuose.

Šiuo tikslu, kaip aprašyta popierius, tyrėjai panaudojo GTA-V vaizdo žaidimų variklį, kad sukurtų sintetinį duomenų rinkinį, kuriame yra ne tik rekordinis okliuzijos atvejų skaičius, bet ir tobulas semantinis segmentavimas bei žymėjimas, o laikinoji informacija atsižvelgiama taip, kad sprendžiami panašiais atvirojo kodo duomenų rinkiniais.

Visiškas scenos supratimas

Toliau pateiktame vaizdo įraše, paskelbtame kaip pagalbinė tyrimo medžiaga, iliustruojami pilno 3D scenos supratimo pranašumai, nes užtemdyti objektai yra žinomi ir matomi scenoje bet kokiomis aplinkybėmis, todėl vertinimo sistema gali išmokti susieti iš dalies uždengtus vaizdus. su visu (pažymėtu) objektu.

Šaltinis: http://sailvos.web.illinois.edu/_site/index.html

Autoriai teigia, kad gautas duomenų rinkinys, vadinamas SAIL-VOS 3D, yra pirmasis sintetinis vaizdo tinklo duomenų rinkinys su kadro anotacija, egzempliorių lygio segmentavimu, scenos vaizdų tiesos gyliu ir 2D anotacijomis, pažymėtomis ribojančiais langeliais.

Šaltinis (Padidinti)

SAIL-VOS 3D anotacijose yra gylis, egzempliorių lygio modalinis ir amodalinis segmentavimas, semantinės etiketės ir 3D tinkleliai. Duomenys apima 484 vaizdo įrašus, iš viso 237,611 1280 kadrų 800 × XNUMX raiška, įskaitant kadrų perėjimus.

Viršuje originalūs CGI rėmeliai; antroji eilutė, segmentavimas egzempliorių lygiu; trečioji eilutė, amodalinis segmentavimas, iliustruojantis duomenų suvokimo ir skaidrumo gylį. Šaltinis (Padidinti)

Rinkinys suskirstytas į 6,807 34.6 klipus, kurių kiekviename yra vidutiniškai 3,460,213 kadrų, o duomenys komentuojami 3,576 178 XNUMX objektų egzemplioriais, gautais iš XNUMX XNUMX tinklelio modelių GTA-V žaidimo variklyje. Iš viso jos priskirtos XNUMX semantinėms kategorijoms.

Tinklo rekonstrukcija ir automatizuotas ženklinimas

Kadangi vėliau duomenų rinkinio tyrimai greičiausiai bus atliekami naudojant realaus pasaulio vaizdus, SAIL-VOS 3D tinkleliai generuojami naudojant mašininio mokymosi sistemą, o ne iš GTA-V variklio.

Turėdamas programinį ir iš esmės „holografinį“ viso scenos vaizdavimo supratimą, SAIL-VOS 3D vaizdai gali sintezuoti objektų, paprastai paslėptų okliuzijomis, pvz., toli atsuktos čia besisukančio veikėjo ranką, atvaizdus tokiu būdu, kuris būtų kitu atveju. priklauso nuo daugelio reprezentatyvių pavyzdžių realiame filmuotoje medžiagoje. (Spustelėkite norėdami padidinti) Šaltinis: https://arxiv.org/pdf/2105.08612.pdf

Kadangi kiekvienas objektas GTA-V pasaulyje turi unikalų ID, SAIL-VOS nuskaito juos iš atvaizdavimo variklio naudodamas GTA-V scenarijaus kablio biblioteką. Tai išsprendžia objekto atkūrimo problemą, jei jis laikinai palieka matymo lauką, nes žymėjimas yra patvarus ir patikimas. Aplinkoje yra 162 objektai, kuriuos mokslininkai susiejo su atitinkamu klasių skaičiumi.

Scenų ir objektų įvairovė

Daugelis GTA-V variklio objektų yra įprasti, todėl SAIL-VOS inventoriuje yra 60 % klasių, esančių Microsoft dažnai naudojamoje 2014 m. MS-COCO duomenų rinkinys.

SAIL-VOS duomenų rinkinys apima daugybę vidinių ir išorinių scenų skirtingomis oro sąlygomis, o veikėjai dėvi įvairius drabužius. (Padidinti)

Taikomumas

Siekdami užtikrinti suderinamumą su bendrais šios srities tyrimais ir patvirtinti, kad šis sintetinis metodas gali būti naudingas nesintetiniams projektams, tyrėjai įvertino duomenų rinkinį taikydami kadru pagrįstą aptikimo metodą, taikomą MS-COCO ir 2012 m. PASCAL vizualinių objektų klasių (VOC) iššūkis, naudojant vidutinį tikslumą kaip metriką.

Tyrėjai nustatė, kad išankstinis mokymas apie SAIL-VOS duomenų rinkinį pagerina sankryžos virš Sąjungos našumą (IoU) 19 %, atitinkamai pagerėjus VideoMatch našumas, nuo 55 % iki 74 % pagal nematytus duomenis.

Tačiau ekstremalaus okliuzijos atvejais buvo atvejų, kai visi senesni metodai negalėjo identifikuoti objekto ar asmens, nors mokslininkai prognozuoja, kad tai gali būti ištaisyta ateityje, tiriant gretimus kadrus, kad būtų nustatyta amodalinės kaukės priežastis. .

Dviejuose dešiniosios pusės vaizduose tradiciniai segmentavimo algoritmai nesugebėjo atpažinti moters figūros iš labai ribotos matomos galvos dalies. Vėlesnės naujovės su optinio srauto įvertinimu gali pagerinti šiuos rezultatus. (Padidinti)

Kitas

Naujas „Deepfake“ metodas išsprendžia „Face Host“ problemą

Nepraleiskite

Emocinės dinamikos atvaizdavimas iš filmų scenarijų

Martinas Andersonas

Rašytojas apie mašininį mokymąsi, dirbtinį intelektą ir didelius duomenis.
Asmeninė svetainė: Martinanderson.ai
Kontaktai: [apsaugotas el. paštu]
Twitter: @manders_ai