taló Dades sintètiques: superant la bretxa d'oclusió amb Grand Theft Auto - Unite.AI
Connecteu-vos amb nosaltres

Intel·ligència Artificial

Dades sintètiques: superant la bretxa d'oclusió amb Grand Theft Auto

mm
actualitzat on

Investigadors de la Universitat d'Illinois han creat un nou conjunt de dades de visió per ordinador que utilitza imatges sintètiques generades per un motor de jocs Grand Theft Auto per ajudar a resoldre un dels obstacles més espinosos en la segmentació semàntica: el reconeixement d'objectes que només són visibles parcialment a les imatges i vídeos d'origen.

Amb aquesta finalitat, tal com es descriu a el paper, els investigadors han utilitzat el motor de videojocs GTA-V per generar un conjunt de dades sintètics que no només inclou un nombre rècord d'instàncies d'oclusió, sinó que inclou una segmentació i etiquetatge semàntics perfectes, i que té en compte la informació temporal d'una manera que no ho és. abordat per conjunts de dades de codi obert similars.

Comprensió completa de l'escena

El vídeo següent, publicat com a material de suport per a la investigació, il·lustra els avantatges d'una comprensió completa en 3D d'una escena, ja que els objectes enfosquits es coneixen i s'exposen a l'escena en totes les circumstàncies, permetent que el sistema d'avaluació aprengui a associar vistes ocultes parcials. amb tot l'objecte (etiquetat).

Font: http://sailvos.web.illinois.edu/_site/index.html

Els autors afirmen que el conjunt de dades resultant, anomenat SAIL-VOS 3D, és el primer conjunt de dades de malla de vídeo sintètic amb anotació fotograma a fotograma, segmentació a nivell d'instància, profunditat de veritat del sòl per a vistes d'escena i anotacions 2D delineades per quadres delimitadors.

font (Click per ampliar)

Les anotacions de SAIL-VOS 3D inclouen profunditat, modal a nivell d'instància i amodal segmentació, etiquetes semàntiques i malles 3D. Les dades inclouen 484 vídeos amb un total de 237,611 fotogrames amb una resolució de 1280 × 800, incloses les transicions de captura.

A dalt, els fotogrames CGI originals; segona fila, segmentació a nivell d'instància; tercera fila, segmentació amodal, que il·lustra la profunditat de la comprensió de l'escena i la transparència disponible a les dades. Font

A dalt, els fotogrames CGI originals; segona fila, segmentació a nivell d'instància; tercera fila, segmentació amodal, que il·lustra la profunditat de la comprensió de l'escena i la transparència disponible a les dades. font (Click per ampliar)

El conjunt es divideix en 6,807 clips amb una mitjana de 34.6 fotogrames cadascun, i les dades s'anotaven amb 3,460,213 instàncies d'objecte originades a partir de 3,576 models de malla del motor de joc GTA-V. Aquestes s'assignen a un total de 178 categories semàntiques.

Reconstrucció de malles i etiquetatge automatitzat

Com que és probable que la investigació posterior del conjunt de dades es produeixi en imatges del món real, les malles de SAIL-VOS 3D són generades pel marc d'aprenentatge automàtic, en lloc de derivar-se del motor GTA-V.

Amb una comprensió programàtica i essencialment "hologràfica" de tota la representació de l'escena, les imatges en 3D de SAIL-VOS poden sintetitzar representacions d'objectes que normalment s'amaguen per oclusions, com ara el braç llunyà del personatge que gira aquí, d'una manera que d'altra manera ho faria. depenen de moltes instàncies representatives en imatges del món real. Font: https://arxiv.org/pdf/2105.08612.pdf

Amb una comprensió programàtica i essencialment "hologràfica" de la representació sencera de l'escena, les imatges en 3D de SAIL-VOS poden sintetitzar representacions d'objectes que normalment s'amaguen per oclusió, com ara el braç llunyà del personatge que gira aquí, d'una manera que d'una altra manera ho faria. depenen de moltes instàncies representatives en imatges del món real. (Feu clic per ampliar) Font: https://arxiv.org/pdf/2105.08612.pdf

Com que cada objecte del món de GTA-V conté un identificador únic, SAIL-VOS els recupera del motor de renderització mitjançant la biblioteca de ganxos d'scripts de GTA-V. Això resol el problema de tornar a adquirir el subjecte si ha d'abandonar temporalment el camp de visió, ja que l'etiquetatge és persistent i fiable. Hi ha 162 objectes disponibles a l'entorn, que els investigadors van assignar a un nombre corresponent de classes.

Una varietat d'escenes i objectes

Molts dels objectes del motor GTA-V són de naturalesa comuna i, per tant, l'inventari SAIL-VOS conté un afortunat 60% de les classes presents al 2014 d'ús freqüent de Microsoft. Conjunt de dades MS-COCO.

El conjunt de dades SAIL-VOS inclou una gran varietat d'escenes interiors i exteriors sota diferents condicions meteorològiques, amb personatges que porten roba variada.

El conjunt de dades SAIL-VOS inclou una gran varietat d'escenes interiors i exteriors sota diferents condicions meteorològiques, amb personatges que porten roba variada. (Click per ampliar)

Aplicabilitat

Per garantir la compatibilitat amb el curs general de recerca en aquesta àrea i per confirmar que aquest enfocament sintètic pot beneficiar projectes no sintètics, els investigadors van avaluar el conjunt de dades mitjançant l'enfocament de detecció basat en marcs utilitzat per a MS-COCO i el 2012. Repte PASCAL Visual Object Classes (VOC)., amb una precisió mitjana com a mètrica.

Els investigadors van trobar que la formació prèvia al conjunt de dades SAIL-VOS millora el rendiment de Intersection over Union (IoU) en un 19%, amb una millora corresponent en VideoMatch rendiment, del 55% al ​​74% en dades no vistes.

Tanmateix, en casos d'oclusió extrema, hi va haver ocasions en què tots els mètodes antics no van poder identificar un objecte o una persona, tot i que els investigadors preveuen que això es podria solucionar en el futur examinant els marcs adjacents per establir el raonament de la màscara amodal. .

A les dues imatges de la dreta, els algorismes de segmentació tradicionals no han pogut identificar la figura femenina de la part molt limitada del seu cap que és visible. Les innovacions posteriors amb l'avaluació del flux òptic poden millorar aquests resultats.

A les dues imatges de la dreta, els algorismes de segmentació tradicionals no han pogut identificar la figura femenina de la part molt limitada del seu cap que és visible. Les innovacions posteriors amb l'avaluació del flux òptic poden millorar aquests resultats. (Click per ampliar)