Intel·ligència Artificial
Dades sintètiques: superant la bretxa d'oclusió amb Grand Theft Auto
Investigadors de la Universitat d'Illinois han creat un nou conjunt de dades de visió per ordinador que utilitza imatges sintètiques generades per un motor de jocs Grand Theft Auto per ajudar a resoldre un dels obstacles més espinosos en la segmentació semàntica: el reconeixement d'objectes que només són visibles parcialment a les imatges i vídeos d'origen.
Amb aquesta finalitat, tal com es descriu a el paper, els investigadors han utilitzat el motor de videojocs GTA-V per generar un conjunt de dades sintètics que no només inclou un nombre rècord d'instàncies d'oclusió, sinó que inclou una segmentació i etiquetatge semàntics perfectes, i que té en compte la informació temporal d'una manera que no ho és. abordat per conjunts de dades de codi obert similars.
Comprensió completa de l'escena
El vídeo següent, publicat com a material de suport per a la investigació, il·lustra els avantatges d'una comprensió completa en 3D d'una escena, ja que els objectes enfosquits es coneixen i s'exposen a l'escena en totes les circumstàncies, permetent que el sistema d'avaluació aprengui a associar vistes ocultes parcials. amb tot l'objecte (etiquetat).
Font: http://sailvos.web.illinois.edu/_site/index.html
Els autors afirmen que el conjunt de dades resultant, anomenat SAIL-VOS 3D, és el primer conjunt de dades de malla de vídeo sintètic amb anotació fotograma a fotograma, segmentació a nivell d'instància, profunditat de veritat del sòl per a vistes d'escena i anotacions 2D delineades per quadres delimitadors.
Les anotacions de SAIL-VOS 3D inclouen profunditat, modal a nivell d'instància i amodal segmentació, etiquetes semàntiques i malles 3D. Les dades inclouen 484 vídeos amb un total de 237,611 fotogrames amb una resolució de 1280 × 800, incloses les transicions de captura.
El conjunt es divideix en 6,807 clips amb una mitjana de 34.6 fotogrames cadascun, i les dades s'anotaven amb 3,460,213 instàncies d'objecte originades a partir de 3,576 models de malla del motor de joc GTA-V. Aquestes s'assignen a un total de 178 categories semàntiques.
Reconstrucció de malles i etiquetatge automatitzat
Com que és probable que la investigació posterior del conjunt de dades es produeixi en imatges del món real, les malles de SAIL-VOS 3D són generades pel marc d'aprenentatge automàtic, en lloc de derivar-se del motor GTA-V.
Com que cada objecte del món de GTA-V conté un identificador únic, SAIL-VOS els recupera del motor de renderització mitjançant la biblioteca de ganxos d'scripts de GTA-V. Això resol el problema de tornar a adquirir el subjecte si ha d'abandonar temporalment el camp de visió, ja que l'etiquetatge és persistent i fiable. Hi ha 162 objectes disponibles a l'entorn, que els investigadors van assignar a un nombre corresponent de classes.
Una varietat d'escenes i objectes
Molts dels objectes del motor GTA-V són de naturalesa comuna i, per tant, l'inventari SAIL-VOS conté un afortunat 60% de les classes presents al 2014 d'ús freqüent de Microsoft. Conjunt de dades MS-COCO.
Aplicabilitat
Per garantir la compatibilitat amb el curs general de recerca en aquesta àrea i per confirmar que aquest enfocament sintètic pot beneficiar projectes no sintètics, els investigadors van avaluar el conjunt de dades mitjançant l'enfocament de detecció basat en marcs utilitzat per a MS-COCO i el 2012. Repte PASCAL Visual Object Classes (VOC)., amb una precisió mitjana com a mètrica.
Els investigadors van trobar que la formació prèvia al conjunt de dades SAIL-VOS millora el rendiment de Intersection over Union (IoU) en un 19%, amb una millora corresponent en VideoMatch rendiment, del 55% al 74% en dades no vistes.
Tanmateix, en casos d'oclusió extrema, hi va haver ocasions en què tots els mètodes antics no van poder identificar un objecte o una persona, tot i que els investigadors preveuen que això es podria solucionar en el futur examinant els marcs adjacents per establir el raonament de la màscara amodal. .