Artificial Intelligence
Synthetische gegevens: de occlusiekloof overbruggen met Grand Theft Auto
Onderzoekers van de Universiteit van Illinois hebben een nieuwe computer vision-dataset gemaakt die synthetische beelden gebruikt die zijn gegenereerd door een Grand Theft Auto-game-engine om een van de lastigste obstakels in semantische segmentatie te helpen oplossen: het herkennen van objecten die slechts gedeeltelijk zichtbaar zijn in bronafbeeldingen en -video's.
Daartoe, zoals beschreven in de krant, hebben de onderzoekers de GTA-V-videogame-engine gebruikt om een synthetische dataset te genereren die niet alleen een recordaantal occlusie-exemplaren bevat, maar ook perfecte semantische segmentatie en labeling biedt, en rekening houdt met temporele informatie op een manier die dat niet is aangepakt door vergelijkbare open source datasets.
Volledig begrip van scènes
De onderstaande video, gepubliceerd als ondersteunend materiaal voor het onderzoek, illustreert de voordelen van een volledig 3D-begrip van een scène, in die zin dat verduisterde objecten onder alle omstandigheden in de scène bekend zijn en zichtbaar zijn, waardoor het evaluatiesysteem kan leren om gedeeltelijk afgesloten weergaven te associëren met het gehele (gelabelde) object.
Bron: http://sailvos.web.illinois.edu/_site/index.html
De resulterende dataset, genaamd SAIL-VOS 3D, zou volgens de auteurs de eerste synthetische videomesh-dataset zijn met frame-voor-frame annotatie, segmentatie op instantieniveau, grondwaarheidsdiepte voor scèneweergaven en 2D-annotaties afgebakend door begrenzingsvakken.
De annotaties van SAIL-VOS 3D omvatten diepte, instantieniveau modaal en amodaal segmentatie, semantische labels en 3D meshes. De gegevens omvatten 484 video's met in totaal 237,611 frames met een resolutie van 1280 × 800, inclusief opname-overgangen.
De set valt uiteen in 6,807 clips met een gemiddelde van 34.6 frames elk, en de gegevens zijn geannoteerd met 3,460,213 objectinstanties die afkomstig zijn van 3,576 mesh-modellen in de GTA-V-game-engine. Deze zijn toegewezen aan in totaal 178 semantische categorieën.
Mesh-reconstructie en geautomatiseerde labeling
Omdat later datasetonderzoek waarschijnlijk zal plaatsvinden op basis van beelden uit de echte wereld, worden de meshes in SAIL-VOS 3D gegenereerd door het machine learning-framework, in plaats van afgeleid van de GTA-V-engine.
Aangezien elk object in de GTA-V-wereld een uniek ID bevat, haalt SAIL-VOS deze op uit de rendering-engine met behulp van de GTA-V-scripthookbibliotheek. Dit lost het probleem op van het terugkrijgen van het onderwerp als het tijdelijk het gezichtsveld zou verlaten, aangezien de labeling persistent en betrouwbaar is. Er zijn 162 objecten beschikbaar in de omgeving, die de onderzoekers hebben toegewezen aan een overeenkomstig aantal klassen.
Een verscheidenheid aan scènes en objecten
Veel van de objecten in de GTA-V-engine komen veel voor en daarom bevat de SAIL-VOS-inventaris gelukkig 60% van de klassen die aanwezig zijn in de veelgebruikte 2014-bestanden van Microsoft. MS-COCO-gegevensset.
Toepasselijkheid
Om compatibiliteit met de algemene onderzoeksgang op dit gebied te garanderen en om te bevestigen dat deze synthetische benadering ten goede kan komen aan niet-synthetische projecten, evalueerden de onderzoekers de dataset met behulp van de op frames gebaseerde detectiebenadering die werd gebruikt voor MS-COCO en de 2012 PASCAL Visual Object Classes (VOC)-uitdaging, met gemiddelde precisie als maatstaf.
De onderzoekers ontdekten dat pre-training op de SAIL-VOS-dataset de prestaties van Intersection over Union verbetert (IoU) met 19%, met een overeenkomstige verbetering in VideoMatch prestaties, van 55% tot 74% op ongeziene gegevens.
In gevallen van extreme occlusie waren er echter gevallen waarin alle oudere methoden een object of persoon niet konden identificeren, hoewel de onderzoekers voorspelden dat dit in de toekomst zou kunnen worden verholpen door aangrenzende frames te onderzoeken om de redenering voor het amodale masker vast te stellen. .