Artificial Intelligence

Synthetische gegevens: de occlusiekloof overbruggen met Grand Theft Auto

Bijgewerkt on 9 december 2022

Onderzoekers van de Universiteit van Illinois hebben een nieuwe computer vision-dataset gemaakt die synthetische beelden gebruikt die zijn gegenereerd door een Grand Theft Auto-game-engine om een van de lastigste obstakels in semantische segmentatie te helpen oplossen: het herkennen van objecten die slechts gedeeltelijk zichtbaar zijn in bronafbeeldingen en -video's.

Daartoe, zoals beschreven in de krant, hebben de onderzoekers de GTA-V-videogame-engine gebruikt om een synthetische dataset te genereren die niet alleen een recordaantal occlusie-exemplaren bevat, maar ook perfecte semantische segmentatie en labeling biedt, en rekening houdt met temporele informatie op een manier die dat niet is aangepakt door vergelijkbare open source datasets.

Volledig begrip van scènes

De onderstaande video, gepubliceerd als ondersteunend materiaal voor het onderzoek, illustreert de voordelen van een volledig 3D-begrip van een scène, in die zin dat verduisterde objecten onder alle omstandigheden in de scène bekend zijn en zichtbaar zijn, waardoor het evaluatiesysteem kan leren om gedeeltelijk afgesloten weergaven te associëren met het gehele (gelabelde) object.

Bron: http://sailvos.web.illinois.edu/_site/index.html

De resulterende dataset, genaamd SAIL-VOS 3D, zou volgens de auteurs de eerste synthetische videomesh-dataset zijn met frame-voor-frame annotatie, segmentatie op instantieniveau, grondwaarheidsdiepte voor scèneweergaven en 2D-annotaties afgebakend door begrenzingsvakken.

bron (Klik om te vergroten)

De annotaties van SAIL-VOS 3D omvatten diepte, instantieniveau modaal en amodaal segmentatie, semantische labels en 3D meshes. De gegevens omvatten 484 video's met in totaal 237,611 frames met een resolutie van 1280 × 800, inclusief opname-overgangen.

Hierboven de originele CGI-frames; tweede rij, segmentatie op instantieniveau; derde rij, amodale segmentatie, die de diepte van het begrip van de scène en de beschikbare transparantie in de gegevens illustreert. bron (Klik om te vergroten)

De set valt uiteen in 6,807 clips met een gemiddelde van 34.6 frames elk, en de gegevens zijn geannoteerd met 3,460,213 objectinstanties die afkomstig zijn van 3,576 mesh-modellen in de GTA-V-game-engine. Deze zijn toegewezen aan in totaal 178 semantische categorieën.

Mesh-reconstructie en geautomatiseerde labeling

Omdat later datasetonderzoek waarschijnlijk zal plaatsvinden op basis van beelden uit de echte wereld, worden de meshes in SAIL-VOS 3D gegenereerd door het machine learning-framework, in plaats van afgeleid van de GTA-V-engine.

Met een programmatisch en in wezen 'holografisch' begrip van de volledige scènerepresentatie, kunnen SAIL-VOS 3D-beelden representaties van objecten synthetiseren die gewoonlijk verborgen zijn door occlusies, zoals de ver naar voren gerichte arm van het personage dat hier ronddraait, op een manier die anders zou gebeuren. zijn afhankelijk van veel representatieve voorbeelden in beelden uit de echte wereld. (Klik om te vergroten) Bron: https://arxiv.org/pdf/2105.08612.pdf

Aangezien elk object in de GTA-V-wereld een uniek ID bevat, haalt SAIL-VOS deze op uit de rendering-engine met behulp van de GTA-V-scripthookbibliotheek. Dit lost het probleem op van het terugkrijgen van het onderwerp als het tijdelijk het gezichtsveld zou verlaten, aangezien de labeling persistent en betrouwbaar is. Er zijn 162 objecten beschikbaar in de omgeving, die de onderzoekers hebben toegewezen aan een overeenkomstig aantal klassen.

Een verscheidenheid aan scènes en objecten

Veel van de objecten in de GTA-V-engine komen veel voor en daarom bevat de SAIL-VOS-inventaris gelukkig 60% van de klassen die aanwezig zijn in de veelgebruikte 2014-bestanden van Microsoft. MS-COCO-gegevensset.

De dataset van SAIL-VOS bevat een grote verscheidenheid aan binnen- en buitenscènes onder verschillende weersomstandigheden, met personages die verschillende kleding dragen. (Klik om te vergroten)

Toepasselijkheid

Om compatibiliteit met de algemene onderzoeksgang op dit gebied te garanderen en om te bevestigen dat deze synthetische benadering ten goede kan komen aan niet-synthetische projecten, evalueerden de onderzoekers de dataset met behulp van de op frames gebaseerde detectiebenadering die werd gebruikt voor MS-COCO en de 2012 PASCAL Visual Object Classes (VOC)-uitdaging, met gemiddelde precisie als maatstaf.

De onderzoekers ontdekten dat pre-training op de SAIL-VOS-dataset de prestaties van Intersection over Union verbetert (IoU) met 19%, met een overeenkomstige verbetering in VideoMatch prestaties, van 55% tot 74% op ongeziene gegevens.

In gevallen van extreme occlusie waren er echter gevallen waarin alle oudere methoden een object of persoon niet konden identificeren, hoewel de onderzoekers voorspelden dat dit in de toekomst zou kunnen worden verholpen door aangrenzende frames te onderzoeken om de redenering voor het amodale masker vast te stellen. .

In de twee rechterafbeeldingen zijn traditionele segmentatie-algoritmen er niet in geslaagd om de vrouwelijke figuur te identificeren aan de hand van het zeer beperkte deel van haar hoofd dat zichtbaar is. Latere innovaties met optische stroomevaluatie kunnen deze resultaten verbeteren. (Klik om te vergroten)

Nieuwe Deepfake-methode lost het 'Face Host'-probleem op

Mis het niet

Emotionele dynamiek in kaart brengen van filmscripts

Martin Anderson

Schrijver over machine learning, kunstmatige intelligentie en big data.
Persoonlijke site: martinanderson.ai
Contact: [e-mail beveiligd]
Twitter: @manders_ai