Artificial Intelligence
Synthetische Daten: Überbrückung der Okklusionslücke mit Grand Theft Auto
Forscher der University of Illinois haben einen neuen Computer-Vision-Datensatz erstellt, der synthetische Bilder verwendet, die von einer Grand Theft Auto-Spiel-Engine generiert wurden, um dabei zu helfen, eines der heikelsten Hindernisse bei der semantischen Segmentierung zu lösen – die Erkennung von Objekten, die in Quellbildern und -videos nur teilweise sichtbar sind.
Zu diesem Zweck, wie in beschrieben das Papierhaben die Forscher die GTA-V-Videospiel-Engine verwendet, um einen synthetischen Datensatz zu generieren, der nicht nur eine rekordverdächtige Anzahl von Okklusionsinstanzen aufweist, sondern auch eine perfekte semantische Segmentierung und Kennzeichnung aufweist und zeitliche Informationen auf eine Art und Weise berücksichtigt, die es nicht gibt durch ähnliche Open-Source-Datensätze behandelt.
Vollständiges Szenenverständnis
Das folgende Video, das als unterstützendes Material für die Forschung veröffentlicht wurde, veranschaulicht die Vorteile eines vollständigen 3D-Verständnisses einer Szene, da verdeckte Objekte in der Szene unter allen Umständen bekannt und sichtbar sind, sodass das Bewertungssystem lernen kann, teilweise verdeckte Ansichten zuzuordnen mit dem gesamten (beschrifteten) Objekt.
Quelle: http://sailvos.web.illinois.edu/_site/index.html
Der resultierende Datensatz mit der Bezeichnung SAIL-VOS 3D ist nach Angaben der Autoren der erste synthetische Video-Mesh-Datensatz mit Bild-für-Bild-Annotation, Segmentierung auf Instanzebene, Ground-Truth-Tiefe für Szenenansichten und durch Begrenzungsrahmen abgegrenzten 2D-Anmerkungen.
Die Anmerkungen von SAIL-VOS 3D umfassen Tiefe, Modalität auf Instanzebene und amodal Segmentierung, semantische Etiketten und 3D-Netze. Die Daten umfassen 484 Videos mit insgesamt 237,611 Bildern bei einer Auflösung von 1280 x 800, einschließlich Bildübergängen.
Der Satz ist in 6,807 Clips mit durchschnittlich jeweils 34.6 Frames unterteilt und die Daten sind mit 3,460,213 Objektinstanzen versehen, die aus 3,576 Mesh-Modellen in der GTA-V-Spiel-Engine stammen. Diese werden insgesamt 178 semantischen Kategorien zugeordnet.
Netzrekonstruktion und automatisierte Beschriftung
Da die spätere Datensatzrecherche wahrscheinlich anhand realer Bilder erfolgen wird, werden die Netze in SAIL-VOS 3D vom Framework für maschinelles Lernen generiert und nicht von der GTA-V-Engine abgeleitet.
Da jedes Objekt in der GTA-V-Welt eine eindeutige ID enthält, ruft SAIL-VOS diese mithilfe der GTA-V-Skript-Hook-Bibliothek von der Rendering-Engine ab. Dies löst das Problem der erneuten Erfassung des Motivs, wenn es vorübergehend das Sichtfeld verlässt, da die Kennzeichnung dauerhaft und zuverlässig ist. In der Umgebung sind 162 Objekte verfügbar, die die Forscher einer entsprechenden Anzahl von Klassen zugeordnet haben.
Eine Vielzahl von Szenen und Objekten
Viele der Objekte in der GTA-V-Engine sind von gemeinsamer Natur und daher enthält der SAIL-VOS-Bestand glücklicherweise 60 % der Klassen, die in der häufig verwendeten Version 2014 von Microsoft vorhanden sind MS-COCO-Datensatz.
Anwendbarkeit
Um die Kompatibilität mit der allgemeinen Forschung in diesem Bereich sicherzustellen und zu bestätigen, dass dieser synthetische Ansatz auch nicht-synthetischen Projekten zugute kommen kann, haben die Forscher den Datensatz mithilfe des rahmenbasierten Erkennungsansatzes ausgewertet, der für MS-COCO und 2012 verwendet wird PASCAL Visual Object Classes (VOC)-Herausforderung, mit durchschnittlicher Genauigkeit als Metrik.
Die Forscher fanden heraus, dass das Vortraining auf dem SAIL-VOS-Datensatz die Leistung von Intersection over Union verbessert (IoU) um 19 %, mit einer entsprechenden Verbesserung Videomatch Leistung, von 55 % auf 74 % bei unsichtbaren Daten.
Bei extremer Okklusion kam es jedoch vor, dass alle älteren Methoden weiterhin nicht in der Lage waren, ein Objekt oder eine Person zu identifizieren. Die Forscher prognostizieren jedoch, dass dies in Zukunft durch die Untersuchung benachbarter Frames behoben werden könnte, um die Begründung für die amodale Maske zu ermitteln .