Stummel Synthetische Daten: Überbrückung der Okklusionslücke mit Grand Theft Auto – Unite.AI
Vernetzen Sie sich mit uns

Artificial Intelligence

Synthetische Daten: Überbrückung der Okklusionslücke mit Grand Theft Auto

mm
Aktualisiert on

Forscher der University of Illinois haben einen neuen Computer-Vision-Datensatz erstellt, der synthetische Bilder verwendet, die von einer Grand Theft Auto-Spiel-Engine generiert wurden, um dabei zu helfen, eines der heikelsten Hindernisse bei der semantischen Segmentierung zu lösen – die Erkennung von Objekten, die in Quellbildern und -videos nur teilweise sichtbar sind.

Zu diesem Zweck, wie in beschrieben das Papierhaben die Forscher die GTA-V-Videospiel-Engine verwendet, um einen synthetischen Datensatz zu generieren, der nicht nur eine rekordverdächtige Anzahl von Okklusionsinstanzen aufweist, sondern auch eine perfekte semantische Segmentierung und Kennzeichnung aufweist und zeitliche Informationen auf eine Art und Weise berücksichtigt, die es nicht gibt durch ähnliche Open-Source-Datensätze behandelt.

Vollständiges Szenenverständnis

Das folgende Video, das als unterstützendes Material für die Forschung veröffentlicht wurde, veranschaulicht die Vorteile eines vollständigen 3D-Verständnisses einer Szene, da verdeckte Objekte in der Szene unter allen Umständen bekannt und sichtbar sind, sodass das Bewertungssystem lernen kann, teilweise verdeckte Ansichten zuzuordnen mit dem gesamten (beschrifteten) Objekt.

Quelle: http://sailvos.web.illinois.edu/_site/index.html

Der resultierende Datensatz mit der Bezeichnung SAIL-VOS 3D ist nach Angaben der Autoren der erste synthetische Video-Mesh-Datensatz mit Bild-für-Bild-Annotation, Segmentierung auf Instanzebene, Ground-Truth-Tiefe für Szenenansichten und durch Begrenzungsrahmen abgegrenzten 2D-Anmerkungen.

Quelle (Klicken zum Vergrößern)

Die Anmerkungen von SAIL-VOS 3D umfassen Tiefe, Modalität auf Instanzebene und amodal Segmentierung, semantische Etiketten und 3D-Netze. Die Daten umfassen 484 Videos mit insgesamt 237,611 Bildern bei einer Auflösung von 1280 x 800, einschließlich Bildübergängen.

Oben die Original-CGI-Frames; zweite Zeile, Segmentierung auf Instanzebene; Dritte Zeile, amodale Segmentierung, die die Tiefe des Szenenverständnisses und der Transparenz veranschaulicht, die in den Daten verfügbar sind. Quelle

Oben die Original-CGI-Frames; zweite Zeile, Segmentierung auf Instanzebene; Dritte Zeile, amodale Segmentierung, die die Tiefe des Szenenverständnisses und der Transparenz veranschaulicht, die in den Daten verfügbar sind. Quelle (Klicken zum Vergrößern)

Der Satz ist in 6,807 Clips mit durchschnittlich jeweils 34.6 Frames unterteilt und die Daten sind mit 3,460,213 Objektinstanzen versehen, die aus 3,576 Mesh-Modellen in der GTA-V-Spiel-Engine stammen. Diese werden insgesamt 178 semantischen Kategorien zugeordnet.

Netzrekonstruktion und automatisierte Beschriftung

Da die spätere Datensatzrecherche wahrscheinlich anhand realer Bilder erfolgen wird, werden die Netze in SAIL-VOS 3D vom Framework für maschinelles Lernen generiert und nicht von der GTA-V-Engine abgeleitet.

Mit einem programmatischen und im Wesentlichen „holografischen“ Verständnis der gesamten Szenendarstellung können die 3D-Bilder von SAIL-VOS Darstellungen von Objekten synthetisieren, die normalerweise durch Verdeckungen verborgen sind, wie etwa der nach vorne gerichtete Arm der Figur, die sich hier umdreht, auf eine Art und Weise, wie dies sonst der Fall wäre hängen von vielen repräsentativen Beispielen im realen Filmmaterial ab. Quelle: https://arxiv.org/pdf/2105.08612.pdf

Mit einem programmatischen und im Wesentlichen „holografischen“ Verständnis der gesamten Szenendarstellung können die 3D-Bilder von SAIL-VOS Darstellungen von Objekten synthetisieren, die normalerweise durch Verdeckungen verborgen sind, wie etwa der nach vorne gerichtete Arm der Figur, die sich hier umdreht, auf eine Art und Weise, wie dies sonst der Fall wäre hängen von vielen repräsentativen Beispielen im realen Filmmaterial ab. (Zum Vergrößern anklicken) Quelle: https://arxiv.org/pdf/2105.08612.pdf

Da jedes Objekt in der GTA-V-Welt eine eindeutige ID enthält, ruft SAIL-VOS diese mithilfe der GTA-V-Skript-Hook-Bibliothek von der Rendering-Engine ab. Dies löst das Problem der erneuten Erfassung des Motivs, wenn es vorübergehend das Sichtfeld verlässt, da die Kennzeichnung dauerhaft und zuverlässig ist. In der Umgebung sind 162 Objekte verfügbar, die die Forscher einer entsprechenden Anzahl von Klassen zugeordnet haben.

Eine Vielzahl von Szenen und Objekten

Viele der Objekte in der GTA-V-Engine sind von gemeinsamer Natur und daher enthält der SAIL-VOS-Bestand glücklicherweise 60 % der Klassen, die in der häufig verwendeten Version 2014 von Microsoft vorhanden sind MS-COCO-Datensatz.

Der SAIL-VOS-Datensatz umfasst eine große Vielfalt an Innen- und Außenszenen unter unterschiedlichen Wetterbedingungen, wobei die Charaktere unterschiedliche Kleidung tragen.

Der SAIL-VOS-Datensatz umfasst eine große Vielfalt an Innen- und Außenszenen unter unterschiedlichen Wetterbedingungen, wobei die Charaktere unterschiedliche Kleidung tragen. (Klicken zum Vergrößern)

Anwendbarkeit

Um die Kompatibilität mit der allgemeinen Forschung in diesem Bereich sicherzustellen und zu bestätigen, dass dieser synthetische Ansatz auch nicht-synthetischen Projekten zugute kommen kann, haben die Forscher den Datensatz mithilfe des rahmenbasierten Erkennungsansatzes ausgewertet, der für MS-COCO und 2012 verwendet wird PASCAL Visual Object Classes (VOC)-Herausforderung, mit durchschnittlicher Genauigkeit als Metrik.

Die Forscher fanden heraus, dass das Vortraining auf dem SAIL-VOS-Datensatz die Leistung von Intersection over Union verbessert (IoU) um 19 %, mit einer entsprechenden Verbesserung Videomatch Leistung, von 55 % auf 74 % bei unsichtbaren Daten.

Bei extremer Okklusion kam es jedoch vor, dass alle älteren Methoden weiterhin nicht in der Lage waren, ein Objekt oder eine Person zu identifizieren. Die Forscher prognostizieren jedoch, dass dies in Zukunft durch die Untersuchung benachbarter Frames behoben werden könnte, um die Begründung für die amodale Maske zu ermitteln .

In den beiden rechten Bildern ist es herkömmlichen Segmentierungsalgorithmen nicht gelungen, die weibliche Figur anhand des sehr begrenzten sichtbaren Teils ihres Kopfes zu identifizieren. Spätere Innovationen mit optischer Flussbewertung könnten diese Ergebnisse verbessern.

In den beiden rechten Bildern ist es herkömmlichen Segmentierungsalgorithmen nicht gelungen, die weibliche Figur anhand des sehr begrenzten sichtbaren Teils ihres Kopfes zu identifizieren. Spätere Innovationen mit optischer Flussbewertung könnten diese Ergebnisse verbessern. (Klicken zum Vergrößern)