Künstliche Intelligenz

UrbanScene3D: Semantisch beschriftete Stadtlandschaften für die Forschung an autonomem Fahrzeug

Published July 12, 2021

Updated April 28, 2026

Martin Anderson

Das Visual Computing Research Center an der Shenzhen University in China hat einen umfangreichen Datensatz von städtischen Szenen entwickelt, der vielfältige, vollständig semantisch beschriftete Simulationen einer Reihe von großen Städten auf der ganzen Welt bietet, als Ressource für Forschungsinitiativen im Bereich der Fahrzeug-, Drohnen- und anderen Arten von maschinellen Lernumgebungen.

Unter dem Titel UrbanScene3D verfügt der Simulator über eine Vielzahl von dichten und detaillierten, navigierbaren städtischen Rekonstruktionen mit realistischen Texturen. Viele der Szenarien werden von professionellen Modelleuren erstellt, die auf öffentlich zugänglichen Luftbildern basieren, und verfügen über ein Level an menschlicher Optimierung, das derzeit schwierig oder teuer zu simulieren ist in vollständig programmatischen Bildsynthese- und RGB-D-Erfassungssystemen, die auf Photogrammetrie basieren, wie z.B. Neural Radiance Fields (NeRF).

Das Projekt adressiert eine der großen Ungleichgewichte in der Forschung zur Computer-Vision – einen Mangel an reichen, semantisch beschrifteten städtischen Umgebungsdatensätzen mit hoher Qualität der Modellstruktur, im Vergleich zu der sehr hohen Verfügbarkeit ähnlicher semantischer und Modellierungsdaten in Bezug auf Innenräume.

Simulationen, die in UrbanScene3D ausgeführt werden, können die Grundlage für die Generierung nachfolgender projektspezifischer Datensätze in Bezug auf autonome Fahrzeuge und Drohnen liefern, sowie andere Möglichkeiten.

UrbanScene3D running AirSim, and producing depth maps. Source: https://arxiv.org/pdf/2107.04286.pdf

Die Quelldateien des Projekts, etwa 70 GB, wurden veröffentlicht kostenlos für Forschungs- und Bildungszwecke. Die Implementierung kann in einer C++-Umgebung oder in Python ausgeführt werden und erfordert Unreal Engine 4 (mit 4.24 empfohlen). Für luftgestützte Projekte, wie z.B. Drohnen-Training und -Simulation, unterstützt das Projekt auch Microsofts AirSim.

UrbanScene3D verfügt über sechs professionell modellierte CAD-Umgebungen, die von professionellen Künstlern aus Bildern oder Satellitenkarten erstellt wurden, sowie über fünf rekonstruierte reale Umgebungen. Die CAD-Szenen verfügen über Rekonstruktionen von New York City, Chicago, San Francisco, Shenzhen, Suzhou und Shanghai. Die bildbasierten Daten konzentrieren sich auf fünf spezifische Szenen aus diesen Städten, einschließlich eines Krankenhauses und eines Universitätscampus.

Städte, die in UrbanScene3D vertreten sind.

Die Rohdaten für UrbanScene3D werden ebenfalls bereitgestellt, einschließlich hochauflösender Luftbilder mit 6000×4000 Pixeln und 4K-Luftvideos, sowie Poses und rekonstruierten 3D-Modellen.

Das Projekt zielt darauf ab, die Einschränkungen bestehender städtischer Szenendatensätze zu adressieren und ist der erste, der hochwertige CAD-Detaillevel zusammen mit semantischer Beschriftung und Tiefenkartinformationen bietet. Frühere Bemühungen umfassen:

COCO

Veröffentlicht im Jahr 2014, verfügt Microsofts Common Objects in Context (COCO) Datensatz über 1,5 Millionen Objektinstanzen in 80 Kategorien, zusammen mit Objekterkennung im Kontext und fünf Bildunterschriften pro Bild. COCO verfügt nicht über GT-Mesh mit Pose oder Tiefeninformation.

Das COCO-Explorer-Icon-Set. Source: https://arxiv.org/pdf/1405.0312.pdf

Das KITTI Vision Benchmark Suite

Produziert vom Karlsruher Institut für Technologie und dem Toyota Technological Institute at Chicago, bietet KITTI Tiefeninformationen, aber keine Instanzmasken.

CityScape

Der Cityscapes-Datensatz für semantische städtische Szenenverständnis (auch CityScape) wurde 2016 veröffentlicht und verfügt über dichte semantische Segmentierung und Instanzsegmentierung von Personen und Fahrzeugen. Als solches ist sein primäres Ziel die Unterstützung bei der Entwicklung autonomer Fahrzeugsysteme und angrenzender Sektoren der städtischen Überwachung.

Es verfügt über acht Klassen, einschließlich flach, menschlich, Fahrzeug, Bau, Objekt, Natur, Himmel und Leer, und bietet feine Bildunterschriften über 5000 Bilder.

Source: https://www.cityscapes-dataset.com/examples/#fine-annotations

CityScape wurde 2020 veröffentlicht und ist ähnlich wie UrbanScene3D, außer dass es CAD-Modellierung fehlt.

ApolloCar3D

Gestartet im Jahr 2018 und von Baidu Research geleitet, ist ApolloCar3D eine Zusammenarbeit zwischen mehreren akademischen Forschungseinheiten in West und Asien, einschließlich der University of California at San Diego, der Australian National University und der Northwestern Polytechnical University at Xi’an, China.

ApolloCar3D ist speziell auf die Forschung an autonomem Fahrzeug auf Bodenniveau ausgerichtet und verfügt über 5.277 Fahrbilder und über 60.000 Fahrzeuginstanzen, die durch detaillierte 3D-CAD-Modelle in absoluten Größen dargestellt und für semantische Schlüsselpunkte beschriftet werden. Der Datensatz ist mehr als 20-mal größer als KITTI, aber im Gegensatz zu UrbanScene3D verfügt er nur über teilweise Tiefeninformationen.

66 Schlüsselpunkte sind für jedes CAD-ergänzte Fahrzeug im ApolloCar3D-Datensatz definiert. Source: https://arxiv.org/pdf/1811.12222.pdf

HoliCity

HoliCity, beschrieben als ‘Eine City-Scale-Datenplattform für das Lernen von holistischen 3D-Strukturen’, ist eine 2021er Zusammenarbeit zwischen UC Berkeley, Stanford, USC und Bytedance Research at Palo Alto. Es umfasst einen city-weiten 3D-Datensatz mit einem hohen Level an Strukturendetail und bietet 6.300 reale Panorama-Szenen, die eine Fläche von über 20 Quadratkilometern abdecken.

Das Projekt ist auf reale Anwendungen wie Lokalisierung, erweiterte Realität, Kartierung und city-weite Rekonstruktion ausgerichtet. Obwohl es CAD-Modellierung verfügt, ist das Level an Detail unter dem von UrbanScene3D.