Kunstmatige intelligentie

UrbanScene3D: Semantisch gelabelde stedelijke omgevingen voor autonome voertuigonderzoek

Published July 12, 2021

Updated April 28, 2026

Martin Anderson

Het Visual Computing Research Center van de Shenzhen University in China heeft een grote verzameling stedelijke scènes ontwikkeld die diverse, volledig semantisch gelabelde simulaties van een aantal grote steden over de hele wereld biedt, als een bron voor rijden, drone en andere soorten machine learning omgevingsimulatie-initiatieven.

Genoemd UrbanScene3D, de simulator beschikt over een verscheidenheid aan dichte en gedetailleerde, navigeerbare stedelijke reconstructies met realistische textures. Veel van de scenario’s zijn gemaakt door professionele modelleurs die werken met openbaar beschikbare luchtfoto’s, en beschikken over een niveau van menselijke optimalisatie dat momenteel moeilijk of duur is om te simuleren in geheel programmatische beeldsynthese en RGB-D-capture-systemen op basis van fotogrammetrie, zoals Neural Radiance Fields (NeRF).

Het project adresseert een van de belangrijkste onevenwichtigheden in computer vision-onderzoek – een gebrek aan rijke, semantisch gelabelde stedelijke omgevingsdatasets met hoge kwaliteit modelstructuur, in vergelijking met het zeer hoge niveau van beschikbaarheid van soortgelijke semantische en modelgegevens met betrekking tot interne scènes.

Simulaties die in UrbanScene3D worden uitgevoerd, kunnen grondwaarheid bieden voor de generatie van latere projectspecifieke datasets met betrekking tot autonome voertuigen en drones, onder andere mogelijkheden.

UrbanScene3D running AirSim, en producing dieptekaarten. Source: https://arxiv.org/pdf/2107.04286.pdf

De bronbestanden van het project, rond de 70gb, zijn vrijgegeven voor doeleinden van onderzoek en educatief gebruik. Implementatie kan worden uitgevoerd in een C++-omgeving of in Python, en vereist Unreal Engine 4 (met 4.24 aanbevolen). Voor luchtopnames, zoals drone-training en simulatie, ondersteunt het project ook Microsoft’s AirSim.

UrbanScene3D beschikt over zes professioneel gemodelleerde CAD-omgevingen gegenereerd door professionele artiesten vanuit afbeeldingen of vanuit satellietkaarten, samen met vijf gereconstrueerde echte wereldomgevingen. De CAD-scènes beschikken over reconstructies van New York City, Chicago, San Francisco, Shenzhen, Suzhou en Shanghai. De beeldgegevens zijn gericht op vijf specifieke scènes van deze steden, waaronder een ziekenhuis en een universiteitscampus.

Steden die worden weergegeven in UrbanScene3D.

De ruwe acquisitiegegevens voor UrbanScene3D worden ook beschikbaar gesteld, met hoge resolutie luchtfoto’s van 6000×4000 pixels, en 4K-luchtfilms, samen met poses en de gereconstrueerde 3D-modellen.

Het project heeft tot doel de beperkingen van bestaande stedelijke scène-datasets aan te pakken, en is het eerste dat hoge kwaliteit CAD-niveau detail biedt samen met semantische labeling en dieptekaartinformatie. Eerdere inspanningen omvatten:

COCO

Uitgebracht in 2014, Microsoft’s Common Objects in Context (COCO) dataset beschikt over 1,5 miljoen objectinstanties over 80 categorieën, samen met objectherkenning in context, en vijf onderschriften per afbeelding. COCO beschikt niet over GT-mesh met pose of dieptekaartinformatie.

De COCO-explorer pictogramset. Source: https://arxiv.org/pdf/1405.0312.pdf

De KITTI Vision Benchmark Suite

Geproduceerd door het Karlsruhe Institute of Technology en het Toyota Technological Institute at Chicago, KITTI biedt dieptekaartinformatie, maar niet instantiemaskers.

CityScape

De Cityscapes Dataset voor Semantische Stedelijke Scène-begrip (ook CityScape) werd uitgebracht in 2016, en beschikt over dichte semantische segmentatie, en instantiesegmentatie van mensen en voertuigen. Als zodanig is het primaire doel om te helpen bij de ontwikkeling van autonome rij-systemen en aangrenzende sectoren van stedelijke monitoring.

Het beschikt over acht klassen, waaronder plat, mens, voertuig, constructie, object, natuur, hemel en leeg, en biedt fijne annotaties over 5000 afbeeldingen.

Source: https://www.cityscapes-dataset.com/examples/#fine-annotations

CityScape werd uitgebracht in 2020, en is vergelijkbaar in functies met UrbanScene3D, behalve dat het geen CAD-modellering beschikt.

ApolloCar3D

Gelanceerd in 2018 en geleid door Baidu Research, ApolloCar3D is een samenwerking tussen een aantal academische onderzoeksunits in het westen en Azië, waaronder de University of California at San Diego, de Australian National University, en de Northwestern Polytechnical University at Xi’an, China.

ApolloCar3D is specifiek gericht op grondniveau autonome voertuigonderzoek, en beschikt over 5.277 rijafbeeldingen, en meer dan 60.000 voertuiginstanties aangedreven door gedetailleerde 3D CAD-modellen weergegeven in absolute maten, en gelabeld voor semantische sleutelpunten. De dataset is meer dan 20 keer groter dan KITTI, maar, in tegenstelling tot UrbanScene3D, beschikt het alleen over gedeeltelijke dieptekaartinformatie.

66 sleutelpunten zijn gedefinieerd voor elk CAD-augmenteerd voertuig in de ApolloCar3D-dataset. Source: https://arxiv.org/pdf/1811.12222.pdf

HoliCity

HoliCity, beschreven als ‘Een stedelijke schaalgegevensplatform voor het leren van holistische 3D-structuren’, is een samenwerking tussen UC Berkeley, Stanford, USC en Bytedance Research at Palo Alto. Het omvat een stedelijke schaalgegevensset met een hoog niveau van structurele details, en biedt 6.300 echte wereldpanorama-scènes die een gebied van meer dan 20 vierkante kilometer bestrijken.

Het project is gericht op real-world-toepassingen zoals lokaliseren, augmented reality, kaarten en stedelijke schaalreconstructie. Hoewel het CAD-modellering beschikt, is het niveau van detail lager dan dat van UrbanScene3D.