Artificiell intelligens

UrbanScene3D: Semantiskt märkta stadslandskap för forskning om autonoma fordon

Published July 12, 2021

Updated April 28, 2026

Martin Anderson

Visual Computing Research Center vid Shenzhen University i Kina har utvecklat en stor skala urban scen datauppsättning som erbjuder diversifierade, fullständigt semantiskt märkta simuleringar av ett antal stora städer runt om i världen, som en resurs för körning, drönare och andra typer av maskinlärningsmiljösimuleringsinitiativ.

Benämnt UrbanScene3D, simulatorn har en mängd olika täta och detaljerade, navigerbara urbana rekonstruktioner med realistiska texturer. Många av scenarierna skapas av professionella modellbyggare som arbetar från offentligt tillgängliga flygbilder, och har en nivå av mänsklig optimering som för närvarande är svår eller dyr att simulera i helt programmatiska bildsynthesis- och RGB-D-kaptursystem baserade på fotogrammetri, såsom Neural Radiance Fields (NeRF).

Projektet behandlar en av de stora obalanserna inom datorseende-forskning – bristen på rika, semantiskt märkta urbana miljödatauppsättningar med högkvalitativ modellstruktur, jämfört med den mycket höga tillgängligheten av liknande semantiska och modelleringsdata relaterade till inomhusscener.

Simuleringar som körs i UrbanScene3D kan tillhandahålla grundläggande sanning för generering av efterföljande projektspecifika datauppsättningar relaterade till autonoma fordon och drönare, bland andra möjligheter.

UrbanScene3D som kör AirSim och producerar djupkartor. Källa: https://arxiv.org/pdf/2107.04286.pdf

Projektets källfiler, runt 70 GB, har släppts kostnadsfritt för forsknings- och utbildningsändamål. Implementeringen kan köras i en C++-miljö eller i Python, och kräver Unreal Engine 4 (med 4.24 rekommenderat). För luftburet projekt, såsom drönarträning och simulering, stöder projektet också Microsofts AirSim.

UrbanScene3D har sex professionellt modellerade CAD-miljöer som genererats av professionella artister från bilder eller satellitkarteringar, tillsammans med fem rekonstruerade riktiga världsmiljöer. CAD-scenerna har rekonstruktioner av New York City, Chicago, San Francisco, Shenzhen, Suzhou och Shanghai. Bildbaserade data fokuserar på fem specifika scener från dessa städer, inklusive ett sjukhus och ett universitetscampus.

Städer representerade i UrbanScene3D.

De råa insamlingsdata för UrbanScene3D görs också tillgängliga, med högupplösta flygbilder på 6000×4000 pixlar och 4K-flygvideor, tillsammans med poser och de rekonstruerade 3D-modellerna.

Projektet syftar till att behandla begränsningarna i befintliga urbana scendatauppsättningar och är den första som tillhandahåller högkvalitativa CAD-nivådetaljer tillsammans med semantisk märkning och djupkartsinformation. Tidigare ansträngningar inkluderar:

COCO

Släppt 2014, Microsofts Common Objects in Context (COCO) datauppsättning har 1,5 miljoner objektinstanser över 80 kategorier, tillsammans med objekterkännelse i sammanhang och fem undertexter per bild. COCO har inte GT-nät med pose eller djupinformation.

COCO-explorer-ikonsamlingen. Källa: https://arxiv.org/pdf/1405.0312.pdf

The KITTI Vision Benchmark Suite

Producerad av Karlsruhe Institute of Technology och Toyota Technological Institute at Chicago, KITTI tillhandahåller djupinformation, men inte instansmasker.

CityScape

Cityscapes Dataset för Semantisk Urban Scenförståelse (även känd som CityScape) släpptes 2016 och har tät semantisk segmentering och instanssegmentering av människor och fordon. Dess primära mål är att hjälpa till att utveckla autonoma körningssystem och angränsande sektorer för urban övervakning.

Det har åtta klasser, inklusive platt, människa, fordon, konstruktion, objekt, natur, himlen och tom, och erbjuder fina annoteringar över 5000 bilder.

Källa: https://www.cityscapes-dataset.com/examples/#fine-annotations

CityScape släpptes 2020 och är liknande i funktioner till UrbanScene3D, förutom att den saknar CAD-modellering.

ApolloCar3D

Lanserad 2018 och lett av Baidu Research, ApolloCar3D är ett samarbete mellan flera akademiska forskningsenheter i väst och Asien, inklusive University of California at San Diego, Australian National University och Northwestern Polytechnical University i Xi’an, Kina.

ApolloCar3D är specifikt inriktat på marknivåautonom fordonforskning och har 5 277 körbilder och över 60 000 fordonsexemplar som drivs av detaljerade 3D-CAD-modeller som renderas i absoluta storlekar och märks för semantiska nyckelpunkter. Datauppsättningen är mer än 20 gånger större än KITTI, men, till skillnad från UrbanScene3D, har den endast partiell djupinformation.

66 nyckelpunkter definieras för varje CAD-förbättrad fordon i ApolloCar3D-datauppsättningen. Källa: https://arxiv.org/pdf/1811.12222.pdf

HoliCity

HoliCity, beskriven som ‘En stadsskaledataplattform för lärande av holistiska 3D-strukturer’, är ett 2021 samarbete mellan UC Berkeley, Stanford, USC och Bytedance Research i Palo Alto. Det består av en stadsskale 3D-datauppsättning med hög detaljnivå och erbjuder 6 300 riktiga världspanorama-scener som täcker ett område som överstiger 20 kvadratkilometer.

Projektet syftar till att tillämpas i verkliga applikationer som lokaliserings-, förstärkt verklighet-, kartläggnings- och stadsskale-rekonstruktionsforskning. Även om det har CAD-modellering, är detaljnivån lägre än UrbanScene3D.