Kunstig intelligens

UrbanScene3D: Semantisk merket bylandskap for forskning på selvstyrt kjøretøy

Published July 12, 2021

Updated April 28, 2026

Martin Anderson

Visual Computing Research Center ved Shenzhen University i Kina har utviklet en stor skala byscene datamengde som tilbyr mangfoldige, fullstendig semantisk merket simuleringer av en rekke større byer rundt om i verden, som en ressurs for kjøring, drone og andre typer maskinlæring miljø-simuleringsforskning.

Kalt UrbanScene3D, simulatorn har en rekke tette og detaljerte, navigerbare bygjengivelser med realistiske teksturer. Mange av scenariene er skapt av profesjonelle modellører som arbeider fra offentlig tilgjengelige luftfotos, og har et nivå av menneskeledet optimalisering som for tiden er vanskelig eller dyrt å simulere i helt programmatisk bilde syntese og RGB-D-oppfangingssystemer basert på photogrammetry, som Neural Radiance Fields (NeRF).

Prosjektet løser ett av de største ubalansene i datavisjonsforskning – et mangelfullt rikt, semantisk merket bymiljø datamengde med høy kvalitet modellstruktur, sammenlignet med den svært høye tilgjengeligheten av lignende semantisk og modellering data relatert til interiørscener.

Simuleringer som kjøres i UrbanScene3D kan gi grunn sannhet for generering av påfølgende prosjektspesifikke datamengder relatert til selvstyrt kjøretøy og droner, blant andre muligheter.

UrbanScene3D kjører AirSim, og produserer dybdekart. Kilde: https://arxiv.org/pdf/2107.04286.pdf

Prosjektets kildefiler, rundt 70gb, er blitt gjort tilgjengelig gratis for formål av forskning og utdanningsbruk. Implementering kan kjøres i en C++-miljø eller i Python, og krever Unreal Engine 4 (med 4.24 anbefalt). For luftfotosprosjekter, som drone-trening og simulering, støtter prosjektet også Microsofts AirSim.

UrbanScene3D har seks profesjonelt modellerte CAD-miljøer generert av profesjonelle kunstnere fra bilder eller fra satellittkarter, sammen med fem rekonstruerte virkelige miljøer. CAD-scenene har gjenoppbygginger av New York City, Chicago, San Francisco, Shenzhen, Suzhou og Shanghai. Bildederverte data sentrerer seg på fem spesifikke scener fra disse byene, inkludert et sykehus og et universitetscampus.

Byer representert i UrbanScene3D.

De rå akosisjonsdataene for UrbanScene3D blir også gjort tilgjengelig, med høyoppløselige luftfotos på 6000×4000 piksler, og 4K luftfotos, sammen med posisjoner og de rekonstruerte 3D-modellene.

Prosjektet har som mål å løse begrensningene i eksisterende byscene datamengder, og er den første som tilbyr høykvalitets CAD-nivå detalj sammen med semantisk merking og dybdekartinformasjon. Tidligere forsøk inkluderer:

COCO

Utgitt i 2014, Microsofts Common Objects in Context (COCO) datamengde har 1,5 millioner objektinstanser over 80 kategorier, sammen med objektgjenkjenning i kontekst, og fem undertekster per bilde. COCO har ikke GT-mesh med posisjon eller dybdeinformasjon.

COCO-utforskerikonsettet. Kilde: https://arxiv.org/pdf/1405.0312.pdf

KITTI Vision Benchmark Suite

Produsert av Karlsruhe Institute of Technology og Toyota Technological Institute at Chicago, KITTI tilbyr dybdeinformasjon, men ikke instansmasker.

CityScape

Cityscapes Dataset for Semantic Urban Scene Understanding (aka CityScape) ble utgitt i 2016, og har tett semantisk segmentering, og instanssegmentering av mennesker og kjøretøy. Som sådan er dens primære mål å hjelpe med utviklingen av selvstyrt kjøringssystemer og tilstøtende sektorer av byovervåking.

Det har åtte klasser, inkludert flat, menneske, kjøretøy, konstruksjon, objekt, natur, himmel og tomt, og tilbyr fine annotasjoner over 5000 bilder.

Kilde: https://www.cityscapes-dataset.com/examples/#fine-annotations

CityScape ble utgitt i 2020, og er lignende i funksjoner til UrbanScene3D, bortsett fra at det mangler CAD-modellering.

ApolloCar3D

Lansert i 2018 og ledet av Baidu Research, ApolloCar3D er et samarbeid mellom en rekke akademiske forskningsenheter over hele verden, inkludert University of California at San Diego, Australian National University og Northwestern Polytechnical University at Xi’an, Kina.

ApolloCar3D er spesifikt rettet mot bakke-nivå selvstyrt kjøretøyforskning, og har 5 277 kjørebilder, og over 60 000 kjøretøyinstanser drevet av detaljerte 3D CAD-modeller renderet i absolutte størrelser, og merket for semantisk nøkkel-punkter. Datamengden er over 20 ganger større enn KITTI, men, i motsetning til UrbanScene3D, har den bare delvis dybdeinformasjon.

66 nøkkel-punkter er definert for hver CAD-forbedret kjøretøy i ApolloCar3D-datamengden. Kilde: https://arxiv.org/pdf/1811.12222.pdf

HoliCity

HoliCity, beskrevet som ‘En by-skala data-plattform for læring av holistiske 3D-strukturer’, er et samarbeid fra 2021 samarbeid mellom UC Berkeley, Stanford, USC og Bytedance Research at Palo Alto. Det består av en by-skala 3D-datamengde med høy detaljgrad, og tilbyr 6 300 virkelige panorama-scener som dekker et område på over 20 kvadratkilometer.

Prosjektet er rettet mot virkelige anvendelser som lokaliserings-, augmented reality-, kartlegging og by-skala rekonstruksjon. Selv om det har CAD-modellering, er detaljgraden under det som UrbanScene3D tilbyr.