Intelligenza artificiale

UrbanScene3D: Paesaggi urbani etichettati semanticamente per la ricerca su veicoli autonomi

Published July 12, 2021

Updated April 28, 2026

Martin Anderson

Il Visual Computing Research Center dell’Università di Shenzhen in Cina ha sviluppato un set di dati di scene urbane su larga scala che offre simulazioni diverse, completamente etichettate semanticamente, di numerose città importanti in tutto il mondo, come risorsa per iniziative di ricerca su ambienti di apprendimento automatico che simulano la guida, i droni e altri tipi di ricerca.

Intitolato UrbanScene3D, il simulatore presenta una varietà di ricostruzioni urbane dense e dettagliate, navigabili e con texture realistiche. Molti degli scenari sono stati creati da modellisti professionisti che lavorano con dati aerei disponibili pubblicamente e presentano un livello di ottimizzazione guidata dall’uomo che attualmente è difficile o costoso da simulare in sistemi di sintesi di immagini e cattura RGB-D completamente programmatici basati sulla fotogrammetria, come i Campi di Radianza Neurale (NeRF).

Il progetto affronta una delle principali disparità nella ricerca sulla visione computerizzata: la mancanza di set di dati di ambienti urbani ricchi ed etichettati semanticamente con una struttura di modello di alta qualità, rispetto al livello molto alto di disponibilità di dati semantici e di modellazione simili relativi a scene interne.

Le simulazioni eseguite in UrbanScene3D possono fornire la verità di base per la generazione di set di dati specifici del progetto relativi a veicoli autonomi e droni, tra le altre possibilità.

UrbanScene3D in esecuzione AirSim e produzione di mappe di profondità. Fonte: https://arxiv.org/pdf/2107.04286.pdf

I file sorgente del progetto, di circa 70 GB, sono stati rilasciati gratuitamente per scopi di ricerca e uso didattico. L’implementazione può essere eseguita in un ambiente C++ o in Python e richiede Unreal Engine 4 (con 4.24 consigliato). Per progetti aerei, come addestramento e simulazione di droni, il progetto supporta anche AirSim di Microsoft.

UrbanScene3D presenta sei ambienti CAD modellati professionalmente generati da artisti professionisti da immagini o mappe satellitari, insieme a cinque ambienti del mondo reale ricostruiti. Le scene CAD presentano ricostruzioni di New York City, Chicago, San Francisco, Shenzhen, Suzhou e Shanghai. I dati derivati dalle immagini si concentrano su cinque scenari specifici di queste città, tra cui un ospedale e un campus universitario.

Città rappresentate in UrbanScene3D.

I dati di acquisizione grezza per UrbanScene3D sono resi disponibili anche, con immagini aeree ad alta risoluzione da 6000×4000 pixel e video aerei 4K, insieme a pose e modelli 3D ricostruiti.

Il progetto mira ad affrontare le limitazioni dei set di dati di scene urbane esistenti e è il primo a fornire dettagli di livello CAD di alta qualità insieme all’etichettatura semantica e alle informazioni sulla mappa di profondità.

I precedenti sforzi includono:

COCO

Rilasciato nel 2014, il set di dati Common Objects in Context (COCO) di Microsoft dataset presenta 1,5 milioni di istanze di oggetti in 80 categorie, insieme al riconoscimento di oggetti in contesto e cinque didascalie per immagine. COCO non presenta mesh GT con posa o informazioni sulla profondità.

L’icona del set di esploratori COCO. Fonte: https://arxiv.org/pdf/1405.0312.pdf

The KITTI Vision Benchmark Suite

Prodotto dall’Istituto di Tecnologia di Karlsruhe e dall’Istituto Tecnologico di Toyota a Chicago, KITTI fornisce informazioni sulla profondità, ma non maschere di istanza.

CityScape

Il set di dati Cityscapes per la comprensione semantica delle scene urbane (CityScape) è stato rilasciato nel 2016 e presenta una segmentazione semantica densa e una segmentazione di istanza di persone e veicoli. Il suo obiettivo principale è aiutare lo sviluppo di sistemi di guida autonoma e settori adiacenti di monitoraggio urbano.

Presenta otto classi, tra cui piatto, umano, veicolo, costruzione, oggetto, natura, cielo e vuoto, e offre annotazioni fini in 5000 immagini.

Fonte: https://www.cityscapes-dataset.com/examples/#fine-annotations

CityScape è stato rilasciato nel 2020 e presenta caratteristiche simili a UrbanScene3D, tranne che per la mancanza di modellazione CAD.

ApolloCar3D

Lanciato nel 2018 e guidato da Baidu Research, ApolloCar3D è una collaborazione tra diverse unità di ricerca accademiche in Occidente e in Asia, tra cui l’Università della California a San Diego, l’Università Nazionale Australiana e l’Università Politecnica del Nord-Ovest a Xi’an, Cina.

ApolloCar3D è specificamente rivolto alla ricerca su veicoli autonomi a livello del suolo e presenta 5.277 immagini di guida e oltre 60.000 istanze di veicoli alimentate da modelli 3D CAD dettagliati renderizzati in dimensioni assolute e etichettati per punti chiave semantici. Il set di dati è più di 20 volte più grande di KITTI, ma, a differenza di UrbanScene3D, presenta solo informazioni sulla profondità parziale.

Sono definiti 66 punti chiave per ogni veicolo con modellazione CAD aumentata nel set di dati ApolloCar3D. Fonte: https://arxiv.org/pdf/1811.12222.pdf

HoliCity

HoliCity, descritto come ‘Una piattaforma di dati a scala di città per l’apprendimento di strutture 3D olistiche’, è una collaborazione del 2021 collaborazione tra UC Berkeley, Stanford, USC e Bytedance Research a Palo Alto. Comprende un set di dati 3D a scala di città con un alto livello di dettaglio strutturale e offre 6.300 scene panoramiche del mondo reale che coprono un’area superiore a 20 chilometri quadrati.

Il progetto è rivolto ad applicazioni nel mondo reale come localizzazione, realtà aumentata, mapping e ricostruzione a scala di città. Sebbene presenti modellazione CAD, il livello di dettaglio è inferiore a quello di UrbanScene3D.