Inteligență artificială

UrbanScene3D: Peisaje urbane semantice etichetate pentru cercetarea vehiculelor autonome

Published July 12, 2021

Updated April 28, 2026

Martin Anderson

Centrul de Cercetare în Calcul vizual de la Universitatea Shenzhen din China a dezvoltat un set de date de scenă urbană la scară largă care oferă simulări diverse, complet etichetate semantic, ale mai multor orașe majore din întreaga lume, ca resursă pentru inițiativele de cercetare ale mediului de învățare automată pentru conducere, drone și alte tipuri de medii de simulare.

Denominat UrbanScene3D, simulatorul prezintă o varietate de reconstrucții urbane dense și detaliate, navigabile, cu texturi realiste. Multe dintre scenarii sunt create de modelatori profesioniști care lucrează cu date aeriene disponibile public, și prezintă un nivel de optimizare condusă de oameni, care este în prezent dificil sau scump de simulat în sisteme de sinteză de imagine și captură RGB-D complet programatice bazate pe fotogrammetrie, cum ar fi Neural Radiance Fields (NeRF).

Proiectul abordează una dintre principalele dezechilibre din cercetarea viziunii calculate – lipsa unor seturi de date de mediu urban bogate, etichetate semantic, cu structură de model de înaltă calitate, comparativ cu nivelul foarte ridicat de disponibilitate a datelor semantice și de modelare similare pentru scene interioare.

Simulările care rulează în UrbanScene3D pot furniza adevărul fundamental pentru generarea unor seturi de date specifice proiectului referitoare la vehicule autonome și drone, printre alte posibilități.

UrbanScene3D rulează AirSim și produce hărți de adâncime. Sursă: https://arxiv.org/pdf/2107.04286.pdf

Fișierele sursă ale proiectului, de aproximativ 70gb, au fost eliberate gratuit pentru scopuri de cercetare și utilizare educațională. Implementarea poate rula într-un mediu C++ sau în Python și necesită Unreal Engine 4 (cu 4.24 recomandat). Pentru proiecte aeriene, cum ar fi antrenamentul și simularea dronelor, proiectul susține și Microsoft AirSim.

UrbanScene3D prezintă șase medii CAD modelate profesional, generate de artiști profesioniști din imagini sau hărți satelitare, împreună cu cinci medii reale reconstruite. Scenele CAD prezintă reconstrucții ale orașelor New York, Chicago, San Francisco, Shenzhen, Suzhou și Shanghai. Datele derivate din imagini se concentrează pe cinci scene specifice din aceste orașe, inclusiv un spital și un campus universitar.

Orașele reprezentate în UrbanScene3D.

Datele brute de achiziție pentru UrbanScene3D sunt de asemenea puse la dispoziție, prezentând imagini aeriene de înaltă rezoluție de 6000×4000 de pixeli și videoclipuri aeriene 4K, împreună cu poziții și modele 3D reconstruite.

Proiectul urmărește să abordeze limitările seturilor de date de scenă urbană existente și este primul care oferă detalii de nivel CAD de înaltă calitate, împreună cu etichetare semantică și informații de hartă de adâncime. Eforturile anterioare includ:

COCO

Lansat în 2014, setul de date Common Objects in Context (COCO) al Microsoft dataset prezintă 1,5 milioane de instanțe de obiecte din 80 de categorii, împreună cu recunoașterea obiectelor în context și cinci subtitrări pe imagine. COCO nu prezintă mesh GT cu poziție sau informații de adâncime.

Setul de icone al explorer-ului COCO. Sursă: https://arxiv.org/pdf/1405.0312.pdf

KITTI Vision Benchmark Suite

Producția Institutului de Tehnologie Karlsruhe și a Institutului Tehnologic Toyota din Chicago, KITTI oferă informații de adâncime, dar nu și măști de instanță.

CityScape

Setul de date Cityscapes Dataset pentru Înțelegerea Semantică a Scenelor Urbane (cunoscut și sub numele de CityScape) a fost lansat în 2016 și prezintă segmentare semantică densă și segmentare de instanță a oamenilor și vehiculelor. Prin urmare, obiectivul său principal este de a ajuta la dezvoltarea sistemelor de conducere autonomă și a sectoarelor adiacente de monitorizare urbană.

Acesta prezintă opt clase, incluzând plat, uman, vehicul, construcție, obiect, natură, cer și vid, și oferă subtitrări fine subtitrări pe 5000 de imagini.

Sursă: https://www.cityscapes-dataset.com/examples/#fine-annotations

CityScape a fost lansat în 2020 și este similar în caracteristici cu UrbanScene3D, cu excepția faptului că lipsește modelarea CAD.

ApolloCar3D

Lansat în 2018 și condus de Baidu Research, ApolloCar3D este o colaborare între mai multe unități de cercetare academică din vest și Asia, incluzând Universitatea din California la San Diego, Universitatea Națională Australiană și Universitatea Politehnică Northwestern din Xi’an, China.

ApolloCar3D este destinat în mod special cercetării vehiculelor autonome la nivelul solului și prezintă 5.277 de imagini de conducere și peste 60.000 de instanțe de vehicule, alimentate de modele 3D CAD detaliate, renderizate la dimensiuni absolute și etichetate pentru puncte cheie semantice. Setul de date este de peste 20 de ori mai mare decât KITTI, dar, în contrast cu UrbanScene3D, prezintă doar informații de adâncime parțială.

66 de puncte cheie sunt definite pentru fiecare vehicul CAD-augmentat din setul de date ApolloCar3D. Sursă: https://arxiv.org/pdf/1811.12222.pdf

HoliCity

HoliCity, descris ca ‘O platformă de date la scară de oraș pentru învățarea structurilor 3D holistice’, este o colaborare din 2021 colaborare între UC Berkeley, Stanford, USC și Bytedance Research la Palo Alto. Acesta cuprinde un set de date 3D la scară de oraș cu un nivel ridicat de detalii structurale și oferă 6.300 de scene panoramice din lumea reală, care acoperă o suprafață de peste 20 de kilometri pătrați.

Proiectul este destinat aplicațiilor din lumea reală, cum ar fi localizarea, realitatea augmentată, cartografierea și reconstrucția la scară de oraș. Deși prezintă modelare CAD, nivelul de detaliu este sub cel al UrbanScene3D.