Intelligence artificielle

UrbanScene3D : Paysages urbains étiquetés sémantiquement pour la recherche sur les véhicules autonomes

Published July 12, 2021

Updated April 28, 2026

Martin Anderson

Le Visual Computing Research Center de l’Université de Shenzhen en Chine a développé un grand ensemble de données de scènes urbaines à grande échelle qui offre des simulations diverses et entièrement étiquetées sémantiquement d’un certain nombre de grandes villes du monde, en tant que ressource pour les initiatives de recherche en environnement de simulation d’apprentissage automatique de conduite, de drone et d’autres types.

Intitulé UrbanScene3D, le simulateur présente une variété de reconstructions urbaines denses et détaillées, navigables avec des textures réalistes. De nombreux scénarios sont créés par des modelers professionnels travaillant à partir de données aériennes disponibles publiquement, et présentent un niveau d’optimisation humaine qui est actuellement difficile ou coûteux à simuler dans des systèmes de synthèse d’images entièrement programmatiques et de capture RGB-D basés sur la photogrammétrie, tels que les Champs de Radiance Neurale (NeRF).

Le projet répond à l’un des principaux déséquilibres de la recherche en vision par ordinateur – un manque de jeux de données d’environnements urbains riches et étiquetés sémantiquement avec une structure de modèle de haute qualité, par rapport à un niveau très élevé de disponibilité de données sémantiques et de modélisation similaires relatives aux scènes intérieures.

Les simulations exécutées dans UrbanScene3D peuvent fournir la vérité terrain pour la génération de jeux de données spécifiques au projet relatifs aux véhicules autonomes et aux drones, entre autres possibilités.

UrbanScene3D en cours d’exécution AirSim, et produisant des cartes de profondeur. Source : https://arxiv.org/pdf/2107.04286.pdf

Les fichiers source du projet, d’environ 70 Go, ont été publiés gratuitement à des fins de recherche et d’utilisation éducative. La mise en œuvre peut s’exécuter dans un environnement C++ ou en Python, et nécessite Unreal Engine 4 (avec 4.24 recommandé). Pour les projets aériens, tels que la formation et la simulation de drones, le projet prend également en charge AirSim de Microsoft.

UrbanScene3D comporte six environnements CAD modelés professionnellement générés par des artistes professionnels à partir d’images ou de cartes satellites, ainsi que cinq environnements du monde réel reconstruits. Les scènes CAD présentent des reconstructions de New York, Chicago, San Francisco, Shenzhen, Suzhou et Shanghai. Les données dérivées d’images sont centrées sur cinq scènes spécifiques de ces villes, notamment un hôpital et un campus universitaire.

Villes représentées dans UrbanScene3D.

Les données brutes d’acquisition pour UrbanScene3D sont également mises à disposition, présentant des images aériennes haute résolution de 6000×4000 pixels, et des vidéos aériennes 4K, ainsi que des poses et des modèles 3D reconstruits.

Le projet vise à répondre aux limites des jeux de données de scènes urbaines existants, et est le premier à fournir des détails de niveau CAD de haute qualité avec des étiquettes sémantiques et des informations de carte de profondeur.

Les efforts précédents incluent :

COCO

Publié en 2014, le jeu de données Common Objects in Context (COCO) de Microsoft dataset présente 1,5 million d’instances d’objets dans 80 catégories, ainsi que la reconnaissance d’objets dans leur contexte, et cinq légendes par image. COCO ne présente pas de maillage GT avec pose ou d’informations de profondeur.

L’ensemble d’icônes de l’explorateur COCO. Source : https://arxiv.org/pdf/1405.0312.pdf

Le KITTI Vision Benchmark Suite

Produit par l’Institut de technologie de Karlsruhe et l’Institut technologique de Toyota à Chicago, KITTI fournit des informations de profondeur, mais pas de masques d’instances.

CityScape

Le Cityscapes Dataset pour la compréhension sémantique des scènes urbaines (également appelé CityScape) a été publié en 2016, et présente une segmentation sémantique dense, ainsi que une segmentation d’instances de personnes et de véhicules. Son objectif principal est d’aider au développement de systèmes de conduite autonome et de secteurs adjacents de surveillance urbaine.

Il comporte huit classes, notamment plat, humain, véhicule, construction, objet, nature, ciel et vide, et offre des annotations fines sur 5 000 images.

Source : https://www.cityscapes-dataset.com/examples/#fine-annotations

CityScape a été publié en 2020, et présente des fonctionnalités similaires à celles d’UrbanScene3D, à l’exception qu’il ne comporte pas de modélisation CAD.

ApolloCar3D

Lancé en 2018 et dirigé par Baidu Research, ApolloCar3D est une collaboration entre plusieurs unités de recherche universitaires en Occident et en Asie, notamment l’Université de Californie à San Diego, l’Université nationale australienne et l’Université polytechnique du Nord-Ouest à Xi’an, en Chine.

ApolloCar3D est spécifiquement destiné à la recherche sur les véhicules autonomes au niveau du sol, et présente 5 277 images de conduite, ainsi que plus de 60 000 instances de véhicules alimentées par des modèles 3D CAD détaillés rendus à des tailles absolues, et étiquetés pour les points clés sémantiques. Le jeu de données est plus de 20 fois plus grand que KITTI, mais, contrairement à UrbanScene3D, ne présente que des informations de profondeur partielles.

66 points clés sont définis pour chaque véhicule augmenté de CAD dans le jeu de données ApolloCar3D. Source : https://arxiv.org/pdf/1811.12222.pdf

HoliCity

HoliCity, décrit comme ‘une plate-forme de données à l’échelle de la ville pour l’apprentissage de structures 3D holistiques’, est une collaboration 2021 collaboration entre UC Berkeley, Stanford, USC et Bytedance Research à Palo Alto. Il comprend un jeu de données 3D à l’échelle de la ville avec un niveau élevé de détails structurels, et offre 6 300 scènes de panorama du monde réel couvrant une superficie supérieure à 20 kilomètres carrés.

Le projet est destiné à des applications réelles telles que la localisation, la réalité augmentée, la cartographie et la reconstruction à l’échelle de la ville. Bien qu’il présente une modélisation CAD, le niveau de détail est inférieur à celui d’UrbanScene3D.

Source : https://github.com/zhou13/holicity