Inteligencia artificial

UrbanScene3D: Paisajes urbanos etiquetados semánticamente para la investigación de vehículos autónomos

Published July 12, 2021

Updated April 28, 2026

Martin Anderson

El Centro de Investigación de Computación Visual de la Universidad de Shenzhen en China ha desarrollado un conjunto de datos de escena urbana a gran escala que ofrece simulaciones diversificadas y completamente etiquetadas semánticamente de varias ciudades importantes de todo el mundo, como un recurso para iniciativas de investigación de aprendizaje automático de entornos de conducción, drones y otros.

Denominado UrbanScene3D, el simulador cuenta con una variedad de reconstrucciones urbanas densas y detalladas, navegables y con texturas realistas. Muchos de los escenarios han sido creados por modeladores profesionales que trabajan a partir de datos aéreos disponibles públicamente, y cuentan con un nivel de optimización liderada por humanos que actualmente es difícil o costoso de simular en sistemas de síntesis de imágenes y captura RGB-D completamente programáticos basados en fotogrametría, como Campos de Radiancia Neural (NeRF).

El proyecto aborda una de las principales desigualdades en la investigación de visión por computadora: la falta de conjuntos de datos de entornos urbanos ricos y etiquetados semánticamente con estructura de modelo de alta calidad, en comparación con el nivel muy alto de disponibilidad de datos semánticos y de modelado similares relacionados con escenas interiores.

Las simulaciones que se ejecutan en UrbanScene3D pueden proporcionar la verdad fundamental para la generación de conjuntos de datos posteriores específicos del proyecto relacionados con vehículos autónomos y drones, entre otras posibilidades.

UrbanScene3D ejecutando AirSim y produciendo mapas de profundidad. Fuente: https://arxiv.org/pdf/2107.04286.pdf

Los archivos fuente del proyecto, alrededor de 70 GB, han sido publicados de forma gratuita para fines de investigación y uso educativo. La implementación se puede ejecutar en un entorno C++ o en Python, y requiere Unreal Engine 4 (con 4.24 recomendado). Para proyectos aéreos, como la capacitación y simulación de drones, el proyecto también admite AirSim de Microsoft.

UrbanScene3D cuenta con seis entornos CAD modelados profesionalmente generados por artistas profesionales a partir de imágenes o mapas satelitales, junto con cinco entornos del mundo real reconstruidos. Las escenas CAD presentan reconstrucciones de la ciudad de Nueva York, Chicago, San Francisco, Shenzhen, Suzhou y Shanghái. Los datos derivados de imágenes se centran en cinco escenas específicas de estas ciudades, incluyendo un hospital y un campus universitario.

Ciudades representadas en UrbanScene3D.

Los datos de adquisición raw de UrbanScene3D también se están poniendo a disposición, con imágenes aéreas de alta resolución de 6000×4000 píxeles y videos aéreos 4K, junto con poses y modelos 3D reconstruidos.

El proyecto tiene como objetivo abordar las limitaciones de los conjuntos de datos de escenas urbanas existentes, y es el primero en proporcionar detalles de nivel CAD junto con etiquetado semántico y información de mapa de profundidad.

Esfuerzos anteriores incluyen:

COCO

Lanzado en 2014, el conjunto de datos Common Objects in Context (COCO) de Microsoft presenta 1,5 millones de instancias de objetos en 80 categorías, junto con reconocimiento de objetos en contexto y cinco subtítulos por imagen. COCO no presenta malla GT con pose o información de profundidad.

El conjunto de iconos del explorador COCO. Fuente: https://arxiv.org/pdf/1405.0312.pdf

El conjunto de pruebas de visión KITTI

Producido por el Instituto de Tecnología de Karlsruhe y el Instituto Tecnológico de Toyota en Chicago, KITTI proporciona información de profundidad, pero no máscaras de instancias.

CityScape

El conjunto de datos Cityscapes para la comprensión de escenas urbanas semánticas (también conocido como CityScape) se lanzó en 2016, y presenta segmentación semántica densa y segmentación de instancias de personas y vehículos. Como tal, su objetivo principal es ayudar en el desarrollo de sistemas de conducción autónoma y sectores adyacentes de monitoreo urbano.

Presenta ocho clases, incluyendo plano, humano, vehículo, construcción, objeto, naturaleza, cielo y vacio, y ofrece anotaciones finas en 5000 imágenes.

Fuente: https://www.cityscapes-dataset.com/examples/#fine-annotations

CityScape se lanzó en 2020, y es similar en características a UrbanScene3D, excepto que carece de modelado CAD.

ApolloCar3D

Lanzado en 2018 y liderado por Baidu Research, ApolloCar3D es una colaboración entre varias unidades de investigación académica en el oeste y Asia, incluyendo la Universidad de California en San Diego, la Universidad Nacional de Australia y la Universidad Politécnica del Noroeste en Xi’an, China.

ApolloCar3D se centra específicamente en la investigación de vehículos autónomos a nivel de suelo, y presenta 5.277 imágenes de conducción y más de 60.000 instancias de vehículos impulsados por modelos 3D CAD detallados renderizados en tamaños absolutos, y etiquetados para puntos clave semánticos. El conjunto de datos es más de 20 veces más grande que KITTI, pero, a diferencia de UrbanScene3D, solo presenta información de profundidad parcial.

66 puntos clave se definen para cada vehículo con modelo 3D CAD en el conjunto de datos ApolloCar3D. Fuente: https://arxiv.org/pdf/1811.12222.pdf

HoliCity

HoliCity, descrito como ‘Una plataforma de datos a escala de ciudad para el aprendizaje de estructuras 3D holísticas’, es una colaboración de 2021 entre UC Berkeley, Stanford, USC y Bytedance Research en Palo Alto. Comprende un conjunto de datos 3D a escala de ciudad con un alto nivel de detalle estructural, y ofrece 6.300 escenas de panorama del mundo real que cubren un área que supera los 20 kilómetros cuadrados.

El proyecto se centra en aplicaciones del mundo real, como la localización, la realidad aumentada, el mapeo y la reconstrucción a escala de ciudad. Aunque presenta modelado CAD, el nivel de detalle es inferior al de UrbanScene3D.