Inteligência artificial

UrbanScene3D: Cenários Urbanos Semanticamente Rotulados para Pesquisa de Veículos Autônomos

Published July 12, 2021

Updated April 28, 2026

Martin Anderson

O Centro de Pesquisa de Computação Visual da Universidade de Shenzhen, na China, desenvolveu um conjunto de dados de cena urbana em larga escala que oferece simulações diversificadas e totalmente semanticamente rotuladas de várias cidades importantes em todo o mundo, como um recurso para iniciativas de pesquisa de ambientes de aprendizado de máquina de condução, drone e outros tipos.

Intitulado UrbanScene3D, o simulador apresenta uma variedade de reconstruções urbanas densas e detalhadas, navegáveis e com texturas realistas. Muitos dos cenários são criados por modeladores profissionais que trabalham a partir de dados aéreos disponíveis publicamente, e apresentam um nível de otimização liderada por humanos que é atualmente difícil ou caro de simular em sistemas de síntese de imagem e captura RGB-D totalmente programáticos baseados em fotogrametria, como Campos de Radiância Neural (NeRF).

O projeto aborda uma das principais desigualdades na pesquisa de visão computacional – a falta de conjuntos de dados de ambientes urbanos ricos e semanticamente rotulados com estrutura de modelo de alta qualidade, em comparação com o nível muito alto de disponibilidade de dados semânticos e de modelagem semelhantes relacionados a cenas interiores.

As simulações executadas no UrbanScene3D podem fornecer a verdade fundamentada para a geração de conjuntos de dados específicos de projeto relacionados a veículos autônomos e drones, entre outras possibilidades.

UrbanScene3D executando AirSim e produzindo mapas de profundidade. Fonte: https://arxiv.org/pdf/2107.04286.pdf

Os arquivos-fonte do projeto, de cerca de 70gb, foram lançados gratuitamente para fins de uso de pesquisa e educação. A implementação pode ser executada em um ambiente C++ ou em Python, e requer Unreal Engine 4 (com 4.24 recomendado). Para projetos aéreos, como treinamento e simulação de drones, o projeto também suporta o AirSim da Microsoft.

O UrbanScene3D apresenta seis ambientes CAD modelados profissionalmente gerados por artistas profissionais a partir de imagens ou mapas de satélite, juntamente com cinco ambientes do mundo real reconstruídos. As cenas CAD apresentam reconstruções de Nova York, Chicago, São Francisco, Shenzhen, Suzhou e Xangai. Os dados derivados de imagens se concentram em cinco cenas específicas dessas cidades, incluindo um hospital e um campus universitário.

Cidades representadas no UrbanScene3D.

Os dados de aquisição brutos do UrbanScene3D também estão sendo disponibilizados, apresentando imagens aéreas de alta resolução de 6000×4000 pixels e vídeos aéreos 4K, juntamente com poses e modelos 3D reconstruídos.

O projeto visa abordar as limitações dos conjuntos de dados de cenas urbanas existentes e é o primeiro a fornecer detalhes de nível CAD de alta qualidade juntamente com rotulagem semântica e informações de mapa de profundidade. Esforços anteriores incluem:

COCO

Lançado em 2014, o conjunto de dados Common Objects in Context (COCO) da Microsoft apresenta 1,5 milhão de instâncias de objetos em 80 categorias, juntamente com reconhecimento de objetos em contexto e cinco legendas por imagem. O COCO não apresenta malha GT com pose ou informações de profundidade.

O conjunto de ícones do explorador COCO. Fonte: https://arxiv.org/pdf/1405.0312.pdf

O Conjunto de Benchmark de Visão KITTI

Produzido pelo Instituto de Tecnologia de Karlsruhe e pelo Instituto Tecnológico de Toyota em Chicago, o KITTI fornece informações de profundidade, mas não máscaras de instância.

CityScape

O Conjunto de Dados Cityscapes para Compreensão Semântica de Cenas Urbanas (também conhecido como CityScape) foi lançado em 2016 e apresenta segmentação semântica densa e segmentação de instância de pessoas e veículos. Como tal, seu objetivo principal é ajudar no desenvolvimento de sistemas de condução autônoma e setores adjacentes de monitoramento urbano.

Ele apresenta oito classes, incluindo plano, humano, veículo, construção, objeto, natureza, céu e vazio, e oferece anotações finas em 5000 imagens.

Fonte: https://www.cityscapes-dataset.com/examples/#fine-annotations

O CityScape foi lançado em 2020 e é semelhante em recursos ao UrbanScene3D, exceto que falta modelagem CAD.

ApolloCar3D

Lançado em 2018 e liderado pela Baidu Research, o ApolloCar3D é uma colaboração entre várias unidades de pesquisa acadêmica em todo o mundo, incluindo a Universidade da Califórnia em San Diego, a Universidade Nacional da Austrália e a Universidade Politécnica Northwestern em Xi’an, China.

O ApolloCar3D é especificamente direcionado à pesquisa de veículos autônomos de nível de solo e apresenta 5.277 imagens de condução e mais de 60.000 instâncias de veículos alimentados por modelos CAD detalhados renderizados em tamanhos absolutos e rotulados para pontos-chave semânticos. O conjunto de dados é mais de 20 vezes maior que o KITTI, mas, ao contrário do UrbanScene3D, apresenta apenas informações de profundidade parcial.

66 pontos-chave são definidos para cada veículo com modelo CAD aumentado no conjunto de dados ApolloCar3D. Fonte: https://arxiv.org/pdf/1811.12222.pdf

HoliCity

O HoliCity, descrito como ‘Uma Plataforma de Dados de Escala de Cidade para Aprendizado de Estruturas 3D Holísticas’, é uma colaboração de 2021 entre a UC Berkeley, Stanford, USC e Bytedance Research em Palo Alto. Ele compreende um conjunto de dados 3D em escala de cidade com um alto nível de detalhe estrutural e oferece 6.300 cenas de panorama do mundo real que cobrem uma área que excede 20 quilômetros quadrados.

O projeto é direcionado a aplicações do mundo real, como localização, realidade aumentada, mapeamento e reconstrução em escala de cidade. Embora apresente modelagem CAD, o nível de detalhe é abaixo do do UrbanScene3D.