Искусственный интеллект

UrbanScene3D: Семантически Помеченные Городские Пейзажи для Исследований Автономных Транспортных Средств

Published July 12, 2021

Updated April 28, 2026

Martin Anderson

Исследовательский Центр Визуальных Вычислений в Университете Шэньчжэня в Китае разработал большой набор данных городских сцен, который предлагает разнообразные, полностью семантически помеченные симуляции многих крупных городов мира, в качестве ресурса для исследований в области управления, дронов и других видов машинного обучения, имитирующих окружающую среду.

Названный UrbanScene3D, симулятор включает в себя разнообразные плотные и детальные, навигируемые городские реконструкции с реалистичными текстурами. Многие из сценариев созданы профессиональными модельерами, работающими с публично доступными аэрофотоснимками, и включают уровень человеческой оптимизации, который в настоящее время сложно или дорого симулировать в полностью программных системах синтеза изображений и захвата RGB-D на основе фотограмметрии, таких как Neural Radiance Fields (NeRF).

Проект решает одну из основных проблем в исследованиях компьютерного зрения – отсутствие богатых, семантически помеченных городских окружающих сред с высококачественной структурой модели, по сравнению с очень высоким уровнем доступности подобных семантических и моделей данных, связанных с внутренними сценами.

Симуляции, запущенные в UrbanScene3D, могут обеспечить основу для генерации последующих наборов данных, связанных с автономными транспортными средствами и дронами, среди других возможностей.

UrbanScene3D running AirSim, and producing depth maps. Source: https://arxiv.org/pdf/2107.04286.pdf

Исходные файлы проекта, около 70 ГБ, были опубликованы бесплатно для целей исследований и образовательного использования. Реализация может работать в среде C++ или Python и требует Unreal Engine 4 (с рекомендованной версией 4.24). Для аэрофотосъемки, такой как обучение и симуляция дронов, проект также поддерживает Microsoft’s AirSim.

UrbanScene3D включает в себя шесть профессионально смоделированных CAD-сред, созданных профессиональными художниками из изображений или спутниковых карт, вместе с пятью реконструированными реальными окружающими средами. CAD-сцены включают реконструкции Нью-Йорка, Чикаго, Сан-Франциско, Шэньчжэня, Сучжоу и Шанхая. Изображения, полученные из данных, сосредоточены на пяти конкретных сценах из этих городов, включая больницу и университетский кампус.

Города, представленные в UrbanScene3D.

Сырые данные сбора для UrbanScene3D также будут опубликованы, включая высокоразрешающие аэрофотоснимки размером 6000×4000 пикселей и 4K аэрофотосъемку, вместе с позами и реконструированными 3D-моделями.

Проект направлен на решение ограничений существующих городских наборов данных и является первым, который обеспечивает высококачественные CAD-детали вместе с семантической пометкой и информацией о глубине. Предыдущие усилия включают:

COCO

Опубликованный в 2014 году, набор данных Common Objects in Context (COCO) от Microsoft набор данных включает 1,5 миллиона объектных экземпляров в 80 категориях, вместе с распознаванием объектов в контексте и пятью подписями к каждому изображению. COCO не включает GT-меш с позой или информацией о глубине.

Набор иконок COCO explorer. Source: https://arxiv.org/pdf/1405.0312.pdf

The KITTI Vision Benchmark Suite

Созданный Институтом Технологий Карлсруэ и Технологическим Институтом Тойоты в Чикаго, KITTI обеспечивает информацию о глубине, но не включает маски экземпляров.

CityScape

Набор данных Cityscapes Dataset для Семантического Понимания Городских Сцен (также известный как CityScape) был опубликован в 2016 году и включает плотную семантическую сегментацию и сегментацию экземпляров людей и транспортных средств. Таким образом, его основная цель – помочь в разработке систем автономного вождения и смежных секторов городского мониторинга.

Он включает восемь классов, включая плоский, человек, транспортное средство, строительство, объект, природа, небо и пустота, и предлагает тонкие аннотации по 5000 изображениям.

Source: https://www.cityscapes-dataset.com/examples/#fine-annotations

CityScape был опубликован в 2020 году и похож по функциям на UrbanScene3D, за исключением того, что он не включает моделирование CAD.

ApolloCar3D

Запущенный в 2018 году и возглавляемый Исследовательским Центром Baidu, ApolloCar3D – это совместный проект между несколькими академическими исследовательскими подразделениями на западе и в Азии, включая Университет Калифорнии в Сан-Диего, Австралийский Национальный Университет и Северо-Западный Политехнический Университет в Сиане, Китай.

ApolloCar3D специально ориентирован на исследования автономных транспортных средств на уровне земли и включает 5277 изображений вождения и более 60 000 экземпляров транспортных средств, оснащенных подробными 3D-моделями CAD, отображаемыми в абсолютных размерах, и помеченными для семантических ключевых точек. Набор данных более чем в 20 раз больше, чем KITTI, но, в отличие от UrbanScene3D, включает только частичную информацию о глубине.

66 ключевых точек определены для каждого транспортного средства в наборе данных ApolloCar3D. Source: https://arxiv.org/pdf/1811.12222.pdf

HoliCity

HoliCity, описанный как ‘Платформа Городского Масштаба для Обучения Голистическим 3D-Структуре’, является совместным проектом 2021 года между UC Berkeley, Stanford, USC и Bytedance Research в Пало-Альто. Он включает городской масштаб 3D-набор данных с высоким уровнем структурных деталей и предлагает 6300 реальных панорамных сцен, покрывающих площадь более 20 квадратных километров.

Проект направлен на реальные приложения, такие как локализация, дополненная реальность, картографирование и городское масштабное реконструкция. Хотя он включает моделирование CAD, уровень детализации ниже, чем у UrbanScene3D.