城市场景3D：用于自动驾驶车辆研究的语义标注城市景观

发布于 2021年7月12日

更新于 2026年5月24日

作者

Martin Anderson

深圳大学的视觉计算研究中心开发了一个大规模的城市场景数据集，提供了多样化、完全语义标注的世界各地主要城市的模拟，这是一个用于驾驶、无人机和其他机器学习环境模拟研究计划的资源。

名为城市场景3D的模拟器，具有多个密集和详细的、可导航的城市重建，具有真实的纹理。许多场景都是由专业模型师从公开的航空数据创建的，并具有人类主导的优化，这目前很难或昂贵地模拟在基于摄影测量学的程序化图像合成和RGB-D捕获系统中，例如神经辐射场（NeRF）

该项目解决了计算机视觉研究中的一个主要不平衡——缺乏丰富的、语义标注的城市环境数据集，具有高质量的模型结构，相比之下，内部场景的语义和建模数据的可用性非常高。

在城市场景3D中运行的模拟可以为自主车辆和无人机等项目提供基础真实数据。

城市场景3D运行AirSim并生成深度图。 来源：https://arxiv.org/pdf/2107.04286.pdf

该项目的源文件，约70gb，已免费发布用于研究和教育目的。实现可以在C++环境中运行，也可以在Python中运行，需要虚幻引擎4（推荐4.24）。对于航空项目，例如无人机训练和模拟，该项目还支持微软的AirSim。

城市场景3D具有六个专业建模的CAD环境，由专业艺术家从图像或卫星地图创建，另外还有五个重建的真实世界环境。CAD场景包括纽约市、芝加哥、旧金山、深圳、苏州和上海的重建。图像衍生数据集中在这五个城市的五个特定场景，包括一家医院和一所大学校园。

城市场景3D中的城市。

城市场景3D的原始采集数据也被提供，包括6000×4000像素的高分辨率航空图像和4K航空视频，以及姿势和重建的3D模型。

该项目旨在解决现有城市场景数据集的局限性，是第一个提供高质量CAD级别细节和语义标注以及深度图信息的数据集。之前的努力包括：

2014年发布的微软的共同对象在上下文（COCO）数据集，具有150万个对象实例，跨80个类别，以及对象识别在上下文中和每个图像五个字幕。COCO不具有GT网格与姿势或深度信息。

COCO浏览器图标集。 来源：https://arxiv.org/pdf/1405.0312.pdf

由卡尔斯鲁厄理工学院和芝加哥托约塔技术研究所生产的KITTI，提供深度信息，但不具有实例掩码。

CityScape数据集用于语义城市场景理解（也称为CityScape），于2016年发布，具有密集的语义分割和人和车辆的实例分割。因此，其主要目标是帮助开发自主驾驶系统和城市监测的相邻领域。

它具有八个类别，包括平面、人、车辆、建筑、物体、自然、天空和空，并在5000张图像中提供精细的注释。

来源：https://www.cityscapes-dataset.com/examples/#fine-annotations

CityScape于2020年发布，与城市场景3D类似，但缺乏CAD建模。

2018年启动的ApolloCar3D，由百度研究领导，是西方和亚洲各个学术研究单位之间的合作，包括加利福尼亚大学圣地亚哥分校、澳大利亚国立大学和中国西安的西北工业大学。

ApolloCar3D专门针对地面自主车辆研究，具有5277张驾驶图像和超过60,000个车辆实例，使用详细的3D CAD模型渲染绝对大小，并标记语义关键点。该数据集比KITTI大20倍以上，但与城市场景3D不同，只具有部分深度信息。

ApolloCar3D数据集中每个CAD增强的车辆都定义了66个关键点。 来源：https://arxiv.org/pdf/1811.12222.pdf

HoliCity，被描述为“用于学习整体3D结构的城市规模数据平台”，是2021年伯克利加州大学、斯坦福大学、南加州大学和帕洛阿尔托的字节跳动研究院之间的合作。它包括一个具有高结构细节的城市规模3D数据集，提供了6300个真实世界全景场景，覆盖面积超过20平方公里。

该项目旨在解决现实世界应用，例如定位、增强现实、映射和城市规模重建。虽然它具有CAD建模，但细节程度低于城市场景3D。

来源：https://github.com/zhou13/holicity

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI