Unite.AI - AI News & Research

人工智能5 years ago

UrbanScene3D：面向自动驾驶研究的语义标注城市景观数据集

中国深圳大学可视计算研究中心开发了一个大规模城市场景数据集，该数据集提供了全球多个主要城市多样化、完全语义标注的模拟场景，旨在为自动驾驶、无人机以及其他类型的机器学习环境模拟研究计划提供资源。该模拟器名为 UrbanScene3D，其特点是拥有多种密集、细节丰富、可导航且纹理逼真的城市重建场景。许多场景由专业建模师基于公开的航空数据创建，并包含了一定程度的人工优化，这种优化目前在完全程序化的图像合成以及基于摄影测量的RGB-D捕获系统（如神经辐射场NeRF）中难以实现或成本高昂。该项目解决了计算机视觉研究中的一个主要不平衡问题——与室内场景相关的高质量语义和建模数据的极高可用性相比，缺乏具有高质量模型结构的、丰富的、语义标注的城市场景数据集。在UrbanScene3D中运行的模拟可以为生成后续与自动驾驶汽车和无人机等相关的特定项目数据集提供真实基准。该项目约70GB的源文件已免费发布，供研究和教育用途。实现可以在C++环境或Python中运行，并需要Unreal Engine 4（推荐使用4.24版本）。对于无人机训练和模拟等空中项目，该项目还支持微软的AirSim。 UrbanScene3D包含六个由专业艺术家根据图像或卫星地图生成的专业建模CAD环境，以及五个重建的真实世界环境。CAD场景包括纽约市、芝加哥、旧金山、深圳、苏州和上海的重建。基于图像的数据则集中于这些城市中的五个特定场景，包括一家医院和一个大学校园。 UrbanScene3D的原始采集数据也已提供，包括6000×4000像素的高分辨率航空图像、4K航空视频，以及位姿信息和重建的3D模型。该项目旨在解决现有城市场景数据集的局限性，是首个提供高质量CAD级别细节、同时具备语义标注和深度图信息的数据集。以往的相关工作包括： COCO 微软于2014年发布的通用物体上下文（COCO）数据集包含80个类别中的150万个物体实例，提供上下文中的物体识别以及每张图像五个描述。COCO不提供带有位姿或深度信息的真实网格。 KITTI视觉基准套件由卡尔斯鲁厄理工学院和芝加哥丰田技术研究所开发的KITTI提供深度信息，但不提供实例分割掩码。 CityScape 用于语义城市场景理解的数据集（亦称CityScape）于2016年发布，其特点是密集的语义分割，以及对行人和车辆的实例分割。因此，其主要目标是辅助自动驾驶系统及城市监控相关领域的发展。它包含八个类别，包括平坦表面、人、车辆、建筑、物体、自然、天空和空，并在5000张图像上提供了精细的标注。 CityScape于2020年发布，其功能与UrbanScene3D相似，但缺少CAD建模。 ApolloCar3D 由百度研究院于2018年牵头启动的ApolloCar3D是横跨西方和亚洲多个学术研究单位的合作项目，包括加州大学圣地亚哥分校、澳大利亚国立大学和中国西安的西北工业大学。 ApolloCar3D专门针对地面自动驾驶汽车研究，包含5,277张驾驶图像，以及超过60,000个由详细3D CAD模型驱动的车辆实例，这些模型以绝对尺寸渲染，并标注了语义关键点。该数据集比KITTI大20倍以上，但与UrbanScene3D不同，它只提供部分深度信息。 HoliCity HoliCity被描述为“用于学习整体3D结构的城市规模数据平台”，是2021年加州大学伯克利分校、斯坦福大学、南加州大学和字节跳动帕洛阿尔托研究中心的合作项目。它包含一个具有高水平结构细节的城市规模3D数据集，提供了覆盖超过20平方公里区域的6,300个真实世界全景场景。该项目面向实际应用，如定位、增强现实、地图绘制和城市规模重建。虽然它包含CAD建模，但其细节水平低于UrbanScene3D。