人工智能

新技术帮助 AI 识别 3D 物体

mm

北卡罗来纳州立大学的研究人员开发了一种新技术,可以提高人工智能(AI)程序识别 3D 物体的能力。这种技术称为 MonoCon,还可以帮助 AI 学习 3D 物体在空间中的相互关系,使用 2D 图像。

MonoCon 可能具有广泛的应用范围,包括帮助自动驾驶汽车使用 2D 图像导航周围的其他车辆。它还可以在制造业和机器人领域发挥作用。

田夫吴是研究论文的通讯作者,也是北卡罗来纳州立大学电气和计算机工程系的助理教授。

“我们生活在一个 3D 世界,但当你拍照时,它记录的是 2D 图像,”吴说。

“AI 程序接收来自摄像头的视觉输入。所以,如果我们希望 AI 与世界交互,我们需要确保它能够解释 2D 图像关于 3D 空间的信息。在这项研究中,我们专注于挑战的一部分:如何让 AI 在 2D 图像中准确识别 3D 物体——例如人或车辆——并将这些物体放置在空间中,”吴继续说。

自动驾驶汽车

自动驾驶汽车通常依赖激光雷达来导航 3D 空间。激光雷达使用激光测量距离,很昂贵,这意味着自动系统不包含很多冗余。如果在大规模生产的自动驾驶汽车上安装数十个激光雷达传感器,将会非常昂贵。

“但是,如果自动驾驶汽车可以使用视觉输入来导航空间,你可以构建冗余,”吴说。“因为摄像头比激光雷达便宜得多,所以在系统中包含额外的摄像头将是经济上可行的,并且可以使系统更加安全和强壮。

“这是一个实际应用。然而,我们也对这项工作的基本进步感到兴奋:从 2D 对象中可以获得 3D 数据。”

训练 AI

MonoCon 可以在 2D 图像中识别 3D 物体,然后将其放置在“边界框”中,告诉 AI 物体的外部边缘。

“我们的工作与之前的训练技术有所不同,”吴说。“与之前的努力一样,我们在训练 AI 时将物体放置在 3D 边界框中。然而,除了要求 AI 预测相机到物体的距离和边界框的尺寸外,我们还要求 AI 预测每个边界框的八个点的位置及其在两个维度中与边界框中心的距离。我们称之为‘辅助上下文’,并且发现它有助于 AI 更准确地识别和预测 2D 图像中的 3D 物体。

“提出的方法是由一个著名的测度理论定理——克拉默-沃尔德定理所激发的。它也可能适用于计算机视觉中的其他结构化输出预测任务。”

MonoCon 已经使用一个名为 KITTI 的广泛使用的基准数据集进行了测试。

“在我们提交这篇论文时,MonoCon 的性能优于其他几十个旨在从 2D 图像中提取汽车 3D 数据的 AI 程序,”吴说。

该团队现在将尝试使用更大的数据集来扩大这一过程。

“在接下来的工作中,我们将扩大这一过程,并使用更大的数据集来评估和优化 MonoCon,以便在自动驾驶中使用,”吴说。“我们还希望探索在制造业中的应用,以查看是否可以提高诸如使用机器人臂等任务的性能。”

Alex McFarland 是一名人工智能记者和作家,探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。