人工智能

新技术帮助 AI 识别 3D 物体

更新 on 2022 年 12 月 9 日

亚历克斯麦克法兰

图片：北卡罗来纳州立大学

北卡罗来纳州立大学研究人员开发的一项新技术提高了人工智能 (AI) 程序识别 3D 物体的能力。该技术称为 MonoCon，还可以帮助 AI 通过使用 3D 图像了解 2D 对象在空间中如何相互关联。

MonoCon 可能具有广泛的应用，包括帮助自动驾驶车辆使用从车载摄像头接收到的 2D 图像在其他车辆周围导航。它还可以在制造和机器人技术中发挥作用。

吴天福是该论文的通讯作者研究报告以及北卡罗来纳州立大学电气和计算机工程助理教授。

“我们生活在 3D 世界，但当你拍照时，它会以 2D 图像记录这个世界，”Wu 说。

“人工智能程序接收来自摄像机的视觉输入。因此，如果我们希望人工智能与世界互动，我们需要确保它能够解释 2D 图像可以告诉它关于 3D 空间的信息。在这项研究中，我们专注于这一挑战的一部分：如何让人工智能准确识别 3D 图像中的 2D 对象（例如人或汽车），并将这些对象放置在空间中，”Wu 继续说道。

自主车辆

自动驾驶汽车通常依靠激光雷达在 3D 空间中导航。使用激光测量距离的激光雷达价格昂贵，这意味着自主系统不包含大量冗余。在量产的无人驾驶汽车上安装数十个激光雷达传感器将非常昂贵。

“但是，如果自动驾驶汽车可以使用视觉输入在太空中导航，那么你就可以建立冗余，”吴说。 “由于摄像头比激光雷达便宜得多，因此添加额外的摄像头在经济上是可行的——在系统中建立冗余，使其更安全、更稳健。

“这是一个实际应用。然而，我们也对这项工作的根本性进步感到兴奋：从 3D 对象获取 2D 数据是可能的。”

训练人工智能

MonoCon 可以识别 3D 图像中的 2D 对象，然后将其放入“边界框”中，从而告诉 AI 对象的外边缘。

“我们的工作与众不同之处在于我们训练人工智能的方式，它建立在以前的训练技术的基础上，”吴说。 “与之前的工作一样，我们在训练 AI 时将对象放置在 3D 边界框中。然而，除了要求 AI 预测相机到物体的距离和边界框的尺寸之外，我们还要求 AI 预测每个框的八个点的位置及其与边界中心的距离二维盒子。我们称之为“辅助上下文”，我们发现它可以帮助 AI 更准确地识别和预测基于 3D 图像的 2D 对象。

“所提出的方法是受到测度论中一个著名定理——克拉梅尔-沃尔德定理的启发。它也可能适用于计算机视觉中的其他结构化输出预测任务。”

MonoCon 使用广泛使用的基准数据集 KITTI 进行了测试。

“当我们提交这篇论文时，MonoCon 的表现比其他几十个旨在从 3D 图像中提取汽车 2D 数据的人工智能程序都要好，”Wu 说。

该团队现在将寻求利用更大的数据集来扩大这一过程。

“展望未来，我们正在扩大规模，并使用更大的数据集来评估和微调 MonoCon 以用于自动驾驶，”Wu 说。 “我们还想探索在制造业中的应用，看看我们是否可以提高机器人手臂的使用等任务的性能。”