“空间-AI”领域的进步使机器人能够像人类一样感知物理环境

Published July 17, 2020

Updated April 28, 2026

Alex McFarland

麻省理工学院（MIT）的工程师们正在努力使机器人能够执行高级命令，例如前往另一个房间取回物品。为了实现这一点，机器人需要能够像人类一样感知其物理环境。

卢卡·卡尔罗内（Luca Carlone）是麻省理工学院航空航天工程系的助理教授。

“为了在世界上做出任何决定，你需要对周围的环境有一个心理模型，”卡尔罗内说。“对于人类来说，这是如此轻松的事情。但对于机器人来说，这是一个非常困难的问题，涉及将它们通过摄像头看到的像素值转换为对世界的理解。”

为了应对这一挑战，研究人员基于人类对物理环境的感知和导航方式，建立了一个机器人空间感知的表示模型。

新的模型称为 3D 动态场景图，它使机器人能够生成其物理环境的 3D 地图，包括物体及其语义标签。机器人还可以绘制出人、房间、墙壁和环境中的其他结构。

然后，模型允许机器人从 3D 地图中提取信息，这些信息可以用于定位物体、房间和人员的移动。

“这种环境的压缩表示很有用，因为它允许我们的机器人快速做出决定并规划其路径，”卡尔罗内说。“这与我们人类所做的并不太不同。如果你需要从家到麻省理工学院规划一条路径，你不会规划每一个位置。你只需要考虑街道和地标，这有助于你更快地规划路线。”

根据卡尔罗内的说法，依赖于该模型的机器人将能够做得比仅仅执行家务任务更多的事情。它们还可以用于高级技能，并可以与工厂中的工人一起工作，或者帮助在灾难现场找到幸存者。

当前的机器人视觉和导航方法主要集中在 3D 建模上，使机器人能够在实时中重建其环境的三维模型，或者语义分割，即机器人将环境中的特征分类为语义对象，例如汽车与自行车。语义分割通常在 2D 图像上执行。

新开发的空间感知模型是首个能够在实时中生成环境的 3D 地图并标记物体、人员和结构的模型。

为了实现这一新模型，研究人员依赖于 Kimera，一种开源库。Kimera 由同一团队之前开发，用于同时构建环境的 3D 几何模型和编码对象的语义信息，例如椅子与桌子的区别。

“就像神话中的生物是不同动物的混合体一样，我们希望 Kimera 成为 3D 中的映射和语义理解的混合体，”卡尔罗内说。

Kimera 使用机器人摄像头的图像和来自机载传感器的惯性测量，以实时重建场景为 3D 网格。为此，Kimera 利用了一个在数百万真实世界图像上训练的神经网络，可以预测每个像素的标签并使用射线投射将其投影到 3D 中。

通过使用这种技术，机器人的环境可以被绘制成一个三维网格，其中每个面都经过颜色编码，识别为环境中的物体、结构或人员的一部分。

由于 3D 语义网格模型需要大量计算能力且耗时，研究人员使用 Kimera 开发了算法，生成了 3D 动态“场景图”。

3D 语义网格被分解为不同的语义层，机器人可以通过这些层查看场景。这些层从物体和人员到开放空间和结构，到房间、走廊、门厅和整个建筑。

这种分层方法允许机器人集中注意力，而不是分析数十亿个点和面。这种分层方法还允许算法在实时中跟踪人类和环境中的移动。

新模型在一个模拟机器人导航具有移动人员的办公环境的照片级模拟器中进行了测试。

“我们基本上使机器人能够拥有与人类相似的心理模型，”卡尔罗内说。“这可以影响许多应用，包括自动驾驶汽车、搜索和救援、协作制造和家用机器人。”

卡尔罗内与首席作者和麻省理工学院研究生安东尼·罗西诺尔（Antoni Rosinol）合作。

“我们的方法之所以成为可能，是因为深度学习的最新进展和几十年来对同时定位和映射的研究，”罗西诺尔说。“通过这项工作，我们正在迈向一种新的机器人感知时代，称为空间-AI，它仍处于初期阶段，但在机器人和大规模虚拟和增强现实中具有巨大的潜力。”

Related Topics:AI artificial intelligence deep learning Robotics

Alex McFarland

Alex McFarland 是一名人工智能记者和作家，探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。

Unite.AI