机器人与物理 AI
空间AI的进步使机器人能够像人类一样感知物理环境

麻省理工学院的工程师们正在努力使机器人能够遵循高级命令,例如前往另一个房间取回某个物品。为了实现这一点,机器人需要能够像人类一样感知其物理环境。
卢卡·卡尔罗内是麻省理工学院航空航天工程系的助理教授。
“为了在世界上做出任何决定,你需要对周围的环境有一个心理模型,”卡尔罗内说。“对于人类来说,这是如此轻松的事情。但对于机器人来说,这是一个非常困难的问题,涉及将它们通过摄像头看到的像素值转化为对世界的理解。”
为了应对这一挑战,研究人员基于人类如何感知和导航其物理环境,开发了一种机器人空间感知的表示模型。
3D 动态场景图
新的模型称为 3D 动态场景图,它使机器人能够生成其物理周围环境的 3D 地图,包括物体及其语义标签。机器人还可以绘制出人、房间、墙壁和其他结构在环境中的位置。
然后,模型允许机器人从 3D 地图中提取信息,例如定位物体、房间和人员的移动。
“这种环境的压缩表示对于我们的机器人来说是有用的,因为它使机器人能够快速做出决定并规划其路径,”卡尔罗内说。“这与我们人类做的事情并不太不同。如果你需要从家到麻省理工学院规划一条路径,你不会规划每一个具体位置。你只是在街道和地标的层面上思考,这有助于你更快地规划路线。”
根据卡尔罗内的说法,依赖于此模型的机器人将能够做得比仅仅执行家务任务更多的事情。它们还可以用于高级技能,并在工厂中与人类一起工作,或者帮助在灾难现场找到幸存者。
https://www.youtube.com/watch?time_continue=39&v=SWbofjhyPzI&feature=emb_logo
当前方法与新模型
当前的机器人视觉和导航方法主要集中在 3D 建模上,使机器人能够在实时中重建其环境的三维表示,或者语义分割,即机器人将环境中的特征分类为语义对象,例如汽车与自行车。语义分割通常在 2D 图像上进行。
新开发的空间感知模型是首个能够实时生成环境的 3D 地图,并在同一时间内对物体、人员和结构进行标记的模型。
为了实现这一新模型,研究人员依赖于 Kimera,一种开源库。Kimera 由同一团队之前开发,用于同时构建环境的 3D 几何模型和编码对象的语义信息,例如椅子与桌子的区别。
“就像神话中的生物是不同动物的混合体,我们希望 Kimera 成为 3D 中的映射和语义理解的混合体,”卡尔罗内说。
Kimera 使用机器人摄像头的图像和传感器的惯性测量来实时重建场景为 3D 网格。为此,Kimera 利用了一个经过数百万真实世界图像训练的神经网络,可以预测每个像素的标签并使用射线投影将其投影到 3D 中。
通过使用这种技术,机器人的环境可以被映射为一个三维网格,其中每个面都被颜色编码,识别为环境中物体、结构或人员的一部分。
3D 网格到 3D 动态“场景图”
由于 3D 语义网格模型需要大量计算能力且耗时,研究人员使用 Kimera 开发了算法,得出了 3D 动态“场景图”。
3D 语义网格被分解为不同的语义层,机器人可以通过这些层查看场景。这些层从物体和人员到开放空间和结构,到房间、走廊、门厅和整个建筑。
这种分层方法使机器人能够集中注意力,而不是分析数十亿个点和面。这种分层方法还使算法能够实时跟踪环境中的人员和他们的移动。
新模型在一个模拟机器人导航有移动人员的办公环境的照片级模拟器中进行了测试。
“我们基本上使机器人能够拥有与人类类似的精神模型,”卡尔罗内说。“这可以影响许多应用,包括自动驾驶汽车、搜索和救援、协作制造和家用机器人。”
卡尔罗内与首席作者和麻省理工学院研究生安东尼·罗西诺尔一起工作。
“我们的方法之所以成为可能,是因为最近在深度学习和几十年来同时定位和映射研究方面的进展,”罗西诺尔说。“通过这项工作,我们正在迈向一种称为空间AI的机器人感知新时代的步伐,这个领域仍处于初期阶段,但在机器人和大规模虚拟和增强现实方面具有巨大的潜力。”
该研究在机器人:科学和系统虚拟会议上进行了介绍。












