Connect with us

机器人

使用神经辐射场(NeRF)教导机器人关于工具

mm

密歇根大学的新研究提出了一种方法,允许机器人通过创建神经辐射场(NeRF)对象来理解工具和其他现实世界中关节对象的机制,这些对象演示了这些对象的运动方式,可能允许机器人与它们交互并在没有繁琐的专用预配置的情况下使用它们。

通过利用工具(或任何具有合适参考的对象)的内部运动的已知源引用,NARF22可以合成一个工具及其运动范围和操作类型的照片级近似。来源:https://progress.eecs.umich.edu/projects/narf/

通过利用工具(或任何具有合适参考的对象)的内部运动的已知源引用,NARF22可以合成一个工具及其运动范围和操作类型的照片级近似。 来源:https://progress.eecs.umich.edu/projects/narf/

需要执行更多任务的机器人,比如避开行人或执行精心预编程的例行程序(这些任务需要大量的非重用数据集,并且可能需要大量的标记和训练),需要这种自适应能力才能与我们必须处理的相同材料和对象一起工作。

迄今为止,给予机器人系统这种多功能性的主要障碍包括适用数据集的匮乏,这些数据集通常只包含很少的对象;生成可以帮助机器人学习现实世界中工具性质的照片级、网格化的3D模型所需的巨大费用;以及这些数据集的非照片级质量,使得对象看起来与机器人所感知的周围世界脱节,并训练机器人寻找永远不会出现在现实世界中的卡通式对象。

为了解决这个问题,密歇根大学的研究人员,他们的论文题为《NARF22:用于配置感知渲染的神经关节辐射场》,已经开发了一种两阶段流水线,用于生成具有“现实世界”外观的基于NeRF的关节对象,并且这些对象包含任何特定关节对象的运动和随之而来的限制。

虽然看起来更复杂,但NARF22流水线的两个基本阶段涉及渲染运动工具的静态部分,然后将这些元素组合成一个第二个数据集,该数据集包含有关这些部分相对于彼此的运动参数的信息。来源:https://arxiv.org/pdf/2210.01166.pdf

虽然看起来更复杂,但NARF22流水线的两个基本阶段涉及渲染运动工具的静态部分,然后将这些元素组合成一个第二个数据集,该数据集包含有关这些部分相对于彼此的运动参数的信息。 来源:https://arxiv.org/pdf/2210.01166.pdf

该系统被称为《神经关节辐射场》- 或NARF22,以区别于另一个具有相似名称的项目。

NARF22

确定一个未知对象是否可能是关节对象需要几乎难以置信的人类式先验知识。例如,如果你以前从未见过一个关闭的抽屉,它可能看起来像任何其他类型的装饰面板 – 直到你实际打开它,你才会将“抽屉”内化为一个具有单一运动轴(前后)的关节对象。

因此,NARF22不打算作为一个探索性系统,用于拾取物体并检查它们是否具有可操作的移动部件 – 几乎像猿一样的行为,这将涉及一系列潜在的灾难性场景。相反,该框架基于《通用机器人描述格式》(URDF)- 一个广泛适用的、适合该任务的开源XML格式。URDF文件将包含对象的可用运动参数,以及对象部件的描述和其他标记的方面。

在传统的流水线中,需要描述对象的关节能力,并标记相关的关节值。这不是一个廉价或容易扩展的任务。相反,NaRF22工作流程在将每个静态部件“组装”成一个关节的NeRF表示之前,先渲染对象的各个部件,并由URDF提供运动参数。

在流程的第二阶段,创建了一个完全新的渲染器,包含所有部件。虽然可以更容易地在早期阶段连接各个部件并跳过这一步骤,但研究人员观察到,最终模型(在NVIDIA RTX 3080 GPU和AMD 5600X CPU下训练)在反向传播期间具有较低的计算需求。

此外,第二阶段模型的运行速度是连接和“蛮力”组装的速度的两倍,并且可能需要使用静态模型部分信息的任何次要应用程序都不需要访问URDF信息,因为这些信息已经包含在最终阶段的渲染器中。

数据和实验

研究人员进行了多个实验来测试NARF22:一个用于评估每个对象配置和姿势的定性渲染;一个定量测试,用于将渲染结果与真实机器人看到的类似视点进行比较;以及一个配置估计和6 DOF(深度)精化挑战的演示,使用NARF22执行基于梯度的优化。

训练数据来自之前一篇论文中部分作者的《进展工具》数据集。《进展工具》包含大约六千张RGB-D(包括深度信息,对机器人视觉至关重要)图像,分辨率为640×480。使用的场景包括八种手工具,分解为各个部件,包括网格模型和有关对象的运动参数(即它们被设计的运动方式和运动参数)的信息。

进展工具数据集具有四个关节工具。上面的图像是NARF22的基于NeRF的渲染。

进展工具数据集具有四个关节工具。上面的图像是NARF22的基于NeRF的渲染。

对于这个实验,使用钳子、长鼻钳和夹子(见上图)训练了一个最终的可配置模型。训练数据包含了夹子的一个配置和每个钳子的一个配置。

NARF22的实现基于《FastNeRF》,输入参数被修改为关注工具的连接和空间编码的姿势。FastNeRF使用分解的多层感知器(MLP)配对一个体素化采样机制(体素基本上是像素,但具有完整的3D坐标,因此它们可以在3D空间中运行)。

对于定性测试,研究人员观察到,有几个夹子的遮挡部分(即无法通过观察对象而仅通过与其交互才能知道的中心脊柱),并且该系统难以创建这种“未知”的几何形状。

工具的定性渲染。

工具的定性渲染。

相比之下,钳子能够很好地推广到新的配置(即在URDF参数内但在训练材料中没有明确解决的部件的扩展和运动)。

研究人员观察到,钳子的标签错误导致了工具尖端的渲染质量下降,这对渲染产生了负面影响 – 这是一个与计算机视觉研究领域中标签逻辑、预算和准确性更广泛的担忧相关的问题,而不是NARF22流水线中的任何程序缺陷。

渲染准确性测试的结果。

渲染准确性测试的结果。

对于配置估计测试,研究人员执行了姿势精化和配置估计,从一个初始的“刚性”姿势开始,避免了FastNeRF本身使用的任何缓存或其他加速工作。

他们然后训练了17个排列良好的场景,从《进展工具》的测试集中(在训练期间被保留),并在Adam优化器下运行了150次梯度下降优化。该过程“非常好”地恢复了配置估计,根据研究人员的说法。

配置估计测试的结果。

配置估计测试的结果。

 

最初发布于2022年10月5日。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai