计算机科学家使用积极强化来教导机器人

Published October 28, 2020

Updated April 28, 2026

Alex McFarland

约翰霍普金斯大学的计算机科学家采用了长期以来用于训练动物（如狗）的积极强化训练技术，使机器人能够自学新技能。这些新技能包括堆叠积木的能力。

机器人被称为Spot，研究人员称，它可以在几天内学习传统上需要一个月才能掌握的技能。

研究团队使用积极强化来增加机器人的技能。他们能够以如此快的速度做到这一点，使得这类机器人更容易在现实世界中部署。

Andrew Hundt是约翰霍普金斯大学的博士生，也是该研究的首席作者。

“这里的问题是如何让机器人学习一项技能？”他说。“我曾养过狗，所以我知道奖励是有效的，这也是我设计学习算法的灵感来源。”

积极强化之所以能在计算机上奏效，是因为计算机没有直觉性的大脑，这意味着它们基本上是一张白纸，可以在上面投射任何东西。换句话说，它们必须从零开始学习一切。计算机最有效的学习方法之一是试错法，这是机器人领域研究人员仍在研究的东西。

这正是研究人员创建机器人奖励系统时所做的，类似于通过给狗奖励来训练狗的过程。不同之处在于，机器人在正确完成任务时会获得数字积分。

当机器人学习如何堆叠积木时，它必须学会专注于建设性行为。在这种方法中，机器人Spot在堆叠积木时获得更高的积分，当它完成正确的行为时。相反，当它表现出不正确的行为时，它什么也得不到。通过完成四个积木的堆叠并将最后一个积木放在顶部，它获得了最高的积分。

研究人员在这种方法中取得了巨大的成功，机器人在几天内就能学会过去需要几周才能掌握的技能。通过训练模拟机器人，团队减少了在Spot机器人上进行实践的时间。

“机器人想要更高的分数，”Hundt说。“它很快就学会了获得最佳奖励的正确行为。事实上，过去机器人需要一个月的时间才能达到100%的准确率，我们只用了两天就做到了。”

除了学习如何堆叠积木，机器人还使用积极强化来学习其他任务，例如如何玩模拟导航游戏。

“一开始，机器人不知道自己在做什么，但它会变得越来越好，随着每次练习，它会不断尝试堆叠，并且能够100%地完成任务，”Hundt说。

这种方法的一些可能应用包括训练家用机器人完成特定任务，以及改进自动驾驶汽车。

“我们的目标是最终开发出能够在现实世界中完成复杂任务的机器人——例如产品组装、老年人护理和手术，”Hager说。“我们目前不知道如何编程这些任务——世界太复杂了。但是像这样的工作表明，机器人可以以安全高效的方式学习如何完成这样的现实世界任务，这个想法是有前途的。”

Alex McFarland

Alex McFarland 是一名人工智能记者和作家，探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。

Unite.AI