机器人
计算机科学家使用积极强化来教导机器人

约翰霍普金斯大学的计算机科学家采用了长期以来用于训练动物(如狗)的积极强化训练技术,使机器人能够自学新技能。这些新技能包括堆叠积木的能力。
机器人被称为Spot,研究人员称,它可以在几天内学习传统上需要一个月才能掌握的技能。
积极强化
研究团队使用积极强化来增加机器人的技能。他们能够以如此快的速度做到这一点,使得这类机器人更容易在现实世界中部署。
这项工作发表在 IEEE Robotics and Automation Letters, 标题为“Good Robot!: Efficient Reinforcement Learning for Multi-Step Visual Tasks with Sim to Real Transfer.”
Andrew Hundt是约翰霍普金斯大学的博士生,也是该研究的首席作者。
“这里的问题是如何让机器人学习一项技能?”他说。“我曾养过狗,所以我知道奖励是有效的,这也是我设计学习算法的灵感来源。”
积极强化之所以能在计算机上奏效,是因为计算机没有直觉性的大脑,这意味着它们基本上是一张白纸,可以在上面投射任何东西。换句话说,它们必须从零开始学习一切。计算机最有效的学习方法之一是试错法,这是机器人领域研究人员仍在研究的东西。
这正是研究人员创建机器人奖励系统时所做的,类似于通过给狗奖励来训练狗的过程。不同之处在于,机器人在正确完成任务时会获得数字积分。
https://www.youtube.com/watch?v=dvxqjJBWFD4
所学技能
当机器人学习如何堆叠积木时,它必须学会专注于建设性行为。在这种方法中,机器人Spot在堆叠积木时获得更高的积分,当它完成正确的行为时。相反,当它表现出不正确的行为时,它什么也得不到。通过完成四个积木的堆叠并将最后一个积木放在顶部,它获得了最高的积分。
研究人员在这种方法中取得了巨大的成功,机器人在几天内就能学会过去需要几周才能掌握的技能。通过训练模拟机器人,团队减少了在Spot机器人上进行实践的时间。
“机器人想要更高的分数,”Hundt说。“它很快就学会了获得最佳奖励的正确行为。事实上,过去机器人需要一个月的时间才能达到100%的准确率,我们只用了两天就做到了。”
除了学习如何堆叠积木,机器人还使用积极强化来学习其他任务,例如如何玩模拟导航游戏。
“一开始,机器人不知道自己在做什么,但它会变得越来越好,随着每次练习,它会不断尝试堆叠,并且能够100%地完成任务,”Hundt说。
这种方法的一些可能应用包括训练家用机器人完成特定任务,以及改进自动驾驶汽车。
“我们的目标是最终开发出能够在现实世界中完成复杂任务的机器人——例如产品组装、老年人护理和手术,”Hager说。“我们目前不知道如何编程这些任务——世界太复杂了。但是像这样的工作表明,机器人可以以安全高效的方式学习如何完成这样的现实世界任务,这个想法是有前途的。”












