Connect with us

人工智能

AI 通过模仿学习难以掌握 Minecraft

mm

过去几个月,Microsoft 和其他研究机器学习的公司挑战 AI 开发团队创建一个可以玩 Minecraft 并在游戏中找到钻石的 AI 系统。 据 BBC 报道,虽然 AI 平台已经能够在国际象棋和围棋中占据主导地位,但它在 Minecraft 中却难以掌握一项任务。

Microsoft 的基于 Minecraft 的 AI 挑战被称为 MineRL,该竞赛的结果在最近的 NeurIPS 会议上正式宣布。竞赛的目的是通过“模仿学习”方法训练 AI。模仿学习是一种通过观察来训练 AI 的方法。模仿学习的目的是让 AI 系统通过观察人类执行动作来学习动作,通过观察来学习。与强化学习相比,模仿学习是一种计算成本较低、效率更高的训练 AI 的方法。

强化学习通常需要许多强大的计算机网络和数百或数千小时的训练才能有效地完成任务。相比之下,使用模仿学习方法训练的 AI 可以更快地训练,因为 AI 已经有了人类操作员提供的基础知识。

模仿学习在训练 AI 方面有实际应用,特别是在 AI 不能安全地探索直到它弄清楚正确的动作的情况下。这样的场景包括训练自主车辆,因为汽车不能被允许在学习到期望的行为之前随意在街上行驶。使用人类演示者的数据来训练车辆可能会使过程更快、更安全。

在 Minecraft 中找到钻石需要执行许多步骤,例如砍伐树木来制作工具,探索包含钻石的洞穴,并实际找到钻石。尽管任务复杂,但熟悉游戏的玩家应该能够在大约 20 分钟内找到钻石。

超过 660 个不同的 AI 代理被提交到竞赛,但没有一个 AI 能够找到钻石。提供给 AI 训练的数据是包含来自许多人类玩家的 6000 万帧游戏数据的数据集。钻石的位置在游戏实例启动时被随机化,这意味着 AI 不能简单地查看人类玩家找到钻石的地方。换句话说,AI 需要形成对概念的理解,例如制作工具、使用工具、探索和找到资源的联系。

尽管没有一个 AI 代理能够成功找到钻石,但组织团队仍然对竞赛的结果感到满意,并且从实验中得到了很多收获。AI 团队进行的研究可以帮助推进 AI 领域,找到替代强化学习策略的方法。

强化学习通常比模仿学习具有更好的性能,强化学习的一个著名成功是 DeepMind 的 AlphaGo。然而,如前所述,强化学习需要大量的计算资源,这限制了其在无法承担大规模计算处理器的组织中的使用。

卡内基梅隆大学的博士生、竞赛组织者 William Guss 向 BBC 解释,MineRL 竞赛的目的是探索替代计算密集型 AI 的方法。Guss 说:

“…将大量计算资源投入问题中并不一定是我们推进该领域发展的正确方法… 这直接违背了使强化学习系统的获取民主化的目标,并将在复杂环境中训练代理的能力留给拥有大量计算资源的企业。”

博客作者和程序员,专攻 Machine Learning Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。