Connect with us

人工智能

DeepMind 的新 AI 能够在游戏过程中学习规则

mm

Alphabet 的子公司 DeepMind最近开发了一种能够在游戏过程中学习规则的 AI 系统。虽然DeepMind之前已经创建了可以掌握象棋、将棋、围棋和视频游戏的 AI 模型,但这些模型必须在开始之前提供游戏规则。因此,DeepMind 的新 AI 代表了对之前通过强化学习学习玩游戏的 AI 算法的显著改进。

AI 系统 – MuZero

在最近发表在《自然》杂志上的论文中,DeepMind 详细介绍了他们的新 AI 系统的工作原理。新 AI,称为 MuZero,能够在游戏过程中学习规则,得益于“预测搜索”原理。 如 Engadget 报道,MuZero 使用预测搜索来确定应该执行哪些动作,基于对对手最可能的响应。
当考虑象棋等游戏中可能的所有动作时,MuZero 能够优先考虑,缩小动作范围到最可能和最相关的动作。MuZero 将从成功和不成功的动作中学习。与其建模所有可能的因素,它只考虑与当前决策最相关的因素。MuZero 本质上将众多潜在变量提炼为最重要、最有影响力的特征。这些特征以树形搜索算法表示。在树形搜索算法中,可能的动作与测试环境的特征相结合。预测搜索是在确定环境的最相关方面后进行的。
为了做出最终决定,MuZero 考虑三个因素。
MuZero 考虑前一次选择的结果、当前位置和可能的下一步动作。这种方法优于 DeepMind 之前的方法,包括基本的预测搜索和树形模型。MuZero 在象棋、将棋和围棋方面至少与 AlphaZero 一样优秀,当它玩 Ms. Pac-Man 时,MuZero 只能考虑大约六或七步。尽管有这个限制,AI 仍然表现得很好。DeepMind 还通过限制 MuZero 的模拟次数来测试其能力,直到它必须提交动作。一般来说,程序被给予的时间越多,它的表现越好。
DeepMind 的首席研究科学家 David Silver 通过 TechXplore 解释,MuZero 是第一个能够生成环境规则自身表示的 AI 模型,并使用该表示来规划动作。
“我们实际上有一个系统,可以建立自己对世界的理解,并使用这种理解来进行复杂的预测规划,这种规划以前只用于象棋等游戏,” Silver 说。 “(MuZero)可以从零开始,仅通过试错,发现世界的规则,并使用这些规则来实现超人类的表现。”

可能的应用

一种真正能够学习任务约束并在这些约束内操作的 AI 有着广泛的可能应用。MuZero 可以用于视频压缩等任务,视频压缩一直难以使用 AI 自动化,因为有许多不同的视频格式和压缩模式。MuZero 能够实现大约 5% 的压缩改进。这可能会对 Google 和 YouTube 主办的众多视频产生影响。除了视频之外,DeepMind 还正在研究使用相同的 MuZero 技术进行蛋白质结构设计和机器人编程。
根据南安普顿大学计算机科学教授 Wendy Hall 的说法,MuZero 代表了“强化学习算法的一个重要步骤”。然而,Hall担心这些算法可能被滥用。例如,美国空军已经引用了早期关于 MuZero 的研究论文,创建了一个可以从 U-2 侦察机上发射导弹的 AI 系统。这是尽管 DeepMind 的研究人员已经表达了他们反对使用自己的算法进行任何致命武器的立场,并签署了致命自主武器承诺,认为任何致命技术都应保持在人类控制之下。
Silver 解释说,DeepMind 正在展望未来,旨在开发与大脑一样强大和多才多艺的算法。创建多才多艺和灵活算法的第一步是了解什么是智能系统,智能与识别复杂环境中的模式和规则的能力有关。

博客作者和程序员,专攻 Machine Learning Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。