人工智能

DeepMind 报告了一种新的训练强化学习 AI 的方法，确保安全

发布于 2019年12月14日

更新于 2026年5月25日

作者

Daniel Nelson

强化学习是人工智能发展的一个有前途的领域，能够处理极其复杂的任务。强化学习算法被用于移动机器人系统和自动驾驶汽车等应用中。然而，由于强化学习算法的训练方式，它们可能会偶尔表现出奇怪和意外的行为。这些行为可能是危险的，人工智能研究人员称之为“安全探索”问题，即人工智能陷入不安全状态的探索中。

最近，谷歌的 AI 研究实验室 DeepMind 发表了一篇论文，提出了处理安全探索问题和以更安全的方式训练强化学习 AI 的新方法。DeepMind 提出的方法还纠正了奖励黑客或奖励标准中的漏洞。

DeepMind 的新方法有两个不同的系统，旨在指导人工智能在可能出现不安全行为的情况下的行为。DeepMind 训练技术中使用的两个模型是生成模型和前向动力学模型。两个模型都在各种数据上进行训练，例如安全专家的示范和完全随机的车辆轨迹。数据由监督者用特定的奖励值标记，人工智能代理将学会识别出能够获得最大奖励的行为模式。不安全状态也已被标记，一旦模型成功预测奖励和不安全状态，它就会被部署来执行目标动作。

研究团队在论文中解释说，想法是从头开始创建可能的行为，建议期望的行为，并使这些假设场景尽可能具有信息量，同时避免直接干扰学习环境。DeepMind 团队称这种方法为 ReQueST，即通过轨迹优化的奖励查询合成。

ReQueST 可以导致四种不同的行为。第一种行为尝试最大化关于集成奖励模型的不确定性。同时，行为 2 和 3 尝试最小化和最大化预测的奖励。预测的奖励被最小化，以便发现模型可能错误预测的行为。另一方面，预测的奖励被最大化，以便获得具有最高信息价值的行为标签。最后，第四种行为尝试最大化轨迹的新颖性，以便模型继续探索，而不管预测的奖励如何。

一旦模型达到预期的奖励收集水平，就会使用规划代理来根据学习的奖励做出决定。这种模型预测控制方案允许代理通过使用动态模型和预测可能的后果来学习避免不安全状态，而不是通过纯粹的试错学习算法的行为。

据 VentureBeat 报道，DeepMind 研究人员认为他们的项目是第一个能够以受控和安全的方式学习的强化学习系统：

“据我们所知，ReQueST 是第一个能够安全地学习不安全状态并扩展到训练神经网络奖励模型的环境中的高维、连续状态的奖励建模算法。到目前为止，我们只在具有相对简单动态的模拟领域中展示了 ReQueST 的有效性。未来的工作方向之一是测试 ReQueST 在具有更真实物理和其他环境中执行的 3D 域中的性能。”

Daniel Nelson

博客作者和程序员，专攻 Machine Learning 和 Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。

Unite.AI

DeepMind 报告了一种新的训练强化学习 AI 的方法，确保安全

发现更多