人工智能

DeepMind 报告安全训练强化学习人工智能的新方法

更新 on 2022 年 12 月 9 日

强化学习是人工智能开发的一个有前途的途径，它产生的人工智能可以处理极其复杂的任务。强化人工智能算法用于创建移动机器人系统和自动驾驶汽车等应用。然而，由于强化人工智能的训练方式，它们偶尔会表现出奇怪和意想不到的行为。这些行为可能是危险的，人工智能研究人员将这个问题称为“安全探索”问题，即人工智能陷入不安全状态的探索中。

近日，谷歌人工智能研究实验室 DeepMind 发布了一篇论文，提出了处理安全探索问题以及以更安全的方式训练强化学习 AI 的新方法。 DeepMind 建议的方法还可以纠正奖励黑客行为或奖励标准中的漏洞。

DeepMind 的新方法有两个不同的系统，旨在在可能出现不安全行为的情况下指导人工智能的行为。 DeepMind 训练技术使用的两个系统是生成模型和前向动力学模型。这两种模型都经过各种数据的训练，例如安全专家的演示和完全随机的车辆轨迹。这些数据由主管标记为特定的奖励值，人工智能代理将识别行为模式，使其能够获得最大的奖励。不安全状态也已被标记，一旦模型成功预测奖励和不安全状态，它就会被部署来执行有针对性的行动。

研究团队在论文中解释说，其想法是从头开始创建可能的行为，建议所需的行为，并使这些假设场景尽可能提供信息，同时避免对学习环境的直接干扰。 DeepMind 团队将这种方法称为 ReQueST，即通过轨迹优化进行奖励查询合成。

ReQueST 能够导致四种不同类型的行为。第一种行为试图最大化整体奖励模型的不确定性。与此同时，行为二和行为三试图最小化和最大化预测奖励。预测奖励被最小化，以便发现模型可能错误预测的行为。另一方面，预测奖励最大化，以导致行为标签拥有最高的信息价值。最后，第四种行为试图最大化轨迹的新颖性，以便模型继续探索，无论预计的奖励如何。

一旦模型达到所需的奖励收集水平，规划代理就会根据学习到的奖励做出决策。这种模型预测控制方案让智能体通过使用动态模型并预测可能的后果来学习避免不安全状态，这与通过纯粹的试错来学习的算法的行为形成鲜明对比。

据 VentureBeat 报道，DeepMind 研究人员相信他们的项目是第一个能够以受控、安全的方式学习的强化学习系统：

“据我们所知，ReQueST 是第一个奖励建模算法，可以安全地学习不安全状态，并在高维、连续状态的环境中训练神经网络奖励模型。到目前为止，我们仅在动态相对简单的模拟域中证明了 ReQueST 的有效性。未来工作的一个方向是在 3D 域中使用更真实的物理和在环境中起作用的其他代理来测试 ReQueST。”