人工智能

DeepMind 和 Google Brain Aim 创建提高强化学习效率的方法

更新 on 2022 年 12 月 9 日

强化学习系统功能强大且稳健，能够通过数千次迭代训练来执行极其复杂的任务。虽然强化学习算法能够实现复杂且偶尔令人惊讶的行为，但它们需要很长时间来训练并且需要大量数据。这些因素使得强化学习技术相当低效，最近 Alphabet DeepMind 和 Google Brain 的研究团队一直在努力寻找更有效的方法来创建强化学习系统。

据 VentureBeat 报道联合研究小组最近提出了使强化学习训练更加高效的方法。提出的改进之一是一种称为自适应行为策略共享（ABPS）的算法，而另一个是称为通用价值函数逼近器（UVFA）的框架。 ABPS 让人工智能代理池分享他们自适应选择的经验，而 UVFA 让这些人工智能同时调查定向探索策略。

ABPS 旨在在训练模型时加快超参数的定制。 ABPS 通过允许具有不同超参数的多个不同代理共享其行为策略经验，可以更快地找到最佳超参数。更准确地说，ABPS 让强化学习代理从策略认为可以的操作中选择操作，然后根据以下状态授予奖励和观察。

AI 强化代理使用各种可能的超参数组合进行训练，例如衰减率和学习率。训练模型时，目标是模型收敛于能够提供最佳性能的超参数组合，在本例中，这些超参数组合还可以提高数据效率。通过一次训练多个代理并选择在下一时间步骤中仅部署一个代理的行为来提高效率。目标代理具有的策略用于对操作进行采样。然后将转换记录在共享空间中，并且不断评估该空间，以便不必经常进行策略选择。训练结束时，将选择一组代理，并选择表现最好的代理进行最终部署。

就UVFA而言，它试图解决强化学习的常见问题之一，即弱强化智能体通常无法学习任务。 UVFA 试图通过让智能体同时学习一套单独的开发和探索策略来解决这个问题。分离任务创建了一个框架，允许探索性策略继续探索环境，同时利用策略继续尝试最大化当前任务的奖励。 UVFA 的探索性政策作为基线架构，即使没有发现自然奖励，也会继续改进。在这种情况下，对应于内在奖励的函数被近似，这促使代理探索环境中的所有状态，即使它们经常返回到熟悉的状态。

正如 VentureBeat 所解释的，当UVFA框架发挥作用时，系统的内在奖励直接作为输入给予代理。然后，代理会跟踪给定情节期间所有输入（例如奖励、动作和状态）的表示。结果是奖励会随着时间的推移而保留，并且代理的策略至少在某种程度上始终受到奖励的影响。

这是通过利用“情景新颖性”和“终身新颖性”模块来实现的。第一个模块的功能是保存当前的情景记忆，并将当前的发现映射到前面提到的表示，让代理确定训练的每一步的内在情景奖励。然后，与当前观察相关的状态被添加到内存中。同时，终身新颖性模块负责影响智能体在许多情节中探索的频率。

据 Alphabet/Google 团队称，新的训练技术已经展示了在训练强化学习系统时取得实质性改进的潜力。 UVFA 能够将一些玩各种 Atari 游戏的基础代理的性能提高一倍。与此同时，ABPS 能够提高一些相同 Atari 游戏的性能，将表现最佳的代理之间的差异减少约 25%。经过 UVFA 训练的算法能够在 Pitfall 中单独获得高分，缺乏人类演示的任何工程特征。