人工智能
DeepMind 和 Google Brain 致力于创建方法以提高强化学习的效率

强化学习系统可以非常强大和健壮,能够通过成千上万次的训练迭代来执行极其复杂的任务。虽然强化学习算法能够实现复杂和偶尔令人惊讶的行为,但它们需要很长时间来训练,并需要大量的数据。这些因素使得强化学习技术相当低效,最近来自 Alphabet DeepMind 和 Google Brain 的研究团队试图找到更高效的创建强化学习系统的方法。
如 VentureBeat 报道,联合研究团队最近提出了使强化学习训练更高效的方法。其中一个提议的改进是称为自适应行为策略共享(Adaptive Behavior Policy Sharing,ABPS)的算法,而另一个是称为通用值函数近似器(Universal Value Function Approximators,UVFA)的框架。ABPS 允许池中的 AI 代理共享它们自适应选择的经验,而 UVFA 允许这些 AI 同时调查有针对性的探索策略。
ABPS 旨在加速训练模型时的超参数自定义。ABPS 通过允许具有不同超参数的多个代理共享它们的行为策略经验,使找到最佳超参数变得更快。更具体地说,ABPS 允许强化学习代理从策略认为可以接受的操作中选择操作,然后根据下一个状态授予奖励和观察。
AI 强化代理使用各种可能的超参数组合进行训练,例如衰减率和学习率。在训练模型时,目标是模型收敛于给予其最佳性能的超参数组合,在这种情况下,也可以提高数据效率。通过同时训练多个代理并选择仅一个代理的行为来部署在下一个时间步,效率得到提高。目标代理的策略用于采样操作。然后将转换记录在共享空间中,并不断评估该空间,以便不需要太频繁地进行策略选择。在训练结束时,选择一组代理,并选择表现最佳的代理进行最终部署。
至于 UVFA,它试图解决强化学习的一个常见问题,即弱强化代理通常无法学习任务。UVFA 试图通过让代理同时学习一组利用和探索策略来解决这个问题。分离任务创建了一个框架,允许探索策略继续探索环境,同时利用策略继续尝试最大化当前任务的奖励。UVFA 的探索策略作为一个基线架构,即使没有自然奖励被发现,也会继续改进。在这种情况下,一个对应于内在奖励的函数被近似,这推动代理探索环境中的所有状态,即使它们经常返回到熟悉的状态。
如 VentureBeat 解释,当 UVFA 框架处于活动状态时,系统的内在奖励直接作为输入给予代理。然后,代理在给定的一集中跟踪所有输入(例如奖励、操作和状态)的表示。结果是奖励随时间保存,并且代理的策略至少在任何时候都受到其影响。
这是通过使用“集际新颖性”和“终身新颖性”模块来实现的。第一个模块的功能是保持当前的集际记忆,并将当前的发现映射到之前提到的表示中,让代理为每一步的训练确定一个内在的集际奖励。之后,当前观察到的状态被添加到记忆中。同时,终身新颖性模块负责影响代理在多个集中的探索频率。
根据 Alphabet/Google 团队的说法,新的训练技术已经表现出在训练强化学习系统时具有显著改进的潜力。UVFA 能够将一些基础代理在各种 Atari 游戏中的性能提高一倍。同时,ABPS 能够在一些相同的 Atari 游戏中提高性能,减少了表现最佳的代理之间的方差约 25%。使用 UVFA 训练的算法能够在 Pitfall 中单独实现高分,没有任何人工设计的特征或演示。
