人工智能
DeepMind 和 Google Brain 致力于创建方法以提高强化学习的效率

强化学习系统可以非常强大和健壮,能够通过成千上万次迭代的训练来执行极其复杂的任务。虽然强化学习算法能够实现复杂和偶尔令人惊讶的行为,但它们需要很长时间来训练并需要大量的数据。这些因素使得强化学习技术相当低效,最近来自 Alphabet DeepMind 和 Google Brain 的研究团队试图找到创建强化学习系统的更高效的方法。
据 VentureBeat 报道,联合研究团队最近提出了使强化学习训练更高效的方法。其中一个提出的改进是名为自适应行为策略共享(Adaptive Behavior Policy Sharing,ABPS)的算法,另一个是称为通用值函数近似器(Universal Value Function Approximators,UVFA)的框架。ABPS 允许池中的 AI 代理共享它们自适应选择的经验,而 UVFA 允许这些 AI 同时调查有针对性的探索策略。
ABPS 旨在加速训练模型时的超参数自定义。ABPS 通过允许具有不同超参数的多个代理共享其行为策略经验,使找到最佳超参数变得更快。更具体地说,ABPS 允许强化学习代理从策略认为可以接受的操作中选择操作,然后根据下一个状态授予奖励和观察。
AI 强化代理使用各种可能的超参数组合进行训练,例如衰减率和学习率。在训练模型时,目标是模型收敛于给它带来最佳性能的超参数组合,在这种情况下,还可以提高数据效率。通过同时训练多个代理并在下一个时间步中仅选择一个代理的行为来增加效率。目标代理的策略用于采样操作。然后将过渡记录在共享空间中,并不断评估该空间,以便不需要太频繁地进行策略选择。在训练结束时,会选择一组代理,并从中选择表现最佳的代理进行最终部署。
至于 UVFA,它试图解决强化学习的一个常见问题,即弱强化代理通常无法学习任务。UVFA 试图通过让代理同时学习一组利用和探索策略来解决这个问题。分离任务创建了一个框架,允许探索策略继续探索环境,而利用策略继续尝试最大化当前任务的奖励。UVFA 的探索策略作为一个基线架构,将继续改进,即使没有自然奖励被发现。在这种情况下,一个对应于内在奖励的函数被近似,这推动代理探索环境中的所有状态,即使它们经常返回熟悉的状态。
如 VentureBeat 解释,当 UVFA 框架生效时,系统的内在奖励直接作为输入给予代理。代理跟踪所有输入(例如奖励、操作和状态)的表示形式,在一个给定的情节中。结果是奖励随时间保持一致,代理的策略至少在某种程度上始终由其告知。
这是在“情节新颖性”和“终身新颖性”模块的帮助下完成的。第一个模块的功能是保持当前的、情节记忆,并将当前的发现映射到前面提到的表示形式中,让代理为每个训练步骤确定一个内在的、情节奖励。然后,将与当前观察相关的状态添加到记忆中。同时,终身新颖性模块负责影响代理在多个情节中探索的频率。
根据 Alphabet/Google 团队的说法,新的训练技术已经展示了在训练强化学习系统时实现显著改进的潜力。UVFA 能够将一些基础代理在各种 Atari 游戏中的性能提高一倍。同时,ABPS 能够在同样的 Atari 游戏中提高性能,减少表现最佳的代理之间的方差约 25%。使用 UVFA 训练的算法能够在 Pitfall 中单独获得高分,没有任何人工 demo 的工程特征。












