Connect with us

AI 入门 101

什么是强化学习?

mm

什么是强化学习?

简单来说,强化学习是一种机器学习技术,涉及通过重复行动和相关奖励来训练人工智能代理。强化学习代理在环境中实验,采取行动并在采取正确行动时获得奖励。随着时间的推移,代理 学会采取能够最大化其奖励的行动。 这是强化学习的一个快速定义,但更深入地了解强化学习背后的概念将帮助您更好地理解它。

术语“强化学习”源自心理学中的“强化”概念。因此,让我们花一点时间来了解心理学中的强化概念。在心理学意义上,强化指的是增加特定响应/行动发生的可能性的事情。这一强化概念是操作性条件理论的核心思想,最初由心理学家B.F.斯金纳提出。在这种情况下,强化是任何导致特定行为频率增加的东西。如果我们思考人类可能的强化,这些可以是赞扬、工作中的加薪、糖果和有趣的活动。

在传统的、心理学意义上,有两种类型的强化。有正强化和负强化。正强化是增加某种东西以增加行为的发生,例如当狗表现良好时给它奖励。负强化涉及去除刺激以诱发行为,例如关闭响亮的噪音来哄出一只害羞的猫。

正强化和负强化

正强化增加行为的频率,而负强化减少行为的频率。一般来说,正强化是强化学习中最常用的强化类型,因为它有助于模型在给定任务上最大化性能。不仅如此,正强化还使模型做出更可持续的改变,这些改变可以成为一致的模式并在长时间内持续下去。

相比之下,虽然负强化也使行为更有可能发生,但它用于维持最低性能标准,而不是达到模型的最大性能。强化学习中的负强化可以帮助确保模型避免不良行为,但它不能真正使模型探索期望的行为。

训练强化代理

当强化学习代理被训练时,有四种不同的成分状态 用于训练:初始状态(状态0)、新状态(状态1)、行动和奖励。

想象我们正在训练一个强化学习代理来玩一个平台游戏,AI的目标是通过在屏幕上向右移动来到达关卡的尽头。游戏的初始状态从环境中绘制出来,这意味着游戏的第一帧被分析并提供给模型。根据这些信息,模型必须决定采取什么行动。

在训练的初始阶段,这些行动是随机的,但随着模型被强化,某些行动会变得更加常见。采取行动后,游戏环境会被更新,创建一个新状态或帧。如果代理采取的行动产生了理想的结果,例如在这种情况下代理仍然活着并没有被敌人击中,则会给予代理一些奖励,并且它在未来更有可能再次采取同样的行动。

这种基本系统不断循环,反复发生,每次代理都会尝试学习更多并最大化其奖励。

分集任务与连续任务

强化学习任务可以通常分为两种不同的类别:分集任务和连续任务。

分集任务将执行学习/训练循环并提高其性能,直到满足某些终止标准,训练才会终止。在游戏中,这可能是到达关卡的尽头或掉入危险区域,如尖刺。在相反,连续任务没有终止标准,基本上会不断训练,直到工程师选择终止训练。

蒙特卡罗法与时差法

有两种主要的学习或训练强化学习代理的方法。在 蒙特卡罗方法 中,奖励仅在训练集结束时提供给代理(其评分会被更新)。换句话说,只有当终止条件被击中时,模型才会学习它的表现如何。然后它可以使用这些信息来更新,当下一个训练轮开始时,它将根据新信息做出反应。

时差法 与蒙特卡罗法不同之处在于,值估计或评分估计是在训练集期间更新的。只要模型推进到下一个时间步,值就会被更新。

探索与利用

训练强化学习代理是一个平衡的行为,涉及平衡两个不同的指标:探索和利用。

探索是收集更多关于周围环境的信息的行为,而利用是使用已知的环境信息来赚取奖励点。如果代理只探索而不利用环境,期望的行为将永远不会被执行。另一方面,如果代理只利用而不探索,代理将只学会执行一个行为,并不会发现其他可能的策略来赚取奖励。因此,在创建强化学习代理时,平衡探索和利用至关重要。

强化学习的用例

强化学习可以在广泛的角色中使用,它最适合需要自动化的任务。

工业机器人执行任务的自动化是强化学习证明有用的一个领域。强化学习也可以用于文本挖掘等问题,创建能够总结长篇文本的模型。研究人员还在尝试使用强化学习在医疗保健领域,强化代理处理优化治疗策略等任务。强化学习还可以用于为学生定制教育材料。

强化学习总结

强化学习是一种构建人工智能代理的强大方法,可以带来令人印象深刻和有时令人惊讶的结果。通过强化学习训练代理可能很复杂和困难,因为它需要许多训练迭代和探索/利用二元性的微妙平衡。然而,如果成功,使用强化学习创建的代理可以在广泛的环境中执行复杂的任务。

博客作者和程序员,专攻 Machine Learning Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。