AI 入门 101

什么是强化学习？

发布于 2019年10月20日

更新于 2026年5月25日

作者

Daniel Nelson

什么是强化学习？

简而言之，强化学习是一种机器学习技术，涉及通过重复的行动和相关的奖励来训练一个人工智能代理。强化学习代理在环境中实验，采取行动并在采取正确的行动时获得奖励。随着时间的推移，代理学会采取能够最大化其奖励的行动。这是强化学习的一个快速定义，但更深入地了解强化学习背后的概念将帮助您更好地理解它。

“强化学习”这个术语源自心理学中的强化概念。因此，让我们花一点时间来了解心理学中的强化概念。从心理学的角度来看，强化指的是增加某一特定反应或行动的可能性。这一强化概念是操作性条件反射理论的核心思想，由心理学家B.F.斯金纳首先提出。在这种情况下，强化是指任何能够增加特定行为发生频率的东西。如果我们思考一下人类可能的强化因素，这些可能包括赞扬、工作中的晋升、糖果和有趣的活动。

在传统的、心理学意义上，强化有两种类型。有积极强化和消极强化。积极强化是增加某种行为的发生频率，而消极强化是减少某种行为的发生频率。一般来说，积极强化是强化学习中最常用的强化类型，因为它有助于模型在特定任务上实现最佳性能。此外，积极强化使模型能够产生更可持续的变化，这些变化可以成为长期的模式并在长时间内持续下去。

相比之下，虽然消极强化也能使行为更有可能发生，但它主要用于维持最低的性能标准，而不是实现模型的最佳性能。强化学习中的消极强化可以帮助确保模型避免不良行为，但它不能使模型探索理想的行为。

积极与消极强化

积极强化增加行为的发生频率，而消极强化减少行为的发生频率。一般来说，积极强化是强化学习中最常用的强化类型，因为它有助于模型在特定任务上实现最佳性能。此外，积极强化使模型能够产生更可持续的变化，这些变化可以成为长期的模式并在长时间内持续下去。

在对比中，虽然消极强化也能使行为更有可能发生，但它主要用于维持最低的性能标准，而不是实现模型的最佳性能。强化学习中的消极强化可以帮助确保模型避免不良行为，但它不能使模型探索理想的行为。

训练强化学习代理

当训练强化学习代理时，有四种不同的成分或状态用于训练：初始状态（状态0）、新状态（状态1）、行动和奖励。

想象一下，我们正在训练一个强化学习代理来玩一个平台游戏，AI的目标是通过在屏幕上向右移动到达关卡的尽头。游戏的初始状态是从环境中提取的，这意味着游戏的第一帧被分析并提供给模型。根据这些信息，模型必须决定采取什么行动。

在训练的初始阶段，这些行动是随机的，但随着模型被强化，某些行动将变得更加常见。行动被采取后，游戏环境被更新，创建一个新的状态或帧。如果代理采取的行动产生了理想的结果，例如在这种情况下代理仍然活着并没有被敌人击中，则代理会获得一些奖励，并且更有可能在未来采取同样的行动。

这种基本系统不断循环，反复发生，每次代理都会尝试学习更多并最大化其奖励。

分集式任务与连续任务

强化学习任务可以分为两类：分集式任务和连续任务。

分集式任务将执行学习/训练循环并提高其性能，直到满足某些终止标准，然后终止训练。在游戏中，这可能是到达关卡的尽头或掉入障碍物，如尖刺。在对比中，连续任务没有终止标准，基本上会无限期地训练，直到工程师选择终止训练。

蒙特卡罗法与时间差法

有两种主要的学习或训练强化学习代理的方法。在蒙特卡罗方法中，奖励仅在训练集结束时提供给代理（其分数被更新）。换句话说，只有当终止条件被满足时，模型才会学习其性能如何。然后它可以使用此信息来更新，当下一个训练循环开始时，它将根据新信息做出反应。

时间差法与蒙特卡罗法不同，它在训练集的过程中更新价值估计或分数估计。一旦模型进入下一个时间步，价值就会被更新。

探索与利用

训练强化学习代理是一个平衡的行为，涉及平衡两个不同的指标：探索和利用。

探索是指收集更多关于周围环境的信息，而利用是指使用已知的环境信息来赚取奖励点。如果代理只探索而不利用环境，则所需的行动将永远不会被采取。另一方面，如果代理只利用而不探索，则代理只会学习一种行动，并不会发现其他可能的策略来赚取奖励。因此，在创建强化学习代理时，平衡探索和利用至关重要。

强化学习的应用场景

强化学习可以在广泛的角色中使用，并且最适合需要自动化的任务。

工业机器人执行任务的自动化是强化学习有用的一个领域。强化学习还可以用于文本挖掘、创建能够总结长文本的模型等问题。研究人员还正在尝试在医疗保健领域使用强化学习，强化代理处理诸如优化治疗策略等任务。强化学习还可以用于为学生定制教育材料。

强化学习总结

强化学习是一种强大的构建AI代理的方法，可以带来令人印象深刻和有时令人惊讶的结果。通过强化学习训练代理可能很复杂和困难，因为它需要许多训练迭代和探索/利用二元性的微妙平衡。然而，如果成功，通过强化学习创建的代理可以在广泛的不同环境中执行复杂的任务。

Daniel Nelson

博客作者和程序员，专攻 Machine Learning 和 Deep Learning 领域。Daniel 希望帮助他人利用 AI 的力量为社会做好事。

Unite.AI

什么是强化学习？

什么是强化学习？

积极与消极强化

训练强化学习代理

分集式任务与连续任务

蒙特卡罗法与时间差法

探索与利用

强化学习的应用场景

强化学习总结

You may like