AI 101

什么是强化学习？

更新 on 2021 年 6 月 5 日

什么是强化学习？

简而言之，强化学习是一种机器学习技术，涉及通过重复动作和相关奖励来训练人工智能代理。强化学习代理在环境中进行实验，采取行动并在采取正确行动时获得奖励。随着时间的推移，代理学会采取能够最大化其回报的行动。这是强化学习的快速定义，但仔细研究强化学习背后的概念将帮助您更好、更直观地理解它。

“强化学习”一词源自以下概念：心理学上的强化。因此，让我们花点时间来了解强化的心理学概念。在心理学意义上，强化一词是指增加特定反应/行动发生可能性的事物。强化的概念是操作性条件反射理论的核心思想，最初由心理学家 BF Skinner 提出。在这种情况下，强化是指任何导致特定行为频率增加的事物。如果我们考虑对人类可能的强化，这些可以是表扬、加薪、糖果和有趣的活动等。

在传统的心理学意义上，强化有两种类型。有正强化和负强化之分。正强化是添加一些东西来增加行为，例如当你的狗表现良好时给它一些奖励。负强化涉及消除刺激以引发行为，例如关掉大声来哄走一只易受惊吓的猫。

正强化和负强化

正强化会增加行为的频率，而负强化会降低频率。一般来说，正强化是强化学习中最常见的强化类型，因为它有助于模型最大限度地提高给定任务的性能。不仅如此，正强化还会导致模型做出更可持续的变化，这些变化可以成为一致的模式并持续很长一段时间。

相反，虽然负强化也使行为更有可能发生，但它用于维持最低性能标准，而不是达到模型的最高性能。强化学习中的负强化可以帮助确保模型远离不良行为，但它不能真正使模型探索期望的行为。

训练强化剂

当训练强化学习代理时，有四种不同的成分 or 国家训练中使用的：初始状态（状态0）、新状态（状态1）、动作和奖励。

想象一下，我们正在训练一个强化代理来玩一款平台视频游戏，其中人工智能的目标是通过在屏幕上向右移动来到达关卡的末尾。游戏的初始状态是从环境中提取的，这意味着游戏的第一帧被分析并提供给模型。基于此信息，模型必须决定采取行动。

在训练的初始阶段，这些动作是随机的，但随着模型的强化，某些动作将变得更加常见。采取行动后，游戏环境将更新并创建新的状态或框架。如果智能体采取的行动产生了理想的结果，假设在这种情况下智能体还活着并且没有被敌人击中，那么智能体就会得到一些奖励，并且它更有可能在未来。

这个基本系统不断循环，一次又一次地发生，每次代理都会尝试学习更多知识并最大化其奖励。

间歇性任务与连续性任务

强化学习任务通常可以分为两个不同的类别之一：情景任务和连续任务。

情景任务将执行学习/训练循环并提高其性能，直到满足某些最终标准并终止训练。在游戏中，这可能会到达关卡终点或陷入尖刺等危险。相比之下，连续任务没有终止标准，本质上是永远继续训练，直到工程师选择结束训练。

蒙特卡洛与时间差异

学习或训练强化学习代理有两种主要方法。在蒙特卡罗方法，奖励仅在训练集结束时传递给代理（其分数更新）。换句话说，只有当满足终止条件时，模型才会了解它的表现如何。然后它可以使用此信息进行更新，并且当下一轮训练开始时，它将根据新信息做出响应。

时差法与蒙特卡罗方法的不同之处在于，值估计或分数估计在训练过程中更新。一旦模型前进到下一个时间步，值就会更新。

探索与利用

训练强化学习代理是一种平衡行为，涉及两个不同指标的平衡：探索和利用。

探索是收集更多有关周围环境的信息的行为，而探索则是利用已知的环境信息来赚取奖励积分。如果智能体只探索而不利用环境，则永远不会执行所需的操作。另一方面，如果智能体只利用而不探索，那么智能体将只学习执行一个动作，而不会发现其他可能的赚取奖励的策略。因此，在创建强化学习代理时，平衡探索和利用至关重要。

强化学习的用例

强化学习可用于多种角色，最适合任务需要自动化的应用程序。

工业机器人执行的任务自动化是强化学习被证明有用的领域之一。强化学习还可以用于文本挖掘等问题，创建能够总结长文本体的模型。研究人员还在医疗保健领域尝试使用强化学习，让强化代理处理治疗政策优化等工作。强化学习还可以用于为学生定制教育材料。

强化学习总结

强化学习是构建人工智能代理的一种强大方法，可以带来令人印象深刻、有时甚至令人惊讶的结果。通过强化学习训练智能体可能既复杂又困难，因为它需要多次训练迭代和探索/利用二分法的微妙平衡。然而，如果成功，通过强化学习创建的代理可以在各种不同的环境下执行复杂的任务。

联合人工智能

什么是强化学习？

AI 101

什么是强化学习？

目录

什么是强化学习？

正强化和负强化

训练强化剂

间歇性任务与连续性任务

蒙特卡洛与时间差异

探索与利用

强化学习的用例

强化学习总结

联合人工智能

什么是强化学习？

目录

什么是强化学习？

正强化和负强化

训练强化剂

间歇性任务与连续性任务

蒙特卡洛与时间差异

探索与利用

强化学习的用例

强化学习总结

你可能会喜欢