AI 入门 101

什么是强化学习？

Published October 20, 2019

Updated March 19, 2026

Daniel Nelson

什么是强化学习？

简而言之，强化学习是一种机器学习技术，它通过重复动作和关联奖励来训练人工智能智能体。强化学习智能体在环境中进行实验，采取行动，并在采取正确行动时获得奖励。随着时间的推移，智能体学会采取能最大化其奖励的行动。这是对强化学习的快速定义，但仔细研究强化学习背后的概念将帮助您获得更好、更直观的理解。 “强化学习”这个术语是从心理学中的强化概念借鉴而来的。因此，让我们花点时间来理解心理学的强化概念。在心理学意义上，强化指的是增加特定反应/行为发生可能性的东西。这个强化概念是操作性条件反射理论的核心思想，最初由心理学家B.F.斯金纳提出。在此背景下，强化是指任何导致特定行为频率增加的事物。如果我们思考对人类可能的强化物，这些可以是表扬、工作加薪、糖果和有趣的活动等。在传统的心理学意义上，强化有两种类型：正强化和负强化。正强化是通过增加某物来增加行为频率，例如在狗表现良好时给它零食。负强化则是通过移除刺激来引发行为，例如关掉噪音来引出胆小的猫。

正强化与负强化

正强化增加行为频率，而负强化减少行为频率。一般来说，正强化是强化学习中最常用的强化类型，因为它有助于模型在给定任务上最大化性能。不仅如此，正强化还能引导模型做出更可持续的改变，这些改变可以成为一致的模式并持续很长时间。相比之下，虽然负强化也会使行为更可能发生，但它用于维持最低性能标准，而不是达到模型的最大性能。强化学习中的负强化可以帮助确保模型远离不良行为，但它并不能真正促使模型探索期望的行为。

训练强化学习智能体

当训练强化学习智能体时，有四种不同的要素或状态用于训练：初始状态（状态0）、新状态（状态1）、动作和奖励。想象一下，我们正在训练一个强化学习智能体玩一款平台跳跃视频游戏，AI的目标是通过向右移动屏幕来抵达关卡终点。游戏的初始状态从环境中提取，意味着游戏的第一帧被分析并提供给模型。基于此信息，模型必须决定一个动作。在训练的初始阶段，这些动作是随机的，但随着模型被强化，某些动作会变得更常见。动作执行后，游戏环境会更新，并创建一个新的状态或帧。如果智能体采取的动作产生了理想的结果（比方说，在这种情况下智能体仍然存活且没有被敌人击中），智能体会获得一些奖励，并且未来更有可能采取相同的动作。这个基本系统不断循环，一次又一次地发生，每次智能体都试图学习更多并最大化其奖励。

分幕式任务与连续任务

强化学习任务通常可以分为两类：分幕式任务和连续任务。分幕式任务会执行学习/训练循环并提高其性能，直到满足某些结束标准，训练终止。在游戏中，这可能是到达关卡终点或掉入尖刺等危险中。相比之下，连续任务没有终止标准，本质上会一直训练下去，直到工程师选择结束训练。

蒙特卡洛法与时间差分法

训练强化学习智能体主要有两种方法。在蒙特卡洛方法中，奖励（其分数更新）仅在训练幕结束时给予智能体。换句话说，只有当终止条件被触发时，模型才会了解其表现如何。然后它可以使用此信息进行更新，当下一个训练轮次开始时，它将根据新信息做出反应。时间差分方法与蒙特卡洛方法的不同之处在于，价值估计（或分数估计）在训练幕的过程中就会更新。一旦模型推进到下一个时间步，数值就会被更新。

探索与利用

训练强化学习智能体是一种平衡行为，涉及平衡两个不同的指标：探索和利用。探索是收集更多关于周围环境信息的行为，而利用则是使用已知的环境信息来赚取奖励点数。如果智能体只探索而不利用环境，期望的行动将永远不会被执行。另一方面，如果智能体只利用而不探索，智能体将只学会执行一种动作，而不会发现其他可能获得奖励的策略。因此，在创建强化学习智能体时，平衡探索和利用至关重要。

强化学习的应用场景

强化学习可以应用于广泛的领域，它最适合需要自动化的任务。工业机器人执行任务的自动化是强化学习证明其价值的一个领域。强化学习也可用于文本挖掘等问题，创建能够总结长篇文本的模型。研究人员还在尝试在医疗保健领域使用强化学习，让强化学习智能体处理优化治疗策略等工作。强化学习还可用于为学生定制教育材料。

强化学习总结

强化学习是一种构建AI智能体的强大方法，可以带来令人印象深刻且有时令人惊讶的结果。通过强化学习训练智能体可能复杂且困难，因为它需要多次训练迭代，并精细平衡探索/利用的二分法。然而，如果成功，用强化学习创建的智能体可以在各种不同的环境中执行复杂的任务。

Unite.AI

什么是强化学习？

什么是强化学习？

正强化与负强化

训练强化学习智能体

分幕式任务与连续任务

蒙特卡洛法与时间差分法

探索与利用

强化学习的应用场景

强化学习总结

You may like