ИИ 101

Что такое глубокое обучение с подкреплением?

Published April 17, 2020

Updated April 5, 2026

Daniel Nelson

Что такое глубокое обучение с подкреплением?

Вместе с машинным обучением без учителя и обучением с учителем, еще одной распространенной формой создания ИИ является обучение с подкреплением. За пределами обычного обучения с подкреплением, глубокое обучение с подкреплением может привести к удивительно впечатляющим результатам, благодаря тому, что оно сочетает лучшие аспекты как глубокого обучения, так и обучения с подкреплением. Давайте посмотрим, как именно работает глубокое обучение с подкреплением.

Прежде чем мы погрузимся в глубокое обучение с подкреплением, может быть полезно освежить наш взгляд на то, как работает обычное обучение с подкреплением. В обучении с подкреплением алгоритмы, ориентированные на цель, создаются через процесс проб и ошибок, оптимизируя действие, которое приводит к лучшему результату/действию, которое получает наибольшую “награду”. Когда алгоритмы обучения с подкреплением обучаются, им дают “награды” или “наказания”, которые влияют на действия, которые они будут совершать в будущем. Алгоритмы пытаются найти набор действий, который обеспечит системе наибольшую награду, балансируя как немедленные, так и будущие награды.

Алгоритмы обучения с подкреплением очень мощны, потому что они могут быть применены几乎 к любой задаче, способны гибко и динамически учиться в окружающей среде и открывать возможные действия.

Обзор глубокого обучения с подкреплением

Фото: Megajuice via Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

Когда речь идет о глубоком обучении с подкреплением, окружающая среда обычно представлена изображениями. Изображение – это снимок окружающей среды в определенный момент времени. Агент должен проанализировать изображения и извлечь из них релевантную информацию, используя информацию для определения действия, которое он должен совершить. Глубокое обучение с подкреплением обычно проводится с помощью одной из двух разных техник: обучения на основе ценностей и обучения на основе политики.

Техники обучения на основе ценностей используют алгоритмы и архитектуры, такие как свёрточные нейронные сети и сети Deep-Q. Эти алгоритмы работают, преобразуя изображение в оттенки серого и обрезая ненужные части изображения. После этого изображение подвергается различным свёрточным и пулинговым операциям, извлекая наиболее релевантные части изображения. Важные части изображения затем используются для расчета Q-значения для различных действий, которые может совершить агент. Q-значения используются для определения лучшего курса действий для агента. После того, как первоначальные Q-значения рассчитаны, проводится обратное распространение, чтобы определить наиболее точные Q-значения.

Методы, основанные на политике, используются, когда количество возможных действий, которые может совершить агент, чрезвычайно велико, что обычно бывает в реальных сценариях. Такие ситуации требуют другого подхода, поскольку расчет Q-значений для всех отдельных действий не является практичным. Методы, основанные на политике, работают без расчета функций значений для отдельных действий. Вместо этого они принимают политику, обучая политику напрямую, часто с помощью методов, называемых градиентами политики.

Градиенты политики работают, получая состояние и рассчитывая вероятности действий на основе предыдущего опыта агента. Наиболее вероятное действие затем выбирается. Этот процесс повторяется до конца периода оценки, и награды даются агенту. После того, как награды были даны агенту, параметры сети обновляются с помощью обратного распространения.

Что такое Q-обучение?

Поскольку Q-обучение является такой большой частью процесса глубокого обучения с подкреплением, давайте посмотрим, как работает система Q-обучения.

Марковский процесс принятия решений

Марковский процесс принятия решений. Фото: waldoalvarez via Pixabay, Pixbay License (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

Чтобы ИИ-агент мог выполнить серию задач и достичь цели, агент должен уметь справляться с последовательностью состояний и событий. Агент начнет в одном состоянии и должен совершить серию действий, чтобы достичь конечного состояния, и между начальным и конечным состояниями может существовать огромное количество состояний. Хранение информации о каждом состоянии является нецелесообразным или невозможным, поэтому система должна найти способ сохранить только наиболее релевантную информацию о состоянии. Это достигается с помощью марковского процесса принятия решений, который сохраняет только информацию о текущем состоянии и предыдущем состоянии. Каждое состояние имеет марковское свойство, которое отслеживает, как агент изменяется от предыдущего состояния к текущему.

Глубокое Q-обучение

Как только модель имеет доступ к информации о состояниях среды обучения, Q-значения могут быть рассчитаны. Q-значения – это общая награда, данная агенту в конце последовательности действий.

Q-значения рассчитываются с помощью серии наград. Существует немедленная награда, рассчитанная в текущем состоянии и в зависимости от текущего действия. Q-значение для последующего состояния также рассчитывается, а также Q-значение для состояния после этого, и так далее, пока не будут рассчитаны все Q-значения для различных состояний. Также существует параметр Гамма, который используется для контроля того, какой вес имеют будущие награды на действиях агента. Политики обычно рассчитываются путем случайной инициализации Q-значений и позволяя модели сходиться к оптимальным Q-значениям в ходе обучения.

Глубокие Q-сети

Одной из фундаментальных проблем, связанных с использованием Q-обучения для обучения с подкреплением, является то, что количество необходимой памяти для хранения данных быстро увеличивается с ростом количества состояний. Глубокие Q-сети решают эту проблему, сочетая модели нейронных сетей с Q-значениями, позволяя агенту учиться на опыте и делать разумные предположения о лучших действиях. С глубоким Q-обучением Q-функции значений оцениваются с помощью нейронных сетей. Нейронная сеть принимает состояние в качестве входных данных, и сеть выводит Q-значение для всех возможных действий, которые может совершить агент.

Глубокое Q-обучение осуществляется путем хранения всех прошлых опытов в памяти, расчета максимальных выходов для Q-сети и затем использования функции потерь для расчета разницы между текущими значениями и теоретическими наивысшими возможными значениями.

Глубокое обучение с подкреплением vs глубокое обучение

Одним из важных различий между глубоким обучением с подкреплением и обычным глубоким обучением является то, что в случае первого входные данные постоянно меняются, что не является таковым в традиционном глубоком обучении. Как можно учесть входные и выходные данные, которые постоянно меняются?

По сути, чтобы учесть расхождение между предсказанными значениями и целевыми значениями, можно использовать две нейронные сети вместо одной. Одна сеть оценивает целевые значения, а другая сеть отвечает за предсказания. Параметры целевой сети обновляются, когда модель учится, после выбранного количества итераций обучения. Выходные данные соответствующих сетей затем объединяются для определения разницы.

Обучение на основе политики

Обучение на основе политики работает по-другому, чем подходы, основанные на Q-значениях. Хотя подходы, основанные на Q-значениях, создают функцию значения, которая предсказывает награды для состояний и действий, методы, основанные на политике, определяют политику, которая будет сопоставлять состояния с действиями. Другими словами, функция политики, которая выбирает действия, оптимизируется напрямую без учета функции значения.

Градиенты политики

Политика для глубокого обучения с подкреплением делится на две категории: стохастическую или детерминированную. Детерминированная политика – это политика, при которой состояния сопоставляются с действиями, то есть когда политика получает информацию о состоянии, возвращается действие. Стохастическая политика возвращает распределение вероятностей для действий вместо одного дискретного действия.

Детерминированные политики используются, когда нет неопределенности относительно результатов действий, которые можно совершить. Другими словами, когда сама окружающая среда детерминирована. Напротив, стохастические политики используются в окружающей среде, где результат действий неопределен. Обычно сценарии обучения с подкреплением включают некоторую степень неопределенности, поэтому стохастические политики используются.

Подходы, основанные на градиентах политики, имеют несколько преимуществ перед подходами, основанными на Q-обучении, а также некоторые недостатки. В плане преимуществ методы, основанные на политике, сходятся к оптимальным параметрам быстрее и более надежно. Градиент политики можно просто следовать, пока не будут определены лучшие параметры, тогда как с методами, основанными на значениях, небольшие изменения в оцененных значениях действий могут привести к большим изменениям в действиях и их связанных параметрах.

Градиенты политики работают лучше для высокоразмерных пространств действий. Когда существует чрезвычайно большое количество возможных действий, глубокое Q-обучение становится нецелесообразным, поскольку оно должно присвоить оценку каждому возможному действию для всех временных шагов, что может быть невозможным вычислительным образом. Однако с методами, основанными на политике, параметры корректируются с течением времени, и количество возможных лучших параметров быстро уменьшается, когда модель сходится.

Градиенты политики также способны реализовывать стохастические политики, в отличие от методов, основанных на значениях. Поскольку стохастические политики производят распределение вероятностей, компромисс между исследованием и эксплуатацией не нуждается в реализации.

В плане недостатков основным недостатком градиентов политики является то, что они могут застрять при поиске оптимальных параметров, сосредотачиваясь только на узком, локальном наборе оптимальных значений вместо глобальных оптимальных значений.

Функция оценки политики

Политики, используемые для оптимизации производительности модели, направлены на максимизацию функции оценки – J(θ). Если J(θ) – это мера того, насколько хороша наша политика для достижения желаемой цели, мы можем найти значения “θ“, которые дают нам лучшую политику. Сначала нам нужно рассчитать ожидаемую политику награды. Мы оцениваем политику награды, чтобы у нас была цель, к которой мы можем стремиться. Функция оценки политики – это то, как мы рассчитываем ожидаемую политику награды, и существуют различные функции оценки политики, которые обычно используются, такие как: начальные значения для эпизодических окружающих сред, среднее значение для непрерывных окружающих сред и средняя награда за временной шаг.

Восхождение градиента политики

Восхождение градиента направлено на перемещение параметров, пока они не окажутся в месте, где оценка является наивысшей. Фото: Public Domain (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

После того, как желаемая функция оценки политики используется, и рассчитана ожидаемая политика награды, мы можем найти значение параметра “θ“, которое максимизирует функцию оценки. Чтобы максимизировать функцию оценки J(θ), используется метод, называемый “восхождение градиента”. Восхождение градиента аналогично понятию спуска градиента в глубоком обучении, но мы оптимизируем для наибольшего увеличения вместо уменьшения. Это потому, что наша оценка не является “ошибкой”, как во многих задачах глубокого обучения. Наша оценка – это то, что мы хотим максимизировать. Выражение, называемое теоремой градиента политики, используется для оценки градиента по отношению к политике “θ“.

Сводка глубокого обучения с подкреплением

Вкратце, глубокое обучение с подкреплением сочетает аспекты обучения с подкреплением и глубоких нейронных сетей. Глубокое обучение с подкреплением проводится с помощью двух разных техник: глубокого Q-обучения и градиентов политики.

Методы глубокого Q-обучения направлены на предсказание наград, которые будут следовать за определенными действиями, совершенными в данном состоянии, тогда как подходы, основанные на градиентах политики, направлены на оптимизацию пространства действий, предсказывая действия themselves. Подходы, основанные на политике, к глубокому обучению с подкреплением являются либо детерминированными, либо стохастическими по своей природе. Детерминированные политики сопоставляют состояния напрямую с действиями, тогда как стохастические политики производят распределения вероятностей для действий.