AI 101

Что такое глубокое обучение с подкреплением?

обновленный on 2 августа 2021

Что такое глубокое обучение с подкреплением?

Наряду с машинным обучением без учителя и обучением с учителем, еще одной распространенной формой создания ИИ является обучение с подкреплением. Помимо регулярного обучения с подкреплением, глубокое подкрепление обучения может привести к удивительно впечатляющим результатам благодаря тому, что он сочетает в себе лучшие аспекты как глубокого обучения, так и обучения с подкреплением. Давайте посмотрим, как именно работает глубокое обучение с подкреплением.

Прежде чем мы погрузимся в глубокое обучение с подкреплением, было бы неплохо вспомнить, насколько регулярно усиление обучения работает. В обучении с подкреплением целевые алгоритмы разрабатываются методом проб и ошибок, оптимизируя действие, которое приводит к наилучшему результату/действию, которое приносит наибольшую «награду». Когда алгоритмы обучения с подкреплением обучаются, им даются «награды» или «наказания», которые влияют на то, какие действия они предпримут в будущем. Алгоритмы пытаются найти набор действий, которые обеспечат системе наибольшую награду, уравновешивая как немедленные, так и будущие награды.

Алгоритмы обучения с подкреплением очень эффективны, потому что их можно применять практически к любой задаче, поскольку они способны гибко и динамично учиться в среде и обнаруживать возможные действия.

Обзор глубокого обучения с подкреплением

Фото: Megajuice через Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

Когда дело доходит до глубокого обучения с подкреплением, среда обычно представляется в виде изображений. Изображение — это захват окружающей среды в определенный момент времени. Агент должен анализировать изображения и извлекать из них соответствующую информацию, используя эту информацию для информирования о том, какое действие следует предпринять. Глубокое обучение с подкреплением обычно осуществляется с помощью одного из двух различных методов: обучения на основе ценностей и обучения на основе политики.

Методы обучения, основанные на ценностях, используют алгоритмы и архитектуры, такие как сверточные нейронные сети и Deep-Q-сети. Эти алгоритмы работают путем преобразования изображения в оттенки серого и обрезки ненужных частей изображения. После этого изображение подвергается различным сверткам и операциям объединения, извлекая наиболее важные части изображения. Затем важные части изображения используются для вычисления Q-значения для различных действий, которые может предпринять агент. Q-значения используются для определения наилучшего плана действий для агента. После того, как начальные значения Q рассчитаны, выполняется обратное распространение, чтобы можно было определить наиболее точные значения Q.

Методы на основе политик используются, когда количество возможных действий, которые может предпринять агент, чрезвычайно велико, что обычно имеет место в реальных сценариях. Подобные ситуации требуют другого подхода, потому что вычисление значений Q для всех отдельных действий не является прагматичным. Подходы, основанные на политике, работают без расчета значений функций для отдельных действий. Вместо этого они принимают политики, изучая политику напрямую, часто с помощью методов, называемых градиентами политики.

Градиенты политики работают, получая состояние и вычисляя вероятности действий на основе предыдущего опыта агента. Затем выбирается наиболее вероятное действие. Этот процесс повторяется до конца периода оценки, после чего агент получает вознаграждение. После того, как вознаграждения были обработаны агентом, параметры сети обновляются с помощью обратного распространения.

Что такое Q-обучение?

Так как Q-обучение является такой большой частью процесса глубокого обучения с подкреплением, давайте потратим некоторое время, чтобы действительно понять, как работает система Q-обучения.

Марковский процесс принятия решений

Марковский процесс принятия решений. Фото: waldoalvarez через Pixabay, лицензия Pixbay (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

Чтобы агент ИИ выполнял ряд задач и достигал цели, он должен уметь справляться с последовательностью состояний и событий. Агент начнет с одного состояния и должен выполнить ряд действий, чтобы достичь конечного состояния, и между начальным и конечным состояниями может существовать огромное количество состояний. Хранение информации о каждом состоянии нецелесообразно или невозможно, поэтому система должна найти способ сохранить только наиболее важную информацию о состоянии. Это достигается за счет использования Марковский процесс принятия решений, который сохраняет только информацию о текущем состоянии и предыдущем состоянии. Каждое состояние следует марковскому свойству, которое отслеживает, как агент переходит из предыдущего состояния в текущее состояние.

Глубокое Q-обучение

Как только модель получает доступ к информации о состоянии среды обучения, можно вычислить Q-значения. Q-значения — это общее вознаграждение, данное агенту в конце последовательности действий.

Q-значения рассчитываются с серией вознаграждений. Существует немедленная награда, рассчитываемая при текущем состоянии и зависящая от текущего действия. Также вычисляется значение Q для последующего состояния, а также значение Q для последующего состояния и так далее, пока не будут вычислены все значения Q для различных состояний. Существует также параметр «Гамма», который используется для контроля того, насколько будущие вознаграждения влияют на действия агента. Политики обычно рассчитываются путем случайной инициализации Q-значений и позволяют модели сходиться к оптимальным Q-значениям в ходе обучения.

Глубокие Q-сети

Одна из основных проблем, связанных с использование Q-обучения для обучения с подкреплением заключается в том, что объем памяти, необходимый для хранения данных, быстро увеличивается по мере увеличения количества состояний. Сети Deep Q решают эту проблему, комбинируя модели нейронных сетей с Q-значениями, позволяя агенту учиться на собственном опыте и делать обоснованные предположения о наилучших действиях. При глубоком Q-обучении функции Q-value оцениваются с помощью нейронных сетей. Нейронная сеть принимает состояние в качестве входных данных, а сеть выводит Q-значение для всех различных возможных действий, которые может предпринять агент.

Глубокое Q-обучение достигается путем сохранения всего прошлого опыта в памяти, вычисления максимальных выходных данных для Q-сети, а затем использования функции потерь для вычисления разницы между текущими значениями и теоретическими максимально возможными значениями.

Глубокое обучение с подкреплением против глубокого обучения

Одно важное различие между глубоким обучением с подкреплением и обычным глубоким обучением заключается в том, что в случае первого входные данные постоянно меняются, чего нельзя сказать о традиционном глубоком обучении. Как модель обучения может учитывать входные и выходные данные, которые постоянно меняются?

По сути, для учета расхождения между прогнозируемыми значениями и целевыми значениями можно использовать две нейронные сети вместо одной. Одна сеть оценивает целевые значения, а другая сеть отвечает за прогнозы. Параметры целевой сети обновляются по мере обучения модели после прохождения выбранного количества итераций обучения. Выходы соответствующих сетей затем объединяются для определения разницы.

Политическое обучение

Обучение на основе политики подходы работают иначе, чем подходы, основанные на Q-значении. В то время как подходы Q-значения создают функцию ценности, которая предсказывает вознаграждение за состояния и действия, методы, основанные на политике, определяют политику, которая будет отображать состояния в действия. Другими словами, функция политики, которая выбирает действия, оптимизируется напрямую, независимо от функции ценности.

Градиенты политики

Политика глубокого обучения с подкреплением относится к одной из двух категорий: стохастической или детерминированной. Детерминированная политика — это политика, в которой состояния сопоставляются с действиями, что означает, что когда политике предоставляется информация о состоянии, возвращается действие. Между тем, стохастические политики возвращают распределение вероятностей для действий вместо одного дискретного действия.

Детерминированные политики используются, когда нет неопределенности в отношении результатов действий, которые могут быть предприняты. Другими словами, когда сама среда детерминирована. Напротив, стохастические результаты политики подходят для условий, в которых результат действий не определен. Как правило, сценарии обучения с подкреплением предполагают некоторую степень неопределенности, поэтому используются стохастические политики.

Подходы градиента политики имеют несколько преимуществ по сравнению с подходами Q-learning, а также некоторые недостатки. С точки зрения преимуществ, методы на основе политик быстрее и надежнее сходятся к оптимальным параметрам. Можно просто следовать градиенту политики до тех пор, пока не будут определены наилучшие параметры, тогда как при использовании методов, основанных на ценностях, небольшие изменения в предполагаемых значениях действий могут привести к значительным изменениям в действиях и связанных с ними параметрах.

Градиенты политик также лучше работают для многомерных пространств действий. Когда существует чрезвычайно большое количество возможных действий, глубокое Q-обучение становится непрактичным, поскольку оно должно присваивать оценку каждому возможному действию для всех временных шагов, что может быть невозможно вычислительно. Однако при использовании методов, основанных на политике, параметры корректируются с течением времени, и количество возможных наилучших параметров быстро сокращается по мере сходимости модели.

Градиенты политики также способны реализовывать стохастические политики, в отличие от политик, основанных на стоимости. Поскольку стохастические стратегии создают распределение вероятностей, компромисс между разведкой и эксплуатацией не требуется.

С точки зрения недостатков, основной недостаток градиентов политики заключается в том, что они могут застрять при поиске оптимальных параметров, ориентируясь только на узкий локальный набор оптимальных значений, а не на глобальные оптимальные значения.

Функция оценки политики

Политики, используемые для оптимизации производительности модели максимизировать функцию оценки – Дж(θ). Если J(θ) является мерой того, насколько хороша наша политика для достижения желаемой цели, мы можем найти значения «θ” что дает нам лучшую политику. Во-первых, нам нужно рассчитать ожидаемое вознаграждение по полису. Мы оцениваем вознаграждение по полису, поэтому у нас есть цель, которую можно оптимизировать. Функция оценки политики — это то, как мы рассчитываем ожидаемое вознаграждение за политику, и существуют различные обычно используемые функции оценки политики, такие как: начальные значения для эпизодических сред, среднее значение для непрерывных сред и среднее вознаграждение за временной шаг.

Градиентный подъем политики

Градиентное восхождение направлено на перемещение параметров до тех пор, пока они не окажутся в месте с наивысшим баллом. Фото: Public Domain (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

После использования желаемой функции оценки политики и расчета ожидаемого вознаграждения за политику мы можем найти значение для параметра «θ», что максимизирует функцию оценки. Чтобы максимизировать функцию оценки J(θ), методика под названием «градиентное восхождение" используется. Градиентный подъем по своей концепции аналогичен градиентному спуску в глубоком обучении, но мы оптимизируем максимальное увеличение, а не уменьшение. Это потому, что наша оценка не является «ошибкой», как во многих задачах глубокого обучения. Наш результат – это то, что мы хотим максимизировать. Выражение, называемое Теоремой о градиенте политики, используется для оценки градиента в отношении политики:θ».

Резюме глубокого обучения с подкреплением

Таким образом, глубокое обучение с подкреплением сочетает в себе аспекты обучения с подкреплением и глубоких нейронных сетей. Глубокое обучение с подкреплением осуществляется с помощью двух разных методов: глубокого Q-обучения и градиентов политики.

Методы глубокого Q-обучения направлены на то, чтобы предсказать, какие вознаграждения последуют за определенными действиями, предпринятыми в данном состоянии, в то время как подходы градиента политики направлены на оптимизацию пространства действий, предсказывая сами действия. Подходы к глубокому обучению с подкреплением, основанные на политике, носят либо детерминированный, либо стохастический характер. Детерминированные политики сопоставляют состояния непосредственно с действиями, в то время как стохастические политики создают распределения вероятностей для действий.

Что такое федеративное обучение?

Не пропустите

Что такое Теорема Байеса?

Дэниэл Нельсон

Блогер и программист со специализацией в Машинное обучение и Глубокое обучение темы. Дэниел надеется помочь другим использовать возможности ИИ на благо общества.