заглушки DeepMind и Google Brain Aim создают методы повышения эффективности обучения с подкреплением - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

DeepMind и Google Brain Aim создают методы повышения эффективности обучения с подкреплением

mm
обновленный on

Системы обучения с подкреплением могут быть мощными и надежными, способными выполнять чрезвычайно сложные задачи посредством тысяч итераций обучения. Хотя алгоритмы обучения с подкреплением способны обеспечить сложное и иногда неожиданное поведение, их обучение занимает много времени и требует огромных объемов данных. Эти факторы делают методы обучения с подкреплением довольно неэффективными, и недавно исследовательские группы из Alphabet DeepMind и Google Brain попытались найти более эффективные методы создания систем обучения с подкреплением.

Как сообщает VentureBeatОбъединенная исследовательская группа недавно предложила методы повышения эффективности обучения с подкреплением. Одним из предложенных улучшений был алгоритм, получивший название Adaptive Behavior Policy Sharing (ABPS), а другим — фреймворк под названием Universal Value Function Approximators (UVFA). ABPS позволяет пулам агентов ИИ делиться своим адаптивно выбранным опытом, а UVFA позволяет этим ИИ одновременно исследовать политики направленного исследования.

ABPS предназначен для ускорения настройки гиперпараметров при обучении модели. ABPS ускоряет поиск оптимальных гиперпараметров, позволяя нескольким различным агентам с разными гиперпараметрами совместно использовать свои политики поведения. Чтобы быть более точным, ABPS позволяет агентам обучения с подкреплением выбирать действия из тех действий, которые политика считает приемлемыми, а затем им предоставляется вознаграждение и наблюдение на основе следующего состояния.

Агенты подкрепления ИИ обучаются с различными комбинациями возможных гиперпараметров, таких как скорость затухания и скорость обучения. При обучении модели цель состоит в том, чтобы модель сходилась к сочетанию гиперпараметров, обеспечивающих наилучшую производительность, и в данном случае к тем, которые также повышают эффективность данных. Эффективность повышается за счет одновременного обучения многих агентов и выбора поведения только одного агента для развертывания на следующем временном шаге. Политика целевого агента используется для выборки действий. Затем переходы регистрируются в общем пространстве, и это пространство постоянно оценивается, поэтому выбор политики не должен происходить так часто. В конце обучения выбирается ансамбль агентов, и самые эффективные агенты выбираются для окончательного развертывания.

С точки зрения UVFA, он пытается решить одну из распространенных проблем обучения с подкреплением, заключающуюся в том, что агенты со слабым подкреплением часто не усваивают задачи. UVFA пытается решить проблему, заставляя агента одновременно изучать отдельный набор политик эксплуатации и исследования. Разделение задач создает структуру, которая позволяет политикам исследования продолжать изучение среды, в то время как политики эксплуатации продолжают пытаться максимизировать вознаграждение за текущую задачу. Исследовательская политика UVFA служит базовой архитектурой, которая будет продолжать улучшаться, даже если не будет найдено никаких естественных преимуществ. В таком состоянии аппроксимируется функция, соответствующая внутренним вознаграждениям, что побуждает агентов исследовать все состояния в среде, даже если они часто возвращаются к знакомым состояниям.

Как объяснил VentureBeat, когда работает структура UVFA, внутренние вознаграждения системы передаются непосредственно агенту в качестве входных данных. Затем агент отслеживает представление всех входных данных (таких как вознаграждение, действие и состояние) в течение данного эпизода. В результате вознаграждение сохраняется с течением времени, и политика агента, по крайней мере, в некоторой степени зависит от него во все времена.

Это достигается за счет использования модуля «эпизодическая новизна» и «пожизненная новизна». Функция первого модуля состоит в том, чтобы удерживать текущую эпизодическую память и сопоставлять текущие результаты с ранее упомянутым представлением, позволяя агенту определять внутреннее эпизодическое вознаграждение за каждый шаг обучения. После этого в память добавляется состояние, связанное с текущим наблюдением. Между тем, модуль новизны на протяжении всей жизни отвечает за то, как часто агент исследует в течение многих эпизодов.

По словам команд Alphabet/Google, новые методы обучения уже продемонстрировали потенциал для существенного улучшения при обучении системы обучения с подкреплением. UVFA удалось удвоить производительность некоторых базовых агентов, игравших в различные игры Atari. Между тем, ABPS удалось повысить производительность некоторых из тех же игр Atari, уменьшив дисперсию среди наиболее эффективных агентов примерно на 25%. Алгоритм, обученный UVFA, смог получить высокий балл в Pitfall сам по себе, без каких-либо инженерных особенностей человеческих демонстраций.