Искусственный интеллект
DeepMind и Google Brain направлены на создание методов для улучшения эффективности обучения с подкреплением

Системы обучения с подкреплением могут быть мощными и устойчивыми, способными выполнять чрезвычайно сложные задачи через тысячи итераций обучения. Хотя алгоритмы обучения с подкреплением способны обеспечивать сложное и иногда удивительное поведение, они требуют много времени для обучения и требуют огромных объемов данных. Эти факторы делают методы обучения с подкреплением довольно неэффективными, и недавно исследовательские команды из Alphabet DeepMind и Google Brain попытались найти более эффективные методы создания систем обучения с подкреплением.
Как сообщает VentureBeat, объединенная исследовательская группа недавно предложила методы повышения эффективности обучения с подкреплением. Одним из предложенных улучшений был алгоритм, называемый Адаптивным обменом политик поведения (ABPS), а другим был каркас, называемый Универсальными аппроксиматорами функции значения (UVFA). ABPS позволяет пулам агентов ИИ делиться их адаптивно выбранными опытами, а UVFA позволяет этим агентам ИИ одновременно исследовать направленные политики исследования.
ABPS предназначен для ускорения настройки гиперпараметров при обучении модели. ABPS делает поиск оптимальных гиперпараметров быстрее, позволяя нескольким разным агентам с разными гиперпараметрами делиться их опытом политики поведения. Чтобы быть более точным, ABPS позволяет агентам обучения с подкреплением выбирать действия из тех действий, которые политика сочла приемлемыми, и затем он получает вознаграждение и наблюдение на основе следующего состояния.
Агенты ИИ обучения с подкреплением обучаются с различными комбинациями возможных гиперпараметров, таких как скорость снижения и скорость обучения. Когда обучается модель, цель состоит в том, чтобы модель сходилась на комбинации гиперпараметров, которая дает ей лучшую производительность, и в данном случае те, которые также улучшают эффективность данных. Эффективность увеличивается путем обучения многих агентов одновременно и выбора поведения только одного агента для развертывания во время следующего шага времени. Политика, которую имеет целевой агент, используется для выборки действий. Переходы затем регистрируются в общем пространстве, и это пространство постоянно оценивается, чтобы выбор политики не приходилось происходить так часто. В конце обучения выбирается ансамбль агентов, и лучшие агенты выбираются для окончательного развертывания.
В отношении UVFA, он пытается решить одну из общих проблем обучения с подкреплением, когда слабо подкрепленные агенты часто не учатся задачам. UVFA пытается решить эту проблему, заставляя агента учиться отдельному набору политик эксплуатации и исследования одновременно. Разделение задач создает каркас, который позволяет политикам исследования продолжать исследовать окружающую среду, пока политики эксплуатации продолжают пытаться максимизировать вознаграждение для текущей задачи. Политики исследования UVFA служат базовой архитектурой, которая будет продолжать улучшаться, даже если нет естественных вознаграждений. В таком состоянии функция, соответствующая внутренним вознаграждениям, аппроксимируется, что заставляет агентов исследовать все состояния в окружающей среде, даже если они часто возвращаются к знакомым состояниям.
Как объяснил VentureBeat, когда каркас UVFA действует, внутренние вознаграждения системы напрямую передаются агенту в качестве входных данных. Агент затем отслеживает представление всех входных данных (таких как вознаграждения, действия и состояние) во время данной эпизоды. Результатом является то, что вознаграждение сохраняется во времени, и политика агента至少 частично информируется им во все времена.
Это достигается с помощью использования “эпизодической новизны” и “пожизненной новизны” модуля. Функция первого модуля заключается в том, чтобы удерживать текущую эпизодическую память и сопоставлять текущие находки с ранее упомянутым представлением, позволяя агенту определить внутреннее эпизодическое вознаграждение для каждого шага обучения. Затем состояние, связанное с текущим наблюдением, добавляется в память. Тем временем модуль пожизненной новизны отвечает за влияние на частоту исследования агента в течение многих эпизодов.
Согласно командам Alphabet/Google, новые методы обучения уже продемонстрировали потенциал для существенного улучшения при обучении системы обучения с подкреплением. UVFA смог удвоить производительность некоторых базовых агентов, играющих в различные игры Atari. Тем временем ABPS смог увеличить производительность на некоторых из тех же игр Atari, уменьшив дисперсию среди лучших агентов примерно на 25%. Алгоритм, обученный UVFA, смог достичь высокого счета в Pitfall самостоятельно, не имея никаких сконструированных функций человеческих демонстраций.












