Connect with us

Исследователи ИИ создали модель, играющую в видеоигры, которая может запоминать прошлые события

Искусственный интеллект

Исследователи ИИ создали модель, играющую в видеоигры, которая может запоминать прошлые события

mm

Команда исследователей в лаборатории ИИ компании Uber недавно разработала систему алгоритмов ИИ, которая превзошла как человеческих игроков, так и другие системы ИИ в классических видеоиграх Atari. Разработанная исследователями система ИИ способна запоминать ранее успешные стратегии и создавать новые стратегии на основе того, что сработало в прошлом. Согласно исследованию, команда исследователей считает, что разработанные ими алгоритмы имеют потенциальные применения в других технических областях, таких как обработка языка и робототехника.

Типичный метод создания систем ИИ, способных играть в видеоигры, заключается в использовании алгоритма обучения с подкреплением. Алгоритмы обучения с подкреплением учатся выполнять задачу, исследуя диапазон возможных действий, и после каждого действия они получают某ое подкрепление (награду или наказание). Со временем модель ИИ учится, какие действия приводят к более крупным наградам, и она становится более вероятной для выполнения этих действий. К сожалению, модели обучения с подкреплением испытывают трудности, когда они сталкиваются с данными, несовместимыми с другими данными в наборе.

Согласно команде исследователей, причина, по которой их подход не был рассмотрен другими исследователями ИИ, заключается в том, что стратегия отличается от подхода “внутренней мотивации”, обычно используемого в обучении с подкреплением. Проблема с подходом внутренней мотивации заключается в том, что модель может быть склонна “забывать” о потенциально наградных областях, которые все еще заслуживают исследования. Это явление называется “отсоединением”. В результате, когда модель сталкивается с неожиданными данными, она может забыть об областях, которые все еще должны быть исследованы.

Согласно TechXplore, команда исследователей поставила цель создать модель обучения, которая была бы более гибкой и способной реагировать на неожиданные данные. Исследователи преодолели эту проблему, введя алгоритм, способный запоминать все действия, предпринятые предыдущей версией модели при решении проблемы. Когда модель ИИ сталкивается с данным, несовместимым с тем, что она узнала до сих пор, модель проверяет свою карту памяти. Модель затем определяет, какие стратегии были успешными и неудачными, и выбирает стратегии соответствующим образом.

Когда модель играет в видеоигру, она собирает скриншоты игры, делая журнал своих действий. Изображения сгруппированы вместе на основе сходства, образуя четкие точки во времени, к которым модель может обратиться. Алгоритм может использовать сохраненные изображения, чтобы вернуться к интересной точке во времени и продолжить исследование оттуда. Когда модель обнаруживает, что она проигрывает, она обращается к сделанным скриншотам и пробует другую стратегию.

Как объясняет BBC, существует также проблема обработки опасных сценариев для агента ИИ, играющего в игру. Если агент встречает опасность, которая может его убить, это предотвратит его возвращение к областям, которые заслуживают дальнейшего исследования, проблему, называемую “сбиванием с пути”. Модель ИИ решает проблемы сбивания с пути через отдельный процесс от того, который используется для поощрения исследования старых областей.

Команда исследователей заставила модель сыграть 55 игр Atari. Эти игры обычно используются для оценки производительности моделей ИИ, но исследователи добавили поворот для своей модели. Исследователи ввели дополнительные правила в игры, инструктируя модель не только достичь наивысшего возможного счета, но и попытаться достичь еще более высокого счета каждый раз. Когда результаты производительности модели были проанализированы, исследователи обнаружили, что их система ИИ превзошла другие ИИ в играх около 85% времени. Модель ИИ показала особенно хорошие результаты в игре Montezuma’s Revenge, платформерной игре, где игрок избегает опасностей и собирает сокровища. Игра побила рекорд для человеческого игрока и также набрала более высокий балл, чем любая другая система ИИ.

Согласно исследователям ИИ Uber, стратегии, используемые командой исследователей, имеют применения в отраслях, таких как робототехника. Роботы пользуются возможностью запоминать, какие действия были успешными, какие не сработали и какие еще не были попробованы.

Блогер и программист с специализацией в Machine Learning и Deep Learning темах. Daniel надеется помочь другим использовать силу ИИ для социального блага.