заглушки ИИ изо всех сил пытается освоить Minecraft с помощью имитационного обучения - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

ИИ изо всех сил пытается освоить Minecraft с помощью имитации обучения

mm
обновленный on

За последние несколько месяцев Microsoft и другие компании, исследующие машинное обучение, поставили перед командами разработчиков ИИ задачу создать систему ИИ, которая могла бы играть в Minecraft и находить в игре алмазы. Как сообщает Би-би-си, в то время как платформам ИИ удалось доминировать в шахматах и ​​го, но они изо всех сил пытались справиться с задачей в Minecraft.

Задача ИИ на основе Minecraft от Microsoft называлась MineRL, а результаты конкурса были официально объявлены на недавней конференции NeurIPS. Цель конкурса состояла в том, чтобы обучить ИИ с помощью подхода «имитационного обучения». Имитационное обучение — это метод, при котором ИИ обучается с помощью наблюдения. Имитационное обучение предназначено для того, чтобы позволить системам ИИ изучать действия, наблюдая, как люди выполняют эти действия, обучаясь посредством акта наблюдения. Имитационное обучение, по сравнению с обучением с подкреплением, является гораздо менее затратным в вычислительном отношении и значительно более эффективным способом обучения ИИ.

Для обучения с подкреплением часто требуется множество мощных компьютеров, объединенных в сеть, и сотни или тысячи часов обучения, чтобы стать эффективным в решении задачи. Напротив, ИИ, обученный имитационному методу обучения, можно обучить намного быстрее, поскольку у ИИ уже есть базовые знания для работы с любезно предоставленными операторами-людьми, которые его обработали.

Имитационное обучение имеет практическое применение при обучении ИИ, когда ИИ не может безопасно исследовать, пока не определит правильные действия. Такие сценарии будут включать в себя обучение автономного транспортного средства, поскольку машине нельзя позволить просто бродить по улице, пока она не научится желаемому поведению. Использование данных человека-демонстратора для обучения транспортного средства потенциально может сделать процесс более быстрым и безопасным.

Процесс поиска алмаза в Minecraft требует последовательного выполнения множества шагов, таких как вырубка деревьев для изготовления инструментов, исследование пещер, содержащих алмазы, и фактический поиск алмаза в пещере. Несмотря на сложность задачи, человек, знакомый с игрой, сможет получить бриллиант примерно за 20 минут.

На конкурс было представлено более 660 различных агентов ИИ, но ни один из ИИ не смог найти алмаз. Данные, предоставленные для обучения ИИ, представляли собой набор данных, содержащий более 60 миллионов кадров игрового процесса, собранных от многих игроков-людей. Расположение алмазов рандомизируется при запуске экземпляра игры, поэтому это означает, что ИИ не может просто посмотреть, где игроки-люди нашли алмазы. Другими словами, ИИ должны сформировать понимание того, как понятия, такие как создание инструментов, использование инструментов, исследование и поиск ресурсов, связаны друг с другом.

Несмотря на то, что ни один из агентов ИИ не смог успешно найти бриллиант, команда организаторов осталась довольна результатами конкурса, и эксперимент все же многому научил. Исследования, проведенные группами ИИ, могут помочь продвинуть область ИИ, найдя альтернативы стратегиям обучения с подкреплением.

Обучение с подкреплением часто дает более высокие результаты по сравнению с имитационным обучением, при этом одним заметным успехом обучения с подкреплением является AlphaGo от DeepMind. Однако, как отмечалось ранее, обучение с подкреплением требует огромных вычислительных ресурсов, что ограничивает его использование организациями, которые не могут позволить себе компьютерные процессоры в больших масштабах.

Уильям Гасс, аспирант Университета Карнеги-Меллона и главный организатор конкурса, объяснил BBC что конкурс MineRL был предназначен для исследования альтернатив вычислительному искусственному интеллекту. Сказал Гасс:

«… Использование больших вычислительных ресурсов для решения проблем не обязательно является для нас правильным способом продвижения передового опыта как области… Это работает прямо против демократизации доступа к этим системам обучения с подкреплением и оставляет возможность обучать агентов в сложных средах для корпорации с огромным количеством вычислительных ресурсов».