Искусственный интеллект

Новая система ИИ от DeepMind способна учиться правилам игры по мере игры

Опубликовано 27 декабря 2020

Обновлено 25 мая 2026

Daniel Nelson

Дочерняя компания Alphabet DeepMind недавно разработала систему ИИ, способную учиться правилам игры по мере игры. Хотя DeepMind создала впечатляющие модели ИИ, которые могут освоить игры như шахматы, сёги, го и видеоигры ранее, эти модели должны быть предоставлены с правилами игры заранее. Таким образом, новая система ИИ от DeepMind представляет собой заметное улучшение по сравнению с предыдущими алгоритмами ИИ, которые учатся играть в игры через обучение с подкреплением.

Система ИИ – MuZero

В статье, недавно опубликованной в журнале Nature, DeepMind подробно описала, как работает их новая система ИИ. Новая система ИИ, получившая название MuZero, способна учиться правилам игры по мере игры благодаря принципу “просмотра вперед”. Как сообщает Engadget, MuZero использует просмотр вперед, чтобы определить, какие ходы следует выполнить на основе наиболее вероятных ответов оппонентов.

Когда MuZero рассматривает все возможные ходы, которые можно сделать в играх, таких как шахматы, она способна расставить приоритеты, сужая ходы до наиболее вероятных и актуальных. MuZero затем учится на успешных и неудачных маневрах. Вместо моделирования всех возможных факторов она учитывает только факторы, которые наиболее актуальны для принятия решения. MuZero по сути берет множество потенциальных переменных, которые можно рассмотреть, и сводит их к наиболее заметным, значимым особенностям. Эти особенности представлены в алгоритме поиска на основе дерева. Возможности внутри дерева затем объединяются с обученной моделью на основе особенностей тестовой среды. Просмотр вперед проводится после того, как были выявлены наиболее актуальные аспекты окружающей среды.

Чтобы принять окончательное решение, учитываются три фактора.

MuZero учитывает результат предыдущего выбора, текущее положение, которое она занимает, и потенциальные действия, которые она может выполнить дальше. Этот подход превосходит подходы, ранее использованные DeepMind, включая базовый просмотр вперед и модели на основе дерева. MuZero оказался не менее хорошим в шахматах, сёги и го, чем AlphaZero, и когда он играл в игру Ms. Pac-Man, MuZero мог рассматривать только около шести или семи ходов одновременно. Несмотря на это ограничение, ИИ все равно смог выступить довольно хорошо. DeepMind также экспериментировала с возможностями MuZero, ограничивая количество симуляций, которые она могла выполнить, прежде чем ей придется принять решение. В целом, чем больше времени была дано программе, чтобы рассмотреть возможные ходы, тем лучше она выступала.

Главный исследовательский ученый DeepMind, Дэвид Сильвер, объяснил через TechXplore, что MuZero – это первая модель ИИ, способная генерировать свое собственное представление правил окружающей среды, используя это представление для планирования действий.

“Впервые у нас есть система, которая способна построить свое собственное понимание того, как работает мир, и использовать это понимание для такого сложного просмотра вперед, который ранее был виден в играх, таких как шахматы”, – сказал Сильвер. “(MuZero) может начать с нуля и, просто через пробу и ошибку, открыть правила мира и использовать эти правила, чтобы достичь сверхчеловеческой производительности.”

Возможные применения

ИИ, который действительно способен учиться ограничениям задачи и работать в этих ограничениях, имеет широкий спектр возможных применений. MuZero можно использовать для задач, таких как сжатие видео, которое исторически было трудно автоматизировать с помощью ИИ из-за многих различных возможных форматов видео и режимов сжатия. MuZero смог достичь примерно 5% улучшения сжатия. Это может иметь последствия для большого количества видео, размещенных на Google и YouTube. Помимо видео, DeepMind также исследует возможность использования тех же техник MuZero для проектирования белков и программирования робототехники.

По словам Венди Холл, профессора компьютерных наук в Университете Саутгемптона, MuZero представляет собой “значительный шаг вперед” для алгоритмов обучения с подкреплением. Однако Холл обеспокоена тем, что алгоритмы могут быть неправильно использованы. Например, ВВС США уже сослались на ранние исследовательские работы, охватывающие MuZero, чтобы создать систему ИИ, которая могла бы запускать ракеты с самолетов-разведчиков U-2. Это несмотря на то, что исследователи DeepMind выразили свое сопротивление использованию своих алгоритмов для любого смертоносного оружия, подписав Летальное автономное оружие Пledge, чтобы утверждать, что любая смертоносная технология должна оставаться под человеческим контролем.

Сильвер объяснил, что DeepMind смотрит вперед в будущее, стремясь разработать алгоритмы, столь же мощные и универсальные, как мозг. Первый шаг в создании универсальных, гибких алгоритмов – понять, что значит быть интеллектуальной системой, и интеллект связан с способностью различать закономерности и правила сложной среды.

Daniel Nelson

Блогер и программист с специализацией в Machine Learning и Deep Learning темах. Daniel надеется помочь другим использовать силу ИИ для социального блага.

Unite.AI

Новая система ИИ от DeepMind способна учиться правилам игры по мере игры

Система ИИ – MuZero

Возможные применения

You may like