Штучний інтелект

Дослідники штучного інтелекту створили модель гри у відеоігри, яка може пам’ятати минулі події

Published February 27, 2021

Updated April 28, 2026

Daniel Nelson

Команда дослідників у лабораторії штучного інтелекту Uber недавно розробила систему алгоритмів штучного інтелекту, яка перевершує як людей-гравців, так і інші системи штучного інтелекту у класичних відеоіграх Atari. Система штучного інтелекту, розроблена дослідниками, здатна пам’ятати раніше успішні стратегії, створювати нові стратегії на основі того, що працювало в минулому. Команда дослідників вважає, що алгоритми, які вони розробили, мають потенційні застосування в інших технічних галузях, таких як обробка мови та робототехніка.

Типовий метод створення систем штучного інтелекту, здатних грати у відеоігри, полягає у використанні алгоритму навчання з підкріпленням. Алгоритми навчання з підкріпленням вчаться виконувати завдання, досліджуючи ряд можливих дій, і після кожної дії їм надається某种 підкріплення (нагорода або покарання). З часом модель штучного інтелекту вчиться, які дії приводять до більших нагород, і стає більш ймовірною для виконання цих дій. На жаль, моделі навчання з підкріпленням потрапляють у труднощі, коли вони зустрічають дані, які не узгоджуються з іншими даними у наборі даних.

За словами команди дослідників, причина, по якій їхній підхід не був розглянутий іншими дослідниками штучного інтелекту, полягає у тому, що стратегія відрізняється від підходу “внутрішньої мотивації”, який зазвичай використовується у навчанні з підкріпленням. Проблема з підходом внутрішньої мотивації полягає у тому, що модель може бути схильною до “забування” про потенційно вигідні області, які все ще заслуговують на дослідження. Це явище називається “від’єднанням”. Як наслідок, коли модель зустрічає несподівані дані, вона може забути про області, які все ще повинні бути досліджені.

За даними TechXplore, команда дослідників поставила за мету створити модель навчання, яка була б більш гнучкою та 能ла б реагувати на несподівані дані. Дослідники подолали цю проблему, введши алгоритм, який може пам’ятати всі дії, виконані попередньою версією моделі при спробі вирішити проблему. Коли модель штучного інтелекту зустрічає дані, які не узгоджуються з тим, що вона вивчила раніше, модель перевіряє свою карту пам’яті. Модель потім ідентифікує, які стратегії були успішними та які не були, і вибирає стратегії відповідно.

Під час гри у відеоігру модель збирає знімки екрана гри, роблячи журнал своїх дій. Зображення групуються разом на основі схожості, утворюючи чіткі точки часу, до яких модель може звернутися. Алгоритм може використовувати зареєстровані зображення, щоб повернутися до цікавої точки часу та продовжити дослідження з цього місця. Коли модель виявляє, що вона програє, вона звертається до знімків екрана та пробує іншу стратегію.

Як пояснює BBC, існує також проблема обробки небезпечних сценаріїв для агента штучного інтелекту, який грає у гру. Якщо агент зустрічає небезпеку, яка може вбити його, це завадить йому повернутися до областей, які заслуговують на подальше дослідження, проблема, яка називається “збій”. Модель штучного інтелекту обробляє проблеми збою через окремий процес від того, який використовується для заохочення дослідження старих областей.

Команда дослідників мала модель, яка пройшла через 55 ігор Atari. Ці ігри зазвичай використовуються для оцінки продуктивності моделей штучного інтелекту, але дослідники додали певний поворот для своєї моделі. Дослідники ввели додаткові правила до ігор, наказуючи моделі не тільки досягти найвищого балу, але й спробувати досягти ще вищого балу кожен раз. Коли результати продуктивності моделі були проаналізовані, дослідники виявили, що їхня система штучного інтелекту перевершує інші системи штучного інтелекту у іграх близько 85% часу. Модель штучного інтелекту показала особливо хороші результати у грі Montezuma’s Revenge, платформерній грі, де гравець уникає небезпек та збирає скарби. Гра переконала рекорд людини-гравця та також набрала вищий бал, ніж будь-яка інша система штучного інтелекту.

За словами дослідників штучного інтелекту Uber, стратегії, які використовуються командою дослідників, мають застосування в галузях, таких як робототехніка. Роботи користуються можливістю пам’ятати, які дії були успішними, які не працювали, та які ще не були спробовані.

Daniel Nelson

Блогер і програміст з спеціалізацією у темах Machine Learning і Deep Learning. Даніель сподівається допомогти іншим використовувати силу штучного інтелекту для соціальної добробути.

Unite.AI

Дослідники штучного інтелекту створили модель гри у відеоігри, яка може пам’ятати минулі події

You may like