заглушки ШІ намагається освоїти Minecraft за допомогою імітаційного навчання - Unite.AI
Зв'язатися з нами

Штучний Інтелект

ШІ намагається освоїти Minecraft за допомогою імітаційного навчання

mm
оновлений on

Протягом останніх кількох місяців Microsoft та інші компанії, що досліджують машинне навчання, поставили перед командами розробників штучного інтелекту завдання створити систему штучного інтелекту, яка могла б грати в Minecraft і знаходити в грі діамант. Як повідомляє ВВС, тоді як платформи штучного інтелекту зуміли домінувати в шахах і го, але йому було важко впоратися з завданням у Minecraft.

Виклик Майкрософт зі штучним інтелектом на базі Minecraft отримав назву MineRL, а результати конкурсу були офіційно оголошені на нещодавній конференції NeurIPS. Мета конкурсу полягала в тому, щоб навчити ШІ за допомогою підходу «імітаційного навчання». Імітаційне навчання – це метод, при якому ШІ навчається за допомогою спостереження. Імітаційне навчання має на меті дозволити системам штучного інтелекту вивчати дії, спостерігаючи за тим, як люди виконують ці дії, навчаючись через акт спостереження. Імітаційне навчання, порівняно з навчанням з підкріпленням, є набагато менш дорогим з точки зору обчислень і значно ефективнішим способом навчання ШІ.

Навчання з підкріпленням часто вимагає багатьох потужних комп’ютерів, об’єднаних разом, і сотень або тисяч годин навчання, щоб стати ефективним у виконанні завдання. Навпаки, ШІ, навчений імітаційному методу навчання, можна навчити набагато швидше, оскільки ШІ вже має базові знання для роботи з люб’язністю людей-операторів, які його продовжили.

Імітаційне навчання має практичне застосування в навчанні ШІ, де ШІ не може безпечно досліджувати, доки не з’ясує правильних дій. Такі сценарії включатимуть навчання автономного транспортного засобу, оскільки автомобілю не можна дозволяти просто бродити вулицею, доки він не навчиться бажаної поведінки. Використання даних людини-демонстратора для навчання транспортного засобу потенційно може зробити процес швидшим і безпечнішим.

Дія пошуку алмазу в Minecraft вимагає послідовного виконання багатьох кроків, таких як вирубування дерев для виготовлення інструментів, дослідження печер, які містять діаманти, і власне пошук алмазу в печері. Незважаючи на складність завдання, людина, знайома з грою, зможе отримати діамант приблизно за 20 хвилин.

На змагання було подано понад 660 різних агентів штучного інтелекту, але жодному з них не вдалося знайти діамант. Дані, надані для навчання ШІ, являли собою набір даних, що містив понад 60 мільйонів кадрів ігрового процесу, зібраних багатьма гравцями. Розташування алмазів рандомізується під час запуску гри, тож це означає, що штучний інтелект не може просто шукати, де люди знайшли алмази. Іншими словами, штучний інтелект має сформувати розуміння того, як такі концепції, як створення інструментів, використання інструментів, дослідження та пошук ресурсів, пов’язані між собою.

Незважаючи на те, що жоден із агентів ШІ не зміг успішно знайти діамант, команда організаторів все одно була задоволена результатами змагання, і багато чого вдалося дізнатися з експерименту. Дослідження, які провели команди штучного інтелекту, можуть допомогти просунути сферу штучного інтелекту, знайти альтернативи стратегіям навчання з підкріпленням.

Навчання з підкріпленням часто дає кращу продуктивність порівняно з імітаційним навчанням, одним із помітних успіхів навчання з підкріпленням є AlphaGo від DeepMind. Однак, як зазначалося раніше, навчання з підкріпленням вимагає величезних обчислювальних ресурсів, що обмежує його використання організаціями, які не можуть дозволити собі комп’ютерні процесори у великих масштабах.

Вільям Гасс, докторант Університету Карнегі-Меллона та головний організатор конкурсу, пояснив ВВС що конкурс MineRL мав на меті дослідити альтернативи штучному інтелекту з обчисленнями. Сказав Гасс:

«…Вирішувати проблеми з масивними обчислювальними ресурсами — це не обов’язково правильний спосіб для нас просувати сучасні технології як галузь… Це прямо протидіє демократизації доступу до цих систем навчання з підкріпленням і залишає можливість навчати агентів у складних середовищах корпорації з великою кількістю комп’ютерів».