заглушки Агенти штучного інтелекту демонструють унікальні властивості інтелекту у віртуальних хованках - Unite.AI
Зв'язатися з нами

Штучний Інтелект

Агенти штучного інтелекту демонструють унікальні властивості інтелекту у віртуальних хованках

mm
оновлений on

Одним із цікавих фактів про дослідження штучного інтелекту є те, що він часто може виконувати дії та реалізовувати стратегії, які дивують самих дослідників, які їх розробляють. Це сталося під час недавньої віртуальної гри в хованки, де кілька агентів ШІ зіткнулися один з одним. Дослідники OpenAI, фірми штучного інтелекту, що базується в Сан-Франциско, були здивовані, виявивши, що їхні агенти ШІ почали використовувати стратегії в ігровому світі, про існування якого дослідники навіть не підозрювали.

OpenAI навчив групу агентів штучного інтелекту грати один з одним у хованки. Програми штучного інтелекту навчаються за допомогою навчання з підкріпленням, техніки, за якої бажана поведінка виявляється з алгоритмів штучного інтелекту шляхом надання алгоритмам зворотного зв’язку. ШІ починає з виконання випадкових дій, і щоразу, коли він виконує дію, яка наближає його до мети, агент отримує винагороду. ШІ прагне отримати максимальну можливу винагороду, тому він буде експериментувати, щоб побачити, які дії принесуть йому більше винагороди. Шляхом проб і помилок ШІ здатний розрізняти стратегії, які приведуть їх до перемоги, і ті, які принесуть їм найбільшу винагороду.

Навчання з підкріпленнямg вже продемонстрував вражаючі успіхи у вивченні правил гри. OpenAI нещодавно навчив команду штучного інтелекту грати в MMORPG DOTA 2, а минулого року ШІ переміг команду-чемпіона світу з гравців-людей. Подібне сталося з грою StarCraft, коли DeepMind навчив ШІ на грі. Навчання з підкріпленням також використовувалося, щоб навчити програми штучного інтелекту грати в Pictionary з людьми, навчитися інтерпретувати зображення та використовувати основні міркування здорового глузду.

У відеогрі «хованки», створеній дослідниками, кілька агентів штучного інтелекту протистояли один одному. Результатом стала своєрідна гонка озброєнь, коли кожен агент хоче перевершити іншого й отримати найбільшу кількість бонусних балів. Нова стратегія, прийнята одним агентом, змусить його опонента шукати нову стратегію протидії йому, і навпаки. Ігор Мордач, дослідник OpenAI, пояснив IEEE Spectrum, що експеримент демонструє, що цього процесу спроб і помилок між агентами «достатньо, щоб агенти самостійно навчилися дивовижній поведінці — це як діти, які граються один з одним».

Яка саме була дивовижна поведінка? Дослідники мали чотири основні стратегії, які, як вони очікували, повинні засвоїти агенти штучного інтелекту, і вони навчилися їм досить швидко, ставши компетентними в них лише після 25 мільйонів симуляційних ігор. Гра проходила в тривимірному середовищі, повному пандусів, блоків і стін. Агенти штучного інтелекту навчилися переслідувати один одного, пересувати блоки, щоб будувати форти, у яких вони могли б сховатися, і переміщувати пандуси. Шукачі ШІ навчилися перетягувати пандуси, щоб потрапити всередину фортець тих, хто ховається, а ті, хто ховається, навчилися намагатися забрати пандуси у свої форти, щоб шукачі не могли ними скористатися.

Однак біля позначки в 380 мільйонів ігор сталося щось несподіване. Агенти ШІ навчилися використовувати дві стратегії, яких дослідники не очікували. Агенти-шукачі дізналися, що, стрибнувши на ящик і нахиливши/покатавшись на ящику до сусіднього форту, вони можуть стрибнути у форт і знайти хованку. Дослідники навіть не усвідомлювали, що це можливо в межах фізики ігрового середовища. Хованці навчилися вирішувати цю проблему, перетягуючи ящики на місце у своєму форті.

Хоча несподівана поведінка агентів, навчених алгоритмам навчання з підкріпленням, у цьому випадку нешкідлива, вона викликає деякі потенційні занепокоєння щодо того, як навчання з підкріпленням застосовується в інших ситуаціях. Член дослідницької групи OpenAI Боуен Бейкер пояснив IEEE Spectrum, що така несподівана поведінка може бути потенційно небезпечною. Зрештою, що, якби роботи почали поводитись несподіваним чином?

«Створити таке середовище важко», — пояснив Бейкер. «Агенти придумають таку несподівану поведінку, яка буде проблемою безпеки на дорозі, коли ви поставите їх у складніші середовища».

Проте Бейкер також пояснив, що стратегії посилення можуть привести до інноваційних рішень поточних проблем. Системи, навчені за допомогою навчання з підкріпленням, можуть вирішувати широкий спектр проблем із рішеннями, які ми навіть не можемо уявити.