Робототехніка
ШІ допомагає тренувати команди роботів і безпілотників

Команда дослідників з Інженерного коледжу Грейнджера Університету Іллінойсу розробила новий метод навчання кількох агентів, як-от роботів і дронів, працювати разом із використанням штучного інтелекту (ШІ). Агенти покладаються на навчання з підкріпленням, яке є одним із основних типів технік машинного навчання.
Децентралізована техніка
Хью Тран — аерокосмічний інженер в університеті.
«Легше, коли агенти можуть спілкуватися один з одним», — сказав Хью Тран. «Але ми хотіли зробити це децентралізовано, тобто щоб вони не спілкувалися один з одним. Ми також зосередилися на цитатах, де неочевидно, якими мають бути різні ролі чи роботи для агентів».
За словами Трена, цей сценарій більш складний, оскільки незрозуміло, що один агент повинен робити проти іншого агента.
«Цікаве питання полягає в тому, як ми з часом навчимося виконувати завдання разом», — сказав він.
Методика навчання з підкріпленням
Щоб вирішити цю проблему, команда покладалася на техніку машинного навчання під назвою навчання з підкріпленням. Це дозволило їм створити службову функцію, яка повідомляє агенту, коли він робить щось корисне для команди.
«Враховуючи командні цілі, важко зрозуміти, хто зробив внесок у перемогу, — продовжив Тран. «Ми розробили техніку машинного навчання, яка дозволяє нам визначити, коли окремий агент зробив внесок у глобальну командну мету. Якщо дивитися на це в термінах спорту, то один футболіст може забити, але ми також хочемо знати про дії інших партнерів по команді, які призвели до голу, наприклад гольові передачі. Важко зрозуміти ці відстрочені ефекти».
Алгоритми дослідників також визначають, коли агент або робот робить щось, що суперечить або не сприяє досягненню мети.
«Справа не стільки в тому, що робот вирішив зробити щось не так, скільки в тому, що не є корисним для кінцевої мети», — сказав він.
Алгоритми були перевірені за допомогою симуляції ігор, таких як StarCraft.
«StarCraft може бути дещо більш непередбачуваним — ми були раді бачити, що наш метод також добре працює в цьому середовищі».
Команда каже, що цей тип алгоритму застосовний до різних ситуацій реального світу. Деякі з потенційних застосувань включають військове спостереження, роботи на складі, контроль світлофорів, автономні транспортні засоби, які координують доставку, і контроль електромережі.
До команди, яка проводила це проривне дослідження, входили Сеун Хюн Кім, Ніл Ван Стрален і Гіріш Чоудхарі. Він був представлений на рецензованій конференції Autonomous Agents and Multi-Agent Systems.