Штучний інтелект
Технологія дозволяє штучному інтелекту думати далеко в майбутнє

Команда дослідників з MIT, MIT-IBM Watson AI Lab та інших інститутів розробила новий підхід, який дозволяє штучним інтелектам (AI) досягати далекої перспективи. Інакше кажучи, AI може думати далеко в майбутнє, коли розглядає, як їх поведінка може включати поведінку інших AI-агентів під час виконання завдання.
Дослідження мають бути представлені на Конференції з обробки нейронної інформації.
AI, що розглядає майбутні дії інших агентів
Створена командою машинно-навчальна структура дозволяє кооперативним або конкуруючим AI-агентам розглядіть, що інші агенти будуть робити. Це не тільки над наступними кроками, а й з часом, що наближається до нескінченності. Агенти адаптують свою поведінку відповідно, щоб впливати на майбутню поведінку інших агентів, що допомагає їм досягти оптимальних довгострокових рішень.
За словами команди, цю структуру можна використовувати, наприклад, групою автономних дронів, які працюють разом, щоб знайти загубленого туриста. Її також можна використовувати самоходними транспортними засобами для передбачення майбутніх рухів інших транспортних засобів, щоб поліпшити безпеку пасажирів.
Dong-Ki Kim – аспірант Лабораторії інформаційних та рішень системи MIT (LIDS) і головний автор дослідження.
“Коли AI-агенти співпрацюють або конкурують, найважливіше – коли їх поведінка збігається в якійсь точці майбутнього”, – каже Кім. “Є багато транзитних поведінок по дорозі, які не мають великого значення в довгостроковій перспективі. Досягнення цієї збіжної поведінки – це те, про що нас справді турбують, і тепер у нас є математичний спосіб зробити це можливим.”
Проблема, яку вирішили дослідники, називається багатокомпонентним навчання з підкріпленням, а навчання з підкріпленням – це форма машинного навчання, при якій AI-агенти вчаться методом проб і помилок.
Коли існує кілька кооперативних або конкуруючих агентів, які одночасно вчаться, процес стає значно складнішим. Коли агенти розглядають більше майбутніх кроків інших агентів, а також свою власну поведінку та її вплив на інших, проблема вимагає надто великої обчислювальної потужності.
AI, що думає про нескінченність
“AI-агентам справді хочеться думати про кінець гри, але вони не знають, коли гра закінчиться”, – каже Кім. “Вони повинні думати про те, як продовжувати адаптувати свою поведінку до нескінченності, щоб виграти в якійсь далекій точці майбутнього. Наша стаття пропонує нову мету, яка дозволяє AI думати про нескінченність.”
Неможливо інтегрувати нескінченність в алгоритм, тому команда розробила систему так, щоб агенти зосередилися на майбутній точці, де їх поведінка збігатиметься з поведінкою інших агентів. Це називається рівновагою, а точка рівноваги визначає довгострокову продуктивність агентів.
Можливо, що в багатокомпонентному сценарії можуть існувати декілька рівноваг, і коли ефективний агент активно впливає на майбутню поведінку інших агентів, вони можуть досягти бажаної рівноваги з точки зору агента. Коли всі агенти впливають один на одного, вони сходяться до загальної концепції, яка називається “активною рівновагою”.
Фреймворк FURTHER
Машинно-навчальна структура команди називається FURTHER, і вона дозволяє агентам вивчати, як коригувати свою поведінку на основі взаємодії з іншими агентами, щоб досягти активної рівноваги.
Фреймворк спирається на два модулі машинного навчання. Перший – це модуль висновку, який дозволяє агенту здогадуватися про майбутню поведінку інших агентів і алгоритми навчання, які вони використовують, на основі попередніх дій. Потім ця інформація подається в модуль навчання з підкріпленням, на який агент спирається для адаптації своєї поведінки та впливу на інших агентів.
“Виклик полягав у думці про нескінченність. Нам довелося використовувати багато різних математичних інструментів, щоб зробити це можливим, і зробити деякі припущення, щоб зробити це працюючим на практиці”, – каже Кім.
Команда протестувала свій метод проти інших багатокомпонентних фреймворків навчання з підкріпленням у різних сценаріях, де AI-агенти, які використовували FURTHER, вийшли вперед.
Підхід є децентралізованим, тому агенти вчаться вигравати самостійно. Крім того, він краще спроектований для масштабування порівняно з іншими методами, які вимагають центрального комп’ютера для контролю агентів.
За словами команди, FURTHER можна використовувати у широкому діапазоні багатокомпонентних проблем. Кім особливо сподівається на його застосування в економіці, де його можна застосовувати для розробки звучної політики в ситуаціях, що涉нують багато взаємодіючих сутностей з поведінкою та інтересами, які змінюються з часом.












