Искусственный интеллект
Техника позволяет ИИ думать далеко в будущее

Команда исследователей из MIT, лаборатории MIT-IBM Watson AI и других учреждений разработала новый подход, который позволяет искусственному интеллекту (ИИ) достигать дальновидной перспективы. Другими словами, ИИ может думать далеко в будущем, учитывая, как их поведение может включать поведение других агентов ИИ при выполнении задачи.
Исследование исследования будет представлено на конференции по обработке нейронной информации.
ИИ, учитывающий будущие действия других агентов
Созданная командой машинно-обучающая структура позволяет кооперативным или конкурентным агентам ИИ учитывать, что будут делать другие агенты. Это не только за следующие шаги, но и когда время приближается к бесконечности. Агенты адаптируют свое поведение соответственно, чтобы повлиять на будущее поведение других агентов, что помогает им прийти к оптимальным долгосрочным решениям.
По словам команды, эта структура может быть использована, например, группой автономных дронов, работающих вместе, чтобы найти потерянного туриста. Она также может быть использована самоходными транспортными средствами, чтобы предвидеть будущие движения других транспортных средств и улучшить безопасность пассажиров.
Dong-Ki Kim – аспирант лаборатории информационных и решающих систем MIT (LIDS) и ведущий автор исследования.
«Когда агенты ИИ сотрудничают или конкурируют, то, что имеет наибольшее значение, – это когда их поведение сходится в какой-то момент в будущем», – говорит Ким. «Есть много переходных поведений на пути, которые не имеют большого значения в долгосрочной перспективе. Достижение этого сходимого поведения – это то, что мы действительно заботимся, и теперь у нас есть математический способ сделать это возможным».
Проблема, решаемая исследователями, называется многомерным обучением с подкреплением, где обучение с подкреплением является формой машинного обучения, при котором агенты ИИ учатся методом проб и ошибок.
Когда есть несколько кооперативных или конкурентных агентов, одновременно обучающихся, процесс может стать намного более сложным. Когда агенты учитывают больше будущих шагов других агентов, а также свое поведение и то, как оно влияет на других, проблема требует слишком большого вычислительного мощности.
ИИ, думающий о бесконечности
«ИИ действительно хочет думать о конце игры, но они не знают, когда игра закончится», – говорит Ким. «Им нужно думать о том, как продолжать адаптировать свое поведение в бесконечность, чтобы они могли выиграть в какой-то далекой точке в будущем. Наша статья по сути предлагает новый объект, который позволяет ИИ думать о бесконечности».
Невозможно интегрировать бесконечность в алгоритм, поэтому команда разработала систему так, чтобы агенты фокусировались на будущей точке, где их поведение будет сходиться с поведением других агентов. Это называется равновесием, и точка равновесия определяет долгосрочную производительность агентов.
Возможно, что в многомерной ситуации могут существовать несколько равновесий, и когда эффективный агент активно влияет на будущее поведение других агентов, они могут достичь желаемого равновесия с точки зрения агента. Когда все агенты влияют друг на друга, они сходятся к общей концепции, называемой «активным равновесием».
Структура FURTHER
Машинно-обучающая структура команды называется FURTHER, и она позволяет агентам учиться, как корректировать свое поведение на основе взаимодействия с другими агентами, чтобы достичь активного равновесия.
Структура опирается на два модуля машинного обучения. Первый – это модуль вывода, который позволяет агенту угадывать будущее поведение других агентов и алгоритмы обучения, которые они используют, на основе предыдущих действий. Информация затем подается в модуль обучения с подкреплением, который агент использует для адаптации своего поведения и влияния на других агентов.
«Проблема заключалась в том, чтобы думать о бесконечности. Нам пришлось использовать множество различных математических инструментов, чтобы сделать это возможным, и сделать некоторые предположения, чтобы все работало на практике», – говорит Ким.
Команда протестировала свой метод против других многомерных структур обучения с подкреплением в различных сценариях, где агенты ИИ, использующие FURTHER, оказались впереди.
Подход является децентрализованным, поэтому агенты учатся выигрывать самостоятельно. Кроме того, он лучше спроектирован для масштабирования по сравнению с другими методами, которые требуют центрального компьютера для управления агентами.
По словам команды, FURTHER может быть использован в широком диапазоне многомерных проблем. Ким особенно надеется на его применение в экономике, где он может быть применен для разработки правильной политики в ситуациях, связанных с множеством взаимодействующих сущностей с поведением и интересами, меняющимися во времени.










