Connect with us

Intelligence artificielle

Technique permettant à l’IA de réfléchir loin dans le futur

mm

Une équipe de chercheurs du MIT, du MIT-IBM Watson AI Lab et d’autres institutions a développé une nouvelle approche qui permet aux agents d’intelligence artificielle (IA) d’atteindre une perspective à long terme. En d’autres termes, l’IA peut réfléchir loin dans le futur lorsqu’elle considère comment ses comportements peuvent inclure les comportements d’autres agents IA lors de la réalisation d’une tâche. 

La recherche doit être présentée à la Conférence sur le traitement de l’information neuronale.

IA considérant les actions futures d’autres agents

Le cadre d’apprentissage automatique créé par l’équipe permet aux agents IA coopératifs ou concurrents de considérer ce que les autres agents feront. Ce n’est pas seulement pour les prochaines étapes, mais plutôt à mesure que le temps approche de l’infini. Les agents adaptent leur comportement en conséquence pour influencer les comportements futurs des autres agents, ce qui les aide à atteindre des solutions optimales à long terme. 

Selon l’équipe, le cadre pourrait être utilisé, par exemple, par un groupe de drones autonomes travaillant ensemble pour trouver un randonneur égaré. Il pourrait également être utilisé par des véhicules autonomes pour anticiper les mouvements futurs d’autres véhicules et améliorer la sécurité des passagers.

Dong-Ki Kim est un étudiant diplômé du Laboratoire d’information et de décision des systèmes du MIT (LIDS) et auteur principal de l’article de recherche. 

« Lorsque les agents IA coopèrent ou sont en concurrence, ce qui compte le plus, c’est lorsque leurs comportements convergent à un certain point dans le futur », déclare Kim. « Il y a beaucoup de comportements transitoires en cours de route qui n’ont pas beaucoup d’importance à long terme. Atteindre ce comportement convergent est ce que nous nous soucions vraiment, et nous avons maintenant une méthode mathématique pour permettre cela. »

Le problème abordé par les chercheurs s’appelle l’apprentissage par renforcement multi-agent, l’apprentissage par renforcement étant une forme d’apprentissage automatique dans laquelle les agents IA apprennent par essais et erreurs. 

Lorsqu’il y a plusieurs agents coopératifs ou concurrents qui apprennent simultanément, le processus peut devenir beaucoup plus complexe. À mesure que les agents considèrent davantage les étapes futures des autres agents, ainsi que leur propre comportement et son influence sur les autres, le problème nécessite trop de puissance de calcul. 

IA réfléchissant à l’infini

« Les IA veulent vraiment réfléchir à la fin du jeu, mais ils ne savent pas quand le jeu se terminera », déclare Kim. « Ils doivent réfléchir à la façon de continuer à adapter leur comportement à l’infini afin de gagner à un moment lointain dans le futur. Notre article propose essentiellement un nouvel objectif qui permet à une IA de réfléchir à l’infini. » 

Il est impossible d’intégrer l’infini dans un algorithme, l’équipe a donc conçu le système de telle sorte que les agents se concentrent sur un point futur où leur comportement convergera avec celui des autres agents. Cela est appelé équilibre, et un point d’équilibre détermine les performances à long terme des agents. 

Il est possible que plusieurs équilibres existent dans un scénario multi-agent, et lorsqu’un agent efficace influence activement les comportements futurs des autres agents, ils peuvent atteindre un équilibre souhaitable du point de vue de l’agent. Lorsque tous les agents s’influencent mutuellement, ils convergent vers un concept général appelé « équilibre actif ». 

Cadre FURTHER

Le cadre d’apprentissage automatique de l’équipe s’appelle FURTHER, et il permet aux agents d’apprendre à ajuster leur comportement en fonction de leurs interactions avec d’autres agents pour atteindre un équilibre actif. 

Le cadre repose sur deux modules d’apprentissage automatique. Le premier est un module d’inférence qui permet à un agent de deviner les comportements futurs d’autres agents et les algorithmes d’apprentissage qu’ils utilisent sur la base d’actions antérieures. Les informations sont ensuite transmises au module d’apprentissage par renforcement, sur lequel l’agent s’appuie pour adapter son comportement et influencer d’autres agents. 

« Le défi était de réfléchir à l’infini. Nous avons dû utiliser de nombreux outils mathématiques différents pour permettre cela et faire certaines hypothèses pour que cela fonctionne dans la pratique », déclare Kim. 

L’équipe a testé sa méthode contre d’autres cadres d’apprentissage par renforcement multi-agent dans différents scénarios où les agents IA utilisant FURTHER sont sortis vainqueurs. 

L’approche est décentralisée, les agents apprennent donc à gagner de manière indépendante. En outre, elle est mieux conçue pour être mise à l’échelle par rapport aux autres méthodes qui nécessitent un ordinateur central pour contrôler les agents. 

Selon l’équipe, FURTHER pourrait être utilisé dans un large éventail de problèmes multi-agents. Kim est particulièrement optimiste quant à ses applications en économie, où il pourrait être utilisé pour élaborer des politiques solides dans des situations impliquant de nombreuses entités interactives dont les comportements et les intérêts changent au fil du temps. 

Alex McFarland est un journaliste et écrivain en intelligence artificielle qui explore les derniers développements en intelligence artificielle. Il a collaboré avec de nombreuses startups et publications en intelligence artificielle dans le monde entier.