Connect with us

Intelligence artificielle

Les agents IA démontrent des propriétés d’intelligence émergente dans un jeu virtuel de cache-cache

mm

L’un des faits intéressants sur la recherche en IA est qu’elle peut souvent exécuter des actions et poursuivre des stratégies qui surprennent même les chercheurs qui les conçoivent. Cela s’est produit lors d’un récent jeu virtuel de cache-cache où plusieurs agents IA ont été opposés les uns aux autres. Les chercheurs d’OpenAI, une entreprise d’IA basée à San Francisco, ont été surpris de constater que leurs agents IA ont commencé à exploiter des stratégies dans le monde du jeu que les chercheurs ne connaissaient même pas.

OpenAI a formé un groupe d’agents IA pour jouer à un jeu de cache-cache les uns avec les autres. Les programmes IA sont formés avec l’apprentissage par renforcement, une technique où le comportement souhaité est évoqué à partir des algorithmes IA en fournissant aux algorithmes des commentaires. L’IA commence par prendre des actions aléatoires, et chaque fois qu’elle prend une action qui l’approche de son objectif, l’agent est récompensé. L’IA souhaite obtenir la récompense maximale possible, elle va donc expérimenter pour voir quelles actions lui apportent plus de récompense. À travers des essais et des erreurs, l’IA est capable de distinguer les stratégies qui lui permettront de gagner, celles qui lui apporteront le plus de récompense.

L’apprentissage par renforcement a déjà démontré un succès impressionnant dans l’apprentissage des règles des jeux. OpenAI a récemment formé une équipe d’IA pour jouer au MMORPG DOTA 2, et l’IA a vaincu une équipe de joueurs humains champions du monde l’année dernière. Une chose similaire s’est produite avec le jeu StarCraft lorsque l’IA a été formée sur le jeu par DeepMind. L’apprentissage par renforcement a également été utilisé pour enseigner aux programmes IA de jouer au Pictionary avec des humains, en apprenant à interpréter des images et à utiliser un raisonnement de base.

Dans le jeu vidéo de cache-cache créé par les chercheurs, plusieurs agents IA ont été opposés les uns aux autres. Le résultat a été une course aux armements, où chaque agent veut surpasser les autres et obtenir le plus de points de récompense. Une nouvelle stratégie adoptée par un agent entraînera son adversaire à chercher une nouvelle stratégie pour la contrer, et vice-versa. Igor Mordatch, un chercheur d’OpenAI, a expliqué à IEEE Spectrum que l’expérience démontre que ce processus d’essais et d’erreurs entre agents “est suffisant pour que les agents apprennent des comportements surprenants par eux-mêmes – c’est comme des enfants qui jouent les uns avec les autres”.

Quels étaient les comportements surprenants exactement ? Les chercheurs avaient quatre stratégies de base qu’ils attendaient que les agents IA apprennent, et ils les ont apprises assez rapidement, devenant compétents en elles après seulement 25 millions de parties simulées. Le jeu a eu lieu dans un environnement 3D rempli de rampes, de blocs et de murs. Les agents IA ont appris à se poursuivre les uns les autres, à déplacer des blocs pour construire des forts où ils pourraient se cacher, et à déplacer des rampes. Les agents chercheurs ont appris à traîner des rampes pour entrer dans les forts des cacheurs, tandis que les cacheurs ont appris à essayer de prendre les rampes à l’intérieur de leurs forts pour que les chercheurs ne puissent pas les utiliser.

Cependant, autour du benchmark de 380 millions de parties, quelque chose de inattendu s’est produit. Les agents IA ont appris à utiliser deux stratégies que les chercheurs n’attendaient pas. Les agents chercheurs ont appris qu’en sautant sur une boîte et en la faisant glisser vers un fort voisin, ils pouvaient sauter dans le fort et trouver le cacheur. Les chercheurs n’avaient même pas réalisé que c’était possible dans la physique de l’environnement du jeu. Les cacheurs ont appris à résoudre ce problème en traînant les boîtes à l’intérieur de leurs forts.

Alors que le comportement inattendu des agents formés sur des algorithmes d’apprentissage par renforcement est inoffensif dans ce cas, cela soulève des préoccupations potentielles quant à la façon dont l’apprentissage par renforcement est appliqué à d’autres situations. Un membre de l’équipe de recherche d’OpenAI, Bowen Baker, a expliqué à IEEE Spectrum que ces comportements inattendus pourraient être potentiellement dangereux. Après tout, qu’est-ce qui se passerait si les robots commençaient à se comporter de manière inattendue ?

“Construire ces environnements est difficile”, a expliqué Baker. “Les agents vont trouver ces comportements inattendus, ce qui sera un problème de sécurité à l’avenir lorsque vous les placerez dans des environnements plus complexes.”

Cependant, Baker a également expliqué que les stratégies de renforcement pourraient conduire à des solutions innovantes à des problèmes actuels. Les systèmes formés avec l’apprentissage par renforcement pourraient résoudre un large éventail de problèmes avec des solutions que nous ne pouvons même pas imaginer.

Blogueur et programmeur avec des spécialités en Machine Learning et Deep Learning sujets. Daniel espère aider les autres à utiliser le pouvoir de l'IA pour le bien social.