Intelligence artificielle
POKELLMON : Un agent à parité humaine pour les batailles de Pokémon avec les LLM
Les modèles de langage à grande échelle et l’intelligence artificielle générative ont démontré un succès sans précédent dans une large gamme de tâches de traitement du langage naturel. Après avoir conquis le domaine du TAL, le prochain défi pour les chercheurs en GenAI et LLM est d’explorer comment les grands modèles de langage peuvent agir de manière autonome dans le monde réel avec un écart de génération étendu du texte à l’action, représentant ainsi un paradigme important dans la poursuite de l’intelligence artificielle générale. Les jeux en ligne sont considérés comme une base de test appropriée pour développer des agents incarnés de grands modèles de langage qui interagissent avec l’environnement visuel de manière similaire à celle d’un humain.
Par exemple, dans un jeu de simulation en ligne populaire comme Minecraft, des agents de prise de décision peuvent être employés pour aider les joueurs à explorer le monde ainsi que pour développer des compétences pour fabriquer des outils et résoudre des tâches. Un autre exemple d’agents LLM interagissant avec l’environnement visuel peut être expérimenté dans un autre jeu en ligne, The Sims, où les agents ont démontré un succès remarquable dans les interactions sociales et exhibent un comportement qui ressemble à celui des humains. Cependant, par rapport aux jeux existants, les jeux de bataille tactiques pourraient s’avérer être un meilleur choix pour évaluer la capacité des grands modèles de langage à jouer à des jeux virtuels. La principale raison pour laquelle les jeux tactiques constituent un meilleur référence est que le taux de victoire peut être mesuré directement, et des adversaires constants, y compris des joueurs humains et des IA, sont toujours disponibles.
En s’appuyant sur cela, POKELLMON vise à être le premier agent incarné au monde à atteindre des performances humaines sur les jeux tactiques, similaires à celles observées dans les batailles de Pokémon. Au cœur du cadre POKELLMON, trois stratégies principales sont intégrées.
- L’apprentissage par renforcement en contexte qui consomme des rétroactions basées sur du texte dérivées des batailles instantanément pour raffiner la politique de manière itérative.
- La génération augmentée de connaissances qui récupère des connaissances externes pour contrer les hallucinations, permettant à l’agent d’agir correctement et lorsqu’il est nécessaire.
- La génération d’actions cohérentes pour minimiser la situation de commutation panique lorsque l’agent rencontre un joueur fort et veut éviter de le rencontrer.
Cet article vise à couvrir le cadre POKELLMON en profondeur, et nous explorons le mécanisme, la méthodologie, l’architecture du cadre ainsi que sa comparaison avec les cadres d’état de l’art. Nous allons également discuter de la manière dont le cadre POKELLMON démontre des stratégies de bataille remarquablement similaires à celles des humains, ainsi que des capacités de prise de décision en temps opportun, atteignant un taux de victoire respectable d’environ 50 %. Alors, commençons.
POKELLMON : Un agent à parité humaine avec LLM pour les batailles de Pokémon
La croissance des capacités et de l’efficacité des grands modèles de langage et des cadres d’intelligence artificielle générative au cours des dernières années a été rien de moins que merveilleux, en particulier sur les tâches de TAL. Récemment, les développeurs et les chercheurs en IA ont travaillé sur des moyens de rendre l’IA générative et les LLM plus prometteurs dans des scénarios du monde réel avec la capacité d’agir de manière autonome dans le monde physique. Pour atteindre cette performance autonome dans des situations physiques et du monde réel, les chercheurs et les développeurs considèrent les jeux comme une base de test appropriée pour développer des agents incarnés de LLM capables d’interagir avec l’environnement virtuel d’une manière similaire à celle d’un humain.
Auparavant, les développeurs ont tenté de développer des agents incarnés de LLM sur des jeux de simulation virtuels comme Minecraft et Sims, bien qu’il soit considéré que les jeux tactiques comme Pokémon pourraient être un meilleur choix pour développer ces agents. Les batailles de Pokémon permettent aux développeurs d’évaluer la capacité d’un entraîneur à se battre dans des jeux de Pokémon bien connus, et offrent plusieurs avantages par rapport à d’autres jeux tactiques. Puisque les espaces d’action et d’état sont discrets, ils peuvent être traduits en texte sans perte. La figure suivante illustre une bataille de Pokémon typique où le joueur est invité à générer une action à exécuter à chaque tour, étant donné l’état actuel des Pokémon de chaque côté.

POKELLMON : Méthodologie et architecture
Le cadre et l’architecture globaux du cadre POKELLMON sont illustrés dans l’image suivante.

Lors de chaque tour, le cadre POKELLMON utilise les actions précédentes et les rétroactions basées sur du texte pour raffiner la politique de manière itérative, ainsi que pour augmenter les informations d’état actuelles avec des connaissances externes telles que les effets d’abilité/mouvement ou les relations d’avantage/faiblesse. Pour les informations données en entrée, le cadre POKELLMON génère plusieurs actions de manière indépendante, puis sélectionne les plus cohérentes comme sortie finale.
Apprentissage par renforcement en contexte
Les joueurs humains et les athlètes prennent souvent des décisions non seulement sur la base de l’état actuel, mais ils réfléchissent également aux rétroactions des actions précédentes ainsi qu’aux expériences d’autres joueurs. Il serait sage de dire que les rétroactions positives aident un joueur à apprendre de ses erreurs et l’empêchent de répéter les mêmes erreurs à plusieurs reprises. Sans rétroaction appropriée, les agents POKELLMON pourraient rester bloqués sur la même action d’erreur, comme le démontre la figure suivante.

Comme on peut l’observer, l’agent du jeu utilise une attaque basée sur l’eau contre un personnage de Pokémon qui a la capacité « Peau sèche », ce qui lui permet de neutraliser les dégâts des attaques basées sur l’eau. Le jeu tente d’alerter l’utilisateur en affichant le message « Immune » sur l’écran, ce qui pourrait inciter un joueur humain à reconsidérer ses actions et à les modifier, même sans connaître la « Peau sèche ». Cependant, cela n’est pas inclus dans la description d’état de l’agent, ce qui entraîne l’agent à répéter la même erreur.
Pour s’assurer que l’agent POKELLMON apprend de ses erreurs passées, le cadre met en œuvre l’approche d’apprentissage par renforcement en contexte. L’apprentissage par renforcement est une approche populaire en apprentissage automatique, et elle aide les développeurs à raffiner la politique puisqu’elle nécessite des récompenses numériques pour évaluer les actions. Puisque les grands modèles de langage sont capables d’interpréter et de comprendre le langage, les descriptions basées sur du texte sont devenues une nouvelle forme de récompense pour les LLM. En incluant des rétroactions basées sur du texte des actions précédentes, l’agent POKELLMON est capable de raffiner de manière itérative et instantanée sa politique, à savoir l’apprentissage par renforcement en contexte.
… (rest of the content remains the same)












