Intelligence Artificielle
La nouvelle IA de DeepMind est capable d'apprendre les règles d'un jeu pendant qu'il joue

La filiale d'Alphabet DeepMind a récemment développé un système d'IA capable d'apprendre les règles d'un jeu pendant qu'il joue. Bien que DeepMind ait déjà créé des modèles d'IA impressionnants capables de maîtriser des jeux comme les échecs, le shogi, le go et les jeux vidéo, ces modèles doivent être préalablement dotés des règles du jeu. En tant que telle, la nouvelle IA de DeepMind représente une amélioration notable par rapport aux algorithmes d'IA précédents qui apprennent à jouer à des jeux via l'apprentissage par renforcement.
Système d'IA – MuZero
Dans un document récemment publié dans la revue Nature, DeepMind a détaillé le fonctionnement de leur nouveau système d'IA. La nouvelle IA, baptisée MuZero, est capable d'apprendre les règles d'un jeu au fur et à mesure grâce à un principe appelé "look-ahead search". Tel que rapporté par Engadget, MuZero utilise la recherche anticipée pour déterminer quels mouvements doivent être exécutés en fonction des réponses les plus probables des adversaires.
Lors de l'examen de tous les mouvements possibles qui pourraient être effectués dans des jeux comme les échecs, MuZero est capable d'établir des priorités, en réduisant les mouvements aux seuls mouvements les plus probables et les plus pertinents. MuZero apprendra alors des manœuvres réussies et non réussies. Plutôt que de modéliser tous les facteurs possibles, il ne prend en compte que les facteurs les plus pertinents pour la décision à prendre. MuZero prend essentiellement la myriade de variables potentielles qui peuvent être prises en compte et les résume aux caractéristiques les plus saillantes et les plus percutantes. Ces caractéristiques sont représentées dans un algorithme de recherche arborescent. Les possibilités au sein de l'arborescence sont ensuite combinées avec un modèle appris basé sur les caractéristiques de l'environnement de test. La recherche anticipée est effectuée après que les aspects les plus pertinents d'un environnement ont été identifiés.
Afin de prendre une décision finale, trois facteurs sont pris en compte.
MuZero considère le résultat du choix précédent, la position actuelle qu'il occupe et les actions potentielles qu'il peut entreprendre ensuite. Cette approche surpasse les approches précédemment utilisées par DeepMind, notamment la recherche anticipée de base et les modèles arborescents. MuZero s'est avéré être au moins aussi bon aux échecs, au shogi et au go qu'AlphaZero, et lorsqu'il a joué au jeu Mme Pac-Man, MuZero n'a pu envisager qu'environ six ou sept mouvements à la fois. Malgré cette limite, l'IA était encore assez performante. DeepMind a également expérimenté les capacités de MuZero en limitant le nombre de simulations qu'il pouvait effectuer avant de devoir s'engager dans un mouvement. En général, plus le programme disposait de temps pour envisager les mouvements possibles, meilleur était son rendement.
Le chercheur principal de DeepMind, David Silver, expliqué via TechXplore que MuZero est le premier modèle d'IA capable de générer sa propre représentation des règles d'un environnement, en utilisant cette représentation pour planifier des actions.
"Pour la première fois, nous avons en fait un système capable de construire sa propre compréhension du fonctionnement du monde et d'utiliser cette compréhension pour faire ce type de planification sophistiquée que vous avez déjà vue pour des jeux comme les échecs", dit Silver. "(MuZero) peut partir de rien, et juste par essais et erreurs, à la fois découvrir les règles du monde et utiliser ces règles pour obtenir une sorte de performance surhumaine."
Applications possibles
Une IA qui est véritablement capable d'apprendre les contraintes d'une tâche et de fonctionner dans ces contraintes a une grande variété d'applications possibles. MuZero pourrait être utilisé pour des tâches telles que la compression vidéo, qui a toujours été difficile à automatiser à l'aide de l'IA, en raison des nombreux formats vidéo et modes de compression possibles. MuZero a pu obtenir une amélioration d'environ 5 % de la compression. Cela pourrait avoir des implications sur le grand nombre de vidéos hébergées par Google et YouTube. Au-delà des vidéos, DeepMind envisage également d'utiliser les mêmes techniques MuZero pour la conception de l'architecture des protéines et la programmation robotique.
Selon Wendy Hall, professeur d'informatique à l'Université de Southampton, MuZero représente "un pas en avant significatif" pour les algorithmes d'apprentissage par renforcement. Cependant, Hall craint que les algorithmes ne soient utilisés à mauvais escient. Par exemple, l'US Air Force a déjà fait référence aux premiers documents de recherche couvrant MuZero pour créer un système d'IA qui pourrait lancer des missiles à partir d'avions espions U-2. Ceci malgré le fait que les chercheurs de DeepMind aient exprimé leur opposition à l'utilisation de leurs algorithmes pour toute arme mortelle, signant le Lethal Autonomous Weapons Pledge pour affirmer que toute technologie mortelle devrait rester sous contrôle humain.
Silver a expliqué que DeepMind regarde vers l'avenir, visant à développer des algorithmes aussi puissants et polyvalents que le cerveau. La première étape dans la création d'algorithmes polyvalents et flexibles consiste à comprendre ce que cela signifie pour un système d'être intelligent, et l'intelligence est liée à la capacité de discerner les modèles et les règles d'un environnement complexe.