Intelligence Artificielle
L'IA se bat pour maîtriser Minecraft par l'apprentissage par imitation

Au cours des derniers mois, Microsoft et d'autres sociétés de recherche sur l'apprentissage automatique ont mis des équipes de développeurs d'IA au défi de créer un système d'IA capable de jouer à Minecraft et de trouver un diamant dans le jeu. Tel que rapporté par la BBC, tandis que les plates-formes d'IA ont réussi à dominer les échecs et à jouer, mais elles ont eu du mal à maîtriser une tâche dans Minecraft.
Le défi d'IA basé sur Minecraft de Microsoft s'appelait MineRL, et les résultats du concours ont été officiellement annoncés lors de la récente conférence NeurIPS. L'intention du concours était de former une IA grâce à une approche «d'apprentissage par imitation». L'apprentissage par imitation est une méthode où une IA est formée par l'utilisation de l'observation. L'apprentissage par imitation a pour but de laisser les systèmes d'IA apprendre des actions en regardant les humains effectuer ces actions, en apprenant par l'acte d'observation. L'apprentissage par imitation, par rapport à l'apprentissage par renforcement, est un moyen beaucoup moins coûteux en calcul et beaucoup plus efficace de former une IA.
L'apprentissage par renforcement nécessite souvent de nombreux ordinateurs puissants mis en réseau et des centaines ou des milliers d'heures de formation pour devenir efficace dans une tâche. En revanche, une IA formée avec une méthode d'apprentissage par imitation peut être formée beaucoup plus rapidement, car l'IA a déjà une base de connaissances avec laquelle travailler avec la courtoisie des opérateurs humains qui l'ont effectuée.
L'apprentissage par imitation a des applications pratiques dans l'entraînement d'une IA, où celle-ci ne peut explorer en toute sécurité tant qu'elle n'a pas identifié les actions correctes. De tels scénarios incluent l'entraînement d'un véhicule autonome, car il ne pourrait pas être autorisé à circuler dans la rue sans avoir appris les comportements souhaités. L'utilisation des données d'un démonstrateur humain pour entraîner le véhicule pourrait potentiellement accélérer et sécuriser le processus.
Le fait de trouver un diamant dans Minecraft nécessite de suivre de nombreuses étapes successives, telles que couper des arbres pour fabriquer des outils, explorer les grottes contenant les diamants et trouver un diamant dans la grotte. Malgré la complexité de la tâche, un joueur humain familiarisé avec le jeu devrait pouvoir obtenir un diamant en 20 minutes environ.
Plus de 660 agents IA différents ont été soumis au concours, mais pas un seul des IA n'a été en mesure de trouver un diamant. Les données fournies pour former l'IA étaient un ensemble de données contenant plus de 60 millions d'images de gameplay collectées auprès de nombreux joueurs humains. Les emplacements des diamants sont aléatoires au démarrage d'une instance du jeu, ce qui signifie que les IA ne peuvent pas simplement regarder où les joueurs humains ont trouvé les diamants. En d'autres termes, les IA doivent comprendre comment des concepts, comme la fabrication d'outils, l'utilisation d'outils, l'exploration et la recherche de ressources, sont liés entre eux.
Malgré le fait qu'aucun des agents de l'IA n'a réussi à trouver un diamant, l'équipe d'organisation était toujours satisfaite des résultats de la compétition, et cela a encore beaucoup appris de l'expérience. Les recherches menées par les équipes d'IA peuvent aider à faire progresser le domaine de l'IA, en trouvant des alternatives aux stratégies d'apprentissage par renforcement.
L'apprentissage par renforcement donne souvent des performances supérieures à l'apprentissage par imitation, l'un des succès notables de l'apprentissage par renforcement étant AlphaGo de DeepMind. Cependant, comme indiqué précédemment, l'apprentissage par renforcement nécessite des ressources informatiques massives, ce qui limite son utilisation par les organisations qui ne peuvent pas se permettre des processeurs informatiques à grande échelle.
William Guss, doctorant à l'Université Carnegie Mellon et organisateur en chef du concours, expliqué à la BBC que le concours MineRL avait pour but d'étudier des alternatives à l'IA par calcul. Guss a dit :
« …Déployer des ressources informatiques massives pour résoudre des problèmes n’est pas forcément la meilleure façon de faire progresser l’état de l’art dans ce domaine… Cela va directement à l’encontre de la démocratisation de l’accès à ces systèmes d’apprentissage par renforcement et laisse la capacité de former des agents dans des environnements complexes aux entreprises disposant de vastes capacités de calcul. »


