Connect with us

Intelligence artificielle

L’IA peine à maîtriser Minecraft grâce à l’apprentissage par imitation

mm

Au cours des derniers mois, Microsoft et d’autres entreprises qui effectuent des recherches sur l’apprentissage automatique ont mis au défi des équipes de développeurs d’IA pour créer un système d’IA capable de jouer à Minecraft et de trouver un diamant dans le jeu. Selon un rapport de la BBC, alors que les plates-formes d’IA ont réussi à dominer les échecs et le go, mais elles ont eu du mal à maîtriser une tâche dans Minecraft.

Le défi d’IA basé sur Minecraft de Microsoft s’appelait MineRL, et les résultats de la compétition ont été officiellement annoncés lors de la conférence NeurIPS récente. L’objectif de la compétition était de former un IA grâce à une approche d'”apprentissage par imitation”. L’apprentissage par imitation est une méthode où un IA est formé grâce à l’observation. L’apprentissage par imitation vise à permettre aux systèmes d’IA d’apprendre des actions en regardant les humains effectuer ces actions, en apprenant grâce à l’acte d’observation. L’apprentissage par imitation, en comparaison avec l’apprentissage par renforcement, est une méthode beaucoup moins coûteuse en termes de calcul et nettement plus efficace pour former un IA.

L’apprentissage par renforcement nécessite souvent de nombreux ordinateurs puissants connectés en réseau et des centaines ou des milliers d’heures de formation pour devenir efficace dans une tâche. En revanche, un IA formé avec une méthode d’apprentissage par imitation peut être formé beaucoup plus rapidement, car l’IA a déjà une base de connaissances à travailler grâce aux opérateurs humains qui l’ont précédé.

L’apprentissage par imitation a des applications pratiques dans la formation d’un IA où l’IA ne peut pas explorer en toute sécurité jusqu’à ce qu’il découvre les bonnes actions. De telles situations incluraient la formation d’un véhicule autonome, car la voiture ne pourrait pas être autorisée à simplement errer dans la rue jusqu’à ce qu’elle ait appris les comportements souhaités. Utiliser les données d’un démonstrateur humain pour former le véhicule pourrait potentiellement rendre le processus plus rapide et plus sûr.

L’acte de trouver un diamant dans Minecraft nécessite de réaliser de nombreuses étapes en séquence, telles que couper des arbres pour fabriquer des outils, explorer les grottes qui contiennent les diamants et réellement trouver un diamant dans la grotte. Malgré la complexité de la tâche, un joueur humain familiarisé avec le jeu devrait être capable d’obtenir un diamant en environ 20 minutes.

Plus de 660 agents d’IA différents ont été soumis à la compétition, mais aucun des IA n’a été capable de trouver un diamant. Les données fournies pour former l’IA étaient un ensemble de données contenant plus de 60 millions de cadres de jeu collectés à partir de nombreux joueurs humains. Les emplacements des diamants sont aléatoires lorsqu’une instance du jeu est lancée, ce qui signifie que les IA ne peuvent pas simplement regarder où les joueurs humains ont trouvé les diamants. En d’autres termes, les IA doivent former une compréhension de la façon dont des concepts comme la fabrication d’outils, l’utilisation d’outils, l’exploration et la recherche de ressources sont liés.

Malgré le fait que aucun des agents d’IA n’ait été capable de trouver un diamant avec succès, l’équipe d’organisation était toujours satisfaite des résultats de la compétition, et beaucoup a été appris de l’expérience. La recherche que les équipes d’IA ont menée peut aider à faire progresser le domaine de l’IA, en trouvant des alternatives aux stratégies d’apprentissage par renforcement.

L’apprentissage par renforcement donne souvent de meilleures performances que l’apprentissage par imitation, avec une réussite notable de l’apprentissage par renforcement étant AlphaGo de DeepMind. Cependant, comme mentionné précédemment, l’apprentissage par renforcement nécessite des ressources informatiques massives, limitant son utilisation par les organisations qui ne peuvent pas se permettre de grands processeurs.

William Guss, étudiant en doctorat à l’Université Carnegie Mellon et chef de l’organisation de la compétition, a expliqué à la BBC que le défi MineRL était destiné à étudier des alternatives aux IA gourmandes en calcul. Guss a déclaré :

“… Le fait de jeter des ressources de calcul massives sur les problèmes n’est pas nécessairement la bonne façon pour nous de faire progresser l’état de l’art dans le domaine… Cela va directement à l’encontre de la démocratisation de l’accès à ces systèmes d’apprentissage par renforcement, et laisse la capacité de former des agents dans des environnements complexes aux entreprises qui disposent de grandes ressources de calcul.”

Blogueur et programmeur avec des spécialités en Machine Learning et Deep Learning sujets. Daniel espère aider les autres à utiliser le pouvoir de l'IA pour le bien social.