Modèles et plateformes d’IA

Les chercheurs en IA créent un modèle de jeu vidéo capable de se souvenir d’événements passés

Publié le 27 février 2021

Mis à jour le 25 mai 2026

Par

Daniel Nelson

Une équipe de chercheurs du laboratoire d’IA d’Uber a récemment développé un système d’algorithmes d’IA qui ont surpassé à la fois les joueurs humains et les autres systèmes d’IA aux jeux vidéo classiques Atari. Le système d’IA développé par les chercheurs est capable de se souvenir des stratégies précédemment réussies, de créer de nouvelles stratégies basées sur ce qui a fonctionné dans le passé. L’équipe de recherche de l’étude croit que les algorithmes qu’ils ont développés ont des applications potentielles dans d’autres domaines techniques comme le traitement du langage et la robotique.

La méthode typique utilisée pour créer des systèmes d’IA capables de jouer aux jeux vidéo est d’utiliser un algorithme d’apprentissage par renforcement. Les algorithmes d’apprentissage par renforcement apprennent à effectuer une tâche en explorant une gamme d’actions possibles, et après chaque action, ils reçoivent une sorte de renforcement (une récompense ou une punition). Au fil du temps, le modèle d’IA apprend quelles actions conduisent à des récompenses plus importantes, et il devient plus susceptible de réaliser ces actions. Malheureusement, les modèles d’apprentissage par renforcement rencontrent des difficultés lorsqu’ils rencontrent des points de données incongrus avec les autres dans le jeu de données.

Selon l’équipe de recherche, la raison pour laquelle leur approche n’avait pas été considérée par d’autres chercheurs en IA est que la stratégie diffère de l’approche dite de « motivation intrinsèque » typiquement utilisée dans l’apprentissage par renforcement. Le problème avec une approche de motivation intrinsèque est que le modèle peut être enclin à « oublier » des domaines potentiellement gratifiants qui méritent encore d’être explorés. Ce phénomène est appelé « détachement ». Par conséquent, lorsque le modèle rencontre des données inattendues, il peut oublier des domaines qui devraient encore être explorés.

Selon TechXplore, l’équipe de recherche a cherché à créer un modèle d’apprentissage plus flexible et capable de répondre à des données inattendues. Les chercheurs ont surmonté ce problème en introduisant un algorithme capable de se souvenir de toutes les actions prises par une version précédente du modèle lorsqu’il a tenté de résoudre un problème. Lorsque le modèle d’IA rencontre un point de données qui n’est pas cohérent avec ce qu’il a appris jusqu’à présent, le modèle vérifie sa carte mémoire. Le modèle identifiera alors quelles stratégies ont réussi et échoué et choisira des stratégies en conséquence.

Lorsqu’il joue à un jeu vidéo, le modèle collecte des captures d’écran du jeu à mesure qu’il joue, enregistrant un journal de ses actions. Les images sont regroupées en fonction de leur similarité, formant des points clairs dans le temps auxquels le modèle peut se référer. L’algorithme peut utiliser les images enregistrées pour revenir à un point intéressant dans le temps et continuer à explorer à partir de là. Lorsque le modèle constate qu’il est en train de perdre, il se référera aux captures d’écran prises et essayera une stratégie différente.

Comme l’explique la BBC, il y a également le problème de la gestion de scénarios dangereux pour l’agent d’IA qui joue au jeu. Si l’agent rencontre un danger qui peut le tuer, cela l’empêcherait de revenir à des domaines qui méritent une exploration plus approfondie, un problème appelé « déraillement ». Le modèle d’IA gère les problèmes de déraillement par un processus distinct de celui utilisé pour encourager l’exploration de domaines anciens.

L’équipe de recherche a fait jouer le modèle à 55 jeux Atari. Ces jeux sont couramment utilisés pour évaluer les performances des modèles d’IA, mais les chercheurs ont ajouté une touche à leur modèle. Les chercheurs ont introduit des règles supplémentaires dans les jeux, en instruisant le modèle non seulement à atteindre le score le plus élevé possible, mais également à essayer d’atteindre un score encore plus élevé à chaque fois. Lorsque les résultats des performances du modèle ont été analysés, les chercheurs ont constaté que leur système d’IA a surpassé les autres IA aux jeux environ 85 % du temps. Le modèle d’IA s’est particulièrement bien comporté au jeu Montezuma’s Revenge, un jeu de plates-formes où le joueur esquive des dangers et collecte des trésors. Le jeu a battu le record d’un joueur humain et a également obtenu un score plus élevé que tout autre système d’IA.

Selon les chercheurs en IA d’Uber, les stratégies utilisées par l’équipe de recherche ont des applications pour des industries comme la robotique. Les robots bénéficient de la capacité de se souvenir des actions qui ont été couronnées de succès, de celles qui n’ont pas fonctionné et de celles qui n’ont pas encore été tentées.

Daniel Nelson

Blogueur et programmeur avec des spécialités en Machine Learning et Deep Learning sujets. Daniel espère aider les autres à utiliser le pouvoir de l'IA pour le bien social.

Unite.AI

Les chercheurs en IA créent un modèle de jeu vidéo capable de se souvenir d’événements passés

Découvrir plus