Intelligence artificielle
L’IA de Google enseigne aux robots à se déplacer en regardant les chiens

Même certains des robots les plus avancés d’aujourd’hui se déplacent encore de manière un peu maladroite et saccadée. Afin de faire en sorte que les robots se déplacent de manière plus réaliste et fluide, les chercheurs de Google ont développé un système d’IA capable d’apprendre des mouvements d’animaux réels. L’équipe de recherche de Google a publié un article de préimpression qui détaille leur approche la semaine dernière. Dans l’article et un billet de blog accompagnant, l’équipe de recherche décrit la raison behind le système. Les auteurs de l’article pensent que doter les robots de mouvements plus naturels pourrait les aider à accomplir des tâches du monde réel qui nécessitent des mouvements précis, tels que la livraison d’articles entre différents niveaux d’un bâtiment.
Comme l’a rapporté VentureBeat, l’équipe de recherche a utilisé l’apprentissage par renforcement pour former leurs robots. Les chercheurs ont commencé par collecter des extraits de véritables animaux en mouvement et utilisé des techniques d’apprentissage par renforcement (RL) pour pousser les robots à imiter les mouvements des animaux dans les extraits vidéo. Dans ce cas, les chercheurs ont formé les robots sur des extraits d’un chien, conçu dans un simulateur de physique, en instruisant un robot à quatre pattes Unitree Laikago pour imiter les mouvements du chien. Après la formation du robot, il a été capable de réaliser des mouvements complexes comme sauter, tourner et marcher rapidement, à une vitesse d’environ 2,6 miles par heure.
Les données de formation consistaient en environ 200 millions d’échantillons de chiens en mouvement, suivis dans un simulateur de physique. Les différents mouvements ont ensuite été exécutés à travers des fonctions de récompense et des politiques que les agents ont apprises. Après que les politiques aient été créées dans la simulation, elles ont été transférées dans le monde réel en utilisant une technique appelée adaptation de l’espace latent. Puisque les simulateurs de physique utilisés pour former les robots ne pouvaient approximer certains aspects du mouvement du monde réel, les chercheurs ont appliqué aléatoirement diverses perturbations à la simulation, destinées à simuler le fonctionnement dans différentes conditions.
Selon l’équipe de recherche, ils ont pu adapter les politiques de simulation aux robots du monde réel en utilisant seulement huit minutes de données collectées à partir de 50 essais différents. Les chercheurs ont réussi à démontrer que les robots du monde réel étaient capables d’imiter une variété de mouvements spécifiques, tels que le trot, le tour, le saut et le pas. Ils ont même pu imiter des animations créées par des artistes d’animation, telles qu’une combinaison de saut et de tour.
Les chercheurs résument les résultats dans l’article :
« Nous montrons que en exploitant les données de mouvement de référence, une approche d’apprentissage basée sur une seule méthode est capable de synthétiser automatiquement des contrôleurs pour un répertoire diversifié [de] comportements pour les robots à pattes. En incorporant des techniques d’adaptation de domaine efficaces dans le processus de formation, notre système est capable d’apprendre des politiques adaptatives dans la simulation qui peuvent ensuite être rapidement adaptées pour un déploiement dans le monde réel. »
Les politiques de contrôle utilisées pendant le processus d’apprentissage par renforcement avaient leurs limites. En raison des contraintes imposées par le matériel et les algorithmes, il y avait quelques choses que les robots ne pouvaient simplement pas faire. Ils n’ont pas pu courir ou faire de grands sauts, par exemple. Les politiques apprises n’ont pas non plus montré autant de stabilité par rapport aux mouvements conçus manuellement. L’équipe de recherche souhaite poursuivre ce travail en rendant les contrôleurs plus robustes et capables d’apprendre à partir de différents types de données. Idéalement, les versions futures du cadre seront capables d’apprendre à partir de données vidéo.












