Connect with us

Les informaticiens utilisent le renforcement positif pour enseigner aux robots

Robotique

Les informaticiens utilisent le renforcement positif pour enseigner aux robots

mm

Les informaticiens de l’Université Johns Hopkins ont déployé la technique de formation éprouvée du renforcement positif, souvent utilisée pour dresser des animaux tels que les chiens, sur un robot afin qu’il puisse s’enseigner de nouvelles astuces. Parmi ces nouvelles compétences se trouvait la capacité à empiler des blocs.

Le robot s’appelle Spot, et selon les chercheurs, il peut apprendre des compétences en quelques jours qui traditionnellement prennent environ un mois.

Renforcement positif

Le renforcement positif a été utilisé par l’équipe pour augmenter les ensembles de compétences du robot. La vitesse à laquelle l’équipe a pu le faire facilite le déploiement de ces types de robots dans le monde réel.

Les travaux ont été publiés dans IEEE Robotics and Automation Letters, intitulés « Good Robot!: Efficient Reinforcement Learning for Multi-Step Visual Tasks with Sim to Real Transfer. »

Andrew Hundt est un étudiant en doctorat travaillant à l’Université Johns Hopkins et auteur principal de la recherche.

« La question ici était de savoir comment faire en sorte que le robot apprenne une compétence ? » a-t-il déclaré. « J’ai eu des chiens, donc je sais que les récompenses fonctionnent et c’est l’inspiration qui m’a poussé à concevoir l’algorithme d’apprentissage. »

L’une des raisons pour lesquelles le renforcement positif fonctionne sur les ordinateurs est qu’ils n’ont pas de cerveau intuitif, ce qui signifie qu’ils sont essentiellement une toile blanche sur laquelle tout peut être projeté. En d’autres termes, ils doivent apprendre tout à partir de rien. L’une des méthodes d’apprentissage les plus efficaces pour les ordinateurs est l’essai et l’erreur, sur laquelle les roboticistes travaillent encore aujourd’hui.

C’est exactement ce que les chercheurs ont fait lorsqu’ils ont créé un système de récompense pour le robot, similaire au processus de dressage d’un chien en lui donnant des friandises. La différence est que le robot recevra des points numériques lorsqu’il effectuera une tâche correctement.

https://www.youtube.com/watch?v=dvxqjJBWFD4

Compétences apprises

Lorsqu’il s’agissait d’apprendre à empiler des blocs, le robot a dû apprendre à se concentrer sur des actions constructives. Dans la méthode, Spot le robot a reçu des points plus élevés lorsqu’il a effectué des comportements corrects pendant l’empilement des blocs. À l’opposé, il n’a gagné rien pour des comportements incorrects. Il a gagné le plus de points en empilant une pile de quatre blocs avec le dernier bloc en haut.

Les chercheurs ont constaté un grand succès dans cette méthode, le robot apprenant en quelques jours ce qui aurait pris des semaines dans le passé. En formant un robot simulé, l’équipe a réduit le temps de pratique avant de passer au robot Spot.

« Le robot veut le score le plus élevé », a déclaré Hundt. « Il apprend rapidement le bon comportement pour obtenir la meilleure récompense. En fait, il fallait un mois de pratique pour que le robot atteigne 100 % de précision. Nous avons pu le faire en deux jours. »

En plus d’apprendre à empiler des blocs, le robot a également utilisé le renforcement positif pour apprendre d’autres tâches, telles que jouer à un jeu de navigation simulé.

« Au début, le robot n’a aucune idée de ce qu’il fait, mais il s’améliorera de plus en plus avec chaque pratique. Il ne renonce jamais et continue d’essayer d’empiler et est capable de terminer la tâche 100 % du temps », a déclaré Hundt.

Certaines des applications possibles de cette méthode incluent la formation de robots ménagers pour effectuer certaines tâches, ainsi que l’amélioration des véhicules autonomes.

« Notre objectif est de développer éventuellement des robots capables de réaliser des tâches complexes dans le monde réel — comme l’assemblage de produits, les soins aux personnes âgées et la chirurgie », a déclaré Hager. « Nous ne savons pas actuellement comment programmer des tâches comme celles-ci — le monde est trop complexe. Mais des travaux comme celui-ci montrent qu’il y a une promesse dans l’idée que les robots peuvent apprendre à accomplir de telles tâches réelles de manière sûre et efficace.

Alex McFarland est un journaliste et écrivain en intelligence artificielle qui explore les derniers développements en intelligence artificielle. Il a collaboré avec de nombreuses startups et publications en intelligence artificielle dans le monde entier.