talon Des chercheurs du MIT combinent les données de mouvement des robots avec des modèles de langage pour améliorer l'exécution des tâches - Unite.AI
Suivez nous sur

Robotique

Des chercheurs du MIT combinent les données de mouvement des robots avec des modèles linguistiques pour améliorer l'exécution des tâches

Le kit de préparation mis à jour on
Image : José-Luis Olivares, MIT

On apprend de plus en plus aux robots domestiques à effectuer des tâches complexes grâce à un apprentissage par imitation, un processus dans lequel ils sont programmés pour copier les mouvements démontrés par un humain. Bien que les robots se soient révélés être d’excellents imitateurs, ils ont souvent du mal à s’adapter aux perturbations ou aux situations inattendues rencontrées lors de l’exécution des tâches. Sans programmation explicite pour gérer ces écarts, les robots sont obligés de recommencer la tâche à partir de zéro. Pour relever ce défi, les ingénieurs du MIT développent un nouvelle approche qui vise à donner aux robots un sentiment de bon sens face à des situations inattendues, leur permettant de s'adapter et de poursuivre leurs tâches sans nécessiter d'intervention manuelle.

La nouvelle approche

Les chercheurs du MIT ont développé une méthode qui combine les données de mouvement du robot avec la « connaissance du bon sens » de grands modèles de langage (LLM). En connectant ces deux éléments, l’approche permet aux robots d’analyser logiquement une tâche ménagère donnée en sous-tâches et de s’adapter physiquement aux perturbations au sein de chaque sous-tâche. Cela permet au robot de continuer sans avoir à redémarrer l'intégralité de la tâche depuis le début et élimine le besoin pour les ingénieurs de programmer explicitement des correctifs pour chaque panne possible en cours de route.

Comme l'explique Yanwei Wang, étudiant diplômé du Département de génie électrique et d'informatique (EECS) du MIT : « Grâce à notre méthode, un robot peut auto-corriger les erreurs d'exécution et améliorer la réussite globale de la tâche. »

Pour démontrer leur nouvelle approche, les chercheurs ont utilisé une tâche simple : ramasser des billes d'un bol et les verser dans un autre. Traditionnellement, les ingénieurs déplaçaient un robot en effectuant des mouvements de ramassage et de versement selon une trajectoire de fluide, fournissant souvent de multiples démonstrations humaines que le robot pouvait imiter. Cependant, comme le souligne Wang, « la démonstration humaine est une trajectoire longue et continue ». L’équipe a réalisé que même si un humain peut démontrer une seule tâche en une seule fois, la tâche dépend d’une séquence de sous-tâches. Par exemple, le robot doit d'abord atteindre un bol avant de pouvoir ramasser, et il doit ramasser des billes avant de se déplacer vers le bol vide.

Si un robot fait une erreur au cours de l'une de ces sous-tâches, son seul recours est de s'arrêter et de recommencer depuis le début, à moins que les ingénieurs n'étiquetent explicitement chaque sous-tâche et programme ou ne collectent de nouvelles démonstrations pour que le robot se remette de l'échec. Wang souligne que « ce niveau de planification est très fastidieux ». C'est là qu'intervient la nouvelle approche des chercheurs. En tirant parti de la puissance des LLM, le robot peut identifier automatiquement les sous-tâches impliquées dans la tâche globale et déterminer les actions de récupération potentielles en cas de perturbations. Cela élimine le besoin pour les ingénieurs de programmer manuellement le robot pour gérer tous les scénarios de panne possibles, ce qui rend le robot plus adaptable et plus efficace dans l'exécution des tâches ménagères.

Le rôle des grands modèles de langage

Les LLM jouent un rôle crucial dans la nouvelle approche des chercheurs du MIT. Ces modèles d'apprentissage profond traitent de vastes bibliothèques de textes, établissant des liens entre les mots, les phrases et les paragraphes. Grâce à ces connexions, un LLM peut générer de nouvelles phrases basées sur des modèles appris, comprenant essentiellement le type de mot ou de phrase susceptible de suivre le dernier.

Les chercheurs ont réalisé que cette capacité des LLM pouvait être exploitée pour identifier automatiquement les sous-tâches au sein d’une tâche plus vaste et les actions de récupération potentielles en cas de perturbations. En combinant les « connaissances de bon sens » des LLM avec les données de mouvement des robots, la nouvelle approche permet aux robots d'analyser logiquement une tâche en sous-tâches et de s'adapter à des situations inattendues. Cette intégration des LLM et de la robotique a le potentiel de révolutionner la façon dont les robots domestiques sont programmés et formés, les rendant plus adaptables et capables de relever les défis du monde réel.

À mesure que le domaine de la robotique continue de progresser, l’intégration de technologies d’IA telles que les LLM deviendra de plus en plus importante. L'approche des chercheurs du MIT constitue une étape importante vers la création de robots domestiques capables non seulement d'imiter les actions humaines, mais également de comprendre la logique et la structure sous-jacentes des tâches qu'ils effectuent. Cette compréhension sera essentielle au développement de robots capables de fonctionner de manière autonome et efficace dans des environnements complexes et réels.

Vers un avenir plus intelligent et plus adaptable pour les robots domestiques

En permettant aux robots d'auto-corriger les erreurs d'exécution et d'améliorer la réussite globale des tâches, cette méthode répond à l'un des défis majeurs de la programmation robotique : l'adaptabilité aux situations réelles.

Les implications de cette recherche vont bien au-delà de la simple tâche de ramasser des billes. À mesure que les robots domestiques deviennent plus répandus, ils devront être capables de gérer une grande variété de tâches dans des environnements dynamiques et non structurés. La capacité de diviser les tâches en sous-tâches, de comprendre la logique sous-jacente et de s’adapter aux perturbations sera essentielle pour que ces robots fonctionnent de manière efficace et efficiente.

De plus, l’intégration des LLM et de la robotique montre le potentiel des technologies d’IA pour révolutionner la façon dont nous programmons et formons les robots. À mesure que ces technologies continuent de progresser, nous pouvons nous attendre à voir des robots plus intelligents, adaptables et autonomes dans nos maisons et nos lieux de travail.

Les travaux des chercheurs du MIT constituent une étape cruciale vers la création de robots domestiques capables de véritablement comprendre et naviguer dans les complexités du monde réel. À mesure que cette approche est affinée et appliquée à un éventail plus large de tâches, elle a le potentiel de transformer notre façon de vivre et de travailler, rendant notre vie plus facile et plus efficace.

Alex McFarland est un journaliste et écrivain en IA qui explore les derniers développements en matière d'intelligence artificielle. Il a collaboré avec de nombreuses startups et publications d'IA dans le monde entier.