Connect with us

Robótica

Investigadores del MIT combinan datos de movimiento de robots con modelos de lenguaje para mejorar la ejecución de tareas

mm

Los robots domésticos están siendo enseñados cada vez más a realizar tareas complejas a través del aprendizaje por imitación, un proceso en el que se les programa para copiar los movimientos demostrados por un ser humano. Si bien los robots han demostrado ser excelentes imitadores, a menudo luchan para adaptarse a interrupciones o situaciones inesperadas que se encuentran durante la ejecución de la tarea. Sin programación explícita para manejar estas desviaciones, los robots se ven obligados a comenzar la tarea desde cero. Para abordar este desafío, los ingenieros del MIT están desarrollando un nuevo enfoque que tiene como objetivo dar a los robots un sentido común cuando se enfrentan a situaciones inesperadas, lo que les permite adaptarse y continuar con sus tareas sin necesidad de intervención manual.

El nuevo enfoque

Los investigadores del MIT desarrollaron un método que combina datos de movimiento de robots con el “conocimiento de sentido común” de modelos de lenguaje grandes (LLM). Al conectar estos dos elementos, el enfoque permite a los robots analizar lógicamente una tarea doméstica dada en subtareas y ajustarse físicamente a las interrupciones dentro de cada subtarea. Esto permite que el robot continúe sin tener que reiniciar toda la tarea desde el principio, y elimina la necesidad de que los ingenieros programen explícitamente soluciones para cada posible falla en el camino.

Como explica el estudiante de posgrado Yanwei Wang del Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT, “Con nuestro método, un robot puede autocorregir errores de ejecución y mejorar el éxito general de la tarea.”

Para demostrar su nuevo enfoque, los investigadores utilizaron una tarea sencilla: recoger canicas de un tazón y verterlas en otro. Tradicionalmente, los ingenieros moverían a un robot a través de los movimientos de recoger y verter en una trayectoria fluida, a menudo proporcionando múltiples demostraciones humanas para que el robot las imitara. Sin embargo, como señala Wang, “la demostración humana es una trayectoria continua y larga”. El equipo se dio cuenta de que, si bien un ser humano puede demostrar una tarea en una sola vez, la tarea depende de una secuencia de subtareas. Por ejemplo, el robot debe alcanzar un tazón antes de poder recoger, y debe recoger canicas antes de moverse al tazón vacío.

Si un robot comete un error durante alguna de estas subtareas, su única opción es detenerse y comenzar desde el principio, a menos que los ingenieros etiqueten explícitamente cada subtarea y programen o recopilen nuevas demostraciones para que el robot se recupere del fallo. Wang enfatiza que “ese nivel de planificación es muy tedioso”. Es aquí donde entra en juego el nuevo enfoque de los investigadores. Al aprovechar el poder de los LLM, el robot puede identificar automáticamente las subtareas involucradas en la tarea general y determinar acciones de recuperación potenciales en caso de interrupciones. Esto elimina la necesidad de que los ingenieros programen manualmente al robot para manejar cada escenario de falla posible, lo que hace que el robot sea más adaptable y eficiente en la ejecución de tareas domésticas.

El papel de los modelos de lenguaje grande

Los LLM desempeñan un papel crucial en el nuevo enfoque de los investigadores del MIT. Estos modelos de aprendizaje profundo procesan vastas bibliotecas de texto, estableciendo conexiones entre palabras, oraciones y párrafos. A través de estas conexiones, un LLM puede generar nuevas oraciones basadas en patrones aprendidos, esencialmente entendiendo el tipo de palabra o frase que es probable que siga a la última.

Los investigadores se dieron cuenta de que esta capacidad de los LLM podría aprovecharse para identificar automáticamente las subtareas dentro de una tarea más grande y las acciones de recuperación potenciales en caso de interrupciones. Al combinar el “conocimiento de sentido común” de los LLM con datos de movimiento de robots, el nuevo enfoque permite a los robots analizar lógicamente una tarea en subtareas y adaptarse a situaciones inesperadas. Esta integración de LLM y robótica tiene el potencial de revolucionar la forma en que se programan y entrenan los robots domésticos, haciéndolos más adaptables y capaces de manejar desafíos del mundo real.

A medida que el campo de la robótica continúa avanzando, la incorporación de tecnologías de inteligencia artificial como los LLM será cada vez más importante. El enfoque de los investigadores del MIT es un paso significativo hacia la creación de robots domésticos que no solo pueden imitar acciones humanas, sino que también pueden entender la lógica y la estructura subyacentes de las tareas que realizan. Esta comprensión será clave para desarrollar robots que puedan operar de manera autónoma y eficiente en entornos complejos y del mundo real.

Hacia un futuro más inteligente y adaptable para los robots domésticos

Al permitir que los robots se autocorrijan los errores de ejecución y mejoren el éxito general de la tarea, este método aborda uno de los principales desafíos en la programación de robots: la adaptabilidad a situaciones del mundo real.

Las implicaciones de esta investigación van mucho más allá de la simple tarea de recoger canicas. A medida que los robots domésticos se vuelvan más comunes, deberán ser capaces de manejar una amplia variedad de tareas en entornos dinámicos y no estructurados. La capacidad de descomponer tareas en subtareas, entender la lógica subyacente y adaptarse a interrupciones será esencial para que estos robots operen de manera efectiva y eficiente.

Además, la integración de LLM y robótica muestra el potencial de las tecnologías de inteligencia artificial para revolucionar la forma en que programamos y entrenamos a los robots. A medida que estas tecnologías continúen avanzando, podemos esperar ver robots más inteligentes, adaptables y autónomos en nuestros hogares y lugares de trabajo.

El trabajo de los investigadores del MIT es un paso crítico hacia la creación de robots domésticos que puedan verdaderamente entender y navegar las complejidades del mundo real. A medida que este enfoque se refina y se aplica a una gama más amplia de tareas, tiene el potencial de transformar la forma en que vivimos y trabajamos, haciendo nuestras vidas más fáciles y eficientes.

Alex McFarland es un periodista y escritor de inteligencia artificial que explora los últimos desarrollos en inteligencia artificial. Ha colaborado con numerosas startups y publicaciones de inteligencia artificial en todo el mundo.