talón Robots capaces de aprender tareas complicadas a partir de pocas demostraciones - Unite.AI
Contáctanos

Robótica

Robots capaces de aprender tareas complicadas a partir de pocas demostraciones

Actualizado on

En uno de los últimos avances en el campo de la robótica, investigadores de la Universidad del Sur de California (USC) han desarrollado un sistema en el que los robots pueden aprender tareas complicadas con pocas demostraciones. Aún más impresionante, algunas de las demostraciones pueden ser imperfectas.

La investigación se presentó en la Conferencia sobre Aprendizaje de Robots (CoRL) el 18 de noviembre, titulada "Aprendizaje de demostraciones usando lógica temporal de señales".

El Sistema

La calidad de cada demostración se mide para que el sistema pueda aprender de sus éxitos y fracasos. A diferencia de los métodos actuales, que requieren al menos 100 demostraciones para enseñar una tarea específica, el nuevo sistema requiere solo unas pocas. De manera intuitiva, la forma en que estos robots aprenden es similar a la forma en que los humanos aprenden unos de otros. Por ejemplo, los humanos observan y aprenden de otros que completan tareas con éxito o de manera imperfecta.

Aniruddh Puranic es el autor principal de la investigación y un Ph.D. estudiante de informática en la USC Viterbi School of Engineering.

"Muchos sistemas de aprendizaje automático y aprendizaje por refuerzo requieren grandes cantidades de datos y cientos de demostraciones; se necesita un humano para demostrar una y otra vez, lo cual no es factible", dijo Puranic.

“Además, la mayoría de las personas no tienen conocimientos de programación para indicar explícitamente lo que debe hacer el robot, y un ser humano no puede demostrar todo lo que un robot necesita saber”, continuó. “¿Qué pasa si el robot encuentra algo que no ha visto antes? Este es un desafío clave”.

Los investigadores utilizaron la "lógica temporal de señales" o STL para determinar la calidad de las demostraciones, clasificándolas en consecuencia y creando recompensas inherentes.

Hay dos razones principales por las que los investigadores se decidieron por STL:

  1. Al aprender a través de demostraciones, los robots pueden detectar imperfecciones o incluso comportamientos inseguros y acciones indeseables.
  2. Las demostraciones pueden diferir en calidad según el usuario que las proporcione, y algunas demostraciones son mejores indicadores del comportamiento deseado que otras.

Al desarrollar el sistema de esta manera, el robot aún puede aprender de las demostraciones imperfectas, incluso si no cumplen con los requisitos lógicos. En otras palabras, llega a su propia conclusión sobre la precisión o el éxito.

Stefanos Nikolaidis es coautor y profesor asistente de informática de USC Viterbi.

“Digamos que los robots aprenden de diferentes tipos de demostraciones, podría ser una demostración práctica, videos o simulaciones, si hago algo que es muy inseguro, los enfoques estándar harán una de dos cosas: o lo ignorarán por completo. , o peor aún, el robot aprenderá algo incorrecto”, dice Nikolaidis.

“En contraste, de una manera muy inteligente, este trabajo utiliza un razonamiento de sentido común en forma de lógica para comprender qué partes de la demostración son buenas y cuáles no”, continúa. “En esencia, esto es exactamente lo que también hacen los humanos”.

Señal Lógica Temporal

Los robots pueden razonar sobre los resultados actuales y futuros a través de STL, que es un lenguaje simbólico matemático expresivo. Antes de STL, la investigación se basaba en la "lógica temporal lineal".

Jyo Deshmukh es un ex ingeniero de Toyota y profesor asistente de informática en la USC.

“Cuando nos adentramos en el mundo de los sistemas físicos cibernéticos, como los robots y los automóviles autónomos, donde el tiempo es crucial, la lógica temporal lineal se vuelve un poco engorrosa, porque razona sobre secuencias de valores verdadero/falso para las variables, mientras que STL permite razonar sobre señales físicas”, dice Deshmukh.

El equipo de investigadores quedó sorprendido por el nivel de éxito del sistema.

“En comparación con un algoritmo de última generación, que se usa ampliamente en aplicaciones de robótica, se ve una diferencia de orden de magnitud en la cantidad de demostraciones que se requieren”, dice Nikolaidis.

Según los investigadores, los sistemas podrían aprender de los simuladores de conducción y, eventualmente, de los videos. El siguiente paso es probarlo en robots reales, ya que la prueba inicial se realizó en un simulador de juego. El sistema será útil para aplicaciones como las de entornos domésticos, almacenes y vehículos de exploración espacial.

“Si queremos que los robots sean buenos compañeros de equipo y ayuden a las personas, primero deben aprender y adaptarse a las preferencias humanas de manera muy eficiente”, dice Nikolaidis. “Nuestro método proporciona eso”.

Alex McFarland es un periodista y escritor sobre inteligencia artificial que explora los últimos avances en inteligencia artificial. Ha colaborado con numerosas empresas emergentes y publicaciones de IA en todo el mundo.