taló Robots capaços d'aprendre tasques complicades a partir de poques demostracions - Unite.AI
Connecteu-vos amb nosaltres

Robòtica

Robots capaços d'aprendre tasques complicades a partir de poques demostracions

actualitzat on

En un dels últims desenvolupaments en el camp de la robòtica, investigadors de la Universitat del Sud de Califòrnia (USC) han desenvolupat un sistema on els robots poden aprendre tasques complicades amb poques demostracions. Encara més impressionant, algunes de les demostracions poden ser imperfectes.

La investigació es va presentar a la Conference on Robot Learning (CoRL) el 18 de novembre, titulada "Learning from Demonstrations Using Signal Temporal Logic".

El sistema

La qualitat de cada demostració es mesura perquè el sistema pugui aprendre dels seus èxits i fracassos. A diferència dels mètodes actuals, que requereixen almenys 100 demostracions per ensenyar una tasca específica, el nou sistema en requereix només unes quantes. D'una manera intuïtiva, la manera com aquests robots aprenen és similar a la manera com els humans aprenen els uns dels altres. Per exemple, els humans observen i aprenen dels altres fent tasques amb èxit o de manera imperfecta.

Aniruddh Puranic és l'autor principal de la investigació i un doctorat. estudiant d'informàtica a la Facultat d'Enginyeria de Viterbi de la USC.

"Molts sistemes d'aprenentatge automàtic i de reforç requereixen grans quantitats de dades i centenars de demostracions; necessiteu un humà per demostrar una i altra vegada, cosa que no és factible", va dir Puranic.

"A més, la majoria de la gent no té coneixements de programació per indicar explícitament què ha de fer el robot, i un humà no pot demostrar tot el que un robot necessita saber", va continuar. "Què passa si el robot es troba amb alguna cosa que no ha vist abans? Aquest és un repte clau".

Els investigadors van utilitzar la "lògica temporal del senyal" o STL per determinar la qualitat de les demostracions, classificant-les en conseqüència i creant recompenses inherents.

Hi ha dos motius principals pels quals els investigadors van decidir STL:

  1. Mitjançant l'aprenentatge mitjançant demostracions, els robots poden detectar imperfeccions o fins i tot comportaments insegurs i accions indesitjables.
  2. Les demostracions poden variar en qualitat segons l'usuari que les proporcioni, i algunes demostracions són millors indicadors del comportament desitjat que d'altres.

En desenvolupar el sistema d'aquesta manera, el robot encara pot aprendre de les demostracions imperfectes, fins i tot si no compleixen els requisits lògics. En altres paraules, fa la seva pròpia conclusió sobre la precisió o l'èxit.

Stefanos Nikolaidis és coautor i professor ajudant d'informàtica de la USC Viterbi.

"Diguem que els robots aprenen de diferents tipus de demostracions (podria ser una demostració pràctica, vídeos o simulacions), si faig alguna cosa que és molt insegur, els enfocaments estàndard faran una d'aquestes dues coses: o bé, ho ignoraran completament. , o encara pitjor, el robot aprendrà allò equivocat", diu Nikolaidis.

"En canvi, d'una manera molt intel·ligent, aquest treball utilitza alguns raonaments de sentit comú en forma de lògica per entendre quines parts de la demostració són bones i quines parts no", continua. "En essència, això és exactament el que també fem els humans".

Lògica temporal del senyal

Els robots poden raonar sobre els resultats actuals i futurs mitjançant STL, que és un llenguatge simbòlic matemàtic expressiu. Abans de STL, la investigació es basava en la "lògica temporal lineal".

Jyo Deshmukh és un antic enginyer de Toyota i professor ajudant d'informàtica a la USC.

"Quan entrem al món dels sistemes físics cibernètics, com els robots i els cotxes de conducció autònoma, on el temps és crucial, la lògica temporal lineal es torna una mica feixuga, perquè raona sobre seqüències de valors vertader/fals per a variables, mentre que STL permet raonar sobre senyals físics", diu Deshmukh.

L'equip d'investigadors es va sorprendre pel nivell d'èxit del sistema.

"En comparació amb un algorisme d'última generació, que s'utilitza àmpliament en aplicacions de robòtica, es veu una diferència d'ordre de magnitud en quantes demostracions es necessiten", diu Nikolaidis.

Segons els investigadors, els sistemes podrien aprendre de simuladors de conducció i, eventualment, de vídeos. El següent pas és provar-lo en robots reals, ja que la prova inicial es va fer en un simulador de jocs. El sistema serà útil per a aplicacions com les d'entorns domèstics, magatzems i rovers d'exploració espacial.

"Si volem que els robots siguin bons companys d'equip i ajudin la gent, primer han d'aprendre i adaptar-se a les preferències humanes de manera molt eficient", diu Nikolaidis. "El nostre mètode ho proporciona".

Alex McFarland és un periodista i escriptor d'IA que explora els últims desenvolupaments en intel·ligència artificial. Ha col·laborat amb nombroses startups i publicacions d'IA a tot el món.