Robotica

Roboți capabili să învețe sarcini complicate din câteva demonstrații

Actualizat on Noiembrie 23, 2020

Într-una dintre cele mai recente evoluții în domeniul roboticii, cercetătorii de la Universitatea din California de Sud (USC) au dezvoltat un sistem în care roboții pot învăța sarcini complicate cu puține demonstrații. Și mai impresionant, unele dintre demonstrații pot fi imperfecte.

Cercetarea a fost prezentată la Conferința despre Robot Learning (CoRL) pe 18 noiembrie, intitulată „Learning from Demonstrations Using Signal Temporal Logic”.

Sistemul

Calitatea fiecărei demonstrații este măsurată astfel încât sistemul să poată învăța din succesele și eșecurile sale. Spre deosebire de metodele actuale, care necesită cel puțin 100 de demonstrații pentru a preda o anumită sarcină, noul sistem necesită doar câteva. Într-o manieră intuitivă, modul în care acești roboți învață este similar cu modul în care oamenii învață unii de la alții. De exemplu, oamenii urmăresc și învață de la alții care duc la îndeplinire sarcini cu succes sau imperfect.

Aniruddh Puranic este autorul principal al cercetării și un doctorat. student la informatică la Școala de Inginerie USC Viterbi.

„Multe sisteme de învățare automată și de învățare prin consolidare necesită cantități mari de date și sute de demonstrații – aveți nevoie de un om pentru a demonstra iar și iar, ceea ce nu este fezabil”, a spus Puranic.

„De asemenea, majoritatea oamenilor nu au cunoștințe de programare pentru a afirma în mod explicit ce trebuie să facă robotul, iar un om nu poate demonstra tot ce trebuie să știe un robot”, a continuat el. „Dar dacă robotul întâlnește ceva pe care nu a văzut până acum? Aceasta este o provocare cheie.”

Cercetătorii au folosit „logica temporală a semnalului” sau STL pentru a determina calitatea demonstrațiilor, clasându-le în consecință și creând recompense inerente.

Există două motive principale pentru care cercetătorii au decis asupra STL:

Învățând prin demonstrații, roboții pot detecta imperfecțiuni sau chiar comportamente nesigure și acțiuni nedorite.
Demonstrațiile pot diferi în calitate în funcție de utilizatorul care le oferă, iar unele demonstrații sunt indicatori mai buni ai comportamentului dorit decât altele.

Dezvoltând sistemul în acest fel, robotul poate învăța în continuare din demonstrațiile imperfecte, chiar dacă acestea nu îndeplinesc cerințele logice. Cu alte cuvinte, își face propria concluzie despre acuratețe sau succes.

Stefanos Nikolaidis este coautor și profesor asistent de informatică la USC Viterbi.

„Să presupunem că roboții învață din diferite tipuri de demonstrații – ar putea fi o demonstrație practică, videoclipuri sau simulări – dacă fac ceva care este foarte nesigur, abordările standard vor face unul din două lucruri: fie, îl vor ignora complet. , sau chiar mai rău, robotul va învăța lucrul greșit”, spune Nikolaidis.

„În contrast, într-un mod foarte inteligent, această lucrare folosește un raționament de bun-simț sub formă de logică pentru a înțelege care părți ale demonstrației sunt bune și care părți nu”, continuă el. „În esență, asta este exact ceea ce fac și oamenii.”

Logica temporală a semnalului

Roboții pot argumenta despre rezultatele actuale și viitoare prin STL, care este un limbaj simbolic matematic expresiv. Anterior STL, cercetarea se baza pe „logica temporală liniară”.

Jyo Deshmukh este un fost inginer Toyota și profesor asistent de informatică la USC.

„Atunci când intrăm în lumea sistemelor fizice cibernetice, cum ar fi roboții și mașinile care se conduc singure, unde timpul este crucial, logica temporală liniară devine puțin greoaie, deoarece raționează despre secvențe de valori adevărat/fals pentru variabile, în timp ce STL permite raționamentul despre semnale fizice”, spune Deshmukh.

Echipa de cercetători a fost surprinsă de nivelul de succes al sistemului.

„În comparație cu un algoritm de ultimă generație, fiind utilizat pe scară largă în aplicațiile de robotică, vedeți o diferență de ordin de mărime în numărul de demonstrații necesare”, spune Nikolaidis.

Potrivit cercetătorilor, sistemele ar putea învăța din simulatoare de conducere și, eventual, videoclipuri. Următorul pas este să-l testați pe roboți reali, deoarece testarea inițială a fost făcută pe un simulator de joc. Sistemul va fi util pentru aplicații precum cele din medii casnice, depozite și rover-uri de explorare spațială.

„Dacă dorim ca roboții să fie buni colegi de echipă și să ajute oamenii, mai întâi trebuie să învețe și să se adapteze la preferințele umane foarte eficient”, spune Nikolaidis. „Metoda noastră oferă asta.”

Subiecte asemănătoare:AI inteligență artificială Robotica

Urmeaza

Structurile origami duc la o rigiditate reglabilă la roboți

Nu ratați

Cercetătorii oferă IA robotică un comportament spontan

Alex McFarland

Alex McFarland este jurnalist și scriitor AI care explorează cele mai recente evoluții în inteligența artificială. A colaborat cu numeroase startup-uri și publicații AI din întreaga lume.