stub Roboter i stand til å lære kompliserte oppgaver fra få demonstrasjoner - Unite.AI
Kontakt med oss

Robotics

Roboter i stand til å lære kompliserte oppgaver fra få demonstrasjoner

oppdatert on

I en av de siste utviklingene innen robotikk har forskere ved University of Southern California (USC) utviklet et system der roboter kan lære kompliserte oppgaver med få demonstrasjoner. Enda mer imponerende, noen av demonstrasjonene kan være ufullkomne.

Forskningen ble presentert på Conference on Robot Learning (CoRL) 18. november, med tittelen "Learning from Demonstrations Using Signal Temporal Logic."

Systemet

Kvaliteten på hver demonstrasjon måles slik at systemet kan lære av suksesser og fiaskoer. I motsetning til dagens metoder, som krever minst 100 demonstrasjoner for å lære en spesifikk oppgave, krever det nye systemet bare noen få. På en intuitiv måte ligner måten disse robotene lærer på måten mennesker lærer av hverandre. For eksempel ser mennesker på og lærer av andre som fullfører oppgaver vellykket eller ufullkomment.

Aniruddh Puranic er hovedforfatter av forskningen og en Ph.D. student i informatikk ved USC Viterbi School of Engineering.

"Mange maskinlærings- og forsterkende læringssystemer krever store mengder data og hundrevis av demonstrasjoner - du trenger et menneske til å demonstrere om og om igjen, noe som ikke er gjennomførbart," sa Puranic.

"De fleste mennesker har heller ikke programmeringskunnskap for å eksplisitt si hva roboten trenger å gjøre, og et menneske kan umulig demonstrere alt som en robot trenger å vite," fortsatte han. «Hva om roboten møter noe den ikke har sett før? Dette er en sentral utfordring.»

Forskerne brukte "signal temporal logic" eller STL for å bestemme kvaliteten på demonstrasjonene, rangerte dem deretter og skape iboende belønninger.

Det er to hovedgrunner til at forskerne bestemte seg for STL:

  1. Ved å lære gjennom demonstrasjoner kan roboter fange opp ufullkommenheter eller til og med usikker oppførsel og uønskede handlinger.
  2. Demonstrasjoner kan variere i kvalitet avhengig av brukeren som gir dem, og noen demonstrasjoner er bedre indikatorer på ønsket atferd enn andre.

Ved å utvikle systemet på denne måten kan roboten fortsatt lære av de ufullkomne demonstrasjonene, selv om de ikke oppfyller logiske krav. Med andre ord, den gjør sin egen konklusjon om nøyaktighet eller suksess.

Stefanos Nikolaidis er medforfatter og assisterende professor i informatikk ved USC Viterbi.

«La oss si at roboter lærer av forskjellige typer demonstrasjoner – det kan være en praktisk demonstrasjon, videoer eller simuleringer – hvis jeg gjør noe som er veldig usikkert, vil standardtilnærminger gjøre én av to ting: enten vil de se bort fra det fullstendig. , eller enda verre, roboten vil lære feil ting, sier Nikolaidis.

"Derimot, på en veldig intelligent måte, bruker dette arbeidet noen sunn fornuft resonnement i form av logikk for å forstå hvilke deler av demonstrasjonen som er bra og hvilke deler som ikke er det," fortsetter han. "I hovedsak er dette nøyaktig hva også mennesker gjør."

Signal Temporal Logic

Roboter kan resonnere om nåværende og fremtidige utfall gjennom STL, som er et uttrykksfullt matematisk symbolspråk. Tidligere til STL, baserte forskning seg på "lineær tidslogikk."

Jyo Deshmukh er en tidligere Toyota-ingeniør og assisterende professor i informatikk ved USC.

"Når vi går inn i en verden av cyberfysiske systemer, som roboter og selvkjørende biler, der tid er avgjørende, blir lineær tidslogikk litt tungvint, fordi den resonnerer om sekvenser av sanne/falske verdier for variabler, mens STL tillater resonnement om fysiske signaler, sier Deshmukh.

Forskerteamet ble overrasket over systemets suksessnivå.

"Sammenlignet med en state-of-the-art algoritme, som brukes mye i robotapplikasjoner, ser du en størrelsesordensforskjell i hvor mange demonstrasjoner som kreves," sier Nikolaidis.

Ifølge forskerne kan systemene lære av kjøresimulatorer og etter hvert videoer. Det neste trinnet er å teste det på ekte roboter, ettersom den første testingen ble gjort på en spillsimulator. Systemet vil være nyttig for applikasjoner som for eksempel i husholdningsmiljøer, varehus og romfartsrovere.

"Hvis vi vil at roboter skal være gode lagkamerater og hjelpe mennesker, må de først lære og tilpasse seg menneskelige preferanser veldig effektivt," sier Nikolaidis. "Vår metode gir det."

Alex McFarland er en AI-journalist og skribent som utforsker den siste utviklingen innen kunstig intelligens. Han har samarbeidet med en rekke AI-startups og publikasjoner over hele verden.