Connect with us

Robotikk

Dataforskere bruker positiv forsterkning for å lære roboter

mm

Dataforskere ved Johns Hopkins University har brukt den langvarige treningsmetoden positiv forsterkning, som ofte brukes til å trene dyr som hunder, på en robot så den kunne lære seg nye triks. Blant de nye ferdighetene var evnen til å stable blokker. 

Robotten heter Spot, og ifølge forskerne kan den lære ferdigheter på noen dager som tradisjonelt tar rundt en måned.

Positiv forsterkning

Positiv forsterkning ble brukt av teamet for å øke robotens ferdighetssett. Hastigheten som teamet kunne gjøre dette gjør det enklere for disse typene roboter å bli deployert i den virkelige verden.

Arbeidet ble publisert i IEEE Robotics and Automation Letters, med tittelen “Good Robot!: Efficient Reinforcement Learning for Multi-Step Visual Tasks with Sim to Real Transfer.” 

Andrew Hundt er en PhD-student som arbeider ved Johns Hopkins University og er hovedforfatter av forskningen. 

“Spørsmålet her var hvordan vi får robotten til å lære en ferdighet?” sa han. “Jeg har hatt hunder, så jeg vet at belønninger fungerer, og det var inspirasjonen for hvordan jeg designet lærealgoritmen.”

En av grunnene til at positiv forsterkning fungerer på datamaskiner er at de ikke har intuitive hjerner, noe som betyr at de i praksis er en blank canvas hvor alt kan projiseres på. Med andre ord må de lære alt fra ingenting. En av de mest effektive metoder for læring for datamaskiner er prøving og feiling, noe som er noe robotikk-forskere fortsatt arbeider med i dag.

Dette er nettopp hva forskerne gjorde da de lagde et belønningssystem for robotten, likt prosessen med å trene en hund ved å gi den godbidder. Forskjellen er at robotten mottar numeriske poeng når den fullfører en oppgave korrekt. 

https://www.youtube.com/watch?v=dvxqjJBWFD4

Ferdigheter lært

Når det kom til å lære hvordan man stable blokker, måtte robotten lære å fokusere på konstruktive handlinger. I metoden mottok Spot-robotten høyere poeng når den fullførte korrekte atferd under stableingen av blokkene. På den motsatte siden, mottok den ingenting for ukorrekte atferd. Den mottok det høyeste antallet poeng ved å fullføre en fire-blokk-stable med den siste blokken på toppen.

Forskerne så stor suksess i denne metoden, med robotten som lærte på noen dager hva som ellers ville ha tatt uker. Ved å trene en simulerings-robot, reduserte teamet trenings­tiden før de gikk over til Spot-robotten.

“Robotten ønsker den høyeste poengsummen,” sa Hundt. “Den lærer raskt den riktige atferden for å få den beste belønningen. Faktisk tok det en måned med trening for robotten å oppnå 100% nøyaktighet. Vi kunne gjøre det på to dager.” 

Foruten å lære hvordan man stable blokker, brukte robotten også positiv forsterkning til å lære andre oppgaver, som å spille et simulerings-navigasjonsspill. 

“Til å begynne med har robotten ingen aning om hva den gjør, men den blir bedre og bedre med hver øvelse. Den gir aldri opp og fortsetter å prøve å stable og kan fullføre oppgaven 100% av tiden,” sa Hundt.

Noen av de mulige anvendelsene for denne metoden inkluderer å trene hus-roboter til å fullføre bestemte oppgaver, samt å forbedre autonome kjøretøy.

“Vårt mål er å til slutt utvikle roboter som kan utføre komplekse oppgaver i den virkelige verden — som produkt-sammenstilling, omsorg for eldre og kirurgi,” sa Hager. “Vi vet ikke hvordan vi skal programmere oppgaver som disse — verden er for kompleks. Men arbeid som dette viser oss at det er en mulighet til at roboter kan lære å utføre slike virkelige oppgaver på en trygg og effektiv måte.

Alex McFarland er en AI-journalist og forfatter som utforsker de nyeste utviklingene innen kunstig intelligens. Han har samarbeidet med tallrike AI-startups og publikasjoner verden over.