Connect with us

Kunstig intelligens

DeepMind Rapporterer Ny Metode For Å Trene Forsterkingslæring AI Trygt

mm

Forsterkingslæring er en lovende vei for AI-utvikling, som produserer AI som kan håndtere ekstremt komplekse oppgaver. Forsterkingslæring algoritmer brukes i skapelsen av mobile robotikk systemer og selvkjørende biler blant andre anvendelser. Imidlertid, på grunn av måten forsterkingslæring er trenet, kan de noen ganger manifestere merkelige og uventede atferder. Disse atferdene kan være farlige, og AI-forskere refererer til dette problemet som “sikker utforsking” problemet, som er der AI blir fast i utforskingen av usikre tilstander.

Nylig ga Google’s AI-forskningslaboratorium DeepMind ut en rapport som foreslo nye metoder for å håndtere sikker utforsking problemet og trene forsterkingslæring AI på en tryggere måte. Metoden foreslått av DeepMind korrigerte også for belønning hacking eller løp i belønningskriteriene.

DeepMinds nye metode har to forskjellige systemer ment å guide atferden til AI i situasjoner hvor usikker atferd kunne oppstå. De to systemene brukt av DeepMinds treningsmetode er en generativ modell og en fremover dynamisk modell. Begge disse modellene er trenet på en rekke data, som demonstrasjoner av sikkerhetseksperten og helt tilfeldige kjøretøysbevegelser. Dataene er merket av en overordnet med spesifikke belønningsverdier, og AI-agenten vil plukke opp mønster av atferd som vil enable det å samle den største belønningen. De usikre tilstandene er også merket, og når modellen har klart å forutsi belønninger og usikre tilstander, er den deployert for å utføre målrettede handlinger.

Forskningsgruppen forklarer i rapporten at ideen er å skape mulige atferder fra scratch, å foreslå ønskede atferder, og å ha disse hypotetiske scenariene være så informativt som mulig samtidig som de unngår direkte interferens med læringsmiljøet. DeepMind-teamet refererer til denne tilnærmingen som ReQueST, eller belønningsspørsmål syntese via trajektorioptimisering.

ReQueST er i stand til å føre til fire forskjellige typer atferd. Den første typen atferd prøver å maksimere usikkerhet med hensyn til ensemble belønningsmodeller. Mens atferd to og tre forsøker å både minimere og maksimere forutsatte belønninger. Forutsatte belønninger blir minimert for å føre til oppdagelsen av atferder som modellen kan være feilaktig forutsatt. På den andre siden, forutsatt belønning maksimeres for å føre til atferdsetiketter som besitter den høyeste informasjonsverdien. Til slutt, den fjerde typen atferd prøver å maksimere nyskapningen av trajektorier, så modellen kan fortsette å utforske uavhengig av belønningene prosjektert.

Når modellen har nådd det ønskede nivået av belønningssamling, brukes en planleggingsagent til å gjøre beslutninger basert på lært belønninger. Denne modell-prediktive kontrollskjema lar agenter lære å unngå usikre tilstander ved å bruke den dynamiske modellen og forutsie mulige konsekvenser, i motsetning til atferden til algoritmer som lærer gjennom ren prøving og feil.

Som rapportert av VentureBeat, tror DeepMind-forskerne at deres prosjekt er det første forsterkingslæringssystemet som er i stand til å lære på en kontrollert, trygg måte:

“Til vår kunnskap, er ReQueST det første belønning modellering algoritmen som trygt lærer om usikre tilstander og skalerer til å trene neurale nettverksbelønninger modeller i miljøer med høydimensjonale, kontinuerlige tilstander. Så langt, har vi bare demonstrert effektiviteten til ReQueST i simuleringsdomener med relativt enkle dynamikker. En retning for fremtidig arbeid er å teste ReQueST i 3D-domener med mer realistiske fysikk og andre agenter som handler i miljøet.”

Blogger og programmerer med spesialområder i Machine Learning og Deep Learning emner. Daniel håper å hjelpe andre med å bruke kraften av AI for sosialt godt.