Kunstig intelligens

DeepMind og Google Brain sikter på å utvikle metoder for å forbedre effektiviteten til forsterkingslæring

mm

Forsterkingslæringssystemer kan være kraftfulle og robuste, i stand til å utføre ekstremt komplekse oppgaver gjennom tusenvis av iterasjoner av trening. Mens forsterkingslæring salgoritmer er i stand til å aktivere sofistikert og av og til overraskende atferd, tar de lang tid å trene og krever store mengder data. Disse faktorene gjør forsterkingslæringsteknikker ganske ineffektive, og nylig har forskningsteam fra Alphabet DeepMind og Google Brain forsøkt å finne mer effektive metoder for å lage forsterkingslæringssystemer.

Ifølge VentureBeat, foreslo det kombinerte forskningsteamet nylig metoder for å gjøre forsterkingslæringstrenings mer effektivt. En av de foreslåtte forbedringene var en algoritme kalt Adaptive Behavior Policy Sharing (ABPS), mens den andre var et rammeverk kalt Universal Value Function Approximators (UVFA). ABPS lar grupper av AI-agenter dele deres adaptivt valgte erfaringer, mens UVFA lar disse AI-agenter samtidig undersøke rettet utforskningspolitikk.

ABPS er ment å påskynde tilpassingen av hyperparametere når man trener en modell. ABPS gjør det raskere å finne de optimale hyperparameterne ved å la flere forskjellige agenter med forskjellige hyperparametere dele deres atferdspolitikkerfaringer. For å være mer presis, lar ABPS forsterkingslæringagenter velge handlinger fra handlinger som en politikk har bedømt som okay, og deretter blir det tildelt en belønning og observasjon basert på den påfølgende tilstanden.

AI-forsterkingsagenter trenes med forskjellige kombinasjoner av mulige hyperparametere, som nedbrytningshastighet og læringshastighet. Når man trener en modell, er målet at modellen konvergerer mot kombinasjonen av hyperparametere som gir den beste ytelsen, og i dette tilfelle også forbedrer dataeffektiviteten. Effektiviteten økes ved å trene mange agenter samtidig og velge atferden til bare en agent som skal deployeres under den neste tidssteget. Politikken som målagenten har, brukes til å prøve handlinger. Overgangene logges inn i et delt rom, og dette rommet vurderes konstant, så politikkvalg ikke behøver å skje like ofte. Ved slutten av treningen, velges en ensemble av agenter og de beste agentene velges for å gjennomføre endelig deployering.

I forhold til UVFA, forsøker det å håndtere ett av de vanlige problemene med forsterkingslæring, at svakt forsterkede agenter ofte ikke lærer oppgaver. UVFA forsøker å løse problemet ved å la agenten lære en separat sett av utnyttings- og utforskningspolitikker samtidig. Å skille oppgavene skaper et rammeverk som lar utforskningspolitikkene fortsette å utforske miljøet, mens utnyttingspolitikkene fortsetter å prøve å maksimere belønningen for den nåværende oppgaven. Utforskningspolitikkene til UVFA tjener som en basisarkitektur som vil fortsette å forbedre, selv om det ikke finnes naturlige belønninger som blir funnet. I en slik tilstand, approksimeres en funksjon som tilsvarer intrinsiske belønninger, som driver agentene til å utforske alle tilstander i en miljø, selv om de ofte returnerer til kjente tilstander.

Ifølge VentureBeat, når UVFA-rammeverket er i spill, blir de intrinsiske belønningene i systemet gitt direkte til agenten som inndata. Agenten holder deretter spor av en representasjon av alle inndata (slik som belønninger, handlinger og tilstand) under en gitt episode. Resultatet er at belønningen bevares over tid, og agentens politikk er i alle fall delvis informert av den hele tiden.

Dette oppnås med hjelp av en “episodisk nysgjerrighet” og en “livslang nysgjerrighet”-modul. Funksjonen til den første modulen er å holde den nåværende, episodiske minnet og kartlegge de nåværende funnene til den ovennevnte representasjonen, som lar agenten bestemme en intrinsisk episodisk belønning for hver trinn i treningen. Deretter legges tilstanden som er knyttet til den nåværende observasjonen, til minnet. Mens livslang nysgjerrighet-modulen er ansvarlig for å påvirke hvor ofte agenten utforsker over mange episoder.

Ifølge Alphabet/Google-teamene, har de nye treningsmetodene allerede vist potensialet for betydelig forbedring under trening av et forsterkingslæringssystem. UVFA var i stand til å doble ytelsen av noen av de grunnleggende agentene som spilte forskjellige Atari-spill. Mens ABPS var i stand til å øke ytelsen på noen av de samme Atari-spillene, og reduserte variasjonen blant de beste agentene med omtrent 25%. UVFA-trent algoritmen var i stand til å oppnå høye poeng i Pitfall på egen hånd, uten noen konstruerte funksjoner av menneskelige demonstrasjoner.

Blogger og programmerer med spesialområder i Machine Learning og Deep Learning emner. Daniel håper å hjelpe andre med å bruke kraften av AI for sosialt godt.