Connect with us

Kunstig intelligens

AI-forskere utvikler videospill-spillende modell som kan huske tidligere hendelser

mm

Et team av forskere ved Uber’s AI-laboratorium har nylig utviklet et system av AI-algoritmer som overgikk både menneskelige spillere og andre AI-systemer i klassiske Atari-videospill. AI-systemet utviklet av forskerne er i stand til å huske tidligere suksessfulle strategier og å utvikle nye strategier basert på hva som fungerte tidligere. Studie-teamet tror at algoritmene de har utviklet har potensielle anvendelser i andre tekniske fag som språkbehandling og robotikk.

Den typiske metoden som brukes for å utvikle AI-systemer som kan spille videospill er å bruke en forsterkingslæring-algoritme. Forsterkingslæring-algoritmer lærer å utføre en oppgave ved å utforske en rekke mulige handlinger, og etter hver handling, får de en type forsterkning (en belønning eller straff). Over tid lærer AI-modellen hvilke handlinger som fører til større belønninger, og den blir mer sannsynlig å utføre disse handlingene. Dessverre møter forsterkingslæring-modellene problemer når de møter data-punkter som ikke er i overensstemmelse med andre i datasettet.

Ifølge forskningsteamet er grunnen til at deres tilnærming ikke hadde blitt vurdert av andre AI-forskere at strategien avviker fra den “innbygde motivasjon”-tilnærmingen som vanligvis brukes i forsterkingslæring. Problemet med en innbygd motivasjon-tilnærming er at modellen kan være utsatt for “glemsel” om potensielt belønnende områder som fortsatt fortjener utforskning. Dette fenomenet kalles “frakobling”. Som en konsekvens kan modellen glemme områder som fortsatt bør utforskes når den møter uventede data.

Ifølge TechXplore satte forskningsteamet ut å utvikle en læremodell som var mer fleksibel og i stand til å reagere på uventede data. Forskerne overvant dette problemet ved å innføre en algoritme som kunne huske alle handlinger utført av en tidligere versjon av modellen når den prøvde å løse et problem. Når AI-modellen møter et datapunkt som ikke er i overensstemmelse med hva den har lært så langt, sjekker modellen sin minnekart. Modellen vil deretter identifisere hvilke strategier som lyktes og mislyktes og velge strategier etter hensikten.

Når man spiller et videospill, samler modellen skjermbilder av spillet mens det spilles, og lager en logg over handlingene. Bildene grupperes sammen basert på likhet, og danner klare punkter i tid som modellen kan vise tilbake til. Algoritmen kan bruke de loggete bildene til å vende tilbake til et interessant punkt i tid og fortsette å utforske derfra. Når modellen finner ut at den taper, vil den vise tilbake til skjermbildene tatt og prøve en annen strategi.

Som forklart av BBC, er det også problemet med å håndtere farlige scenarier for AI-agenten som spiller spillet. Hvis agenten møter en fare som kan drepe den, ville det forhindre den fra å vende tilbake til områder som fortjener mer utforskning, et problem som kalles “avsporing”. AI-modellen håndterer avsporing-problemer gjennom en separat prosess fra den som brukes til å oppmuntre til utforskning av gamle områder.

Forskingsteamet hadde modellen spille gjennom 55 Atari-spill. Disse spillene brukes vanligvis til å benchmarkere ytelsen til AI-modeller, men forskerne la til en vri for deres modell. Forskerne innførte ekstra regler til spillene, og instruerte modellen til ikke bare å oppnå det høyeste poengsummen mulig, men også å prøve å oppnå en enda høyere poengsum hver gang. Når resultater fra modellens ytelse ble analysert, fant forskerne ut at deres AI-system overgikk andre AI-systemer i spillene rundt 85% av tiden. AI-en utførte spesielt godt i spillet Montezuma’s Revenge, et plattformspill hvor spilleren unngår farer og samler skatter. Spillet slo rekorden for en menneskelig spiller og også scoret høyere enn noen annen AI-system har.

Ifølge Uber AI-forskerne har strategiene brukt av forskningsteamet anvendelser for industrier som robotikk. Robotter har nytte av evnen til å huske hvilke handlinger som er suksessfulle, hvilke som ikke fungerte, og hvilke som ikke har blitt prøvd ennå.

Blogger og programmerer med spesialområder i Machine Learning og Deep Learning emner. Daniel håper å hjelpe andre med å bruke kraften av AI for sosialt godt.