stub AI-forskere lager videospillmodell som kan huske tidligere hendelser - Unite.AI
Kontakt med oss

Kunstig intelligens

AI-forskere lager videospillmodeller som kan huske tidligere hendelser

mm
oppdatert on

Et team av forskere ved Ubers AI-lab har nylig utviklet et system av AI-algoritmer som overgikk både menneskelige spillere og andre AI-systemer i klassiske Atari-videospill. AI-systemet utviklet av forskerne er i stand til å huske tidligere vellykkede strategier, lage nye strategier basert på det som fungerte tidligere. De studiets forskerteamet mener at algoritmene de utviklet har potensielle anvendelser innen andre tekniske felt som språkbehandling og robotikk.

Den typiske metoden som brukes for å lage AI-systemer som er i stand til å spille videospill, er å bruke en forsterkende læringsalgoritme. Forsterkningslæringsalgoritmer lærer hvordan man utfører en oppgave ved å utforske en rekke mulige handlinger, og etter hver handling blir de utstyrt med en type forsterkning (en belønning eller straff). Over tid lærer AI-modellen hvilke handlinger som fører til større belønninger, og det blir mer sannsynlig å utføre disse handlingene. Dessverre får forsterkende læringsmodeller problemer når de møter datapunkter som ikke stemmer overens med andre i datasettet.

I følge forskerteamet er grunnen til at tilnærmingen deres ikke har blitt vurdert av andre AI-forskere, at strategien skiller seg fra tilnærmingen "indre motivasjon" som vanligvis brukes i forsterkende læring. Problemet med en tilnærming til indre motivasjon er at modellen kan være tilbøyelig til å "glemme" potensielt givende områder som fortsatt fortjener utforskning. Dette fenomenet omtales som "løsrivelse". Som en konsekvens, når modellen møter uventede data, kan den glemme områder som fortsatt bør utforskes.

Ifølge TechXplore, forsøkte forskerteamet å lage en læringsmodell som var mer fleksibel og i stand til å svare på uventede data. Forskerne overvant dette problemet ved å introdusere en algoritme som er i stand til å huske alle handlingene som ble utført av en tidligere versjon av modellen da den prøvde å løse et problem. Når AI-modellen møter et datapunkt som ikke er i samsvar med det den har lært så langt, sjekker modellen minnekartet. Modellen vil deretter identifisere hvilke strategier som lyktes og mislyktes og velge strategier på riktig måte.

Når du spiller et videospill, samler modellen inn skjermbilder av spillet mens den spiller, og lager en logg over handlingene. Bildene er gruppert sammen basert på likhet, og danner klare punkter i tid som modellen kan referere tilbake til. Algoritmen kan bruke de loggede bildene til å gå tilbake til et interessant tidspunkt og fortsette å utforske derfra. Når modellen finner ut at den taper, vil den referere tilbake til skjermbildene som er tatt og prøve en annen strategi.

Som forklart av BBC, er det også problemet med å håndtere farlige scenarier for AI-agenten som spiller spillet. Hvis agenten støter på en fare som kan drepe den, vil det hindre den i å returnere til områder som fortjener mer utforskning, et problem som kalles "avsporing". AI-modellen håndterer avsporingsproblemer gjennom en egen prosess enn den som brukes for å oppmuntre til utforskning av gamle områder.

Forskerteamet fikk modusen til å spille gjennom 55 Atari-spill. Disse spillene brukes ofte til å måle ytelsen til AI-modeller, men forskerne la til en vri på modellen deres. Forskerne introduserte tilleggsregler for spillene, og instruerte modellen til ikke bare å oppnå høyest mulig poengsum, men å prøve å oppnå enda høyere poengsum hver gang. Da resultatene av modellens ytelse ble analysert, fant forskerne at AI-systemet deres overgikk andre AI-er ved spillene rundt 85 % av tiden. AI presterte spesielt godt i spillet Montezuma's Revenge, et plattformspill der spilleren unngår farer og samler skatter. Spillet slo rekorden for en menneskelig spiller og scoret også høyere enn noe annet AI-system har.

Ifølge Uber AI-forskerne har strategiene som brukes av forskerteamet applikasjoner for industrier som robotikk. Roboter drar nytte av muligheten til å huske hvilke handlinger som er vellykkede, hvilke som ikke fungerte, og hvilke som ikke er prøvd ennå.