stub AI-forskere skaber videospilsmodel, der kan huske tidligere begivenheder - Unite.AI
Følg os

Kunstig intelligens

AI-forskere skaber videospilsmodel, der kan huske tidligere begivenheder

mm
Opdateret on

Et team af forskere ved Ubers AI-laboratorium har for nylig udviklet et system af AI-algoritmer, der overgik både menneskelige spillere og andre AI-systemer ved klassiske Atari-videospil. AI-systemet udviklet af forskerne er i stand til at huske tidligere vellykkede strategier og skabe nye strategier baseret på, hvad der virkede i fortiden. Det studiets forskerholdet mener, at de algoritmer, de udviklede, har potentielle anvendelser inden for andre tekniske områder som sprogbehandling og robotteknologi.

Den typiske metode, der bruges til at skabe AI-systemer, der er i stand til at spille videospil, er at bruge en forstærkende læringsalgoritme. Forstærkningslæringsalgoritmer lærer, hvordan man udfører en opgave ved at udforske en række mulige handlinger, og efter hver handling forsynes de med en form for forstærkning (en belønning eller straf). Over tid lærer AI-modellen, hvilke handlinger der fører til større belønninger, og det bliver mere sandsynligt at udføre disse handlinger. Desværre løber forstærkningslæringsmodeller ind i problemer, når de støder på datapunkter, der er uforenelige med andre i datasættet.

Ifølge forskerholdet er grunden til, at deres tilgang ikke var blevet overvejet af andre AI-forskere, at strategien adskiller sig fra den "intrinsic motivation"-tilgang, der typisk bruges i forstærkningslæring. Problemet med en indre motivationstilgang er, at modellen kan være tilbøjelig til at "glemme" om potentielt givende områder, der stadig fortjener udforskning. Dette fænomen omtales som "løsrivelse". Som en konsekvens, når modellen støder på uventede data, kan den glemme alt om områder, der stadig bør udforskes.

Ifølge TechXplore, satte forskerholdet sig for at skabe en læringsmodel, der var mere fleksibel og i stand til at reagere på uventede data. Forskerne overvandt dette problem ved at introducere en algoritme, der er i stand til at huske alle de handlinger, der blev foretaget af en tidligere version af modellen, da den forsøgte at løse et problem. Når AI-modellen støder på et datapunkt, der ikke er i overensstemmelse med det, den har lært indtil nu, tjekker modellen sit hukommelseskort. Modellen vil derefter identificere, hvilke strategier der lykkedes og mislykkedes, og vælge strategier passende.

Når du spiller et videospil, indsamler modellen skærmbilleder af spillet, mens det spiller, og laver en log over dets handlinger. Billederne er grupperet sammen ud fra lighed og danner klare tidspunkter, som modellen kan referere tilbage til. Algoritmen kan bruge de loggede billeder til at vende tilbage til et interessant tidspunkt og fortsætte med at udforske derfra. Når modellen finder ud af, at den taber, vil den referere tilbage til de skærmbilleder, der er taget, og prøve en anden strategi.

Som forklaret af BBC, er der også problemet med at håndtere farlige scenarier for AI-agenten, der spiller spillet. Hvis agenten løber ind i en fare, der kan dræbe den, ville det forhindre den i at vende tilbage til områder, der fortjener mere udforskning, et problem kaldet "afsporing". AI-modellen håndterer afsporingsproblemer gennem en separat proces end den, der bruges til at tilskynde til udforskning af gamle områder.

Forskerholdet fik spillet gennem 55 Atari-spil. Disse spil bruges almindeligvis til at benchmarke AI-modellers ydeevne, men forskerne tilføjede et twist til deres model. Forskerne introducerede yderligere regler til spillene, der instruerede modellen til ikke kun at opnå den højest mulige score, men at forsøge at opnå en endnu højere score hver gang. Da resultaterne af modellens ydeevne blev analyseret, fandt forskerne ud af, at deres AI-system klarede sig bedre end andre AI'er ved spillene omkring 85 % af tiden. AI'en klarede sig særligt godt i spillet Montezuma's Revenge, et platformspil, hvor spilleren undviger farer og samler skatte. Spillet slog rekorden for en menneskelig spiller og scorede også højere end noget andet AI-system har.

Ifølge Uber AI-forskerne har de strategier, som forskerholdet bruger, applikationer til industrier som robotteknologi. Robotter drager fordel af evnen til at huske, hvilke handlinger der er vellykkede, hvilke der ikke virkede, og hvilke der ikke er blevet prøvet endnu.