Artificiell intelligens

AI-forskare skapar modell för spel av videospel som kan komma ihåg tidigare händelser

Published February 27, 2021

Updated April 28, 2026

Daniel Nelson

Ett team av forskare på Ubers AI-laboratorium har nyligen utvecklat ett system av AI-algoritmer som presterade bättre än både mänskliga spelare och andra AI-system i klassiska Atari-videospel. Det AI-system som forskarna utvecklat är kapabelt att komma ihåg tidigare lyckosamma strategier och skapa nya strategier baserat på vad som fungerade i det förflutna. Studiens forskningsteam tror att de algoritmer de utvecklat har potential till tillämpningar i andra tekniska fält som språkbehandling och robotik.

Den typiska metoden som används för att skapa AI-system som kan spela videospel är att använda en förstärkningsinlärningsalgoritm. Förstärkningsinlärningsalgoritmer lär sig att utföra en uppgift genom att utforska ett område av möjliga åtgärder, och efter varje åtgärd, får de en typ av förstärkning (en belöning eller bestraffning). Över tiden lär sig AI-modellen vilka åtgärder som leder till större belöningar, och den blir mer benägen att utföra dessa åtgärder. Tyvärr stöter förstärkningsinlärningsmodeller på problem när de möter datapunkter som inte är förenliga med andra i datamängden.

Enligt forskningsteamet är anledningen till att deras tillvägagångssätt inte hade övervägts av andra AI-forskare att strategin skiljer sig från den “inre motivationen” som vanligtvis används i förstärkningsinlärning. Problemet med en inre motivationsansats är att modellen kan vara benägen att “glömma” om potentiellt belönande områden som fortfarande förtjänar att utforskas. Detta fenomen kallas “frånkoppling”. Som en följd kan modellen, när den möter oväntade data, glömma bort områden som fortfarande bör utforskas.

Enligt TechXplore satte forskningsteamet ut att skapa en inlärningsmodell som var mer flexibel och kunde svara på oväntade data. Forskarna övervann detta problem genom att införa en algoritm som kunde komma ihåg alla åtgärder som en tidigare version av modellen hade vidtagit när den försökte lösa ett problem. När AI-modellen möter en datapunkt som inte är förenlig med vad den har lärt sig hittills, kontrollerar modellen sin minneskarta. Modellen kommer sedan att identifiera vilka strategier som lyckades och misslyckades och välja strategier på lämpligt sätt.

När modellen spelar ett videospel, samlar den in skärmdumpar av spelet medan den spelar, och skapar en logg över sina åtgärder. Bilderna grupperas tillsammans baserat på likhet, och bildar tydliga punkter i tiden som modellen kan hänvisa till. Algoritmen kan använda de loggade bilderna för att återvända till en intressant punkt i tiden och fortsätta utforska från där. När modellen upptäcker att den förlorar, kommer den att hänvisa tillbaka till skärmdumparna som togs och försöka en annan strategi.

Som förklarats av BBC, finns det också problemet med att hantera farliga scenarier för den AI-agent som spelar spelet. Om agenten springer in i en fara som kan döda den, skulle det förhindra den från att återvända till områden som förtjänar mer utforskning, ett problem som kallas “urkoppling”. AI-modellen hanterar urkopplingsproblem genom en separat process från den som används för att uppmuntra utforskning av gamla områden.

Forskningsteamet lät modellen spela igenom 55 Atari-spel. Dessa spel används vanligtvis för att benchmarka prestandan hos AI-modeller, men forskarna lade till en twist för sin modell. Forskarna införde ytterligare regler för spelen, och instruerade modellen att inte bara uppnå den högsta poängen möjligt, utan också att försöka uppnå en ännu högre poäng varje gång. När resultaten av modellens prestanda analyserades, fann forskarna att deras AI-system presterade bättre än andra AI-system i spelen omkring 85% av tiden. AI-modellen presterade särskilt bra i spelet Montezuma’s Revenge, ett plattformsspel där spelaren undviker faror och samlar på sig skatter. Spelet slog rekordet för en mänsklig spelare och även poängen var högre än något annat AI-system har.

Enligt Uber AI-forskarna har de strategier som forskningsteamet använde potential till tillämpningar inom industrier som robotik. Robotar har nytta av förmågan att komma ihåg vilka åtgärder som är framgångsrika, vilka inte fungerade och vilka inte har prövats ännu.

Daniel Nelson

Blogger och programmerare med specialområden inom Machine Learning och Deep Learning ämnen. Daniel hoppas på att hjälpa andra att använda kraften från AI för socialt väl.

Unite.AI

AI-forskare skapar modell för spel av videospel som kan komma ihåg tidigare händelser

You may like