stub DeepMinds nya AI kan lära sig reglerna för ett spel när det spelar - Unite.AI
Anslut dig till vårt nätverk!

Artificiell intelligens

DeepMinds nya AI kan lära sig reglerna för ett spel medan det spelar

mm
Uppdaterad on

Alphabets dotterbolag DeepMind har nyligen utvecklat ett AI-system som kan lära sig reglerna för ett spel medan det spelar. Medan DeepMind har skapat imponerande AI-modeller som kan bemästra spel som schack, Shogi, Go och videospel tidigare, måste dessa modeller förses med spelets regler i förväg. Som sådan representerar DeepMinds nya AI en anmärkningsvärd förbättring jämfört med tidigare AI-algoritmer som lär sig att spela spel via förstärkningsinlärning.

AI-system – MuZero

I ett papper nyligen publicerad i tidningen Natur, DeepMind detaljerade hur deras nya AI-system fungerar. Den nya AI, kallad MuZero, kan lära sig reglerna för ett spel när det spelar tack vare en princip som kallas "look-ahead search". Som rapporterats av Engadget, använder MuZero framåtblickssökning för att avgöra vilka drag som ska utföras baserat på de mest sannolika svaren från motståndare.

När man överväger alla möjliga drag som kan göras i spel som schack, kan MuZero prioritera, minska dragen till bara de mest troliga och relevanta dragen. MuZero kommer då att lära av både framgångsrika och misslyckade manövrar. Istället för att modellera alla möjliga faktorer tar den bara hänsyn till faktorer som är mest relevanta för det aktuella beslutet. MuZero tar i princip den myriad av potentiella variabler som kan övervägas och destillerar ner dem till bara de mest framträdande, effektfulla funktionerna. Dessa funktioner representeras i en trädbaserad sökalgoritm. Möjligheterna inom trädet kombineras sedan med en inlärd modell baserad på egenskaperna i testmiljön. Framtidssökningen utförs efter att de mest relevanta aspekterna av en miljö har identifierats.

För att komma till ett slutgiltigt beslut beaktas tre faktorer.

MuZero överväger resultatet av det tidigare valet, den nuvarande positionen den intar och de potentiella åtgärder som den kan vidta härnäst. Detta tillvägagångssätt slår ut tillvägagångssätt som tidigare använts av DeepMind, inklusive grundläggande framåtblickssökning och trädbaserade modeller. MuZero visade sig vara minst lika bra på schack, shogi och Go som AlphaZero var, och när det spelade spelet Ms. Pac-Man kunde MuZero bara överväga sex eller sju drag åt gången. Trots denna gräns kunde AI fortfarande prestera ganska bra. DeepMind experimenterade också med MuZeros möjligheter genom att begränsa antalet simuleringar som den kunde genomföra innan den behövde förbinda sig till en flytt. I allmänhet, ju mer tid programmet fick för att överväga möjliga rörelser, desto bättre presterade det.

Den främste forskaren vid DeepMind, David Silver, förklaras via TechXplore att MuZero är den första AI-modellen som kan generera sin egen representation av reglerna i en miljö, genom att använda den representationen för att planera åtgärder.

"För första gången har vi faktiskt ett system som kan bygga sin egen förståelse för hur världen fungerar och använda den förståelsen för att göra den här typen av sofistikerad framtidsplanering som du tidigare har sett för spel som schack." sa Silver. "(MuZero) kan börja från ingenting, och bara genom försök och misstag, både upptäcka världens regler och använda dessa regler för att uppnå typ av övermänsklig prestation."

Möjliga tillämpningar

En AI som verkligen kan lära sig begränsningarna för en uppgift och arbeta inom dessa begränsningar har en mängd olika möjliga tillämpningar. MuZero skulle kunna användas för uppgifter som videokomprimering, vilket historiskt sett har varit svårt att automatisera med AI, på grund av de många olika möjliga videoformaten och komprimeringslägena. MuZero kunde uppnå cirka 5 % kompressionsförbättring. Detta kan få konsekvenser för det stora antalet videor som Google och YouTube är värd för. Utöver videor undersöker DeepMind också att använda samma MuZero-tekniker för design av proteinarkitektur och robotprogrammering.

Enligt Wendy Hall, professor i datavetenskap vid University of Southampton, representerar MuZero "ett betydande steg framåt" för förstärkningsinlärningsalgoritmer. Hall är dock oroad över att algoritmerna kan missbrukas. Till exempel har det amerikanska flygvapnet redan hänvisat till tidiga forskningsdokument som täcker MuZero för att skapa ett AI-system som kan skjuta upp missiler från U-2 spionplan. Detta trots att DeepMinds forskare uttrycker sitt motstånd mot att använda sina algoritmer för alla dödliga vapen, och undertecknade Lethal Autonomous Weapons Pledge för att argumentera för att all dödlig teknologi bör hållas under mänsklig kontroll.

Silver förklarade att DeepMind ser framåt mot framtiden och syftar till att utveckla algoritmer lika kraftfulla och mångsidiga som hjärnan. Det första steget till att skapa mångsidiga, flexibla algoritmer är att förstå vad det innebär att ett system är intelligent, och intelligens är kopplat till en förmåga att urskilja mönster och regler i en komplex miljö.

Bloggare och programmerare med specialiteter inom Maskininlärning och Deep Learning ämnen. Daniel hoppas kunna hjälpa andra att använda kraften i AI för socialt bästa.