Kunstig intelligens

DeepMinds nye AI kan lære reglerne for et spil, mens det spiller

Published December 27, 2020

Updated April 28, 2026

Daniel Nelson

Alphabets datterselskab DeepMind har nylig udviklet et AI-system, der kan lære reglerne for et spil, mens det spiller. Mens DeepMind tidligere har skabt imponerende AI-modeller, der kan mestre spil som skak, shogi, go og videospil, skal disse modeller være forsynet med spillets regler i forvejen. Derfor repræsenterer DeepMinds nye AI en betydelig forbedring i forhold til tidligere AI-algoritmer, der lærer at spille spil via reinforcement learning.

AI-System – MuZero

I en artikel offentliggjort i tidsskriftet Nature har DeepMind beskrevet, hvordan deres nye AI-system fungerer. Den nye AI, kaldet MuZero, kan lære reglerne for et spil, mens det spiller, takket være en princip kaldet “look-ahead search”. Som rapporteret af Engadget, bruger MuZero look-ahead search til at bestemme, hvilke træk der skal udføres, baseret på de mest sandsynlige svar fra modstandere.
Når man overvejer alle mulige træk, der kan udføres i spil som skak, kan MuZero prioritere og begrænse trækene til kun de mest sandsynlige og relevante træk. MuZero lærer herefter af både succesfulde og mislykkede manøvrer. I stedet for at modelere alle mulige faktorer, overvejer den kun faktorer, der er mest relevante for beslutningen. MuZero tager således de mange mulige variable, der kan overvejes, og destillerer dem ned til kun de mest betydningsfulde og indflydelsesrige funktioner. Disse funktioner repræsenteres i en træbaseret søgealgoritme. Mulighederne i træet kombineres herefter med en lært model baseret på funktionerne i testmiljøet. Look-ahead search udføres efter, at de mest relevante aspekter af en miljø er identificeret.
For at komme til en endelig beslutning, overvejes tre faktorer.
MuZero overvejer resultatet af den foregående valg, den nuværende position, den besætter, og de potentielle handlinger, den kan udføre herefter. Denne tilgang slår tidligere anvendte tilgange af DeepMind, herunder grundlæggende look-ahead search og træbaserede modeller. MuZero viste sig at være mindst lige så god til skak, shogi og go som AlphaZero, og da den spillede spillet Ms. Pac-Man, kunne MuZero kun overveje omkring seks eller syv træk ad gangen. Trods denne begrænsning kunne AI’en stadig opnå en ret god præstation. DeepMind eksperimenterede også med MuZeros evner ved at begrænse antallet af simulationer, den kunne udføre, før den skulle tage en beslutning. Generelt opnåede programmet bedre resultater, jo mere tid, det fik til at overveje mulige træk.
Den principielle forskningsvidenskabsmand ved DeepMind, David Silver, forklarede via TechXplore, at MuZero er den første AI-model, der kan generere sin egen repræsentation af reglerne for en miljø og bruge denne repræsentation til at planlægge handlinger.
“For første gang har vi faktisk et system, der kan bygge sin egen forståelse af, hvordan verden fungerer, og bruge denne forståelse til at udføre denne type sofistikeret look-ahead planlægning, som du tidligere har set for spil som skak,” sagde Silver. “(MuZero) kan starte fra ingenting og kun gennem prøvelser og fejl opdage reglerne for verden og bruge disse regler til at opnå en slags overmenneskelig præstation.”

Mulige Anvendelser

En AI, der virkelig kan lære begrænsningerne for en opgave og fungere inden for disse begrænsninger, har en lang række mulige anvendelser. MuZero kunne bruges til opgaver som video-komprimering, som historisk set har været svært at automatisere med AI, på grund af de mange forskellige mulige video-formater og komprimeringsmodi. MuZero opnåede en kompressionsforbedring på omkring 5%. Dette kunne have implikationer for det store antal videoer, der er hostet af Google og YouTube. Ud over videoer ser DeepMind også på at bruge de samme MuZero-teknikker til proteinarkitektur-design og robotprogrammering.
Ifølge Wendy Hall, professor i datalogi ved University of Southampton, repræsenterer MuZero “et betydeligt skridt fremad” for reinforcement learning-algoritmer. Hall er dog bekymret for, at algoritmerne kan misbruges. For eksempel har det amerikanske luftvåben allerede refereret til tidlige forskningsartikler om MuZero for at skabe et AI-system, der kan lancere missiler fra U-2 spionfly. Dette er trods, at DeepMinds forskere har udtrykt deres modstand mod at bruge deres algoritmer til nogen dødelig våben, og har underskrevet Lethal Autonomous Weapons Pledge for at argumentere for, at enhver dødelig teknologi skal forblive under menneskelig kontrol.
Silver forklarede, at DeepMind ser frem til fremtiden og har til mål at udvikle algoritmer, der er lige så kraftfulde og fleksible som hjernen. Det første skridt til at skabe fleksible algoritmer er at forstå, hvad det indebærer for et system at være intelligent, og intelligens er forbundet med evnen til at opdage mønstre og regler i en kompleks miljø.

Daniel Nelson

Blogger og programmør med specialer i Machine Learning og Deep Learning emner. Daniel håber at hjælpe andre med at bruge AI's kraft til sociale formål.

Unite.AI

DeepMinds nye AI kan lære reglerne for et spil, mens det spiller

AI-System – MuZero

Mulige Anvendelser

You may like