Artificial Intelligence

De nieuwe AI van DeepMind is in staat om de regels van een spel te leren terwijl het speelt

Bijgewerkt on 9 december 2022

Alphabet's dochteronderneming DeepMind heeft onlangs een AI-systeem ontwikkeld dat in staat is om de regels van een spel te leren terwijl het speelt. Hoewel DeepMind al eerder indrukwekkende AI-modellen heeft gemaakt die games als Chess, Shogi, Go en videogames onder de knie kunnen krijgen, moeten deze modellen vooraf worden voorzien van de spelregels. Als zodanig vertegenwoordigt de nieuwe AI van DeepMind een opmerkelijke verbetering ten opzichte van eerdere AI-algoritmen die leren om games te spelen door middel van versterkend leren.

AI-systeem - MuZero

In een krant onlangs gepubliceerd in het tijdschrift NATUUR, legde DeepMind uit hoe hun nieuwe AI-systeem werkt. De nieuwe AI, genaamd MuZero, is in staat om de regels van een spel te leren terwijl het speelt dankzij een principe dat "vooruitkijken" wordt genoemd. Dat meldt Engadget, gebruikt MuZero look-ahead search om te bepalen welke zetten moeten worden uitgevoerd op basis van de meest waarschijnlijke reacties van tegenstanders.

Bij het overwegen van alle mogelijke zetten die gemaakt kunnen worden in spellen zoals schaken, kan MuZero prioriteiten stellen en zetten beperken tot alleen de meest waarschijnlijke en relevante zetten. MuZero leert dan van zowel succesvolle als niet-succesvolle manoeuvres. In plaats van alle mogelijke factoren te modelleren, houdt het alleen rekening met factoren die het meest relevant zijn voor de betreffende beslissing. MuZero neemt in feite de talloze mogelijke variabelen die kunnen worden overwogen en destilleert ze tot alleen de meest opvallende, impactvolle kenmerken. Deze functies worden weergegeven in een op bomen gebaseerd zoekalgoritme. De mogelijkheden binnen de boom worden vervolgens gecombineerd met een aangeleerd model op basis van de kenmerken van de testomgeving. De look-ahead search wordt uitgevoerd nadat de meest relevante aspecten van een omgeving zijn geïdentificeerd.

Om tot een definitieve beslissing te komen, worden drie factoren overwogen.

MuZero houdt rekening met de uitkomst van de vorige keuze, de huidige positie die het inneemt en de mogelijke acties die het daarna kan ondernemen. Deze benadering overtreft benaderingen die eerder door DeepMind werden gebruikt, waaronder eenvoudig vooruitkijken en boomgebaseerde modellen. MuZero bleek minstens zo goed te zijn in schaken, shogi en Go als AlphaZero, en toen het het spel Ms. Pac-Man speelde, kon MuZero slechts zes of zeven zetten tegelijk overwegen. Ondanks deze limiet kon de AI toch behoorlijk goed presteren. DeepMind experimenteerde ook met de mogelijkheden van MuZero door het aantal simulaties te beperken dat het kon voltooien voordat het tot een zet moest overgaan. Over het algemeen geldt: hoe meer tijd het programma kreeg om mogelijke zetten te overwegen, hoe beter het presteerde.

De hoofdonderzoeker bij DeepMind, David Silver, uitgelegd via TechXplore dat MuZero het eerste AI-model is dat zijn eigen representatie van de regels van een omgeving kan genereren en die representatie kan gebruiken om acties te plannen.

"Voor het eerst hebben we een systeem dat in staat is om zijn eigen begrip van hoe de wereld werkt op te bouwen en dat begrip te gebruiken om dit soort geavanceerde look-ahead-planning te doen die je eerder hebt gezien voor games zoals schaken," zei Zilver. "(MuZero) kan vanuit het niets beginnen, en met vallen en opstaan zowel de regels van de wereld ontdekken als die regels gebruiken om een soort van bovenmenselijke prestatie te bereiken."

Mogelijke toepassingen

Een AI die echt in staat is om de beperkingen van een taak te leren en binnen die beperkingen te opereren, heeft een breed scala aan mogelijke toepassingen. MuZero zou kunnen worden gebruikt voor taken zoals videocompressie, die historisch gezien moeilijk te automatiseren was met behulp van AI, vanwege de vele verschillende mogelijke videoformaten en compressiemodi. MuZero was in staat om ongeveer 5% compressieverbetering te bereiken. Dit kan gevolgen hebben voor het grote aantal video's dat wordt gehost door Google en YouTube. Naast video's onderzoekt DeepMind ook het gebruik van dezelfde MuZero-technieken voor het ontwerpen van eiwitarchitectuur en het programmeren van robotica.

Volgens Wendy Hall, professor computerwetenschappen aan de Universiteit van Southampton, vertegenwoordigt MuZero "een belangrijke stap voorwaarts" voor algoritmen voor versterkend leren. Hall is echter bezorgd dat de algoritmen kunnen worden misbruikt. De Amerikaanse luchtmacht heeft bijvoorbeeld al verwezen naar vroege onderzoeksdocumenten over MuZero om een AI-systeem te creëren dat raketten van U-2-spionagevliegtuigen zou kunnen lanceren. Dit ondanks het feit dat de onderzoekers van DeepMind hun verzet uitten tegen het gebruik van hun algoritmen voor elk dodelijk wapen, door de Lethal Autonomous Weapons Pledge te ondertekenen om te beweren dat elke dodelijke technologie onder menselijke controle moet blijven.

Silver legde uit dat DeepMind vooruitkijkt naar de toekomst, met als doel algoritmen te ontwikkelen die even krachtig en veelzijdig zijn als de hersenen. De eerste stap bij het creëren van veelzijdige, flexibele algoritmen is begrijpen wat het voor een systeem betekent om intelligent te zijn, en intelligentie is gekoppeld aan het vermogen om de patronen en regels van een complexe omgeving te onderscheiden.

Gerelateerde onderwerpen:DeepMind MuZero versterking van leren

Eenvoudige lineaire regressie op het gebied van datawetenschap

Mis het niet

Nieuwe studie van AI-onderzoekers lost Schrödinger-vergelijking op

Daniël Nelson

Blogger en programmeur met specialiteiten in Machine leren en Diepe leren onderwerpen. Daniel hoopt anderen te helpen de kracht van AI te gebruiken voor maatschappelijk welzijn.