Connect with us

AI-onderzoekers creëren videospel-model dat zich vorige gebeurtenissen kan herinneren

Kunstmatige intelligentie

AI-onderzoekers creëren videospel-model dat zich vorige gebeurtenissen kan herinneren

mm

Een team van onderzoekers bij Uber’s AI-lab hebben onlangs een systeem van AI-algoritmen ontwikkeld dat zowel menselijke spelers als andere AI-systemen overtrof bij klassieke Atari-videospellen. Het AI-systeem dat door de onderzoekers is ontwikkeld, is in staat om eerder succesvolle strategieën te onthouden en nieuwe strategieën te creëren op basis van wat in het verleden werkte. Het onderzoeksteam gelooft dat de algoritmen die zij hebben ontwikkeld, potentieel toepasbaar zijn in andere technische gebieden zoals taalverwerking en robotica.

De typische methode die wordt gebruikt om AI-systemen te creëren die videospellen kunnen spelen, is het gebruik van een versterkingsleeralgoritme. Versterkingsleeralgoritmen leren hoe ze een taak kunnen uitvoeren door een reeks mogelijke acties te verkennen, en na elke actie worden ze voorzien van een soort versterking (een beloning of straf). Na verloop van tijd leert het AI-model welke acties tot grotere beloningen leiden, en het wordt waarschijnlijker dat het deze acties uitvoert. Helaas lopen versterkingsleermodellen tegen problemen aan wanneer ze gegevenspunten tegenkomen die incongruent zijn met andere in de dataset.

Volgens het onderzoeksteam is de reden dat hun aanpak nog niet door andere AI-onderzoekers is overwogen, dat de strategie afwijkt van de “intrinsieke motivatie”-aanpak die typisch wordt gebruikt in versterkingsleren. Het probleem met een intrinsieke motivatie-aanpak is dat het model gevoelig kan zijn voor “vergeten” over potentieel belonende gebieden die nog steeds onderzocht moeten worden. Dit fenomeen wordt “loskoppeling” genoemd. Als gevolg hiervan kan het model, wanneer het onverwachte gegevens tegenkomt, vergeten over gebieden die nog steeds onderzocht moeten worden.

Volgens TechXplore heeft het onderzoeksteam een leermodel willen creëren dat flexibeler was en kon reageren op onverwachte gegevens. De onderzoekers losten dit probleem op door een algoritme in te voeren dat alle acties kon onthouden die door een eerder model waren uitgevoerd toen het probeerde een probleem op te lossen. Wanneer het AI-model een gegevenspunt tegenkomt dat niet consistent is met wat het tot nu toe heeft geleerd, controleert het model zijn geheugenkaart. Het model zal dan identificeren welke strategieën succesvol waren en falen en strategieën dienovereenkomstig kiezen.

Wanneer het model een videospel speelt, verzamelt het screenshots van het spel terwijl het speelt, waardoor een logboek van zijn acties wordt gemaakt. De afbeeldingen worden gegroepeerd op basis van gelijkenis, waardoor duidelijke punten in de tijd ontstaan waarop het model kan terugkijken. Het algoritme kan de geregistreerde afbeeldingen gebruiken om terug te keren naar een interessant punt in de tijd en van daaruit verder te verkennen. Wanneer het model merkt dat het verliest, zal het terugkijken naar de gemaakte screenshots en een andere strategie proberen.

Zoals uitgelegd door de BBC, is er ook het probleem van het omgaan met gevaarlijke scenario’s voor de AI-agent die het spel speelt. Als de agent een gevaar tegenkomt dat het kan doden, zou dat voorkomen dat het terugkeert naar gebieden die verdere verkenning verdienen, een probleem dat “ontsporing” wordt genoemd. Het AI-model lost ontsporingproblemen op door een apart proces te gebruiken dan het proces dat wordt gebruikt om de verkenning van oude gebieden aan te moedigen.

Het onderzoeksteam liet het model 55 Atari-spellen spelen. Deze spellen worden vaak gebruikt om de prestaties van AI-modellen te benchmarken, maar de onderzoekers voegden een twist toe aan hun model. De onderzoekers voegden extra regels toe aan de spellen, waarbij het model werd geïnstrueerd om niet alleen de hoogst mogelijke score te behalen, maar ook om elke keer een hogere score te behalen. Toen de resultaten van de prestaties van het model werden geanalyseerd, vonden de onderzoekers dat hun AI-systeem andere AI’s overtrof bij de spellen ongeveer 85% van de tijd. Het AI-model presteerde vooral goed bij het spel Montezuma’s Revenge, een platformspel waarin de speler gevaarlijkheden ontwijkt en schatten verzamelt. Het spel versloeg het record voor een menselijke speler en scoorde ook hoger dan enig ander AI-systeem.

Volgens de Uber AI-onderzoekers hebben de strategieën die door het onderzoeksteam zijn gebruikt, toepassingen voor industrieën zoals robotica. Robots profiteren van de mogelijkheid om te onthouden welke acties succesvol waren, welke niet werkten en welke nog niet zijn geprobeerd.

Blogger en programmeur met specialisaties in Machine Learning en Deep Learning onderwerpen. Daniel hoopt anderen te helpen de kracht van AI te gebruiken voor het sociale goede.