Kunstmatige intelligentie
AI-onderzoekers creëren videospel-model dat zich vorige gebeurtenissen kan herinneren

Een team van onderzoekers bij Uber’s AI-lab heeft onlangs een systeem van AI-algoritmen ontwikkeld dat zowel menselijke spelers als andere AI-systemen overtrof bij klassieke Atari-videospellen. Het AI-systeem dat door de onderzoekers is ontwikkeld, is in staat om eerder succesvolle strategieën te onthouden en nieuwe strategieën te creëren op basis van wat in het verleden werkte. Het onderzoeksteam gelooft dat de algoritmen die zij hebben ontwikkeld, potentieel toepasbaar zijn in andere technische gebieden zoals taalverwerking en robotica.
De typische methode die wordt gebruikt om AI-systemen te creëren die videospellen kunnen spelen, is het gebruik van een versterkingsleeralgoritme. Versterkingsleeralgoritmen leren hoe ze een taak kunnen uitvoeren door een reeks mogelijke acties te verkennen, en na elke actie worden ze voorzien van een soort versterking (een beloning of straf). Na verloop van tijd leert het AI-model welke acties tot grotere beloningen leiden, en het wordt waarschijnlijker dat het deze acties uitvoert. Helaas hebben versterkingsleermodellen problemen als ze geconfronteerd worden met gegevenspunten die incongruent zijn met andere in de dataset.
Volgens het onderzoeksteam is de reden dat hun aanpak nog niet door andere AI-onderzoekers is overwogen, dat de strategie afwijkt van de “intrinsieke motivatie”-aanpak die typisch wordt gebruikt in versterkingsleer. Het probleem met een intrinsieke motivatie-aanpak is dat het model gevoelig kan zijn voor “vergeten” over potentieel belonende gebieden die nog steeds onderzocht moeten worden. Dit fenomeen wordt “loskoppeling” genoemd. Als gevolg daarvan kan het model, als het onverwachte gegevens tegenkomt, vergeten over gebieden die nog steeds onderzocht moeten worden.
Volgens TechXplore heeft het onderzoeksteam zich ten doel gesteld om een leermodel te creëren dat flexibeler is en kan reageren op onverwachte gegevens. De onderzoekers losten dit probleem op door een algoritme in te voeren dat alle acties kan onthouden die door een eerdere versie van het model zijn uitgevoerd toen het probeerde een probleem op te lossen. Als het AI-model een gegevenspunt tegenkomt dat niet consistent is met wat het tot nu toe heeft geleerd, controleert het model zijn geheugenkaart. Het model zal dan identificeren welke strategieën succesvol waren en falen en strategieën dienovereenkomstig kiezen.
Als het model een videospel speelt, verzamelt het screenshots van het spel terwijl het speelt, waardoor een logboek van zijn acties wordt gemaakt. De afbeeldingen worden gegroepeerd op basis van overeenkomst, waardoor duidelijke punten in de tijd ontstaan waarop het model kan terugkijken. Het algoritme kan de gelogde afbeeldingen gebruiken om terug te keren naar een interessant punt in de tijd en van daaruit verder te verkennen. Als het model merkt dat het verliest, zal het terugkijken naar de genomen screenshots en een andere strategie proberen.
Zoals uitgelegd door de BBC, is er ook het probleem van het omgaan met gevaarlijke scenario’s voor het AI-agent dat het spel speelt. Als de agent een gevaar tegenkomt dat het kan doden, zou dat voorkomen dat het terugkeert naar gebieden die meer onderzocht moeten worden, een probleem dat “ontsporing” wordt genoemd. Het AI-model lost ontsporingproblemen op door een apart proces te gebruiken dan het proces dat wordt gebruikt om de verkenning van oude gebieden aan te moedigen.
Het onderzoeksteam liet het model 55 Atari-spellen spelen. Deze spellen worden vaak gebruikt om de prestaties van AI-modellen te benchmarken, maar de onderzoekers voegden een twist toe aan hun model. De onderzoekers voegden extra regels toe aan de spellen, waarbij het model werd geïnstrueerd om niet alleen de hoogst mogelijke score te behalen, maar ook om elke keer een hogere score te behalen. Toen de resultaten van de prestaties van het model werden geanalyseerd, vonden de onderzoekers dat hun AI-systeem andere AI’s overtrof bij de spellen ongeveer 85% van de tijd. Het AI-model presteerde vooral goed bij het spel Montezuma’s Revenge, een platformspel waarin de speler gevaarlijke situaties ontwijkt en schatten verzamelt. Het spel versloeg het record van een menselijke speler en scoorde ook hoger dan enig ander AI-systeem.
Volgens de Uber AI-onderzoekers hebben de strategieën die door het onderzoeksteam zijn gebruikt, toepassingen in industrieën zoals robotica. Robots profiteren van de mogelijkheid om te onthouden welke acties succesvol zijn, welke niet werken en welke nog niet zijn geprobeerd.












