Connect with us

Kunstmatige intelligentie

AI-agents tonen emergente intelligentie-eigenschappen in virtueel verstoppertje

mm

Een van de interessante feiten over onderzoek naar AI is dat het vaak acties kan uitvoeren en strategieën kan volgen die de onderzoekers die hen ontwerpen, verrassen. Dit gebeurde tijdens een recent virtueel spel van verstoppertje waarbij meerdere AI-agents tegen elkaar werden uitgespeeld. Onderzoekers bij OpenAI, een AI-bedrijf gevestigd in San Francisco, waren verbaasd om te zien dat hun AI-agents strategieën begonnen te gebruiken in de spelwereld die de onderzoekers niet eens wisten dat ze bestonden.

OpenAI heeft een groep AI-agents getraind om een spel van verstoppertje met elkaar te spelen. De AI-programma’s worden getraind met versterking van leren, een techniek waarbij het gewenste gedrag wordt afgedwongen van de AI-algoritmen door de algoritmen feedback te geven. De AI begint met het nemen van willekeurige acties, en elke keer dat het een actie onderneemt die het dichter bij zijn doel brengt, wordt de agent beloond. De AI wil de maximale hoeveelheid beloning mogelijk krijgen, dus zal het experimenteren om te zien welke acties het meer beloning opleveren. Door trial and error is de AI in staat om strategieën te onderscheiden die hen naar de overwinning zullen brengen, die welke hen de meeste beloning zullen geven.

Versterking van leren heeft al indrukwekkende successen laten zien bij het leren van de regels van spellen. OpenAI heeft onlangs een team van AI getraind om het MMORPG DOTA 2 te spelen, en de AI versloeg een wereldkampioen team van menselijke spelers vorig jaar. Iets soortgelijks gebeurde met het spel StarCraft toen een AI werd getraind op het spel door DeepMind. Versterking van leren is ook gebruikt om AI-programma’s te leren Pictionary te spelen met mensen, waarbij ze leren om afbeeldingen te interpreteren en basisgemeenschappelijke zin te gebruiken.

In het spel van verstoppertje dat door de onderzoekers is gemaakt, werden meerdere AI-agents tegen elkaar uitgespeeld. Het resultaat was een soort wapenwedloop, waarbij elke agent de andere wil overtreffen en de meeste beloningspunten wil krijgen. Een nieuwe strategie die door een agent wordt aangenomen, zal ertoe leiden dat zijn tegenstander een nieuwe strategie zoekt om het te counteren, en vice versa. Igor Mordatch, een onderzoeker bij OpenAI, legde aan IEEE Spectrum uit dat het experiment aantoont dat dit proces van trial and error tussen agents “voldoende is om de agents te leren verrassende gedragingen op eigen kracht – het is alsof kinderen met elkaar spelen.”

Wat waren de verrassende gedragingen precies? De onderzoekers hadden vier basisstrategieën die ze verwachtten dat de AI-agents zouden leren, en ze leerden deze vrij snel, waardoor ze na slechts 25 miljoen gesimuleerde spellen competent werden. Het spel vond plaats in een 3D-omgeving vol met hellingen, blokken en muren. De AI-agents leerden elkaar te achtervolgen, blokken te verplaatsen om forten te bouwen waarin ze zich konden verstoppen, en hellingen te verplaatsen. De seeker-agents leerden om hellingen te slepen om binnen te komen in de forten van de hiders, terwijl de hiders leerden om te proberen de hellingen binnen hun forten te krijgen zodat de seekers ze niet konden gebruiken.

Maar rond de benchmark van 380 miljoen spellen gebeurde er iets onverwachts. De AI-agents leerden om twee strategieën te gebruiken die de onderzoekers niet hadden verwacht. De seeker-agents leerden dat ze, door op een doos te springen en deze naar een nabijgelegen fort te rijden, in het fort konden springen en de hider konden vinden. De onderzoekers hadden niet eens door dat dit mogelijk was binnen de fysica van de spelomgeving. De hiders leerden om hiermee om te gaan door de dozen binnen hun fort te plaatsen.

Terwijl het onverwachte gedrag van agents getraind met versterking van leren in dit geval onschadelijk is, roept het wel enkele potentiële zorgen op over hoe versterking van leren in andere situaties wordt toegepast. Een lid van het OpenAI-onderzoeksteam, Bowen Baker, legde aan IEEE Spectrum uit dat deze onverwachte gedragingen potentieel gevaarlijk konden zijn. Wat als robots op onverwachte wijze zouden gaan gedragen?

“Het opbouwen van deze omgevingen is moeilijk”, legde Baker uit. “De agents zullen deze onverwachte gedragingen ontwikkelen, wat een veiligheidsprobleem zal zijn in de toekomst wanneer je ze in complexere omgevingen plaatst.”

Maar Baker legde ook uit dat versterking van leren tot innovatieve oplossingen voor huidige problemen kan leiden. Systemen getraind met versterking van leren kunnen een breed scala aan problemen oplossen met oplossingen die we misschien niet eens kunnen voorstellen.

Blogger en programmeur met specialisaties in Machine Learning en Deep Learning onderwerpen. Daniel hoopt anderen te helpen de kracht van AI te gebruiken voor het sociale goede.