Kunstig intelligens
AI Kæmper For At Mestre Minecraft Gennem Imitation Learning

Over de sidste få måneder har Microsoft og andre virksomheder, der forsker i maskinlæring, udfordret hold af AI-udviklere til at oprette et AI-system, der kan spille Minecraft og finde en diamant inden for spillet. Som rapporteret af BBC, selvom AI-platforme har formået at dominere skak og go, har det kæmpet for at mestre en opgave i Minecraft.
Microsofts Minecraft-baserede AI-udfordring hed MineRL, og konkurrenceresultaterne blev officielt annonceret på den seneste NeurIPS-konference. Konkurrencens intention var at træne en AI gennem en “imitation learning”-tilgang. Imitation learning er en metode, hvor en AI trænes gennem brug af observation. Imitation learning har til hensigt at lade AI-systemer lære handlinger ved at se på, hvordan mennesker udfører disse handlinger, og lære gennem handlingen observation. Imitation learning, i sammenligning med reinforcement learning, er en langt mindre beregningskrævende og væsentligt mere effektiv måde at træne en AI på.
Reinforcement learning kræver ofte mange kraftfulde computere, der er netværksforbundne, og hundredvis eller tusindvis af timer med træning for at blive effektiv til en opgave. I modsætning hertil kan en AI, der er trænet med en imitation learning-metode, trænes meget hurtigere, da AI’en allerede har en grundlæggende viden at arbejde med takket være de menneskelige operatører, der har foregået den.
Imitation learning har praktiske anvendelser i træning af en AI, hvor AI’en ikke kan udforske sikkert, før den finder ud af de korrekte handlinger. Sådanne scenarier ville inkludere træning af en selvstændig bil, da bilen ikke kan tillades at køre rundt på en vej, før den har lært de ønskede adfærdsmønstre. At bruge en menneskelig demonstrators data til at træne bilen kunne potentielt gøre processen hurtigere og sikrere.
Handlingen at finde en diamant i Minecraft kræver udførelse af mange trin i sekvens, såsom at fælde træer for at lave værktøjer, udforske huler, der indeholder diamanter, og faktisk finde en diamant inden for hulen. Trods kompleksiteten af opgaven burde en menneskelig spiller, der er fortrolig med spillet, være i stand til at få en diamant på omkring 20 minutter.
Over 660 forskellige AI-agenter blev indsendt til konkurrencen, men ikke en enkelt af AI’erne var i stand til at finde en diamant. De data, der blev leveret til at træne AI’en, var en dataset, der indeholdt over 60 millioner frames af gameplay, der var indsamlet fra mange menneskelige spillere. Diamanternes placeringer er tilfældigt valgt, når en instans af spillet startes, så dette betyder, at AI’erne ikke kan se, hvor de menneskelige spillere fandt diamanterne. Med andre ord, AI’erne skal danne en forståelse af, hvordan begreber som at lave værktøjer, bruge værktøjer, udforske og finde ressourcer, er forbundet.
Trods det faktum, at ingen af AI-agenterne var i stand til at finde en diamant, var organisationsholdet alligevel tilfreds med resultaterne af konkurrencen, og meget blev lært fra eksperimentet. Forskningen, som AI-holdene udførte, kan hjælpe med at fremme AI-feltet og finde alternativer til reinforcement learning-strategier.
Reinforcement learning giver ofte en overlegen præstation i forhold til imitation learning, med en bemærkelsesværdig succes med DeepMinds AlphaGo. however, som tidligere nævnt, kræver reinforcement learning massive beregningsressourcer, hvilket begrænser dets brug af organisationer, der ikke kan betale for computerprocessorer i stor skala.
William Guss, PhD-student ved Carnegie Mellon University og leder af konkurrencen, forklarede til BBC, at MineRL-konkurrencen var tiltænkt at undersøge alternativer til beregningskrævende AI. Sagde Guss:
“…At smide massive beregningsressourcer på problemer er ikke nødvendigvis den rigtige måde for os at fremme tilstanden af kunsten som felt… Det virker direkte imod at demokratisere adgangen til disse reinforcement learning-systemer og efterlader evnen til at træne agenter i komplekse miljøer til virksomheder med store mængder beregningsressourcer.”


