Kunstig intelligens
AI Struggles To Master Minecraft Through Imitation Learning

Over de siste månedene har Microsoft og andre selskaper som forsker på maskinlæring utfordret lag av AI-utviklere til å lage et AI-system som kan spille Minecraft og finne en diamant innenfor spillet. Ifølge BBC, selv om AI-plattformer har klart å dominere sjakk og go, har de slitt med å mestre en oppgave i Minecraft.
Microsofts Minecraft-baserte AI-utfordring het MineRL, og konkurranseresultatene ble offisielt annonsert på den nylige NeurIPS-konferansen. Konkurransens intensjon var å trene en AI gjennom en “imitasjonlæring”-tilnærming. Imitasjonlæring er en metode der en AI trenes gjennom observasjon. Imitasjonlæring har til hensikt å la AI-systemer lære handlinger ved å se på mennesker som utfører disse handlingene, og lære gjennom observasjon. Imitasjonlæring, i sammenligning med forsterkningslæring, er en mye mindre datakrevende og vesentlig mer effektiv måte å trene en AI på.
Forsterkningslæring krever ofte mange kraftfulle datamaskiner koblet sammen og hundrevis eller tusenvis av timer med trening for å bli effektiv på en oppgave. I motsetning til dette kan en AI trenet med en imitasjonlæring-metode trenes mye raskere, ettersom AI-en allerede har en basis av kunnskap å jobbe med takket være de menneskelige operatørene som har gått foran.
Imitasjonlæring har praktiske anvendelser i trening av en AI hvor AI-en ikke trygt kan utforske før den finner ut de riktige handlingene. Slike scenarioer ville inkludere trening av en autonom bil, da bilen ikke kunne tillates å bare vandre rundt på en gate til den har lært ønskede atferd. Å bruke en menneskelig demonstrators data til å trene bilen kunne potensielt gjøre prosessen raskere og tryggere.
Handlingen å finne en diamant i Minecraft krever å utføre mange trinn i sekvens, som å hogge ned trær for å lage verktøy, utforske hulene som inneholder diamantene, og faktisk finne en diamant innenfor hulen. Til tross for kompleksiteten i oppgaven, burde en menneskelig spiller som er kjent med spillet være i stand til å få en diamant på rundt 20 minutter.
Over 660 forskjellige AI-agenter ble sendt inn til konkurransen, men ikke en enkelt av AI-ene klarte å finne en diamant. Dataene som ble gitt for å trene AI-en var en datasett som inneholdt over 60 millioner bilder av spill fra mange menneskelige spillere. Plasseringene av diamantene er tilfeldige når en instans av spillet starter, så dette betyr at AI-ene ikke bare kan se hvor menneskelige spillere fant diamantene. Med andre ord, AI-ene må danne en forståelse av hvordan konsepter, som å lage verktøy, bruke verktøy, utforske og finne ressurser, er koblet sammen.
Til tross for at ingen av AI-agents klarte å finne en diamant, var organisasjonsteamet likevel fornøyd med resultater fra konkurransen, og at mye likevel ble lært fra eksperimentet. Forskningen som AI-lagene utførte kan hjelpe med å fremme AI-feltet, og finne alternativer til forsterkningslæring-strategier.
Forsterkningslæring gir ofte overlegen ytelse over imitasjonlæring, med ett bemerkelsesverdig suksess for forsterkningslæring være DeepMinds AlphaGo. Imidlertid, som tidligere notert, krever forsterkningslæring massive datamaskinressurser, og begrenser dermed bruken av den til organisasjoner som ikke kan betale for datamaskinprosessorer i stor skala.
William Guss, PhD-student ved Carnegie Mellon University og leder for konkurransen, forklarte til BBC at MineRL-konkurransen var ment å undersøke alternativer til datamaskinintensive AI. Guss sa:
“… Å kaste massive datamaskinressurser på problemer er ikke nødvendigvis riktig måte å fremme tilstanden i feltet som helhet … Det arbeider direkte mot å demokratisere tilgangen til disse forsterkningslæring-systemene, og lar evnen til å trene agenter i komplekse miljøer til korporasjoner med store mengder datamaskinprosessorer.”


