Umělá inteligence
AI zápasí s ovládnutím Minecraftu prostřednictvím imitačního učení

V posledních několika měsících Microsoft a další společnosti zabývající se strojovým učením vyzvaly týmy vývojářů AI, aby vytvořili systém AI, který by mohl hrát Minecraft a najít diamant ve hře. Jak uvedla BBC, zatímco platformy AI se podařilo ovládnout šachy a go, ale měly problémy s ovládnutím úkolu v Minecraftu.
Výzva Microsoftu založená na Minecraftu se nazývala MineRL a výsledky soutěže byly oficiálně oznámeny na recentní konferenci NeurIPS. Cílem soutěže bylo vyškolit AI prostřednictvím “imitačního učení”. Imitační učení je metoda, při které je AI školen pomocí pozorování. Imitační učení má za cíl umožnit AI systémům se učit akce pozorováním lidských činů, učení se prostřednictvím pozorování. Imitační učení, ve srovnání s učení posílením, je mnohem méně výpočetně náročné a podstatně efektivnější způsob školení AI.
Učení posílením často vyžaduje mnoho výkonných počítačů propojených dohromady a stovky nebo tisíce hodin školení, aby se stalo efektivní pro úkol. Naopak, AI školená pomocí imitačního učení může být školená mnohem rychleji, protože AI již má základní znalosti, se kterými může pracovat, díky lidským operátorům, kteří ji předcházeli.
Imitační učení má praktické aplikace při školení AI, kde AI nemůže bezpečně prozkoumat, dokud nevyřeší správné akce. Takové scénáře by zahrnovaly školení autonomního vozidla, protože auto nemůže být ponecháno, aby se samo pohybovalo po ulici, dokud nenaučí požadované chování. Použití dat lidského demonstrátora pro školení vozidla by mohlo potenciálně učinit proces rychlejším a bezpečnějším.
Aktivita najít diamant v Minecraftu vyžaduje provedení mnoha kroků v pořadí, jako je pokácení stromů pro výrobu nástrojů, prozkoumání jeskyní, které obsahují diamanty, a skutečné nalezení diamantu v jeskyni. Přes složitost úkolu by lidský hráč, který je seznámen s hrou, měl být schopen získat diamant za khoảng 20 minut.
Do soutěže bylo předloženo více než 660 různých agentů AI, ale žádný z nich nebyl schopen najít diamant. Data poskytnutá pro školení AI tvořila dataset obsahující více než 60 milionů snímků gameplaye shromážděných z mnoha lidských hráčů. Poloha diamantů je náhodně generována při spuštění instance hry, což znamená, že AI nemohou jednoduše hledat tam, kde lidské hráče našli diamanty. Jinými slovy, AI potřebují vytvořit pochopení, jak jsou propojeny koncepty, jako je výroba nástrojů, použití nástrojů, prozkoumání a nalezení zdrojů.
Přes skutečnost, že žádný z agentů AI nebyl schopen úspěšně najít diamant, byl organizátor soutěže stále spokojen s výsledky soutěže a že bylo mnoho se dozvědělo z experimentu. Výzkum, který provedly týmy AI, může pomoci pokročit v oblasti AI, najít alternativy k strategiím učení posílením.
Učení posílením často poskytuje lepší výkon než imitační učení, s jednou pozoruhodnou úspěšností učení posílením, jako je DeepMind’s AlphaGo. Nicméně, jak bylo dříve uvedeno, učení posílením vyžaduje masivní výpočetní zdroje, což omezuje jeho použití organizacemi, které si nemohou dovolit počítačové procesory ve velkém měřítku.
William Guss, PhD Student na Carnegie Mellon University a vedoucí organizátor soutěže, vysvětlil BBC, že soutěž MineRL byla určena k prozkoumání alternativ k výpočetně náročnému AI. Řekl Guss:
“…Házet masivní výpočetní zdroje na problémy není nutně správný způsob, jak bychom měli pokročit v oblasti AI jako oboru… Pracuje přímo proti demokratizaci přístupu k těmto systémům učení posílením a ponechává schopnost školení agentů v komplexních prostředích korporacím s rozsáhlými výpočetními zdroji.”


