Umělá inteligence
POKELLMON: Agent s lidskou paritou pro Pokémon bitvy s LLM
Velké jazykové modely a generativní umělá inteligence prokázaly bezprecedentní úspěch v širokém spektru úkolů zpracování přirozeného jazyka. Po dobytí oblasti NLP je další výzvou pro výzkumníky GenAI a LLM prozkoumat, jak velké jazykové modely mohou autonomně jednat ve skutečném světě s prodlouženou mezerou mezi generací od textu k akci, což představuje významný paradigmatický posun v hledání umělé obecné inteligence. Online hry se považují za vhodnou zkušební základnu pro vývoj velkých jazykových modelů ztělesněných agentů, které interagují s vizuálním prostředím způsobem, jaký by dělal člověk.
Například v populární online simulační hře Minecraft lze použít rozhodovací agenty, aby pomohli hráčům při prozkoumávání světa a rozvoji dovedností pro výrobu nástrojů a řešení úkolů. Další příklad LLM agentů interagujících s vizuálním prostředím lze vidět v další online hře, The Sims, kde agenty prokázaly pozoruhodný úspěch ve společenských interakcích a vykazují chování, které se podobá lidskému. Nicméně, ve srovnání s existujícími hrami, taktické bojové hry se mohou ukázat jako lepší volba pro měření schopnosti velkých jazykových modelů hrát virtuální hry. Hlavním důvodem, proč taktické hry představují lepší měřítko, je to, že míra vítězství lze měřit přímo a konzistentní soupeři, včetně lidských hráčů a AI, jsou vždy k dispozici.
Navazujíce na to, POKELLMON si klade za cíl být prvním ztělesněným agentem, který dosáhne lidské úrovně výkonu v taktických hrách, podobně jako tomu je u Pokémon bitev. V jeho jádru POKELLMON framework zahrnuje tři hlavní strategie.
- Učení s posilováním v kontextu, které spotřebuje textovou zpětnou vazbu odvozenou z bitev okamžitě, aby rafinovalo politiku iterativně.
- Generace s znalostním rozšířením, která získá externí znalosti, aby potlačila halucinace, umožňující agentovi jednat správně a kdy je to potřeba.
- Konzistentní generace akcí, aby minimalizovala situaci panické přepínače, když agent narazí na silného hráče a chce se vyhnout setkání s ním.
Tento článek si klade za cíl pokrýt framework POKELLMON do hloubky a prozkoumáme mechanismus, metodologii, architekturu frameworku spolu s jeho srovnáním se stávajícími frameworky. Budeme také hovořit o tom, jak framework POKELLMON prokazuje pozoruhodné lidské bojové strategie a schopnosti rozhodování v reálném čase, dosahující úctyhodné míry vítězství téměř 50%. Takže pojďme začít.
POKELLMON: Agent s lidskou paritou s LLM pro Pokémon bitvy
Růst schopností a efektivity velkých jazykových modelů a generativních AI frameworků v posledních letech byl prostě úžasný, zejména na úkolech zpracování přirozeného jazyka. Nedávno vývojáři a výzkumníci AI pracovali na způsobech, jak učinit generativní AI a LLM více prominentní ve skutečných scénářích se schopností jednat autonomně ve fyzickém světě. Aby bylo dosaženo autonomního výkonu ve fyzických a skutečných scénářích, výzkumníci a vývojáři považují hry za vhodnou zkušební základnu pro vývoj LLM-ztělesněných agentů s schopností interagovat s virtuálním prostředím způsobem, který se podobá lidskému chování.
Předtím vývojáři pokusili vyvinout LLM-ztělesněné agenty na virtuálních simulačních hrách, jako je Minecraft a Sims, ačkoli se věří, že taktické hry, jako je Pokémon, mohou být lepší volbou pro vývoj těchto agentů. Pokémon bitvy umožňují vývojářům vyhodnotit schopnost trenéra bojovat v dobře známých Pokémon hrách a nabízí několik výhod oproti jiným taktickým hrám. Protože akční a stavové prostory jsou diskrétní, lze je přeložit do textu bez ztráty. Následující obrázek ilustruje typickou Pokémon bitvu, ve které hráč je požádán, aby vygeneroval akci pro provedení na každém tahu na základě aktuálního stavu Pokémonů z obou stran.
… (zbytek překladu)












