Umělá inteligence
DeepMind a Google Brain usilují o vytvoření metod pro zlepšení efektivity učení se posilováním

Systémy učení se posilováním mohou být velmi silné a robustní, schopné vykonávat extrémně složité úkoly prostřednictvím tisíců iterací trénování. Zatímco algoritmy učení se posilováním jsou schopné umožnit sofistikované a někdy překvapivé chování, vyžadují dlouhou dobu trénování a大量né množství dat. Tyto faktory činí techniky učení se posilováním rather neefektivní, a nedávno výzkumné týmy z Alphabet DeepMind a Google Brain se snažily najít efektivnější metody pro vytvoření systémů učení se posilováním.
Jak uvádí VentureBeat, kombinovaný výzkumný tým nedávno navrhl metody, jak učinit trénování učení se posilováním efektivnějším. Jednou z navrhovaných zlepšení byl algoritmus nazvaný Adaptive Behavior Policy Sharing (ABPS), zatímco druhým byl rámec nazvaný Universal Value Function Approximators (UVFA). ABPS umožňuje skupinám umělých agentů sdílet své adaptivně vybrané zkušenosti, zatímco UVFA umožňuje těmto agentům současně zkoumat směrované探索policies.
ABPS je určen k urychlení přizpůsobení hyperparametrů při trénování modelu. ABPS činí nalezení optimálních hyperparametrů rychlejším, umožňujícím několika různým agentům se sdílet své zkušenosti s chováním politik. Konkrétněji, ABPS umožňuje agentům učení se posilováním vybrat akce z akcí, které politika považuje za vhodné, a poté jim je udělena odměna a pozorování na základě následujícího stavu.
Umělým agentům učení se posilováním jsou trénováni s různými kombinacemi možných hyperparametrů, jako je rychlost poklesu a rychlost učení. Cílem trénování modelu je, aby model konvergoval na kombinaci hyperparametrů, která mu poskytuje nejlepší výkon, a v tomto případě také zlepšuje efektivitu dat. Efektivita se zvyšuje trénováním mnoha agentů současně a výběrem chování pouze jednoho agenta pro nasazení v následujícím časovém kroku. Politika, kterou má cílový agent, se používá k výběru akcí. Přechody se poté zaznamenávají ve sdíleném prostoru, a tento prostor se不断ně vyhodnocuje, aby výběr politiky nemusel probíhat tak často. Na konci trénování je vybrána sada agentů a top-performing agenti jsou vybráni pro finální nasazení.
Co se týče UVFA, snaží se řešit jednu z běžných problémů učení se posilováním, že slabě posílené agenty často nenaučí úkoly. UVFA se snaží vyřešit tento problém tím, že agenti učí samostatnou sadu exploatačních a exploratorních politik současně. Rozdělování úkolů vytváří rámec, který umožňuje exploratorním politikám pokračovat ve zkoumání prostředí, zatímco exploatační politiky se snaží maximalizovat odměnu pro aktuální úkol. Exploratorní politiky UVFA slouží jako základnová architektura, která bude pokračovat ve zlepšování, i když nejsou přítomny přirozené odměny.
Jak vysvětluje VentureBeat, když je rámec UVFA v provozu, intrinsické odměny systému jsou agentovi přímo poskytovány jako vstupy. Agent poté uchovává reprezentaci všech vstupů (jako jsou odměny, akce a stav) během dané epizody. Výsledkem je, že odměna je uchována v čase a agentova politika je alespoň částečně informována o ní neustále.
To je dosaženo pomocí modulu “episodic novelty” a modulu “life-long novelty”. Funkce prvního modulu je uchovat aktuální, epizodickou paměť a mapovat aktuální nálezy na dříve zmíněnou reprezentaci, umožňující agentovi určit intrinsickou epizodickou odměnu pro každý krok trénování. Poté je stav spojený s aktuálním pozorováním přidán do paměti. Mezitím je modul life-long novelty zodpovědný za ovlivňování, jak často agent zkoumá během mnoha epizod.
Podle týmů Alphabet/Google již nové trénovací techniky prokázaly potenciál pro podstatné zlepšení při trénování systému učení se posilováním. UVFA byl schopen zdvojnásobit výkon některých základních agentů, kteří hráli různé Atari hry. Mezitím ABPS byl schopen zlepšit výkon na některých stejných Atari hrách, snižující variaci mezi top-performing agenti o přibližně 25%. Algoritmus UVFA byl schopen dosáhnout vysokého skóre v Pitfallu sám, bez žádných inženýrských funkcí lidských demo.












