Umělá inteligence

DeepMind a Google Brain mají za cíl vytvořit metody pro zlepšení efektivity učení s posilováním

Published February 19, 2020

Updated April 28, 2026

Daniel Nelson

Systémy učení s posilováním mohou být silné a robustní, schopné provádět extrémně komplexní úkoly prostřednictvím tisíců iterací tréninku. Zatímco algoritmy učení s posilováním jsou schopné umožnit sofistikované a občas překvapivé chování, vyžadují dlouho dobu tréninku a大量 данных. Tyto faktory činí techniky učení s posilováním rather neefektivní, a nedávno výzkumné týmy z Alphabet DeepMind a Google Brain se snažily najít více efektivní metody pro vytváření systémů učení s posilováním.

Jak uvádí VentureBeat, kombinovaný výzkumný tým nedávno navrhl metody pro zlepšení efektivity tréninku učení s posilováním. Jednou z navržených zlepšení byl algoritmus nazvaný Adaptive Behavior Policy Sharing (ABPS), zatímco druhým byl rámec nazvaný Universal Value Function Approximators (UVFA). ABPS umožňuje skupinám AI agentů sdílet své adaptivně vybrané zkušenosti, zatímco UVFA umožňuje těmto AI současně zkoumat směrované explorativní politiky.

ABPS je určen k urychlení přizpůsobení hyperparametrů při tréninku modelu. ABPS činí nalezení optimálních hyperparametrů rychlejším, umožňujícím několika různým agentům s různými hyperparametry sdílet své zkušenosti s chováním politiky. Přesněji řečeno, ABPS umožňuje agentům učení s posilováním vybrat akce z akcí, které politika považuje za vhodné, a poté je odměněn a pozorován na základě následujícího stavu.

AI agenti učení s posilováním jsou trénováni s různými kombinacemi možných hyperparametrů, jako je rychlost poklesu a rychlost učení. Při tréninku modelu je cílem, aby model konvergoval na kombinaci hyperparametrů, která mu poskytuje nejlepší výkon, a v tomto případě také zlepšuje efektivitu dat. Efektivita se zvyšuje trénováním mnoha agentů současně a výběrem chování pouze jednoho agenta pro nasazení během následujícího časového kroku. Politika, kterou má cílový agent, se používá k výběru akcí. Přechody jsou poté zaznamenány v sdíleném prostoru, a tento prostor je neustále vyhodnocován, aby výběr politiky nemusel probíhat tak často. Na konci tréninku je vybrán soubor agentů a nejlepší agenti jsou vybráni pro finální nasazení.

Co se týče UVFA, snaží se řešit jednu z běžných problémů učení s posilováním, že slabě posílené agenti často nenaučí úkoly. UVFA se snaží vyřešit problém tím, že agent učí samostatný soubor exploatačních a explorativních politik současně. Rozdělování úkolů vytváří rámec, který umožňuje explorativním politikám pokračovat v prozkoumávání prostředí, zatímco exploatační politiky se snaží maximalizovat odměnu pro aktuální úkol. Explorativními politiky UVFA slouží jako základní architektura, která bude pokračovat v zlepšování, i když nejsou přítomny žádné přirozené odměny. V takové situaci je aproximována funkce, která odpovídá intrinsickým odměnám, což nutí agenty prozkoumat všechny stavy v prostředí, i když se často vracejí do známých stavů.

Jak vysvětluje VentureBeat, když je rámec UVFA v provozu, intrinsické odměny systému jsou agentovi přímo poskytovány jako vstupy. Agent poté uchovává reprezentaci všech vstupů (jako odměn, akcí a stavů) během dané epizody. Výsledkem je, že odměna je zachována v čase a politika agenta je alespoň částečně informována o ní ve všech případech.

To je dosaženo pomocí “epizodické novinky” a “celoživotní novinky” modulu. Funkce prvního modulu je uchovávat aktuální epizodickou paměť a mapovat aktuální nálezy na výše uvedenou reprezentaci, umožňující agentovi určit intrinsickou epizodickou odměnu pro každý krok tréninku. Poté je stav spojený s aktuálním pozorováním přidán do paměti. Zatímco modul celoživotní novinky je zodpovědný za ovlivňování toho, jak často agent prozkoumává v průběhu mnoha epizod.

Podle týmů Alphabet/Google mají nové tréninkové techniky již prokázaly potenciál pro podstatné zlepšení při tréninku systému učení s posilováním. UVFA byl schopen zdvojnásobit výkon některých základních agentů, které hrály různé Atari hry. Zatímco ABPS byl schopen zvýšit výkon na některých stejných Atari hrách, snížení variability mezi nejlepšími agenti přibližně o 25%. Algoritmus UVFA byl schopen dosáhnout vysokého skóre v Pitfall sám, bez jakýchkoliv inženýrských funkcí lidských demonstrací.