AI 101

Co je Deep Reinforcement Learning?

aktualizováno on Srpna 2, 2021

Co je Deep Reinforcement Learning?

Vedle strojového učení bez dozoru a učení pod dohledem je další běžnou formou vytváření umělé inteligence posilovací učení. Kromě pravidelného posilovacího učení, hluboké posílení učení může vést k úžasně působivým výsledkům, a to díky skutečnosti, že kombinuje nejlepší aspekty hlubokého učení a posilujícího učení. Pojďme se podívat na to, jak přesně funguje učení hlubokého posílení.

Než se ponoříme do hlubokého posilovacího učení, mohlo by být dobré osvěžit se, jak je pravidelné posilování učení funguje. Při posilování učení jsou cíleně orientované algoritmy navrženy procesem pokusů a omylů, optimalizací pro akci, která vede k nejlepšímu výsledku/akci, která získá největší „odměnu“. Když jsou trénovány algoritmy posilování, dostávají „odměny“ nebo „tresty“, které ovlivňují, jaké akce budou v budoucnu podnikat. Algoritmy se snaží najít soubor akcí, které poskytnou systému největší odměnu, přičemž vyvažují okamžité i budoucí odměny.

Algoritmy učení zesílení jsou velmi výkonné, protože je lze aplikovat téměř na jakýkoli úkol, protože jsou schopny se flexibilně a dynamicky učit z prostředí a objevovat možné akce.

Přehled Deep Reinforcement Learning

Foto: Megajuice přes Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

Pokud jde o učení hlubokého posílení, prostředí je obvykle reprezentováno obrázky. Obraz je zachycení prostředí v určitém okamžiku. Zástupce musí analyzovat obrázky a extrahovat z nich relevantní informace a použít je k tomu, aby informoval, jaké kroky by měl podniknout. Hluboké posílení učení se obvykle provádí jednou ze dvou různých technik: učení založené na hodnotách a učení založené na zásadách.

Techniky učení založené na hodnotách využívají algoritmy a architektury, jako jsou konvoluční neuronové sítě a Deep-Q-Networks. Tyto algoritmy fungují tak, že převádějí obrázek na stupně šedi a ořezávají nepotřebné části obrázku. Poté obraz prochází různými operacemi konvoluce a sdružování, přičemž se extrahují nejdůležitější části obrazu. Důležité části obrázku se pak použijí k výpočtu Q-hodnoty pro různé akce, které může agent provést. Q-hodnoty se používají k určení nejlepšího postupu pro agenta. Poté, co jsou vypočteny počáteční Q-hodnoty, je provedeno zpětné šíření, aby bylo možné určit nejpřesnější Q-hodnoty.

Metody založené na zásadách se používají, když je počet možných akcí, které může agent provést, extrémně vysoký, což je obvykle případ reálných scénářů. Situace jako tyto vyžadují odlišný přístup, protože výpočet hodnot Q pro všechny jednotlivé akce není pragmatický. Přístupy založené na zásadách fungují bez výpočtu funkčních hodnot pro jednotlivé akce. Místo toho přijímají zásady tak, že se přímo učí zásady, často pomocí technik nazývaných gradienty zásad.

Gradienty politik fungují tak, že přijímají stav a vypočítávají pravděpodobnosti akcí na základě předchozích zkušeností agenta. Poté je vybrána nejpravděpodobnější akce. Tento proces se opakuje až do konce období hodnocení a odměny jsou předány agentovi. Poté, co byly odměny vypořádány s agentem, jsou parametry sítě aktualizovány pomocí zpětného šíření.

Co je Q-Learning?

Protože Q-Learning je tak velká část procesu hlubokého posilování učení, věnujte nějaký čas tomu, abychom skutečně pochopili, jak systém Q-learning funguje.

Markovův rozhodovací proces

Markovský rozhodovací proces. Foto: waldoalvarez přes Pixabay, licence Pixbay (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

Aby agent AI mohl provést řadu úkolů a dosáhnout cíle, musí být schopen se vypořádat se sledem stavů a událostí. Agent začne v jednom stavu a musí provést řadu akcí, aby dosáhl koncového stavu, přičemž mezi počátečním a koncovým stavem může existovat obrovské množství stavů. Ukládání informací o každém státě je nepraktické nebo nemožné, takže systém musí najít způsob, jak uchovat jen ty nejrelevantnější státní informace. Toho je dosaženo pomocí a Markovův rozhodovací proces, která uchovává pouze informace o aktuálním a předchozím stavu. Každý stav sleduje Markovovu vlastnost, která sleduje, jak se agent změnil z předchozího stavu na aktuální.

Hluboké Q-Learning

Jakmile má model přístup k informacím o stavech výukového prostředí, lze vypočítat Q-hodnoty. Hodnoty Q jsou celkovou odměnou udělenou agentovi na konci sekvence akcí.

Hodnoty Q se počítají s řadou odměn. K dispozici je okamžitá odměna, vypočítaná při aktuálním stavu a v závislosti na aktuální akci. Vypočítá se také Q-hodnota pro následující stav spolu s Q-hodnotou pro stav po něm a tak dále, dokud nebudou vypočítány všechny Q-hodnoty pro různé stavy. K dispozici je také parametr Gamma, který se používá ke kontrole toho, jakou váhu mají budoucí odměny na akce agenta. Zásady se obvykle vypočítávají náhodnou inicializací Q-hodnot a ponecháním modelu konvergovat směrem k optimálním Q-hodnotám v průběhu tréninku.

Deep Q-Networks

Jeden ze zásadních problémů, které se týkají využití Q-learningu pro posílení učení je to, že množství paměti potřebné k uložení dat se rychle zvětšuje s rostoucím počtem stavů. Deep Q Networks tento problém řeší kombinací modelů neuronových sítí s hodnotami Q, což agentovi umožňuje učit se ze zkušeností a rozumně odhadovat nejlepší akce, které je třeba podniknout. Při hlubokém Q-learningu jsou funkce Q-hodnoty odhadovány pomocí neuronových sítí. Neuronová síť přebírá stav jako vstupní data a síť vydává Q-hodnotu pro všechny různé možné akce, které může agent provést.

Hluboké Q-učení je dosaženo uložením všech minulých zkušeností do paměti, výpočtem maximálních výstupů pro Q-síť a následným použitím ztrátové funkce k výpočtu rozdílu mezi aktuálními hodnotami a teoreticky nejvyššími možnými hodnotami.

Hluboké učení vs. Hluboké učení

Jedním z důležitých rozdílů mezi hlubokým posilováním a pravidelným hlubokým učením je to, že v případě prvního se vstupy neustále mění, což není případ tradičního hlubokého učení. Jak může model učení zohlednit vstupy a výstupy, které se neustále posouvají?

Pro zohlednění rozdílu mezi předpokládanými hodnotami a cílovými hodnotami lze v podstatě použít dvě neuronové sítě místo jedné. Jedna síť odhaduje cílové hodnoty, zatímco druhá síť odpovídá za předpovědi. Parametry cílové sítě se aktualizují tak, jak se model učí, po proběhnutí zvoleného počtu trénovacích iterací. Výstupy příslušných sítí se pak spojí, aby se určil rozdíl.

Učení založené na zásadách

Učení založené na zásadách přístupy fungují jinak než přístupy založené na Q-hodnotě. Zatímco přístupy Q-hodnoty vytvářejí hodnotovou funkci, která předpovídá odměny za stavy a akce, metody založené na politice určují politiku, která mapuje stavy na akce. Jinými slovy, funkce politiky, která vybírá pro akce, je přímo optimalizována bez ohledu na funkci hodnoty.

Přechody zásad

Politika hlubokého posílení učení spadá do jedné ze dvou kategorií: stochastická nebo deterministická. Deterministická politika je taková, kde jsou stavy mapovány na akce, což znamená, že když politika dostane informace o stavu, vrátí se akce. Mezitím stochastické politiky vracejí pro akce rozdělení pravděpodobnosti namísto jediné, diskrétní akce.

Deterministické politiky se používají, když neexistuje žádná nejistota ohledně výsledků akcí, které lze podniknout. Jinými slovy, když je prostředí samo o sobě deterministické. Naproti tomu stochastické politické výstupy jsou vhodné pro prostředí, kde je výsledek akcí nejistý. Scénáře zesíleného učení obvykle zahrnují určitý stupeň nejistoty, takže se používají stochastické politiky.

Přístupy s gradientem politiky mají oproti přístupům Q-learning několik výhod a také některé nevýhody. Pokud jde o výhody, metody založené na zásadách konvergují k optimálním parametrům rychleji a spolehlivěji. Gradient politiky lze pouze sledovat, dokud nejsou určeny nejlepší parametry, zatímco u metod založených na hodnotách mohou malé změny v odhadovaných hodnotách akcí vést k velkým změnám akcí a jejich souvisejících parametrů.

Gradienty zásad fungují lépe také pro vysoce dimenzionální akční prostory. Když existuje extrémně vysoký počet možných akcí, které je třeba provést, hluboké Q-learning se stává nepraktickým, protože musí přiřadit skóre každé možné akci pro všechny časové kroky, což může být výpočetně nemožné. U metod založených na zásadách se však parametry v průběhu času upravují a počet možných nejlepších parametrů se rychle zmenšuje, jak model konverguje.

Politické gradienty jsou také schopné implementovat stochastické politiky, na rozdíl od hodnotově založených politik. Protože stochastické politiky produkují rozdělení pravděpodobnosti, není třeba zavádět kompromis mezi průzkumem a využíváním.

Pokud jde o nevýhody, hlavní nevýhodou gradientů politik je to, že se mohou zaseknout při hledání optimálních parametrů a zaměřit se pouze na úzkou, lokální množinu optimálních hodnot namísto globálních optimálních hodnot.

Funkce skóre zásad

Zásady používané k optimalizaci cíle výkonu modelu maximalizovat funkci skóre – J(θ). Pokud J(θ) je měřítkem toho, jak dobrá je naše politika pro dosažení požadovaného cíle, můžeme najít hodnoty „θ“, která nám poskytuje nejlepší politiku. Nejprve musíme vypočítat očekávanou odměnu za politiku. Odhadujeme odměnu za politiku, takže máme cíl, něco, k čemu se můžeme optimalizovat. Funkce skóre zásad vypočítává očekávanou odměnu za zásady a běžně se používají různé funkce skóre zásad, jako jsou: počáteční hodnoty pro epizodická prostředí, průměrná hodnota pro nepřetržitá prostředí a průměrná odměna za časový krok.

Politický gradient stoupání

Gradient stoupání má za cíl posouvat parametry, dokud nejsou na místě, kde je skóre nejvyšší. Foto: Public Domain (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

Po použití požadované funkce skóre zásad a výpočtu očekávané odměny za zásady můžeme najít hodnotu pro parametr „θ” což maximalizuje funkci skóre. Za účelem maximalizace funkce skóre J(θ), technika zvaná „gradientní stoupání" se používá. Gradientní stoupání je konceptem podobné jako gradientní klesání v hlubokém učení, ale optimalizujeme pro nejstrmější nárůst namísto poklesu. Je to proto, že naše skóre není „chyba“, jako v mnoha problémech hlubokého učení. Naše skóre je něco, co chceme maximalizovat. K odhadu gradientu s ohledem na politiku se používá výraz nazvaný Policy Gradient Theorem.θ".

Shrnutí hlubokého posilovacího učení

Stručně řečeno, učení hlubokého posílení kombinuje aspekty učení posílení a hluboké neuronové sítě. Učení hlubokého posílení se provádí dvěma různými technikami: Hluboké Q-učení a gradienty politik.

Metody hlubokého Q-learningu mají za cíl předvídat, jaké odměny budou následovat po určitých akcích podniknutých v daném stavu, zatímco přístupy s gradientem politiky mají za cíl optimalizovat akční prostor a předvídat akce samotné. Politické přístupy k hlubokému posilování učení jsou buď deterministické, nebo stochastické povahy. Deterministické politiky mapují stavy přímo na akce, zatímco stochastické politiky vytvářejí rozdělení pravděpodobnosti pro akce.

Nahoru Další

Co je to federované učení?

Nenechte si ujít

Co je Bayesova věta?

Daniel Nelson

Blogerka a programátorka se specializací v Strojové učení a Hluboké učení témata. Daniel doufá, že pomůže ostatním využívat sílu AI pro společenské dobro.