AI 101

Mi az a mélyreható tanulás?

korszerűsített on 2. augusztus 2021.

Mi az a mélyreható tanulás?

A felügyelet nélküli gépi tanulás és a felügyelt tanulás mellett a mesterséges intelligencia létrehozásának másik gyakori formája a megerősítéses tanulás. A rendszeres megerősítő tanuláson túl, mély megerősítő tanulás elképesztően lenyűgöző eredményekhez vezethet, köszönhetően annak, hogy egyesíti a mély tanulás és a megerősítő tanulás legjobb aspektusait. Vessünk egy pillantást arra, hogy pontosan hogyan működik a mélyen megerősített tanulás.

Mielőtt belemerülnénk a mélyen megerősítő tanulásba, jó ötlet lehet felfrissíteni magunkat a rendszerességgel megerősítő tanulás művek. A megerősítő tanulás során a célorientált algoritmusokat próba és hiba folyamatán keresztül alakítják ki, a legjobb eredményhez vezető/a legtöbb „jutalmat” elnyerő cselekvésre optimalizálva. A megerősítő tanulási algoritmusok betanítása során „jutalmakat” vagy „büntetéseket” kapnak, amelyek befolyásolják, hogy a jövőben milyen cselekvéseket hajtanak végre. Az algoritmusok megpróbálnak olyan műveleteket találni, amelyek a legtöbb jutalmat biztosítják a rendszernek, egyensúlyban tartva az azonnali és a jövőbeli jutalmakat.

A megerősítő tanulási algoritmusok nagyon hatékonyak, mert szinte bármilyen feladatra alkalmazhatók, rugalmasan és dinamikusan tanulhatnak a környezetből, és felfedezhetik a lehetséges cselekvéseket.

A mélyerősítő tanulás áttekintése

Fotó: Megajuice a Wikimedia Commonsból, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

Amikor a mélyreható tanulásról van szó, a környezetet jellemzően képekkel ábrázolják. A kép a környezet megörökítése egy adott időpontban. Az ügynöknek elemeznie kell a képeket, és ki kell gyűjtenie belőlük a releváns információkat, és az információk alapján tájékoztatnia kell arról, hogy milyen lépéseket kell tennie. A mélyen megerősített tanulást jellemzően két különböző technika valamelyikével hajtják végre: értékalapú tanulással és politikai alapú tanulással.

Az értékalapú tanulási technikák olyan algoritmusokat és architektúrákat használnak, mint a konvolúciós neurális hálózatok és Deep-Q-Networks. Ezek az algoritmusok úgy működnek, hogy a képet szürkeárnyalatossá alakítják, és kivágják a kép szükségtelen részeit. Ezt követően a kép különböző konvolúciókon és összevonási műveleteken megy keresztül, kinyerve a kép legrelevánsabb részeit. A kép fontos részei ezután a Q-érték kiszámítására szolgálnak az ügynök által végrehajtható különféle műveletekhez. A Q-értékek segítségével meghatározható az ügynök legjobb cselekvési módja. A kezdeti Q-értékek kiszámítása után visszaszaporítás történik, hogy a legpontosabb Q-értékeket lehessen meghatározni.

A házirend-alapú módszereket akkor alkalmazzák, ha az ügynök által végrehajtható lehetséges műveletek száma rendkívül magas, ami jellemzően valós helyzetekben fordul elő. Az ilyen helyzetek más megközelítést igényelnek, mivel az egyes műveletek Q-értékeinek kiszámítása nem pragmatikus. A házirend-alapú megközelítések az egyes műveletekhez tartozó függvényértékek kiszámítása nélkül működnek. Ehelyett úgy fogadják el az irányelveket, hogy közvetlenül megtanulják a szabályzatot, gyakran a Policy Gradients nevű technikákon keresztül.

A házirend gradiensek úgy működnek, hogy állapotot kapnak, és az ügynök korábbi tapasztalatai alapján kiszámítják a műveletek valószínűségét. Ezután kiválasztásra kerül a legvalószínűbb művelet. Ez a folyamat az értékelési időszak végéig megismétlődik, és a jutalmakat az ügynök kapja. Miután a jutalmakat elszámolták az ügynökkel, a hálózat paraméterei visszaterjesztéssel frissülnek.

Mi az a Q-Learning?

Mivel Q-Learning Ez a mély megerősítő tanulási folyamat olyan nagy része, szánjunk egy kis időt, hogy valóban megértsük, hogyan működik a Q-learning rendszer.

A Markov döntési folyamat

Markov döntési folyamat. Fotó: waldoalvarez a Pixabay-n keresztül, Pixbay License (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

Ahhoz, hogy egy mesterségesintelligencia-ügynök egy sor feladatot elvégezhessen és egy célt elérjen, az ügynöknek képesnek kell lennie állapotok és események sorozatára. Az ügynök egy állapotból indul, és egy sor műveletet kell végrehajtania, hogy elérje a végállapotot, és hatalmas számú állapot létezhet a kezdeti és a végállapot között. Minden állapotra vonatkozó információ tárolása nem praktikus vagy lehetetlen, ezért a rendszernek meg kell találnia a módját, hogy csak a legrelevánsabb állapotinformációkat őrizze meg. Ez az a Markov döntési folyamata, amely csak az aktuális és az előző állapotra vonatkozó információkat őrzi meg. Minden állapot egy Markov tulajdonságot követ, amely nyomon követi, hogy az ügynök hogyan vált át az előző állapotból az aktuális állapotba.

Mély Q-tanulás

Ha a modell hozzáfér a tanulási környezet állapotaira vonatkozó információkhoz, a Q-értékek számíthatók. A Q-értékek a teljes jutalmat jelentik, amelyet az ügynök kap egy műveletsorozat végén.

A Q-értékek kiszámítása egy sor jutalommal történik. Azonnali jutalom jár, az aktuális állapot szerint és az aktuális akciótól függően. A következő állapot Q-értéke is kiszámításra kerül, az azt követő állapot Q-értékével együtt, és így tovább, amíg a különböző állapotokhoz tartozó összes Q-értéket ki nem számítják. Van egy Gamma paraméter is, amellyel szabályozható, hogy a jövőbeni jutalmak mekkora súllyal bírnak az ügynök tevékenységére. A házirendeket általában úgy számítják ki, hogy véletlenszerűen inicializálják a Q-értékeket, és hagyják, hogy a modell konvergáljon az optimális Q-értékek felé a képzés során.

Deep Q-Networks

Az egyik alapvető probléma a Q-learning használata a megerősítő tanuláshoz az, hogy az adatok tárolásához szükséges memória mennyisége az állapotok számának növekedésével gyorsan növekszik. A Deep Q Networks ezt a problémát úgy oldja meg, hogy a neurális hálózati modelleket Q-értékekkel kombinálja, lehetővé téve az ügynök számára, hogy tanuljon a tapasztalatokból, és ésszerű találgatásokat tegyen a legjobban megtehető lépésekről. Mély Q-learning esetén a Q-érték függvényeket neurális hálózatokkal becsülik meg. A neurális hálózat az állapotot veszi be bemeneti adatként, és a hálózat Q-értéket ad ki az ügynök által végrehajtott összes lehetséges művelethez.

A mélyreható Q-learning úgy valósul meg, hogy az összes múltbeli tapasztalatot a memóriában tárolja, kiszámítja a Q-hálózat maximális kimeneteit, majd egy veszteségfüggvény segítségével kiszámítja az aktuális értékek és az elméletileg legmagasabb lehetséges értékek közötti különbséget.

Mélyen megerősítő tanulás vs mély tanulás

Az egyik fontos különbség a mélyen megerősített tanulás és a rendszeres mély tanulás között, hogy az előbbi esetében a bemenetek folyamatosan változnak, ami a hagyományos mélytanulásban nincs így. Hogyan tudja a tanulási modell figyelembe venni a folyamatosan változó bemeneteket és kimeneteket?

Lényegében az előrejelzett értékek és a célértékek közötti eltérés figyelembevételére két neurális hálózat használható egy helyett. Az egyik hálózat megbecsüli a célértékeket, míg a másik hálózat felelős az előrejelzésekért. A célhálózat paraméterei frissítésre kerülnek, ahogy a modell tanul, miután kiválasztott számú betanítási iteráció letelt. A megfelelő hálózatok kimeneteit ezután egyesítik a különbség meghatározásához.

Irányelv-alapú tanulás

Politika alapú tanulás a megközelítések másképpen működnek, mint a Q-érték alapú megközelítések. Míg a Q-érték megközelítések olyan értékfüggvényt hoznak létre, amely megjósolja az állapotok és a cselekvések jutalmát, a politikaalapú módszerek határozzák meg azt a politikát, amely az állapotokat cselekvésekre képezi le. Más szavakkal, a műveleteket kiválasztó házirend-függvény közvetlenül optimalizálva van, az értékfüggvénytől függetlenül.

Szabályzati színátmenetek

A mélyreható tanulási politika két kategóriába sorolható: sztochasztikus vagy determinisztikus. A determinisztikus politika az, ahol az állapotok cselekvésekre vannak leképezve, ami azt jelenti, hogy amikor a házirendnek információt adnak egy állapotról, a művelet visszaküldésre kerül. Eközben a sztochasztikus politikák a műveletek valószínűségi eloszlását adják vissza egyetlen, diszkrét művelet helyett.

Determinisztikus politikákat akkor alkalmazunk, ha nincs bizonytalanság a megtehető intézkedések kimenetelét illetően. Más szóval, amikor maga a környezet determinisztikus. Ezzel szemben a sztochasztikus politikai kimenetek megfelelőek olyan környezetekben, ahol a cselekvések kimenetele bizonytalan. A megerősítő tanulási forgatókönyvek jellemzően bizonyos fokú bizonytalanságot tartalmaznak, ezért sztochasztikus politikákat alkalmaznak.

A politikai gradiens megközelítéseknek van néhány előnye a Q-learning megközelítésekkel szemben, valamint néhány hátránya is van. Az előnyök tekintetében a politikaalapú módszerek gyorsabban és megbízhatóbban közelítenek az optimális paraméterekhez. A politikai gradienst csak addig lehet követni, amíg a legjobb paramétereket meg nem határozzuk, míg az értékalapú módszerekkel a becsült akcióértékek kis változásai nagy változásokhoz vezethetnek a műveletekben és a hozzájuk kapcsolódó paraméterekben.

A házirend színátmenetek jobban működnek a nagy dimenziójú akciótereknél is. Ha rendkívül sok lehetséges cselekvést kell végrehajtani, a mély Q-learning nem lesz praktikus, mert minden lehetséges cselekvéshez pontszámot kell rendelnie minden időlépéshez, ami számításilag lehetetlen. A házirend-alapú módszerekkel azonban a paraméterek idővel módosulnak, és a lehetséges legjobb paraméterek száma gyorsan csökken, ahogy a modell konvergál.

A politikai gradiensek képesek sztochasztikus politikák megvalósítására is, ellentétben az értékalapú politikákkal. Mivel a sztochasztikus politikák valószínűségi eloszlást hoznak létre, a feltárás/kitermelés kompromisszumot nem kell megvalósítani.

A hátrányokat tekintve a politikai gradiensek fő hátránya, hogy elakadhatnak az optimális paraméterek keresése közben, és a globális optimumértékek helyett csak egy szűk, lokális optimális értékkészletre koncentrálnak.

Policy Score funkció

A modell teljesítménycéljának optimalizálására használt irányelvek egy pontszámfüggvény maximalizálásához – J(θ). Ha J(θ) annak mértéke, hogy politikánk mennyire alkalmas a kívánt cél elérésére, megtalálhatjuk a „θ”, amely a legjobb politikát nyújtja számunkra. Először is ki kell számítanunk a várható politikai jutalmat. Úgy becsüljük meg a politikai jutalmat, hogy legyen egy célunk, amire optimalizálnunk kell. A Policy Score függvény segítségével számítjuk ki a várható házirend-jutalmat, és vannak különböző házirend-pontszám-függvények, amelyeket gyakran használnak, például: kezdeti értékek epizodikus környezeteknél, átlagos érték folyamatos környezeteknél és átlagos jutalom időlépésenként.

Policy Gradient Ascent

A gradiens emelkedés célja a paraméterek mozgatása addig, amíg a legmagasabb pontszámot elérik. Fotó: Public Domain (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

Miután a kívánt Policy Score függvényt felhasználtuk, és kiszámítottuk a várható házirendi jutalmat, megtaláljuk a „ paraméter értékét.θ”, amely maximalizálja a pontszám funkciót. A pontszám függvény maximalizálása érdekében J(θ), az úgynevezett „gradiens emelkedés" használt. A gradiens emelkedés koncepciójában hasonló a gradiens süllyedéshez a mély tanulásban, de mi a csökkenés helyett a legmeredekebb növekedésre optimalizálunk. Ennek az az oka, hogy a pontszámunk nem „hiba”, mint sok mély tanulási probléma esetében. Pontszámunkat maximalizálni szeretnénk. A politikai gradiens tételnek nevezett kifejezést használjuk a gradiens becslésére a „politika” vonatkozásában.θ".

A mélyerősítő tanulás összefoglalása

Összefoglalva, a mélyen megerősített tanulás egyesíti a megerősítő tanulás szempontjait és a mély neurális hálózatokat. A mély megerősítő tanulás két különböző technikával történik: a mélyreható Q-learning és a politikai gradiensek segítségével.

A mélyreható Q-learning módszerek arra irányulnak, hogy megjósolják, milyen jutalmak követik majd az adott állapotban végrehajtott cselekvéseket, míg a politikai gradiens megközelítések célja a cselekvési tér optimalizálása, magukat a cselekvéseket előre jelezve. A mélyen megerősített tanulás politikai alapú megközelítései vagy determinisztikusak vagy sztochasztikusak. A determinisztikus politikák az állapotokat közvetlenül a cselekvésekre képezik le, míg a sztochasztikus politikák valószínűségi eloszlásokat állítanak elő a cselekvésekhez.

Up Next

Mi az egyesített tanulás?

Ne hagyd ki

Mi az a Bayes-tétel?

Daniel Nelson

Blogger és programozó szakterületekkel Gépi tanulás és a Deep Learning témákat. Daniel abban reménykedik, hogy segíthet másoknak az AI erejét társadalmi javára használni.