stubbur Hvað er djúpstyrkingarnám? - Unite.AI
Tengja við okkur

AI 101

Hvað er djúpstyrkingarnám?

mm
Uppfært on

Hvað er djúpstyrkingarnám?

Ásamt eftirlitslausu vélanámi og eftirlitsnámi er önnur algeng tegund gervigreindarsköpunar styrkingarnám. Fyrir utan venjulegt styrkingarnám, djúpt styrkingarnám getur leitt til ótrúlega glæsilegra árangurs, þökk sé þeirri staðreynd að það sameinar bestu þætti bæði djúpnáms og styrkingarnáms. Við skulum skoða nákvæmlega hvernig djúpstyrkingarnám virkar.

Áður en við köfum í djúpt styrkingarnám gæti verið góð hugmynd að hressa okkur við hversu reglulega styrking nám virkar. Í styrktarnámi eru markmiðsmiðuð reiknirit hönnuð í gegnum tilrauna- og villuferli, fínstilla fyrir þá aðgerð sem leiðir til bestu niðurstöðu/aðgerðarinnar sem fær mest „verðlaun“. Þegar þjálfunaralgrím eru þjálfuð fá þau „verðlaun“ eða „refsingar“ sem hafa áhrif á hvaða aðgerðir þeir munu grípa til í framtíðinni. Reiknirit reyna að finna sett af aðgerðum sem munu veita kerfinu sem mest umbun og koma á jafnvægi bæði strax og framtíðar umbun.

Styrkingarnámsreiknirit eru mjög öflug vegna þess að hægt er að beita þeim á næstum hvaða verkefni sem er, þar sem hægt er að læra á sveigjanlegan og kraftmikinn hátt af umhverfi og uppgötva mögulegar aðgerðir.

Yfirlit yfir djúpstyrkingarnám

Mynd: Megajuice í gegnum Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

Þegar kemur að djúpum styrkingarnámi er umhverfið venjulega táknað með myndum. Mynd er töku af umhverfinu á ákveðnum tímapunkti. Umboðsmaðurinn verður að greina myndirnar og draga úr þeim viðeigandi upplýsingar og nota þær til að upplýsa til hvaða aðgerða hann ætti að grípa. Djúpstyrkingarnám er venjulega framkvæmt með annarri af tveimur mismunandi aðferðum: gildismiðuðu námi og stefnumiðuðu námi.

Gildimiðuð námstækni notar reiknirit og arkitektúr eins og snúningstauganet og Deep-Q-Networks. Þessi reiknirit starfa með því að breyta myndinni í grátóna og skera út óþarfa hluta myndarinnar. Í kjölfarið fer myndin í gegnum ýmsar sveiflur og sameiningaraðgerðir, sem dregur út viðeigandi hluta myndarinnar. Mikilvægir hlutar myndarinnar eru síðan notaðir til að reikna út Q-gildi fyrir mismunandi aðgerðir sem umboðsmaðurinn getur gripið til. Q-gildi eru notuð til að ákvarða bestu leiðina fyrir umboðsmanninn. Eftir að upphaflegu Q-gildin hafa verið reiknuð er bakfjölgun framkvæmd til að hægt sé að ákvarða sem nákvæmust Q-gildi.

Stefnatengdar aðferðir eru notaðar þegar fjöldi mögulegra aðgerða sem umboðsmaðurinn getur gripið til er mjög mikill, sem er venjulega raunin í raunheimum. Aðstæður sem þessar krefjast annarrar nálgunar vegna þess að útreikningur á Q-gildum fyrir allar einstakar aðgerðir er ekki raunsær. Stefnumiðaðar aðferðir virka án þess að reikna virknigildi fyrir einstakar aðgerðir. Þess í stað taka þeir upp stefnur með því að læra stefnuna beint, oft með tækni sem kallast Policy Gradients.

Stefnuhalli starfar með því að taka á móti ástandi og reikna út líkur á aðgerðum byggðar á fyrri reynslu umboðsmannsins. Þá er líklegasta aðgerðin valin. Þetta ferli er endurtekið til loka matstímabilsins og verðlaunin eru veitt umboðsmanni. Eftir að verðlaunin hafa verið afgreidd hjá umboðsmanni eru færibreytur netkerfisins uppfærðar með bakútbreiðslu.

Hvað er Q-Learning?

vegna Q-nám er svo stór hluti af djúpstyrkingarferlinu, við skulum taka okkur tíma til að skilja hvernig Q-learning kerfið virkar.

Markov ákvörðunarferlið

Markov ákvörðunarferli. Mynd: waldoalvarez í gegnum Pixabay, Pixbay License (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

Til þess að gervigreind umboðsmaður geti sinnt röð verkefna og ná markmiði, verður umboðsmaðurinn að geta tekist á við röð ríkja og atburða. Umboðsmaðurinn mun byrja í einu ríki og það verður að taka röð aðgerða til að ná lokaástandi og það getur verið gríðarlegur fjöldi ríkja á milli upphafs- og endaríkis. Að geyma upplýsingar um hvert ríki er óframkvæmanlegt eða ómögulegt, þannig að kerfið verður að finna leið til að varðveita bara viðeigandi ríkisupplýsingar. Þetta er gert með því að nota a Markov ákvörðunarferli, sem varðveitir aðeins upplýsingar um núverandi ástand og fyrra ástand. Sérhvert ríki fylgir Markov eign, sem fylgist með því hvernig umboðsmaðurinn breytist úr fyrra ástandi í núverandi ástand.

Djúpt Q-nám

Þegar líkanið hefur aðgang að upplýsingum um ástand námsumhverfisins er hægt að reikna Q-gildi. Q-gildin eru heildarverðlaunin sem umboðsmanni er veitt í lok röð aðgerða.

Q-gildin eru reiknuð út með röð verðlauna. Það eru strax verðlaun, reiknuð við núverandi ástand og fer eftir núverandi aðgerð. Q-gildi fyrir síðari ástand er einnig reiknað ásamt Q-gildi fyrir ástand eftir það, og svo framvegis þar til öll Q-gildi fyrir mismunandi ástand hafa verið reiknuð út. Það er líka Gamma færibreyta sem er notuð til að stjórna hversu mikið vægi framtíðarverðlaun hafa á aðgerðum umboðsmannsins. Stefna er venjulega reiknuð út með því að frumstilla Q-gildi af handahófi og láta líkanið renna saman í átt að bestu Q-gildunum á meðan á þjálfuninni stendur.

Djúp Q-net

Eitt af grundvallarvandamálum sem snúa að notkun Q-learning fyrir styrkingarnám er að minnismagnið sem þarf til að geyma gögn stækkar hratt eftir því sem ríkjum fjölgar. Deep Q Networks leysa þetta vandamál með því að sameina taugakerfislíkön með Q-gildum, sem gerir umboðsmanni kleift að læra af reynslunni og gera sanngjarnar getgátur um bestu aðgerðir til að grípa til. Með djúpu Q-námi eru Q-gildi aðgerðir metnar með tauganetum. Tauganetið tekur ástandið inn sem inntaksgögn og netið gefur frá sér Q-gildi fyrir allar mismunandi mögulegar aðgerðir sem umboðsmaðurinn gæti gripið til.

Djúpt Q-nám er gert með því að geyma allar fyrri reynslu í minni, reikna út hámarksúttak fyrir Q-netið og nota síðan tapfall til að reikna út muninn á núverandi gildum og fræðilega hæstu mögulegu gildunum.

Djúpstyrkingarnám vs djúpt nám

Einn mikilvægur munur á djúpstyrkingarnámi og reglulegu djúpu námi er að í tilviki fyrrnefnda eru aðföngin stöðugt að breytast, sem er ekki raunin í hefðbundnu djúpnámi. Hvernig getur námslíkanið gert grein fyrir inntak og úttak sem eru stöðugt að breytast?

Í meginatriðum, til að gera grein fyrir mismuninum á milli spáðra gilda og markgilda, er hægt að nota tvö tauganet í stað eins. Annað netið metur markgildin en hitt netið er ábyrgt fyrir spánum. Færibreytur marknetsins eru uppfærðar eftir því sem líkanið lærir, eftir að valinn fjöldi endurtekningar þjálfunar hefur liðið. Úttak viðkomandi neta er síðan sameinuð til að ákvarða mismuninn.

Stefnumiðað nám

Stefnumiðað nám aðferðir virka öðruvísi en Q-gildi byggðar nálganir. Þó Q-value nálganir skapa gildisfall sem spáir fyrir um verðlaun fyrir ríki og aðgerðir, ákvarða stefnumiðaðar aðferðir stefnu sem mun kortleggja ríki til aðgerða. Með öðrum orðum, stefnufallið sem velur fyrir aðgerðir er beint fínstillt án tillits til gildisfallsins.

Stefnumótun

Stefna fyrir djúpt styrkingarnám fellur í annan af tveimur flokkum: stochastic eða deterministic. Ákveðin stefna er stefna þar sem ríki eru kortlögð á aðgerðir, sem þýðir að þegar stefnan fær upplýsingar um ríki er aðgerð skilað. Á sama tíma skila stochastic stefnur líkindadreifingu fyrir aðgerðir í stað einnar stakrar aðgerðar.

Ákveðnar stefnur eru notaðar þegar engin óvissa er um árangur þeirra aðgerða sem hægt er að grípa til. Með öðrum orðum, þegar umhverfið sjálft er ákvarðandi. Aftur á móti hentar framleiðsla úr stokastískri stefnu fyrir umhverfi þar sem árangur aðgerða er óviss. Venjulega felur atburðarás styrkingarnáms í sér einhverja óvissu svo stífrænar stefnur eru notaðar.

Stefnumótunaraðferðir hafa nokkra kosti fram yfir Q-learning nálganir, auk nokkurra ókosta. Hvað varðar kosti, sameinast stefnumiðaðar aðferðir á ákjósanlegustu breytum hraðar og áreiðanlegri. Hægt er að fylgja stefnuhallanum þar til bestu færibreyturnar eru ákvarðaðar, en með gildismiðuðum aðferðum geta litlar breytingar á áætluðum aðgerðagildum leitt til stórra breytinga á aðgerðum og tengdum breytum þeirra.

Stefnuhalli virkar líka betur fyrir hávíddaraðgerðarými. Þegar það er afar mikill fjöldi mögulegra aðgerða sem þarf að grípa til verður djúpt Q-nám óframkvæmanlegt vegna þess að það verður að gefa öllum mögulegum aðgerðum stig fyrir öll tímaskref, sem getur verið ómögulegt í reikni. Hins vegar, með stefnumiðuðum aðferðum, eru færibreyturnar aðlagaðar með tímanum og fjöldi mögulegra bestu færibreytna minnkar fljótt eftir því sem líkanið rennur saman.

Stefnuhallir eru einnig færir um að innleiða stochastic stefnur, ólíkt gildismiðuðum stefnum. Vegna þess að stokastískar stefnur framleiða líkindadreifingu, þarf ekki að innleiða könnun/nýtingu málamiðlun.

Hvað varðar ókosti er helsti ókosturinn við stefnuhalla að þeir geta fest sig á meðan þeir eru að leita að ákjósanlegum breytum og einblína aðeins á þröngt, staðbundið sett af bestu gildum í stað alþjóðlegra kjörgilda.

Stefnustigsaðgerð

Stefnan sem notuð eru til að hámarka frammistöðu líkans til að hámarka stigafall – J(θ). Ef J(θ) er mælikvarði á hversu góð stefna okkar er til að ná tilætluðu markmiði, við getum fundið gildi „θ“ sem gefur okkur bestu stefnuna. Fyrst þurfum við að reikna út væntanleg stefnuverðlaun. Við metum stefnuverðlaunin þannig að við höfum markmið, eitthvað til að hagræða í átt að. Stefnustigsaðgerðin er hvernig við reiknum út væntanleg stefnuverðlaun, og það eru mismunandi stefnustigsaðgerðir sem eru almennt notaðar, svo sem: upphafsgildi fyrir þáttaumhverfi, meðalgildi fyrir samfellt umhverfi og meðalverðlaun fyrir hvert tímaskref.

Stefna halli hækkun

Gradient ascent miðar að því að færa færibreyturnar þar til þær eru á þeim stað þar sem stigið er hæst. Mynd: Public Domain (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

Eftir að æskileg stefnustigsaðgerð hefur verið notuð og væntanleg stefnuverðlaun reiknuð, getum við fundið gildi fyrir færibreytuna "θ“ sem hámarkar stigafallið. Til að hámarka stigfallið J(θ), tækni sem kallast "halla hækkun" er notað. Halli hækkun er svipuð í hugmyndafræði og halli lækkun í djúpu námi, en við erum að hagræða fyrir brattasta hækkun í stað lækkunar. Þetta er vegna þess að stig okkar er ekki „villa“ eins og í mörgum djúpnámsvandamálum. Stig okkar er eitthvað sem við viljum hámarka. Tjáning sem kallast Policy Gradient Theorem er notuð til að meta hallann með tilliti til stefnu “θ".

Samantekt um djúpstyrkingarnám

Í stuttu máli, djúpstyrkingarnám sameinar þætti styrkingarnáms og djúpt taugakerfi. Djúpstyrkingarnám er unnið með tveimur mismunandi aðferðum: Djúpu Q-námi og stefnumótum.

Djúp Q-námsaðferðir miða að því að spá fyrir um hvaða verðlaun munu fylgja ákveðnum aðgerðum sem gripið er til í tilteknu ástandi, en stefnumótunaraðferðir miða að því að hámarka aðgerðarýmið, spá fyrir um aðgerðirnar sjálfar. Stefnatengdar nálganir til djúps styrkingarnáms eru ýmist deterministic eða stochastic í eðli sínu. Ákveðnar stefnur kortleggja ríki beint í aðgerðir á meðan stokastískar stefnur framleiða líkindadreifingu fyrir aðgerðir.

Bloggari og forritari með sérsvið í vél Learning og Deep Learning efni. Daniel vonast til að hjálpa öðrum að nota kraft gervigreindar í félagslegum tilgangi.