AI 101

Kas ir dziļa pastiprināšanas mācīšanās?

Atjaunināts on Augusts 2, 2021

Kas ir dziļa pastiprināšanas mācīšanās?

Līdztekus neuzraudzītai mašīnmācībai un uzraudzītai mācībspēkam vēl viens izplatīts AI izveides veids ir mācīšanās pastiprināšana. Papildus regulārām pastiprināšanas mācībām, dziļa pastiprināšanas mācīšanās var novest pie pārsteidzoši iespaidīgiem rezultātiem, pateicoties tam, ka tajā ir apvienoti gan dziļās mācīšanās, gan pastiprinošās mācīšanās labākie aspekti. Apskatīsim, kā tieši darbojas dziļa pastiprināšanas mācīšanās.

Pirms iedziļināmies padziļinātās pastiprinošās mācībās, varētu būt laba ideja atsvaidzināt sevi, cik regulāri pastiprināt mācīšanās darbojas. Pastiprināšanas mācībās uz mērķi orientēti algoritmi tiek izstrādāti, izmantojot izmēģinājumu un kļūdu procesu, optimizējot darbību, kas noved pie vislabākā rezultāta/darbībai, kas iegūst lielāko "atlīdzību". Kad tiek apmācīti pastiprināšanas mācīšanās algoritmi, tiem tiek piešķirtas "atlīdzības" vai "sodi", kas ietekmē darbības, kuras viņi veiks nākotnē. Algoritmi cenšas atrast darbību kopumu, kas sistēmai nodrošinās vislielāko atlīdzību, līdzsvarojot gan tūlītējo, gan turpmāko atlīdzību.

Pastiprināšanas mācīšanās algoritmi ir ļoti spēcīgi, jo tos var pielietot gandrīz jebkuram uzdevumam, spējot elastīgi un dinamiski mācīties no vides un atklāt iespējamās darbības.

Pārskats par dziļo pastiprināšanu

Foto: Megajuice, izmantojot Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

Runājot par dziļu pastiprināšanu, vide parasti tiek attēlota ar attēliem. Attēls ir vides tveršana noteiktā laika posmā. Aģentam ir jāanalizē attēli un jāizņem no tiem atbilstošā informācija, izmantojot informāciju, lai informētu, kādas darbības viņam jāveic. Mācības ar dziļu pastiprināšanu parasti tiek veiktas ar vienu no divām dažādām metodēm: uz vērtībām balstītu mācīšanos un uz politiku balstītu mācīšanos.

Uz vērtībām balstītas mācīšanās metodes izmanto algoritmus un arhitektūras, piemēram, konvolucionālos neironu tīklus un Deep-Q-Networks. Šie algoritmi darbojas, pārvēršot attēlu pelēktoņos un izgriežot nevajadzīgās attēla daļas. Pēc tam attēls tiek pakļauts dažādām līkločiem un apvienošanas darbībām, iegūstot visatbilstošākās attēla daļas. Svarīgās attēla daļas tiek izmantotas, lai aprēķinātu Q vērtību dažādām darbībām, ko aģents var veikt. Q vērtības tiek izmantotas, lai noteiktu labāko aģenta darbības veidu. Pēc sākotnējo Q vērtību aprēķināšanas tiek veikta atpakaļpavairošana, lai varētu noteikt visprecīzākās Q vērtības.

Uz politiku balstītas metodes tiek izmantotas, ja iespējamo darbību skaits, ko aģents var veikt, ir ārkārtīgi liels, kas parasti notiek reālos scenārijos. Šādām situācijām nepieciešama atšķirīga pieeja, jo Q vērtību aprēķināšana visām atsevišķām darbībām nav pragmatiska. Uz politiku balstītas pieejas darbojas bez funkciju vērtību aprēķināšanas atsevišķām darbībām. Tā vietā viņi pieņem politiku, tieši apgūstot politiku, bieži izmantojot metodes, ko sauc par politikas gradientiem.

Politikas gradienti darbojas, saņemot stāvokli un aprēķinot darbību varbūtības, pamatojoties uz aģenta iepriekšējo pieredzi. Pēc tam tiek atlasīta visticamākā darbība. Šo procesu atkārto līdz vērtēšanas perioda beigām, un aģentam tiek piešķirtas balvas. Pēc atlīdzības saņemšanas ar aģentu tīkla parametri tiek atjaunināti, izmantojot atpakaļejošu datumu.

Kas ir Q-Learning?

Jo Q-Learning ir tik liela daļa no dziļās pastiprināšanas mācību procesa, veltīsim kādu laiku, lai patiešām saprastu, kā darbojas Q-mācību sistēma.

Markova lēmumu pieņemšanas process

Markova lēmumu pieņemšanas process. Foto: waldoalvarez, izmantojot Pixabay, Pixbay License (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

Lai AI aģents varētu veikt virkni uzdevumu un sasniegt mērķi, aģentam jāspēj tikt galā ar stāvokļu un notikumu secību. Aģents sāksies vienā stāvoklī, un tam ir jāveic virkne darbību, lai sasniegtu beigu stāvokli, un starp sākuma un beigu stāvokļiem var būt milzīgs skaits stāvokļu. Informācijas glabāšana par katru stāvokli ir nepraktiska vai neiespējama, tāpēc sistēmai ir jāatrod veids, kā saglabāt tikai visatbilstošāko informāciju par stāvokli. Tas tiek panākts, izmantojot a Markova lēmumu pieņemšanas process, kurā tiek saglabāta tikai informācija par pašreizējo un iepriekšējo stāvokli. Katrs stāvoklis seko Markova rekvizītam, kas izseko, kā aģents mainās no iepriekšējā stāvokļa uz pašreizējo stāvokli.

Dziļa Q-mācīšanās

Kad modelim ir pieejama informācija par mācību vides stāvokļiem, var aprēķināt Q vērtības. Q vērtības ir kopējā atlīdzība, kas tiek piešķirta aģentam darbību secības beigās.

Q vērtības tiek aprēķinātas, izmantojot virkni atlīdzību. Ir tūlītēja atlīdzība, kas tiek aprēķināta pašreizējā stāvoklī un atkarībā no pašreizējās darbības. Tiek aprēķināta arī nākamā stāvokļa Q vērtība, kā arī stāvokļa Q vērtība pēc tam, un tā tālāk, līdz ir aprēķinātas visas Q vērtības dažādiem stāvokļiem. Ir arī Gamma parametrs, kas tiek izmantots, lai kontrolētu, cik liela nozīme turpmākajām atlīdzībām ir aģenta darbībām. Politikas parasti aprēķina, nejauši inicializējot Q vērtības un ļaujot modelim konverģēt uz optimālajām Q vērtībām apmācības laikā.

Deep Q-Networks

Viena no pamatproblēmām, kas ietver Q-mācību izmantošana pastiprināšanas mācīšanās ir tāda, ka datu glabāšanai nepieciešamās atmiņas apjoms strauji palielinās, palielinoties stāvokļu skaitam. Deep Q Networks atrisina šo problēmu, apvienojot neironu tīklu modeļus ar Q vērtībām, ļaujot aģentam mācīties no pieredzes un izdarīt pamatotus minējumus par labākajām darbībām. Izmantojot dziļo Q apmācību, Q vērtības funkcijas tiek novērtētas ar neironu tīkliem. Neironu tīkls izmanto stāvokli kā ievades datus, un tīkls izvada Q vērtību visām dažādajām iespējamajām darbībām, ko aģents varētu veikt.

Padziļinātā Q mācīšanās tiek veikta, saglabājot atmiņā visu pagātnes pieredzi, aprēķinot Q tīkla maksimālos rezultātus un pēc tam izmantojot zudumu funkciju, lai aprēķinātu atšķirību starp pašreizējām vērtībām un teorētiski augstākajām iespējamām vērtībām.

Padziļināta apmācība pret dziļu mācīšanos

Viena no būtiskām atšķirībām starp dziļo pastiprināšanas mācīšanos un regulāru padziļinātu mācīšanos ir tā, ka pirmajā gadījumā ievade pastāvīgi mainās, kas nav tradicionālajā dziļajā mācībā. Kā mācību modelis var ņemt vērā ieguldījumus un rezultātus, kas pastāvīgi mainās?

Būtībā, lai ņemtu vērā atšķirības starp prognozētajām vērtībām un mērķa vērtībām, viena neironu tīkla vietā var izmantot divus neironu tīklus. Viens tīkls novērtē mērķa vērtības, bet otrs tīkls ir atbildīgs par prognozēm. Mērķa tīkla parametri tiek atjaunināti, kad modelis mācās, pēc tam, kad ir pagājis izvēlēts apmācības iterāciju skaits. Pēc tam attiecīgo tīklu izejas tiek apvienotas, lai noteiktu atšķirību.

Uz politiku balstīta mācīšanās

Uz politiku balstīta mācīšanās pieejas darbojas savādāk nekā uz Q vērtību balstītas pieejas. Kamēr Q-vērtības pieejas rada vērtību funkciju, kas paredz atlīdzību par stāvokļiem un darbībām, uz politiku balstītas metodes nosaka politiku, kas savietos stāvokļus ar darbībām. Citiem vārdiem sakot, politikas funkcija, kas atlasa darbībām, tiek tieši optimizēta, neņemot vērā vērtību funkciju.

Politikas gradienti

Mācību dziļas pastiprināšanas politika iedalās vienā no divām kategorijām: stohastiskā vai deterministiskā. Deterministiskā politika ir tāda, kurā stāvokļi tiek kartēti ar darbībām, kas nozīmē, ka tad, kad politikai tiek sniegta informācija par stāvokli, darbība tiek atgriezta. Tikmēr stohastiskās politikas atgriež darbību varbūtības sadalījumu, nevis vienu, atsevišķu darbību.

Deterministiskās politikas tiek izmantotas, ja nav skaidrības par veicamo darbību rezultātiem. Citiem vārdiem sakot, kad pati vide ir deterministiska. Turpretim stohastiskās politikas rezultāti ir piemēroti videi, kur darbību iznākums ir neskaidrs. Parasti pastiprināšanas mācīšanās scenāriji ietver zināmu nenoteiktības pakāpi, tāpēc tiek izmantota stohastiskā politika.

Politikas gradienta pieejām ir dažas priekšrocības salīdzinājumā ar Q-mācību pieejām, kā arī daži trūkumi. Priekšrocību ziņā uz politiku balstītas metodes ātrāk un uzticamāk saplūst ar optimālajiem parametriem. Politikas gradientu var vienkārši ievērot, līdz tiek noteikti labākie parametri, savukārt, izmantojot uz vērtībām balstītas metodes, nelielas izmaiņas aprēķinātajās darbības vērtībās var izraisīt lielas izmaiņas darbībās un ar tām saistītajos parametros.

Politikas gradienti labāk darbojas arī augstas dimensijas darbības telpās. Ja ir ārkārtīgi liels iespējamo darbību skaits, padziļināta Q mācīšanās kļūst nepraktiska, jo tai ir jāpiešķir rezultāts katrai iespējamai darbībai visos laika posmos, kas var būt neiespējami skaitļošanas veidā. Tomēr, izmantojot uz politiku balstītas metodes, parametri laika gaitā tiek pielāgoti, un iespējamo labāko parametru skaits ātri samazinās, modelim saplūstot.

Atšķirībā no uz vērtībām balstītām politikām, politikas gradienti spēj īstenot arī stohastiskas politikas. Tā kā stohastiskās politikas veido varbūtības sadalījumu, izpētes/izmantošanas kompromiss nav jāievieš.

Runājot par trūkumiem, galvenais politikas gradientu trūkums ir tas, ka tie var iestrēgt, meklējot optimālos parametrus, koncentrējoties tikai uz šauru, lokālu optimālo vērtību kopu globālo optimālo vērtību vietā.

Politikas rādītāja funkcija

Politikas, ko izmanto, lai optimizētu modeļa veiktspējas mērķi lai palielinātu punktu skaitu - J(θ). Ja J(θ) ir mērs tam, cik laba mūsu politika ir vēlamā mērķa sasniegšanai, mēs varam atrast vērtības “θ”, kas sniedz mums vislabāko politiku. Pirmkārt, mums ir jāaprēķina paredzamā politikas atlīdzība. Mēs novērtējam politikas atlīdzību, lai mums būtu mērķis, ko optimizēt. Politikas rādītāja funkcija ir veids, kā mēs aprēķinām paredzamo politikas atlīdzību, un parasti tiek izmantotas dažādas politikas rādītāja funkcijas, piemēram: sākuma vērtības epizodiskām vidēm, vidējā vērtība nepārtrauktām vidēm un vidējā atlīdzība par laika posmu.

Politikas gradienta kāpums

Gradienta pacelšanās mērķis ir pārvietot parametrus, līdz tie atrodas vietā, kur ir visaugstākais rezultāts. Foto: Public Domain (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

Pēc tam, kad ir izmantota vēlamā politikas rādītāja funkcija un aprēķināta paredzamā politikas atlīdzība, mēs varam atrast parametra vērtību “θ”, kas palielina punktu skaitu. Lai palielinātu punktu skaitu J(θ), tehnika, ko sauc par "gradienta kāpums" tiek izmantots. Gradienta kāpums pēc koncepcijas ir līdzīgs gradienta nolaišanai dziļajā apmācībā, taču mēs optimizējam straujāko pieaugumu, nevis samazināšanos. Tas ir tāpēc, ka mūsu rezultāts nav “kļūda”, tāpat kā daudzās dziļās mācīšanās problēmās. Mūsu rezultāts ir kaut kas, ko mēs vēlamies palielināt. Izteiksme, ko sauc par politikas gradienta teorēmu, tiek izmantota, lai novērtētu gradientu attiecībā uz politiku "θ".

Dziļās pastiprināšanas mācīšanās kopsavilkums

Rezumējot, dziļa pastiprināšanas mācīšanās apvieno pastiprināšanas mācīšanās un dziļo neironu tīklu aspektus. Dziļās pastiprināšanas mācības tiek veiktas, izmantojot divas dažādas metodes: padziļinātu Q-mācību un politikas gradientus.

Dziļās Q-mācīšanās metožu mērķis ir paredzēt, kāda atlīdzība sekos noteiktām darbībām, kas veiktas noteiktā stāvoklī, savukārt politikas gradienta pieejas mērķis ir optimizēt darbības telpu, paredzot pašas darbības. Uz politiku balstītas pieejas dziļas pastiprināšanas mācībām pēc būtības ir vai nu deterministiskas, vai stohastiskas. Deterministiskās politikas sakārto stāvokļus tieši ar darbībām, savukārt stohastiskās politikas veido darbību varbūtības sadalījumu.

Nākošais

Kas ir federētā mācīšanās?

Nepalaidiet garām

Kas ir Bayes teorēma?

Daniels Nelsons

Emuāru autors un programmētājs ar specialitātēm Mašīnu mācīšana un Dziļa mācīšanās tēmas. Daniels cer palīdzēt citiem izmantot mākslīgā intelekta spēku sociālā labuma gūšanai.