AI 101 m

Kas yra giluminis mokymasis?

Atnaujinta on Rugpjūtis 2, 2021

Kas yra giluminis mokymasis?

Be neprižiūrimo mašininio mokymosi ir prižiūrimo mokymosi, kita įprasta AI kūrimo forma yra mokymasis sustiprinti. Be reguliaraus mokymosi stiprinimo, gilaus sustiprinimo mokymasis gali duoti stulbinamai įspūdingų rezultatų dėl to, kad jis sujungia geriausius gilaus mokymosi ir mokymosi sustiprinimo aspektus. Pažiūrėkime, kaip tiksliai veikia giluminis mokymasis.

Prieš pasineriant į giluminį mokymąsi, gali būti gera idėja atsinaujinti, kaip reguliariai stiprinimas darbai. Mokymosi pastiprinimo metu į tikslą orientuoti algoritmai kuriami naudojant bandymų ir klaidų procesą, optimizuojant veiksmą, kuris veda prie geriausio rezultato / veiksmo, kuris gauna didžiausią „atlygį“. Kai mokomi sustiprinimo mokymosi algoritmai, jiems suteikiamas „atlygis“ arba „bausmės“, kurios įtakoja, kokių veiksmų jie imsis ateityje. Algoritmai bando rasti veiksmų rinkinį, kuris suteiks sistemai didžiausią atlygį, subalansuojant tiek tiesioginį, tiek būsimą atlygį.

Sustiprinimo mokymosi algoritmai yra labai galingi, nes juos galima pritaikyti beveik bet kokiai užduočiai, galint lanksčiai ir dinamiškai mokytis iš aplinkos ir atrasti galimus veiksmus.

Gilaus sustiprinimo mokymosi apžvalga

Nuotrauka: Megajuice per Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

Kalbant apie gilų mokymąsi, aplinka paprastai vaizduojama vaizdais. Vaizdas yra aplinkos fiksavimas tam tikru momentu. Agentas turi išanalizuoti vaizdus ir gauti iš jų atitinkamą informaciją, naudodamas informaciją, kad informuotų, kokių veiksmų turėtų imtis. Gilus sustiprinimo mokymasis paprastai vykdomas naudojant vieną iš dviejų skirtingų metodų: vertybėmis pagrįstą mokymąsi ir politika pagrįstą mokymąsi.

Vertėmis pagrįstuose mokymosi metoduose naudojami algoritmai ir architektūros, pvz., konvoliuciniai neuroniniai tinklai ir Deep-Q-Networks. Šie algoritmai veikia konvertuodami vaizdą į pilkos spalvos tonus ir apkarpydami nereikalingas vaizdo dalis. Vėliau paveikslėlyje atliekamos įvairios konvoliucijos ir sujungimo operacijos, išgaunamos svarbiausios vaizdo dalys. Tada svarbios vaizdo dalys naudojamos apskaičiuojant įvairių veiksmų, kuriuos agentas gali atlikti, Q reikšmę. Q reikšmės naudojamos siekiant nustatyti geriausią agento veiksmų eigą. Po to, kai apskaičiuojamos pradinės Q reikšmės, atliekamas atgalinis sklidimas, kad būtų galima nustatyti tiksliausias Q reikšmes.

Politika pagrįsti metodai naudojami, kai galimų veiksmų, kuriuos agentas gali atlikti, skaičius yra labai didelis, o tai paprastai būna realaus pasaulio scenarijuose. Tokiose situacijose reikia kitokio požiūrio, nes visų atskirų veiksmų Q reikšmių apskaičiavimas nėra pragmatiškas. Politika pagrįsti metodai veikia neskaičiuojant atskirų veiksmų funkcijų verčių. Vietoj to, jie priima politiką tiesiogiai mokydamiesi politikos, dažnai taikydami metodus, vadinamus politikos gradientais.

Politikos gradientai veikia gaudami būseną ir apskaičiuodami veiksmų tikimybes, pagrįstus ankstesne agento patirtimi. Tada pasirenkamas labiausiai tikėtinas veiksmas. Šis procesas kartojamas iki vertinimo laikotarpio pabaigos ir agentui suteikiami apdovanojimai. Atlyginus su agentu, tinklo parametrai atnaujinami atgaline tvarka.

Kas yra Q-Learning?

Nes Q-mokymasis yra tokia didelė gilaus sustiprinimo mokymosi proceso dalis, užtrukkime šiek tiek laiko, kad suprastume, kaip veikia Q mokymosi sistema.

Markovo sprendimo procesas

Markovo sprendimo procesas. Nuotrauka: waldoalvarez per Pixabay, Pixbay License (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

Kad AI agentas galėtų atlikti daugybę užduočių ir pasiekti tikslą, agentas turi sugebėti susidoroti su būsenų ir įvykių seka. Agentas prasidės vienoje būsenoje ir turi atlikti daugybę veiksmų, kad pasiektų galutinę būseną, o tarp pradžios ir pabaigos būsenų gali būti daugybė būsenų. Saugoti informaciją apie kiekvieną būseną yra nepraktiška arba neįmanoma, todėl sistema turi rasti būdą, kaip išsaugoti tik aktualiausią būsenos informaciją. Tai pasiekiama naudojant a Markovo sprendimo procesas, kuriame išsaugoma tik informacija apie esamą ir ankstesnę būseną. Kiekviena būsena seka Markovo savybę, kuri seka, kaip agentas pasikeičia iš ankstesnės būsenos į dabartinę.

Gilus Q mokymasis

Kai modelis turi prieigą prie informacijos apie mokymosi aplinkos būsenas, galima apskaičiuoti Q reikšmes. Q reikšmės yra bendras atlygis, suteiktas agentui veiksmų sekos pabaigoje.

Q reikšmės apskaičiuojamos naudojant daugybę atlygių. Iš karto gaunamas atlygis, apskaičiuojamas esant dabartinei būsenai ir atsižvelgiant į dabartinį veiksmą. Taip pat apskaičiuojama tolesnės būsenos Q reikšmė kartu su būsenos po jos Q reikšmė ir taip toliau, kol bus apskaičiuotos visos skirtingų būsenų Q reikšmės. Taip pat yra gama parametras, kuris naudojamas kontroliuoti, kiek būsimų atlygių turės agento veiksmams. Politika paprastai apskaičiuojama atsitiktinai inicijuojant Q reikšmes ir leidžiant modeliui konverguoti į optimalias Q reikšmes mokymo metu.

Gilūs Q tinklai

Viena iš pagrindinių problemų, susijusių su Q mokymosi naudojimas mokymosi pastiprinimui yra tai, kad atminties kiekis, reikalingas duomenims saugoti, sparčiai plečiasi, kai didėja būsenų skaičius. Gilieji Q tinklai išsprendžia šią problemą derindami neuroninių tinklų modelius su Q reikšmėmis, suteikdami agentui galimybę mokytis iš patirties ir pagrįstai spėti, kokių veiksmų geriausia imtis. Naudojant gilųjį Q mokymąsi, Q reikšmės funkcijos įvertinamos naudojant neuroninius tinklus. Neuroninis tinklas įveda būseną kaip įvesties duomenis, o tinklas išveda Q reikšmę visiems skirtingiems galimiems veiksmams, kuriuos gali atlikti agentas.

Gilus Q mokymasis pasiekiamas išsaugant visą ankstesnę patirtį atmintyje, apskaičiuojant maksimalius Q tinklo išėjimus ir naudojant praradimo funkciją skirtumui tarp dabartinių verčių ir teoriškai didžiausių galimų verčių apskaičiuoti.

Gilus mokymasis prieš gilų mokymąsi

Vienas svarbus skirtumas tarp giluminio mokymosi ir įprasto giluminio mokymosi yra tas, kad pirmuoju atveju įvestis nuolat keičiasi, o tradicinio gilaus mokymosi atveju tai nėra. Kaip mokymosi modelis gali atsižvelgti į nuolat kintančias įvestis ir rezultatus?

Iš esmės, siekiant atsižvelgti į numatytų verčių ir tikslinių verčių skirtumą, vietoj vieno galima naudoti du neuroninius tinklus. Vienas tinklas įvertina tikslines vertes, o kitas tinklas yra atsakingas už prognozes. Tikslinio tinklo parametrai atnaujinami modeliui išmokus, praėjus pasirinktam mokymo iteracijų skaičiui. Tada atitinkamų tinklų išėjimai sujungiami, kad būtų nustatytas skirtumas.

Politika pagrįstas mokymasis

Politika grįstas mokymasis metodai veikia kitaip nei Q verte pagrįsti metodai. Nors Q vertės metodai sukuria vertės funkciją, kuri numato atlygį už būsenas ir veiksmus, politika pagrįsti metodai nustato politiką, kuri susieja būsenas su veiksmais. Kitaip tariant, politikos funkcija, kuri pasirenka veiksmus, optimizuojama tiesiogiai, neatsižvelgiant į vertės funkciją.

Politikos gradientai

Gilaus mokymosi stiprinimo politika skirstoma į vieną iš dviejų kategorijų: stochastinį arba deterministinį. Deterministinė politika yra ta, kai būsenos susiejamos su veiksmais, o tai reiškia, kad kai politikai suteikiama informacija apie būseną, veiksmas grąžinamas. Tuo tarpu stochastinė politika grąžina veiksmų tikimybių skirstinį, o ne vieną atskirą veiksmą.

Deterministinė politika naudojama tada, kai nėra netikrumo dėl veiksmų, kurių galima imtis, rezultatų. Kitaip tariant, kai pati aplinka yra deterministinė. Priešingai, stochastinės politikos rezultatai yra tinkami aplinkoje, kurioje veiksmų rezultatas yra neaiškus. Paprastai stiprinimo mokymosi scenarijai apima tam tikrą neapibrėžtumo laipsnį, todėl naudojama stochastinė politika.

Politikos gradiento metodai turi keletą pranašumų, palyginti su Q mokymosi metodais, taip pat kai kurių trūkumų. Kalbant apie privalumus, politika pagrįsti metodai greičiau ir patikimiau susilieja su optimaliais parametrais. Politikos gradientu galima tiesiog vadovautis tol, kol bus nustatyti geriausi parametrai, o naudojant verte pagrįstus metodus, nedideli apskaičiuotų veiksmų verčių pokyčiai gali sukelti didelius veiksmų ir su jais susijusių parametrų pokyčius.

Politikos gradientai geriau veikia ir didelių matmenų veiksmų erdvėse. Kai yra labai daug galimų veiksmų, gilus Q mokymasis tampa nepraktiškas, nes jis turi priskirti balą kiekvienam galimam veiksmui per visus laiko etapus, o tai gali būti neįmanoma skaičiuojant. Tačiau taikant politika pagrįstus metodus, parametrai laikui bėgant koreguojami, o modeliui suartėjant galimų geriausių parametrų skaičius greitai mažėja.

Politikos gradientai taip pat gali įgyvendinti stochastinę politiką, skirtingai nei vertybėmis pagrįstos politikos. Kadangi stochastinė politika sukuria tikimybių pasiskirstymą, tyrinėjimo/naudojimo kompromiso įgyvendinti nereikia.

Kalbant apie trūkumus, pagrindinis politikos gradientų trūkumas yra tas, kad jie gali įstrigti ieškant optimalių parametrų, sutelkiant dėmesį tik į siaurą vietinį optimalių verčių rinkinį, o ne į visuotines optimalias reikšmes.

Politikos balo funkcija

Politika, naudojama siekiant optimizuoti modelio našumo tikslą kad maksimaliai padidintumėte balo funkciją – J (θ). Jei J(θ) yra matas, kaip mūsų politika tinka norimam tikslui pasiekti, galime rasti „θ“, kuri suteikia mums geriausią politiką. Pirmiausia turime apskaičiuoti numatomą politikos atlygį. Apskaičiuojame politikos atlygį, kad turėtume tikslą, į ką reikia optimizuoti. Politikos balo funkcija yra tai, kaip mes apskaičiuojame numatomą politikos atlygį, o dažniausiai naudojamos įvairios politikos balo funkcijos, pvz.: epizodinės aplinkos pradžios vertės, vidutinė nuolatinės aplinkos vertė ir vidutinis atlygis už laiko veiksmą.

Politikos gradiento kilimas

Gradiento pakilimu siekiama perkelti parametrus tol, kol jie atsidurs toje vietoje, kur balas yra didžiausias. Nuotrauka: viešasis domenas (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

Naudojus pageidaujamą politikos balo funkciją ir apskaičiavus numatomą politikos atlygį, galime rasti parametro reikšmę „θ“, kuri maksimaliai padidina balo funkciją. Norėdami maksimaliai padidinti balo funkciją J(θ), technika, vadinama „gradiento pakilimas" yra naudojamas. Gradiento kilimas savo koncepcija yra panašus į gradiento nusileidimą gilaus mokymosi metu, bet optimizuojame siekdami stačiausio padidėjimo, o ne mažėjimo. Taip yra todėl, kad mūsų rezultatas nėra „klaida“, kaip ir daugelyje gilių mokymosi problemų. Mūsų rezultatas yra tai, ką norime maksimaliai padidinti. Išraiška, vadinama Politikos gradiento teorema, naudojama norint įvertinti gradientą pagal politiką "θ".

Gilaus sustiprinimo mokymosi santrauka

Apibendrinant galima pasakyti, kad mokymasis su giliu pastiprinimu sujungia sustiprinimo mokymosi ir giliųjų neuroninių tinklų aspektus. Mokymasis giliai sustiprinamas naudojant du skirtingus metodus: gilųjį Q mokymąsi ir politikos gradientus.

Giluminio Q mokymosi metodais siekiama numatyti, kokie atlygiai bus gauti po tam tikrų veiksmų, atliktų tam tikroje būsenoje, o politikos gradiento metodais siekiama optimizuoti veiksmų erdvę, numatant pačius veiksmus. Politika pagrįsti gilaus sustiprinimo mokymosi metodai yra deterministinio arba stochastinio pobūdžio. Deterministinė politika susieja būsenas tiesiogiai su veiksmais, o stochastinė politika sukuria veiksmų tikimybių pasiskirstymą.

Susijusios temos:gilus mokymasis gilaus sustiprinimo mokymasis stiprinimas

Kitas

Kas yra Federacinis mokymasis?

Nepraleiskite

Kas yra Bayes teorema?

Danielis Nelsonas

Tinklaraštininkas ir programuotojas, turintis specialybių Mašininis mokymasis ir Gilus mokymasis temomis. Danielis tikisi padėti kitiems panaudoti AI galią socialinei gerovei.