AI 101

Naon Dupi Deep Reinforcement Learning?

diropéa on Agustus 2, 2021

Naon Dupi Deep Reinforcement Learning?

Marengan learning machine unsupervised jeung learning diawasi, bentuk umum sejen tina kreasi AI nyaéta learning reinforcement. Saluareun diajar penguatan rutin, pangajaran penguatan jero bisa ngakibatkeun hasil astonishingly impressive, berkat kanyataan yén éta ngagabungkeun aspék pangalusna duanana learning jero tur learning tulangan. Hayu urang tingali persis kumaha jero penguatan learning beroperasi.

Sateuacan urang teuleum kana diajar penguatan anu jero, panginten langkung saé pikeun nyegerkeun diri kumaha rutin pembelajaran tulangan dianggo. Dina pembelajaran penguatan, algoritma anu berorientasi tujuan dirancang ngaliwatan prosés trial and error, ngaoptimalkeun tindakan anu nuju kana hasil anu pangsaéna / tindakan anu paling seueur "ganjaran". Nalika algoritma pembelajaran penguatan dilatih, aranjeunna dipasihan "ganjaran" atanapi "hukuman" anu mangaruhan tindakan anu bakal dilakukeun di hareup. Algoritma nyobian milarian sakumpulan tindakan anu bakal nyayogikeun sistem anu paling ganjaran, nyaimbangkeun ganjaran langsung sareng anu bakal datang.

Algoritma pembelajaran penguatan pohara kuat sabab bisa dilarapkeun ka ampir sagala tugas, bisa flexibly jeung dinamis diajar ti hiji lingkungan jeung manggihan lampah mungkin.

Tinjauan Pangajaran Panguatan Jero

Poto: Megajuice via Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

Lamun datang ka pembelajaran tulangan jero, lingkungan biasana digambarkeun ku gambar. Gambar mangrupikeun néwak lingkungan dina waktos anu khusus. Agén kedah nganalisis gambar sareng nimba inpormasi anu relevan ti aranjeunna, nganggo inpormasi pikeun nginpokeun tindakan anu kedah dilakukeun. Pangajaran penguatan jero biasana dilaksanakeun ku salah sahiji tina dua téknik anu béda: pangajaran dumasar-nilai sareng pangajaran dumasar-kabijakan.

Téhnik diajar dumasar-nilai ngagunakeun algoritma sareng arsitéktur sapertos jaringan saraf konvolusional sareng Jero-Q-Jaringan. Algoritma ieu beroperasi ku cara ngarobah gambar kana skala abu sarta motong kaluar bagian gambar nu teu perlu. Afterward, gambar ngalaman rupa convolutions sarta operasi pooling, extracting porsi paling relevan gambar. Bagian penting tina gambar lajeng dipaké pikeun ngitung Q-nilai pikeun lampah béda agén tiasa nyandak. Q-nilai dipaké pikeun nangtukeun kursus pangalusna tina aksi pikeun agén. Saatos Q-nilai awal diitung, backpropagation dilaksanakeun supados nilai-Q anu paling akurat tiasa ditangtukeun.

Métode dumasar-kabijakan dianggo nalika jumlah tindakan anu tiasa dilakukeun ku agén pisan tinggi, anu biasana kajadian dina skenario dunya nyata. Situasi sapertos kieu ngabutuhkeun pendekatan anu béda sabab ngitung nilai-Q pikeun sadaya tindakan individu henteu pragmatis. Pendekatan dumasar kawijakan beroperasi tanpa ngitung nilai fungsi pikeun tindakan individu. Gantina, aranjeunna ngadopsi kawijakan ku diajar kawijakan langsung, mindeng ngaliwatan téhnik disebut Policy Gradients.

Gradién kawijakan beroperasi ku cara narima kaayaan jeung ngitung probabiliti pikeun lampah dumasar kana pangalaman saméméhna agén urang. Peta anu paling dipikaresep teras dipilih. Prosés ieu diulang nepi ka ahir periode evaluasi sarta ganjaran dibikeun ka agén. Saatos ganjaran diurus ku agén, parameter jaringan diropéa nganggo backpropagation.

Naon ari Q-Learning?

margi Q-Learning mangrupa bagian badag tina prosés learning tulangan jero, hayu urang nyandak sababaraha waktu pikeun bener ngartos kumaha sistem Q-learning jalan.

Prosés Kaputusan Markov

Hiji prosés kaputusan markov. Poto: waldoalvarez via Pixabay, Lisensi Pixbay (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

Supados agén AI tiasa ngalaksanakeun sababaraha pancén sareng ngahontal tujuan, agén kedah tiasa nganyahokeun réntétan kaayaan sareng kajadian. Agén bakal ngamimitian dina hiji kaayaan sareng kedah nyandak sababaraha tindakan pikeun ngahontal kaayaan ahir, sareng tiasa aya sajumlah ageung nagara anu aya antara nagara awal sareng akhir. Nyimpen inpormasi ngeunaan unggal kaayaan teu praktis atanapi teu mungkin, janten sistem kedah milarian cara pikeun ngawétkeun inpormasi kaayaan anu paling relevan. Ieu kahontal ngaliwatan pamakéan a Prosés Kaputusan Markov, nu preserves ngan informasi ngeunaan kaayaan ayeuna jeung kaayaan saméméhna. Unggal kaayaan nuturkeun sipat Markov, nu ngalacak kumaha agén robah tina kaayaan saméméhna ka kaayaan ayeuna.

Jero Q-Learning

Sakali modél ngagaduhan aksés kana inpormasi ngeunaan kaayaan lingkungan diajar, nilai-Q tiasa diitung. Nilai-Q nyaéta total ganjaran anu dipasihkeun ka agén dina tungtung sekuen tindakan.

The Q-nilai diitung kalawan runtuyan ganjaran. Aya ganjaran langsung, diitung dina kaayaan ayeuna sarta gumantung kana aksi ayeuna. Q-nilai keur kaayaan saterusna ogé diitung, babarengan jeung Q-nilai pikeun kaayaan sanggeus éta, jeung saterusna nepi ka sadaya Q-nilai pikeun nagara béda geus diitung. Aya ogé parameter Gamma nu dipaké pikeun ngadalikeun sabaraha beurat ganjaran hareup boga on lampah agén urang. Kawijakan ilaharna diitung ku cara acak initializing Q-nilai jeung letting model konvergen arah optimal Q-nilai ngaliwatan kursus latihan.

Jero Q-Jaringan

Salah sahiji masalah fundamental ngalibetkeun pamakéan Q-learning pikeun pembelajaran tulangan éta jumlah memori diperlukeun pikeun nyimpen data gancang expands sakumaha jumlah nagara bagian naek. Deep Q Networks ngajawab masalah ieu ku ngagabungkeun model jaringan saraf jeung Q-nilai, sangkan agén diajar tina pangalaman jeung nyieun guesses lumrah ngeunaan lampah pangalusna pikeun nyokot. Kalawan Q-learning jero, fungsi Q-nilai diperkirakeun ku jaringan saraf. Jaringan saraf nyandak kaayaan salaku data input, sareng jaringan kaluaran Q-nilai pikeun sadaya tindakan anu mungkin dilakukeun ku agén.

Deep Q-learning dilakonan ku nyimpen sagala pangalaman kaliwat dina mémori, ngitung kaluaran maksimum pikeun Q-jaringan, lajeng ngagunakeun fungsi leungitna keur ngitung bédana antara nilai ayeuna jeung nilai teoritis pangluhurna mungkin.

Pangajaran Panguatan Jero vs Pangajaran Jero

Hiji bédana penting antara learning tulangan jero jeung learning jero biasa nyaéta yén dina kasus urut inputs terus ngarobah, nu teu kasus dina learning jero tradisional. Kumaha modél pangajaran tiasa ngitung input sareng kaluaran anu terus-terusan ngageser?

Intina, pikeun ngitung bédana antara nilai anu diprediksi sareng nilai target, dua jaringan saraf tiasa dianggo tibatan hiji. Hiji jaringan ngira-ngira nilai target, sedengkeun jaringan anu sanés tanggung jawab pikeun prediksi. Parameter jaringan target diropéa nalika modél diajar, saatos sababaraha iterasi pelatihan anu dipilih parantos lulus. Kaluaran tina jaringan masing-masing teras dihijikeun pikeun nangtukeun bédana.

Pangajaran Berbasis Kabijakan

Pangajaran dumasar kawijakan pendekatan beroperasi béda ti pendekatan dumasar Q-nilai. Nalika pendekatan Q-nilai nyiptakeun fungsi nilai anu ngaramalkeun ganjaran pikeun kaayaan sareng tindakan, metode dumasar-kabijakan nangtukeun kawijakan anu bakal peta nagara kana tindakan. Dina basa sejen, fungsi kawijakan anu milih pikeun lampah langsung dioptimalkeun tanpa merhatikeun fungsi nilai.

Gradién kawijakan

Kabijakan pikeun diajar penguatan jero digolongkeun kana salah sahiji tina dua kategori: stokastik atanapi deterministik. Kabijakan deterministik mangrupikeun kaayaan dimana nagara dipetakeun kana tindakan, hartosna nalika kawijakan dipasihkeun inpormasi ngeunaan kaayaan hiji tindakan dipulangkeun. Samentara éta, kawijakan stokastik balik sebaran probabiliti pikeun lampah tinimbang hiji tunggal, aksi diskrit.

Kabijakan deterministik dianggo nalika teu aya kateupastian ngeunaan hasil tina tindakan anu tiasa dilaksanakeun. Dina basa sejen, nalika lingkungan sorangan deterministik. Sabalikna, kaluaran kawijakan stokastik cocog pikeun lingkungan dimana hasil tina tindakan henteu pasti. Ilaharna, skenario pembelajaran penguatan ngalibatkeun sababaraha tingkat kateupastian sahingga kawijakan stokastik dianggo.

Pendekatan gradién kawijakan gaduh sababaraha kaunggulan dibandingkeun pendekatan Q-learning, kitu ogé sababaraha kalemahan. Dina hal kaunggulan, métode dumasar-kabijakan konvergen kana parameter optimal leuwih gancang jeung leuwih reliably. Gradién kawijakan ngan bisa dituturkeun nepi ka parameter pangalusna ditangtukeun, sedengkeun jeung métode dumasar-nilai parobahan leutik di estimasi nilai aksi bisa ngakibatkeun parobahan badag dina lampah jeung parameter pakait maranéhanana.

Gradién kawijakan tiasa dianggo langkung saé pikeun rohangan aksi diménsi luhur ogé. Lamun aya sajumlah kacida luhurna kamungkinan lampah pikeun ngalakukeun, jero Q-learning jadi teu praktis sabab kudu nangtukeun skor ka unggal tindakan mungkin pikeun sakabéh hambalan waktos, nu bisa jadi teu mungkin mun komputasi. Sanajan kitu, kalawan métode dumasar-kabijakan, parameter disaluyukeun kana waktu jeung jumlah mungkin parameter pangalusna gancang shrinks salaku modél converges.

Gradién kawijakan ogé sanggup nerapkeun kawijakan stokastik, teu saperti kawijakan dumasar-nilai. Kusabab kawijakan stokastik ngahasilkeun sebaran probabiliti, hiji eksplorasi / eksploitasi trade-off teu perlu dilaksanakeun.

Dina watesan kalemahan, disadvantage utama gradients kawijakan nyaeta aranjeunna bisa nyangkut bari neangan parameter optimal, fokus ngan dina sempit, set lokal tina nilai optimum tinimbang nilai optimum global.

Fungsi Skor Kabijakan

Kabijakan anu dianggo pikeun ngaoptimalkeun tujuan kinerja modél pikeun maksimalkeun pungsi skor - J(θ). Lamun J(θ) nyaéta ukuran kumaha alusna kawijakan urang pikeun ngahontal tujuan anu dipikahoyong, urang tiasa mendakan nilai-nilai "θ” anu masihan kami kawijakan anu pangsaéna. Kahiji, urang kudu ngitung ganjaran kawijakan ekspektasi. Urang estimasi ganjaran kawijakan sangkan boga tujuan, hiji hal pikeun ngaoptimalkeun arah. Fungsi Skor Kabijakan nyaéta kumaha urang ngitung ganjaran kawijakan anu dipiharep, sareng aya béda Fungsi Skor Kabijakan anu biasa dianggo, sapertos: nilai ngamimitian pikeun lingkungan episodik, nilai rata-rata pikeun lingkungan kontinyu, sareng rata-rata ganjaran per léngkah waktos.

Kawijakan Gradién naek

Naek gradién tujuanana pikeun mindahkeun parameter dugi ka tempat anu skorna pangluhurna. Poto: Domain Publik (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

Saatos Fungsi Skor Kabijakan anu dipikahoyong dianggo, sareng ganjaran kawijakan diperkirakeun diitung, urang tiasa mendakan nilai pikeun parameter "θ” anu ngamaksimalkeun fungsi skor. Pikeun maksimalkeun pungsi skor J(θ), téhnik nu disebut "naek gradién” dipaké. Naékna gradién sami dina konsép pikeun turunan gradién dina diajar jero, tapi urang ngaoptimalkeun kanaékan anu paling luhur tibatan turunna. Ieu kusabab skor urang teu "kasalahan", kawas dina loba masalah learning jero. Skor kami mangrupikeun hal anu urang hoyong maksimalkeun. Ekspresi anu disebut Téoréma Gradién Kabijakan dianggo pikeun ngira-ngira gradién ngeunaan kawijakan "θ".

Ringkesan Pangajaran Panguatan Jero

Kasimpulanana, pembelajaran tulangan jero ngagabungkeun aspék pembelajaran tulangan sareng jaringan saraf jero. Pangajaran penguatan jero dilakukeun ku dua téknik anu béda: Deep Q-learning sareng gradién kawijakan.

Metodeu Q-learning jero tujuanana pikeun ngaduga ganjaran mana anu bakal nuturkeun tindakan anu tangtu anu dilakukeun dina kaayaan anu tangtu, sedengkeun pendekatan gradién kawijakan tujuanana pikeun ngaoptimalkeun rohangan aksi, ngaramalkeun tindakan sorangan. Pendekatan dumasar-kabijakan pikeun diajar penguatan jero boh deterministik atanapi stokastik. Peta kawijakan deterministik nyatakeun langsung kana tindakan bari kawijakan stokastik ngahasilkeun distribusi probabilitas pikeun tindakan.

Topik nu patali:learning jero pangajaran penguatan jero pembelajaran tulangan

nepi salajengna

Naon ari Federated Learning?

Ulah Cik

Naon Teorema Bayes?

Daniel Nelson

Blogger sareng programer kalayan spesialisasi dina mesin Learning jeung jero Learning jejer. Daniel ngaharepkeun ngabantosan batur ngagunakeun kakawasaan AI pikeun kasaéan sosial.