ဆောင်းပါးတို Deep Reinforcement Learning ဆိုတာဘာလဲ။ - Unite.AI
ကြှနျုပျတို့နှငျ့အတူချိတ်ဆက်ပါ
AI Masterclass-

AI ၅၀

Deep Reinforcement Learning ဆိုတာဘာလဲ။

mm
နောက်ဆုံးရေးသားချိန် on

Deep Reinforcement Learning ဆိုတာဘာလဲ။

ကြီးကြပ်မထားသော စက်သင်ယူမှုနှင့် ကြီးကြပ်သင်ယူမှုနှင့်အတူ AI ဖန်တီးမှု၏ နောက်ထပ်ဘုံပုံစံမှာ အားဖြည့်သင်ယူမှုဖြစ်သည်။ ပုံမှန်အားဖြည့်သင်ကြားမှုထက်၊ နက်ရှိုင်းသော အားဖြည့်သင်ကြားမှု နက်နဲသောသင်ယူမှုနှင့် အားဖြည့်သင်ကြားမှုနှစ်ခုလုံး၏ အကောင်းဆုံးသွင်ပြင်ကို ပေါင်းစပ်ထားသောကြောင့် အံ့အားသင့်ဖွယ်ရလဒ်များကို ဖြစ်ပေါ်စေနိုင်သည်။ နက်နဲသော အားဖြည့်သင်ကြားမှု လုပ်ဆောင်ပုံကို အတိအကျ လေ့လာကြည့်ကြပါစို့။

နက်ရှိုင်းသော အားဖြည့်သင်ကြားမှုသို့ ကျွန်ုပ်တို့ မပါဝင်မီ၊ ပုံမှန်နည်းဖြင့် မိမိကိုယ်ကို ပြန်လည်ဆန်းသစ်ရန် အကြံကောင်းဖြစ်ပေမည်။ အားဖြည့်သင်ယူမှု အလုပ်များ။ အားဖြည့်သင်ကြားမှုတွင်၊ ပန်းတိုင်-ဦးတည်သော အယ်လဂိုရီသမ်များကို အစမ်းသုံးခြင်းနှင့် အမှားအယွင်းပြုလုပ်ခြင်းလုပ်ငန်းစဉ်မှတဆင့် ဒီဇိုင်းထုတ်ကာ အကောင်းဆုံးရလဒ်များ/အများဆုံးရရှိသည့် လုပ်ဆောင်ချက်အတွက် အကောင်းဆုံးဖြစ်အောင် ဖန်တီးထားသည်။ အားဖြည့်သင်ကြားမှုဆိုင်ရာ အယ်လဂိုရီသမ်များကို လေ့ကျင့်သင်ကြားသည့်အခါ ၎င်းတို့သည် အနာဂတ်တွင် လုပ်ဆောင်ရမည့် လုပ်ဆောင်ချက်များအပေါ် လွှမ်းမိုးသည့် “ဆုများ” သို့မဟုတ် “ပြစ်ဒဏ်များ” ပေးသည်။ အယ်လဂိုရီသမ်များသည် စနစ်အား ဆုအများဆုံးပေးမည့်၊ ချက်ချင်းနှင့် အနာဂတ်ဆုလာဘ်များ နှစ်ခုလုံးကို ချိန်ညှိပေးမည့် လုပ်ဆောင်ချက်အစုံကို ရှာဖွေရန် ကြိုးစားသည်။

အားဖြည့်သင်ယူမှု အယ်လဂိုရီသမ်များသည် မည်သည့်အလုပ်မဆိုနီးပါးတွင် အသုံးချနိုင်ပြီး၊ ပတ်ဝန်းကျင်တစ်ခုမှ လိုက်လျောညီထွေဖြစ်ပြီး ဒိုင်းနမစ်ကျကျ သင်ယူနိုင်ပြီး ဖြစ်နိုင်ချေရှိသော လုပ်ဆောင်ချက်များကို ရှာဖွေတွေ့ရှိနိုင်ခြင်းကြောင့် ၎င်းတို့သည် အလွန်အစွမ်းထက်ပါသည်။

Deep Reinforcement Learning ၏ ခြုံငုံသုံးသပ်ချက်

ဓာတ်ပုံ- Wikimedia Commons မှတဆင့် Megajuice၊ CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

နက်ရှိုင်းသော အားဖြည့်သင်ကြားမှုနှင့်ပတ်သက်လာလျှင် ပတ်ဝန်းကျင်ကို ပုံမှန်အားဖြင့် ပုံများဖြင့် ကိုယ်စားပြုသည်။ ရုပ်ပုံသည် အချိန်ကာလတစ်ခုအတွင်း ပတ်ဝန်းကျင်ကို ဖမ်းယူမှုတစ်ခုဖြစ်သည်။ အေးဂျင့်သည် ၎င်းတို့လုပ်ဆောင်သင့်သည်များကို အသိပေးရန်အတွက် အချက်အလက်ကို အသုံးပြု၍ ရုပ်ပုံများကို ခွဲခြမ်းစိတ်ဖြာပြီး သက်ဆိုင်ရာအချက်အလက်များကို ၎င်းတို့ထံမှ ထုတ်ယူရမည်ဖြစ်သည်။ နက်ရှိုင်းသောအားဖြည့်သင်ကြားမှုကို ပုံမှန်အားဖြင့် မတူညီသောနည်းစနစ်နှစ်ခုထဲမှ တစ်ခုဖြစ်သည့် တန်ဖိုး-အခြေခံသင်ယူမှုနှင့် မူဝါဒအခြေခံသင်ယူမှုတို့ဖြစ်သည်။

တန်ဖိုးအခြေပြု သင်ယူမှုနည်းစနစ်များသည် convolutional neural networks များကဲ့သို့ algorithms နှင့် Architecture များကို အသုံးပြုကြပြီး၊ Deep-Q-Networks. ဤ အယ်လဂိုရီသမ်များသည် ပုံကို မီးခိုးရောင်စကေးအဖြစ် ပြောင်းလဲကာ ရုပ်ပုံ၏ မလိုအပ်သော အစိတ်အပိုင်းများကို ဖြတ်တောက်ခြင်းဖြင့် လုပ်ဆောင်သည်။ ထို့နောက်တွင်၊ ရုပ်ပုံသည် အမျိုးမျိုးသော convolutions နှင့် pooling လုပ်ဆောင်မှုများကို လုပ်ဆောင်ပြီး ပုံ၏ အသက်ဆိုင်ဆုံးအပိုင်းများကို ထုတ်ယူသည်။ ထို့နောက် အေးဂျင့်လုပ်ဆောင်နိုင်သော မတူညီသောလုပ်ဆောင်ချက်များအတွက် ပုံ၏အရေးကြီးသောအစိတ်အပိုင်းများကို Q-value ကို တွက်ချက်ရန် အသုံးပြုပါသည်။ အမေး-တန်ဖိုးများကို အေးဂျင့်အတွက် အကောင်းဆုံးလုပ်ဆောင်မှုကို ဆုံးဖြတ်ရန် အသုံးပြုသည်။ ကနဦး Q-တန်ဖိုးများကို တွက်ချက်ပြီးနောက်၊ အတိကျဆုံး Q-တန်ဖိုးများကို ဆုံးဖြတ်နိုင်စေရန်အတွက် backpropagation ကို လုပ်ဆောင်ပါသည်။

အေးဂျင့်လုပ်ဆောင်နိုင်သည့် ဖြစ်နိုင်ခြေရှိသော လုပ်ဆောင်မှုအရေအတွက်သည် အလွန်မြင့်မားသောအခါတွင် မူဝါဒအခြေခံနည်းလမ်းများကို အသုံးပြုသည်၊ ၎င်းသည် ပုံမှန်အားဖြင့် လက်တွေ့ကမ္ဘာအခြေအနေများတွင် ဖြစ်လေ့ရှိသည်။ ဤကဲ့သို့သောအခြေအနေများသည် လုပ်ဆောင်ချက်အားလုံးအတွက် Q-တန်ဖိုးများကို တွက်ချက်ခြင်းသည် လက်တွေ့မကျသောကြောင့် ကွဲပြားသောချဉ်းကပ်မှု လိုအပ်ပါသည်။ မူဝါဒအခြေပြုချဉ်းကပ်မှုများသည် တစ်ဦးချင်းလုပ်ဆောင်မှုများအတွက် လုပ်ဆောင်ချက်တန်ဖိုးများကို မတွက်ချက်ဘဲ လုပ်ဆောင်သည်။ ယင်းအစား၊ Policy Gradients ဟုခေါ်သော နည်းပညာများဖြင့် မကြာခဏဆိုသလို မူဝါဒကို တိုက်ရိုက်လေ့လာခြင်းဖြင့် မူဝါဒများကို ချမှတ်ကြသည်။

မူဝါဒ gradient များသည် အခြေအနေကိုလက်ခံပြီး အေးဂျင့်၏ယခင်အတွေ့အကြုံများအပေါ်အခြေခံ၍ လုပ်ဆောင်မှုများအတွက် ဖြစ်နိုင်ခြေများကို တွက်ချက်ခြင်းဖြင့် လုပ်ဆောင်ပါသည်။ ထို့နောက် ဖြစ်နိုင်ခြေအရှိဆုံးလုပ်ဆောင်ချက်ကို ရွေးပါ။ ဤလုပ်ငန်းစဉ်ကို အကဲဖြတ်သည့်ကာလ ကုန်ဆုံးသည်အထိ ထပ်ခါတလဲလဲ လုပ်ဆောင်ပြီး ဆုလာဘ်များကို ကိုယ်စားလှယ်အား ပေးပါသည်။ ဆုလာဘ်များကို အေးဂျင့်ထံ ပေးဆောင်ပြီးနောက်၊ ကွန်ရက်၏ ဘောင်များကို နောက်ကြောင်းပြန်ဖြန့်ခြင်းဖြင့် အပ်ဒိတ်လုပ်သည်။

Q-Learning ဆိုတာဘာလဲ။

ဘာဖြစ်လို့လဲဆိုတော့ မေး - သင်ယူခြင်း။ နက်နဲသော အားဖြည့်သင်ကြားမှု လုပ်ငန်းစဉ်၏ ကြီးမားသော အစိတ်အပိုင်းဖြစ်သည်၊ Q-learning စနစ် မည်သို့အလုပ်လုပ်သည်ကို အမှန်တကယ် နားလည်ရန် အချိန်အနည်းငယ်ယူကြပါစို့။

Markov ဆုံးဖြတ်ချက်လုပ်ငန်းစဉ်

markov ဆုံးဖြတ်ချက်လုပ်ငန်းစဉ်။ ဓာတ်ပုံ- waldoalvarez via Pixabay၊ Pixbay လိုင်စင် (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

AI အေးဂျင့်တစ်ဦးသည် လုပ်ငန်းတာဝန်များကို ဆက်တိုက်ထမ်းဆောင်ပြီး ပန်းတိုင်တစ်ခုသို့ရောက်ရှိစေရန်အတွက်၊ အေးဂျင့်သည် ပြည်နယ်နှင့် အဖြစ်အပျက်များ၏ အစီအစဥ်များကို ကိုင်တွယ်ဖြေရှင်းနိုင်ရပါမည်။ အေးဂျင့်သည် ပြည်နယ်တစ်ခုတွင် စတင်မည်ဖြစ်ပြီး ၎င်းသည် နိဂုံးချုပ်သည့်အခြေအနေသို့ရောက်ရှိရန် ဆက်တိုက်လုပ်ဆောင်ရမည်ဖြစ်ပြီး အစနှင့်အဆုံးပြည်နယ်များကြားရှိ ပြည်နယ်အများအပြားရှိနိုင်သည်။ ပြည်နယ်တိုင်းနှင့် ပတ်သက်သော သတင်းအချက်အလက်များကို သိမ်းဆည်းခြင်းသည် လက်တွေ့မကျ သို့မဟုတ် မဖြစ်နိုင်သောကြောင့်၊ စနစ်သည် သက်ဆိုင်ရာ ပြည်နယ်၏ အချက်အလက်များကိုသာ ထိန်းသိမ်းရန် နည်းလမ်းရှာရပါမည်။ ဤသည်ကို အသုံးပြုခြင်းအားဖြင့် ပြီးမြောက်သည်။ Markov ဆုံးဖြတ်ချက် လုပ်ငန်းစဉ်လက်ရှိအခြေအနေနှင့် ယခင်အခြေအနေနှင့်ပတ်သက်သည့် အချက်အလက်များကိုသာ ထိန်းသိမ်းထားခြင်းဖြစ်သည်။ ပြည်နယ်တစ်ခုစီတိုင်းသည် ယခင်အခြေအနေမှ လက်ရှိအခြေအနေသို့ အေးဂျင့်ပြောင်းလဲပုံကို ခြေရာခံသည့် Markov ပိုင်ဆိုင်မှုတစ်ခုဖြစ်သည်။

Deep Q-Learning

မော်ဒယ်သည် သင်ယူမှုပတ်ဝန်းကျင်အခြေအနေများအကြောင်း အချက်အလက်များကို ဝင်ရောက်ကြည့်ရှုပြီးသည်နှင့် Q-တန်ဖိုးများကို တွက်ချက်နိုင်သည်။ Q-တန်ဖိုးများသည် လုပ်ဆောင်ချက်တစ်ခု၏အဆုံးတွင် အေးဂျင့်အားပေးသော စုစုပေါင်းဆုလာဘ်များဖြစ်သည်။

Q-တန်ဖိုးများကို ဆုကြေးများ ဆက်တိုက် တွက်ချက်ပါသည်။ လက်ရှိအခြေအနေနှင့် လက်ရှိလုပ်ဆောင်မှုပေါ် မူတည်၍ ချက်ချင်းဆုလာဘ်တစ်ခုရှိသည်။ နောက်ဆက်တွဲပြည်နယ်အတွက် Q-တန်ဖိုးကိုလည်း ၎င်းနောက်ပြည်နယ်အတွက် Q-တန်ဖိုးနှင့်အတူ တွက်ချက်ပြီး မတူညီသောပြည်နယ်များအတွက် Q-တန်ဖိုးများအားလုံးကို တွက်ချက်ပြီးသည်အထိ ဆက်လက်တွက်ချက်ပါသည်။ အေးဂျင့်၏လုပ်ဆောင်ချက်များအပေါ် အနာဂတ်ဆုလာဘ်များ မည်မျှအလေးချိန်ရှိသည်ကို ထိန်းချုပ်ရန် အသုံးပြုသည့် Gamma ကန့်သတ်ချက်တစ်ခုလည်း ရှိပါသည်။ မူဝါဒများကို ပုံမှန်အားဖြင့် Q-values ​​များကို ကျပန်းကနဦးအစပြုကာ မော်ဒယ်အား လေ့ကျင့်ရေးသင်တန်းတစ်လျှောက် အကောင်းဆုံး Q-တန်ဖိုးများဆီသို့ အသွင်ကူးပြောင်းစေခြင်းဖြင့် မူဝါဒများကို တွက်ချက်ပါသည်။

Deep Q-Networks လား။

အခြေခံပြဿနာများထဲမှ တစ်ခုဖြစ်သည်။ Q-Learning ကိုအသုံးပြုခြင်း။ အားဖြည့်သင်ကြားမှုအတွက် ဆိုသည်မှာ ပြည်နယ်အရေအတွက် တိုးလာသည်နှင့်အမျှ ဒေတာသိမ်းဆည်းရန် လိုအပ်သော မှတ်ဉာဏ်ပမာဏသည် လျင်မြန်စွာ တိုးလာခြင်းဖြစ်သည်။ Deep Q Networks သည် အာရုံကြောကွန်ရက်မော်ဒယ်များကို Q-တန်ဖိုးများနှင့် ပေါင်းစပ်ခြင်းဖြင့်၊ အေးဂျင့်တစ်ဦးအား အတွေ့အကြုံမှ သင်ယူနိုင်ပြီး အကောင်းဆုံးလုပ်ဆောင်မှုများအကြောင်း ကျိုးကြောင်းဆီလျော်စွာ ခန့်မှန်းချက်များကို ပြုလုပ်နိုင်စေခြင်းဖြင့် ဤပြဿနာကို ဖြေရှင်းပေးပါသည်။ နက်ရှိုင်းသော Q-သင်ယူခြင်းဖြင့်၊ Q-တန်ဖိုးလုပ်ဆောင်ချက်များကို အာရုံကြောကွန်ရက်များဖြင့် ခန့်မှန်းပေးသည်။ အာရုံကြောကွန်ရက်သည် အခြေအနေကို ထည့်သွင်းသည့်ဒေတာအဖြစ် ယူဆောင်ပြီး အေးဂျင့်လုပ်ဆောင်နိုင်သည့် မတူညီသည့် ဖြစ်နိုင်ချေရှိသော လုပ်ဆောင်မှုအားလုံးအတွက် ကွန်ရက်မှ Q-တန်ဖိုးကို ထုတ်လွှတ်သည်။

Deep Q-learning ကို Memory တွင် အတိတ်က အတွေ့အကြုံအားလုံးကို သိမ်းဆည်းကာ Q-network အတွက် အမြင့်ဆုံး output များကို တွက်ချက်ကာ လက်ရှိတန်ဖိုးများနှင့် သီအိုရီအရ ဖြစ်နိုင်သော အမြင့်ဆုံးတန်ဖိုးများအကြား ခြားနားချက်ကို တွက်ချက်ရန် ဆုံးရှုံးမှု function ကို အသုံးပြုခြင်းဖြင့် ပြီးမြောက်ပါသည်။

Deep Reinforcement Learning vs Deep Learning

နက်ရှိုင်းသောအားဖြည့်သင်ယူမှုနှင့် ပုံမှန်နက်နဲသောသင်ယူမှုတို့ကြား အရေးကြီးသော ခြားနားချက်တစ်ခုမှာ ယခင်အရာများတွင် သွင်းအားစုများ အဆက်မပြတ်ပြောင်းလဲနေပြီး သမားရိုးကျ နက်ရှိုင်းသောသင်ယူမှုတွင် ကိစ္စမဟုတ်ပေ။ သင်ယူမှုပုံစံသည် အဆက်မပြတ်ပြောင်းလဲနေသော သွင်းအားစုများနှင့် ရလဒ်များအတွက် မည်သို့ပါဝင်နိုင်မည်နည်း။

အခြေခံအားဖြင့်၊ ခန့်မှန်းတန်ဖိုးများနှင့် ပစ်မှတ်တန်ဖိုးများအကြား ကွဲပြားမှုကို ထည့်သွင်းတွက်ချက်ရန်၊ တစ်ခုအစား အာရုံကြောကွန်ရက်နှစ်ခုကို အသုံးပြုနိုင်သည်။ ကွန်ရက်တစ်ခုသည် ပစ်မှတ်တန်ဖိုးများကို ခန့်မှန်းပေးကာ အခြားကွန်ရက်တစ်ခုသည် ခန့်မှန်းချက်များကို တာဝန်ယူသည်။ ရွေးချယ်ထားသော လေ့ကျင့်မှုအကြိမ်ရေများစွာ ပြီးသွားပြီးနောက် ပစ်မှတ်ကွန်ရက်၏ ဘောင်များကို မော်ဒယ်သိရှိလာသည်နှင့်အမျှ အပ်ဒိတ်လုပ်ပါသည်။ ထို့နောက် ခြားနားချက်ကို ဆုံးဖြတ်ရန် သက်ဆိုင်ရာ ကွန်ရက်များ၏ ရလဒ်များကို အတူတကွ ပေါင်းစပ်ထားသည်။

မူဝါဒအခြေခံ သင်ယူခြင်း။

မူဝါဒအခြေခံ သင်ကြားရေး ချဉ်းကပ်မှုများသည် Q-value အခြေပြုချဉ်းကပ်မှုများထက် ကွဲပြားစွာလုပ်ဆောင်သည်။ Q-value ချဉ်းကပ်မှုများသည် ပြည်နယ်များနှင့် လုပ်ဆောင်ချက်များအတွက် ဆုလာဘ်များကို ခန့်မှန်းပေးသည့် တန်ဖိုးလုပ်ဆောင်ချက်ကို ဖန်တီးနေသော်လည်း မူဝါဒအခြေခံနည်းလမ်းများက ပြည်နယ်များကို လုပ်ဆောင်ချက်များနှင့် ပုံဖော်ပေးမည့် မူဝါဒကို ဆုံးဖြတ်ပေးပါသည်။ တစ်နည်းအားဖြင့်၊ လုပ်ဆောင်ချက်များအတွက် ရွေးချယ်သော မူဝါဒလုပ်ဆောင်ချက်သည် တန်ဖိုးလုပ်ဆောင်ချက်နှင့် မသက်ဆိုင်ဘဲ တိုက်ရိုက်အကောင်းဆုံးဖြစ်အောင် ပြုလုပ်ထားသည်။

မူဝါဒ Gradients

နက်ရှိုင်းသော အားဖြည့်သင်ကြားမှုအတွက် ပေါ်လစီသည် အမျိုးအစား နှစ်မျိုးထဲမှ တစ်ခုဖြစ်သည်- stochastic သို့မဟုတ် အဆုံးအဖြတ်ပေးသည်။ အဆုံးအဖြတ်ပေးသော မူဝါဒသည် ပြည်နယ်များကို လုပ်ဆောင်ချက်များအတွက် ပုံဖော်ထားသည့် တစ်ခုဖြစ်ပြီး ဆိုလိုသည်မှာ ပြည်နယ်တစ်ခုနှင့် ပတ်သက်သည့် မူဝါဒကို သတင်းအချက်အလက်ပေးသည့်အခါ လုပ်ဆောင်ချက်တစ်ခု ပြန်ပေးသည်ဟု ဆိုလိုသည်။ ဤအတောအတွင်း၊ တစ်ခုတည်း၊ သီးခြားလုပ်ဆောင်မှုအစား လုပ်ဆောင်ချက်များအတွက် ဖြစ်နိုင်ခြေဖြန့်ဝေမှုအား Stochastic မူဝါဒများက ပြန်ပေးသည်။

လုပ်ဆောင်ချက်များ၏ ရလဒ်များနှင့်ပတ်သက်၍ မသေချာမရေရာမှုများမရှိသောအခါ ဆုံးဖြတ်သည့်မူဝါဒများကို အသုံးပြုပါသည်။ တစ်နည်းဆိုရသော် ပတ်ဝန်းကျင်ကိုယ်တိုင်က အဆုံးအဖြတ်ပေးသည့်အချိန်ဖြစ်သည်။ ဆန့်ကျင်ဘက်အားဖြင့်၊ stochastic ပေါ်လစီ ရလဒ်များသည် လုပ်ဆောင်ချက်များ၏ ရလဒ်မသေချာသည့် ပတ်ဝန်းကျင်များအတွက် သင့်လျော်ပါသည်။ ပုံမှန်အားဖြင့်၊ အားဖြည့်သင်ကြားမှုအခြေအနေများတွင် မသေချာမရေရာမှုအချို့ပါ၀င်သောကြောင့် stochastic မူဝါဒများကို အသုံးပြုပါသည်။

မူဝါဒ gradient ချဉ်းကပ်မှုများတွင် Q-learning ချဉ်းကပ်မှုများတွင် အားသာချက်အနည်းငယ်ရှိပြီး အားနည်းချက်အချို့ရှိသည်။ အားသာချက်များတွင်၊ မူဝါဒအခြေခံနည်းလမ်းများသည် ပိုမိုမြန်ဆန်ပြီး ယုံကြည်စိတ်ချရသော အကောင်းဆုံးဘောင်များပေါ်တွင် ပေါင်းစပ်ထားသည်။ မူဝါဒအဆင့်သတ်မှတ်ချက်များကို အကောင်းဆုံး ကန့်သတ်ချက်များကို မဆုံးဖြတ်မချင်း လိုက်နာနိုင်သော်လည်း တန်ဖိုးအခြေခံနည်းလမ်းများဖြင့် ခန့်မှန်းထားသည့် လုပ်ဆောင်ချက်တန်ဖိုးများတွင် သေးငယ်သောပြောင်းလဲမှုများသည် လုပ်ဆောင်ချက်များတွင် ကြီးမားသောပြောင်းလဲမှုများနှင့် ၎င်းတို့၏ဆက်စပ်နေသော ကန့်သတ်ဘောင်များကို ဖြစ်ပေါ်စေနိုင်သည်။

ပေါ်လစီ gradient များသည် မြင့်မားသော Dimension လုပ်ဆောင်ချက် space များအတွက်လည်း ပိုမိုကောင်းမွန်ပါသည်။ လုပ်ဆောင်ရန် ဖြစ်နိုင်ချေများသော အရေအတွက် အလွန်များသောအခါ၊ နက်နဲသော Q-learning သည် အချိန်တိုင်းအတွက် ဖြစ်နိုင်ချေရှိသော လုပ်ဆောင်မှုတိုင်းအတွက် ရမှတ်ကို သတ်မှတ်ပေးရမည်ဖြစ်သောကြောင့်၊ ၎င်းသည် တွက်ချက်မှုအရ မဖြစ်နိုင်ပေ။ သို့သော်၊ မူဝါဒအခြေခံနည်းလမ်းများဖြင့်၊ ဘောင်များကို အချိန်နှင့်အမျှ ချိန်ညှိပြီး မော်ဒယ်များ ပေါင်းစပ်လာသည်နှင့်အမျှ ဖြစ်နိုင်သော အကောင်းဆုံး ကန့်သတ်ချက်များ အရေအတွက် လျင်မြန်စွာ ကျုံ့သွားပါသည်။

မူဝါဒ gradient များသည် တန်ဖိုးအခြေခံမူဝါဒများနှင့်မတူဘဲ stochastic မူဝါဒများကို အကောင်အထည်ဖော်နိုင်သည် ။ Stochastic မူဝါဒများသည် ဖြစ်နိုင်ခြေ ဖြန့်ဖြူးမှုကို ထုတ်လုပ်ပေးသောကြောင့်၊ စူးစမ်းရှာဖွေခြင်း/အမြတ်ထုတ်ခြင်း အပေးအယူကို အကောင်အထည် ဖော်ရန် မလိုအပ်ပါ။

အားနည်းချက်များ အနေဖြင့်၊ မူဝါဒ gradients ၏ အဓိက အားနည်းချက်မှာ အကောင်းဆုံး ကန့်သတ်ဘောင်များကို ရှာဖွေစဉ်တွင် ၎င်းတို့သည် ကမ္ဘာလုံးဆိုင်ရာ အကောင်းဆုံးတန်ဖိုးများအစား ကျဉ်းမြောင်းသော ဒေသန္တရ အကောင်းဆုံး တန်ဖိုးများပေါ်တွင်သာ အာရုံစိုက်နေခြင်း ဖြစ်သည်။

မူဝါဒရမှတ် လုပ်ဆောင်ချက်

မော်ဒယ်တစ်ဦး၏ စွမ်းဆောင်ရည် ရည်မှန်းချက်ကို အကောင်းဆုံးဖြစ်အောင် အသုံးပြုသည့် မူဝါဒများ ရမှတ်လုပ်ဆောင်ချက်ကို မြှင့်တင်ရန် – J(θ) အကယ်၍ J(θ) သည် ကျွန်ုပ်တို့၏ မူဝါဒသည် လိုချင်သော ပန်းတိုင်ကို အရောက်လှမ်းရန်အတွက် မည်မျှ ကောင်းမွန်ကြောင်း တိုင်းတာခြင်းဖြစ်ပြီး၊θ“ဒါက ကျွန်တော်တို့ကို အကောင်းဆုံး မူဝါဒ ပေးတယ်။ ဦးစွာ၊ ကျွန်ုပ်တို့ မျှော်လင့်ထားသော မူဝါဒဆုလာဘ်ကို တွက်ချက်ရန် လိုအပ်ပါသည်။ ကျွန်ုပ်တို့သည် မူဝါဒဆုကြေးငွေကို ခန့်မှန်းထားသောကြောင့် ကျွန်ုပ်တို့တွင် ရည်မှန်းချက်တစ်ခု၊ အကောင်းဆုံးဖြစ်အောင် လုပ်ဆောင်ရန် တစ်ခုခုရှိသည်။ မူဝါဒရမှတ် လုပ်ဆောင်ချက်သည် ကျွန်ုပ်တို့ မျှော်လင့်ထားသည့် မူဝါဒဆုလာဘ်ကို တွက်ချက်ပုံဖြစ်ပြီး၊ ဥပမာ- အပိုင်းအခြားပတ်ဝန်းကျင်များအတွက် စတင်တန်ဖိုးများ၊ စဉ်ဆက်မပြတ်ပတ်၀န်းကျင်အတွက် ပျမ်းမျှတန်ဖိုးနှင့် အချိန်အဆင့်အလိုက် ပျမ်းမျှဆုကြေးများကဲ့သို့သော ကွဲပြားသောမူဝါဒရမှတ်လုပ်ဆောင်ချက်များရှိသည်။

မူဝါဒ Gradient တက်ခြင်း။

Gradient အတက်အဆင်းသည် ရမှတ်အမြင့်ဆုံးနေရာသို့ ရောက်သည်အထိ ဘောင်များကို ရွှေ့ရန် ရည်ရွယ်သည်။ ဓာတ်ပုံ- အများသူငှာ Domain (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

လိုချင်သော မူဝါဒရမှတ် လုပ်ဆောင်ချက်ကို အသုံးပြုပြီး မျှော်မှန်းထားသော မူဝါဒဆုလာဘ်ကို တွက်ချက်ပြီးနောက်၊ ကန့်သတ်ဘောင်အတွက် တန်ဖိုးကို ကျွန်ုပ်တို့ ရှာဖွေနိုင်သည်θ"ရမှတ်လုပ်ဆောင်ချက်ကို အမြင့်ဆုံးဖြစ်စေသည်။ ရမှတ်လုပ်ဆောင်ချက်ကို အမြင့်ဆုံးဖြစ်စေရန်အတွက် J(θ) ဟုခေါ်သော နည်းပညာ၊gradient တက်ခြင်း။"အသုံးပြုသည်။ Gradient တက်ခြင်းသည် နက်ရှိုင်းသောသင်ယူမှုတွင် gradient ဆင်းသက်ခြင်းနှင့်ဆင်တူသည်၊ သို့သော် ကျွန်ုပ်တို့သည် အနိမ့်ဆုံးအစား မတ်စောက်သောတိုးခြင်းအတွက် အကောင်းဆုံးဖြစ်အောင်လုပ်ဆောင်နေပါသည်။ အဘယ်ကြောင့်ဆိုသော် ကျွန်ုပ်တို့၏ရမှတ်သည် နက်နဲသောသင်ယူမှုပြဿနာများစွာတွင်ကဲ့သို့ "အမှား" မဟုတ်ပါ။ ကျွန်ုပ်တို့၏ရမှတ်သည် ကျွန်ုပ်တို့အများဆုံးလိုချင်သည့်အရာဖြစ်သည်။ Policy Gradient Theorem ဟုခေါ်သောအသုံးအနှုန်းကို မူဝါဒနှင့်စပ်လျဉ်း၍ gradient ကိုခန့်မှန်းရန်အသုံးပြုသည်θ"။

Deep Reinforcement Learning ၏ အကျဉ်းချုပ်

အချုပ်အားဖြင့်၊ နက်ရှိုင်းသော အားဖြည့်သင်ကြားမှုသည် အားဖြည့်သင်ကြားမှုနှင့် နက်ရှိုင်းသော အာရုံကြောကွန်ရက်များ၏ ရှုထောင့်များကို ပေါင်းစပ်ထားသည်။ နက်ရှိုင်းသော အားဖြည့်သင်ကြားမှုကို ကွဲပြားသော နည်းလမ်းနှစ်ခုဖြင့် လုပ်ဆောင်သည်- Deep Q-learning နှင့် policy gradients။

Deep Q-Learning နည်းစနစ်များသည် သတ်မှတ်ထားသော အခြေအနေတွင် လုပ်ဆောင်ခဲ့သော အချို့သော လုပ်ဆောင်ချက်များအတိုင်း လိုက်လာမည်ကို ခန့်မှန်းရန် ရည်ရွယ်ပြီး မူဝါဒ gradient ချဉ်းကပ်မှုများသည် လုပ်ဆောင်ချက်နေရာအား အကောင်းဆုံးဖြစ်အောင် လုပ်ဆောင်ရန် ရည်ရွယ်ပြီး လုပ်ဆောင်ချက်များကို ၎င်းတို့ကိုယ်တိုင် ကြိုတင်ခန့်မှန်းရန် ရည်ရွယ်ပါသည်။ နက်ရှိုင်းသော အားဖြည့်သင်ကြားမှုဆီသို့ မူဝါဒအခြေပြုချဉ်းကပ်နည်းများသည် အဆုံးအဖြတ်ပေးသော သို့မဟုတ် အကြမ်းဖျင်းအားဖြင့် သဘာဝတွင် ရှိသည်။ Stochastic မူဝါဒများသည် လုပ်ဆောင်ချက်များအတွက် ဖြစ်နိုင်ခြေ ဖြန့်ဝေမှုများကို ထုတ်လုပ်နေချိန်တွင် အဆုံးအဖြတ်ပေးသော မူဝါဒများသည် ပြည်နယ်များကို လုပ်ဆောင်ချက်များနှင့် တိုက်ရိုက်မြေပုံပြပါသည်။

ဘလော့ဂါနှင့် ပရိုဂရမ်မာများအတွက် အထူးပြုပါ။ စက်သင်ယူ နှင့် နက်ရှိုင်းသောသင်ယူခြင်း အကြောင်းအရာများ လူမှုဆက်ဆံရေးကောင်းမွန်ရန်အတွက် AI ၏စွမ်းအားကို အခြားသူများအား ကူညီပေးနိုင်ရန် Daniel က မျှော်လင့်ထားသည်။