ဆောင်းပါးတို Reinforcement Learning ဆိုတာ ဘာလဲ။ - Unite.AI
ကြှနျုပျတို့နှငျ့အတူချိတ်ဆက်ပါ
AI Masterclass-

AI ၅၀

Reinforcement Learning ဆိုတာ ဘာလဲ။

mm
နောက်ဆုံးရေးသားချိန် on

Reinforcement Learning ဆိုတာ ဘာလဲ။

ရိုးရိုးရှင်းရှင်းပြောရလျှင် အားဖြည့်သင်ယူခြင်းသည် လုပ်ဆောင်ချက်များနှင့် ဆက်စပ်သောဆုများမှတဆင့် ဉာဏ်ရည်တုအေးဂျင့်တစ်ဦးကို လေ့ကျင့်ပေးခြင်းပါ၀င်သည့် စက်သင်ယူမှုနည်းပညာတစ်ခုဖြစ်သည်။ အားဖြည့်သင်ယူမှု အေးဂျင့်တစ်ဦးသည် ပတ်ဝန်းကျင်တစ်ခုတွင် လက်တွေ့စမ်းသပ်မှုများ ပြုလုပ်ကာ မှန်ကန်သောလုပ်ဆောင်ချက်များကို လုပ်ဆောင်သည့်အခါ ဆုချီးမြှင့်ခြင်းခံရသည်။ အချိန်ကြာလာတာနဲ့အမျှ အေးဂျင့် ၎င်း၏အကျိုးကို အမြင့်ဆုံးဖြစ်စေမည့် လုပ်ဆောင်ချက်များကို သင်ယူပါ။ ၎င်းသည် အားဖြည့်သင်ကြားခြင်း၏ လျင်မြန်သော အဓိပ္ပါယ်ဖွင့်ဆိုချက်ဖြစ်သော်လည်း အားဖြည့်သင်ကြားမှုနောက်ကွယ်ရှိ သဘောတရားများကို အနီးကပ်လေ့လာခြင်းဖြင့် ၎င်းနှင့်ပတ်သက်သော ပိုမိုကောင်းမွန်ပြီး အလိုလိုသိနားလည်မှုကို ရရှိစေရန် ကူညီပေးပါမည်။

"အားဖြည့်သင်ကြားခြင်း" ဟူသော ဝေါဟာရသည် သဘောတရားမှ လိုက်လျောညီထွေဖြစ်စေသည်။ စိတ်ပညာအတွက် အားဖြည့်ပေးခြင်း။ ဒါကြောင့် အားဖြည့်ပေးတဲ့ စိတ်ပိုင်းဆိုင်ရာ သဘောတရားကို ခဏလောက် နားလည်လိုက်ကြရအောင်။ စိတ်ပိုင်းဆိုင်ရာအရ၊ အားဖြည့်မှုဟူသောအသုံးအနှုန်းသည် သီးခြားတုံ့ပြန်မှု/လုပ်ဆောင်မှုဖြစ်ပေါ်လာမည့် ဖြစ်နိုင်ခြေကို တိုးမြင့်စေသော အရာတစ်ခုကို ရည်ညွှန်းသည်။ အားဖြည့်ပေးခြင်း၏ ဤအယူအဆသည် စိတ်ပညာရှင် BF Skinner မှ အစပိုင်းတွင် အဆိုပြုသော operant conditioning သီအိုရီ၏ အဓိက အယူအဆဖြစ်သည်။ ဤအခြေအနေတွင်၊ အားဖြည့်ပေးခြင်းသည် ပေးထားသောအပြုအမူတစ်ခု၏ ကြိမ်နှုန်းကို တိုးလာစေသည့်အရာတစ်ခုဖြစ်သည်။ လူသားများအတွက် ဖြစ်နိုင်ချေရှိသော အားဖြည့်မှုအကြောင်း ကျွန်ုပ်တို့တွေးပါက၊ ၎င်းတို့သည် ချီးမွမ်းခြင်း၊ အလုပ်တွင် မြှင့်တင်ခြင်း၊ သကြားလုံးနှင့် ပျော်ရွှင်စရာ လှုပ်ရှားမှုများကဲ့သို့သော အရာများ ဖြစ်နိုင်သည်။

အစဉ်အလာအရ စိတ်ပိုင်းဆိုင်ရာအရ အားဖြည့်ပေးခြင်းဟူ၍ နှစ်မျိုးရှိသည်။ positive reinforcement နဲ့ negative reinforcement တွေရှိတယ်။ အပြုသဘောဆောင်သော အားဖြည့်ပေးခြင်းသည် သင့်ခွေးအား အကျင့်စာရိတ္တကောင်းမွန်သည့်အခါ ဆက်ဆံပေးခြင်းကဲ့သို့ အပြုအမူတစ်ခုတိုးလာစေရန် တစ်ခုခုကို ထပ်လောင်းထည့်ခြင်းဖြစ်သည်။ အပျက်သဘောဆောင်သော အားဖြည့်မှုတွင် ကျယ်လောင်သော ဆူညံသံများကို ပိတ်ခြင်းကဲ့သို့ အပြုအမူတစ်ခုကို တွန်းလှန်ရန် လှုံ့ဆော်မှုတစ်ခုအား ဖယ်ရှားခြင်း ပါဝင်သည်။

Positive & Negative အားဖြည့်တင်းမှု

အပြုသဘောဆောင်သော အားဖြည့်မှုသည် အပြုအမူတစ်ခု၏ အကြိမ်ရေကို တိုးစေပြီး အနှုတ်အားဖြည့်တင်းမှု အကြိမ်ရေကို လျော့နည်းစေသည်။ ယေဘုယျအားဖြင့်၊ အပြုသဘောဆောင်သောအားဖြည့်ခြင်းသည် အားဖြည့်သင်ယူမှုတွင်အသုံးပြုသည့်အသုံးအများဆုံးအားဖြည့်အမျိုးအစားဖြစ်ပြီး၊ ၎င်းသည် မော်ဒယ်များအား ပေးထားသောအလုပ်တစ်ခုတွင် စွမ်းဆောင်ရည်အမြင့်မားဆုံးဖြစ်အောင် ကူညီပေးသောကြောင့်၊ ဒါတင်မကဘဲ အပြုသဘောဆောင်တဲ့ အားဖြည့်မှုဟာ မော်ဒယ်ကို ပိုပြီး စဉ်ဆက်မပြတ် ပြောင်းလဲမှုတွေ ပြုလုပ်ဖို့၊ တသမတ်တည်း ပုံစံတွေ ဖြစ်လာပြီး အချိန်အကြာကြီး ဆက်ရှိနေနိုင်တဲ့ အပြောင်းအလဲတွေ ဖြစ်လာစေတယ်။

ဆန့်ကျင်ဘက်အားဖြင့်၊ အနုတ်လက္ခဏာအားဖြည့်တင်းခြင်းသည် အပြုအမူတစ်ရပ်ကို ပိုမိုဖြစ်ပွားနိုင်ခြေရှိသော်လည်း၊ ၎င်းအား မော်ဒယ်၏အမြင့်ဆုံးစွမ်းဆောင်ရည်သို့ရောက်ရှိမည့်အစား အနည်းဆုံးစွမ်းဆောင်ရည်စံနှုန်းကို ထိန်းသိမ်းရန်အတွက် ၎င်းကိုအသုံးပြုသည်။ အားဖြည့်သင်ကြားမှုတွင် အနုတ်လက္ခဏာ အားကောင်းမှုသည် မော်ဒယ်တစ်ဦးအား မလိုလားအပ်သော လုပ်ရပ်များနှင့် ဝေးကွာစေရန် သေချာစေရန် ကူညီပေးနိုင်သော်လည်း ၎င်းသည် မော်ဒယ်တစ်ဦးအား အလိုရှိသော လုပ်ဆောင်ချက်များကို စူးစမ်းလေ့လာရန် အမှန်တကယ် မဖြစ်နိုင်ပါ။

Reinforcement Agent လေ့ကျင့်ရေး

အားဖြည့်သင်ကြားရေး အေးဂျင့်ကို လေ့ကျင့်သင်ကြားသောအခါ၊ ပါဝင်ပစ္စည်း လေးမျိုးရှိပါတယ်။ or ပြည်နယ်များ သင်တန်းတွင်အသုံးပြုသည်- ကနဦးပြည်နယ်များ (State 0)၊ ပြည်နယ်အသစ် (State 1)၊ လုပ်ဆောင်ချက်များနှင့် ဆုလာဘ်များ။

ကျွန်ုပ်တို့သည် AI ၏ပန်းတိုင်ဖြစ်သော စခရင်တစ်လျှောက် ညာဘက်သို့ရွေ့လျားခြင်းဖြင့် အဆင့်၏အဆုံးအထိဖြစ်စေရန် AI ၏ရည်မှန်းချက်ဖြစ်သော ပလပ်ဖောင်းပေါ်တင်ဗီဒီယိုဂိမ်းတစ်ခုကစားရန် အားဖြည့်အေးဂျင့်တစ်ဦးကို လေ့ကျင့်ပေးနေသည်ဟု မြင်ယောင်ကြည့်ပါ။ ဂိမ်း၏ ကနဦးအခြေအနေအား ပတ်ဝန်းကျင်မှ ရေးဆွဲထားသောကြောင့် ဂိမ်း၏ ပထမဘောင်ကို ခွဲခြမ်းစိတ်ဖြာပြီး မော်ဒယ်သို့ ပေးအပ်သည်။ ဤအချက်အလက်ကို အခြေခံ၍ မော်ဒယ်သည် လုပ်ဆောင်ချက်တစ်ခုအပေါ် ဆုံးဖြတ်ရမည်ဖြစ်သည်။

လေ့ကျင့်မှု၏ ကနဦးအဆင့်များအတွင်း၊ ဤလုပ်ဆောင်ချက်များသည် ကျပန်းဖြစ်သော်လည်း မော်ဒယ်အား အားဖြည့်ထားသောကြောင့် အချို့သောလုပ်ဆောင်ချက်များသည် ပို၍အဖြစ်များလာပါမည်။ လုပ်ဆောင်ချက်ကို လုပ်ဆောင်ပြီးနောက် ဂိမ်း၏ပတ်ဝန်းကျင်ကို အပ်ဒိတ်လုပ်ပြီး အခြေအနေ သို့မဟုတ် ဘောင်အသစ်ကို ဖန်တီးသည်။ အေးဂျင့်က လုပ်ဆောင်လိုက်တဲ့ လုပ်ဆောင်ချက်က လိုလားအပ်တဲ့ ရလဒ်တစ်ခု ထွက်လာတယ်ဆိုရင်၊ အေးဂျင့်က အသက်ရှင်နေသေးပြီး ရန်သူကို မထိမှန်သေးဘူးလို့ ဆိုကြပါစို့၊ အေးဂျင့်ကို အချို့သော ဆုကြေးငွေ ပေးဆောင်ပြီး ၎င်းသည် အလားတူ လုပ်ဆောင်နိုင်ခြေ ပိုများလာပါသည်။ အနာဂတ်။

ဤအခြေခံစနစ်သည် အဆက်မပြတ်လည်ပတ်နေပြီး ထပ်ခါတလဲလဲဖြစ်နေပြီး အေးဂျင့်သည် အနည်းငယ်ပို၍လေ့လာရန်နှင့် ၎င်း၏ဆုလာဘ်ကို အများဆုံးရယူရန်ကြိုးစားတိုင်း

Episodic vs Continuous Tasks

အားဖြည့်သင်ကြားရေး လုပ်ငန်းများကို ပုံမှန်အားဖြင့် မတူညီသော အမျိုးအစား နှစ်ခုထဲမှ တစ်ခုတွင် ထားရှိနိုင်သည်- အပိုင်းတာဝန်များနှင့် စဉ်ဆက်မပြတ်လုပ်ဆောင်မှုများ။

Episodic အလုပ်များသည် သင်ယူခြင်း/လေ့ကျင့်ရေးကွင်းကို လုပ်ဆောင်ပြီး အဆုံးစံသတ်မှတ်ချက်အချို့ ပြည့်မီပြီး သင်တန်းကို ရပ်စဲသည်အထိ ၎င်းတို့၏စွမ်းဆောင်ရည်ကို မြှင့်တင်ပေးပါမည်။ ဂိမ်းတစ်ခုတွင်၊ ၎င်းသည် အဆင့်၏အဆုံးသို့ရောက်ရှိသွားခြင်း သို့မဟုတ် spikes ကဲ့သို့သော အန္တရာယ်တစ်ခုသို့ ကျရောက်သွားနိုင်သည်။ ဆန့်ကျင်ဘက်အနေနှင့်၊ စဉ်ဆက်မပြတ်လုပ်ဆောင်မှုများသည် ရပ်စဲခြင်းဆိုင်ရာစံနှုန်းများမရှိပါ၊ အခြေခံအားဖြင့် အင်ဂျင်နီယာသည် သင်တန်းပြီးဆုံးချိန်အထိ ထာဝရလေ့ကျင့်မှုကို ဆက်လက်လုပ်ဆောင်နေပါသည်။

Monte Carlo နှင့် Temporal ကွာခြားချက်

သင်ယူခြင်း၏ အခြေခံနည်းလမ်း နှစ်ခု သို့မဟုတ် လေ့ကျင့်မှု ဖြစ်သည့် အားဖြည့်သင်ကြားရေး ကိုယ်စားလှယ် ရှိပါသည်။ ၌ Monte Carlo ချဉ်းကပ်မှု၊ လေ့ကျင့်မှုအပိုင်းအဆုံးတွင်သာ ဆုလာဘ်များကို အေးဂျင့်ထံ ပေးပို့သည် (၎င်း၏ရမှတ်ကို အပ်ဒိတ်လုပ်ထားသည်)။ အခြားနည်းဖြင့်ပြောရလျှင် termination condition ကို ထိမိသည့်အခါမှသာ model သည် မည်မျှစွမ်းဆောင်ရည်ကောင်းသည်ကို သိရှိနိုင်မည်ဖြစ်သည်။ ထို့နောက် ၎င်းသည် အပ်ဒိတ်လုပ်ရန် ဤအချက်အလက်ကို အသုံးပြုနိုင်ပြီး နောက်တစ်ကြိမ် လေ့ကျင့်မှုစတင်သည့်အခါတွင် အချက်အလက်အသစ်နှင့်အညီ တုံ့ပြန်မည်ဖြစ်သည်။

အဆိုပါ ယာယီခြားနားမှုနည်းလမ်း လေ့ကျင့်ရေးအပိုင်း၏ သင်တန်းကာလအတွင်း အပ်ဒိတ်လုပ်ထားသည့် တန်ဖိုးခန့်မှန်းချက် သို့မဟုတ် ရမှတ်ခန့်မှန်းချက်သည် Monte Carlo နည်းလမ်းနှင့် ကွဲပြားသည်။ မော်ဒယ်သည် နောက်တစ်ကြိမ် အဆင့်သို့ ရောက်သွားသည်နှင့် တန်ဖိုးများကို အပ်ဒိတ်လုပ်သည်။

စူးစမ်းမှုနှင့် အမြတ်ထုတ်မှု

အားဖြည့်သင်ကြားရေး အေးဂျင့်ကို လေ့ကျင့်ပေးခြင်းသည် မတူညီသော မက်ထရစ်နှစ်ခု၏ ဟန်ချက်ညီမှု ပါဝင်သော ဟန်ချက်ညီသော လုပ်ဆောင်မှုတစ်ခုဖြစ်သည်- စူးစမ်းရှာဖွေခြင်းနှင့် အမြတ်ထုတ်ခြင်း ပါဝင်သည်။

စူးစမ်းရှာဖွေခြင်းသည် ပတ်ဝန်းကျင်နှင့်ပတ်သက်သော အချက်အလက်များကို ပိုမိုစုဆောင်းရယူသည့် လုပ်ဆောင်ချက်ဖြစ်ပြီး စူးစမ်းရှာဖွေမှုသည် ဆုလာဘ်ရမှတ်များရရှိရန် ပတ်ဝန်းကျင်နှင့်ပတ်သက်သည့် သိထားပြီးသော အချက်အလက်များကို အသုံးပြုနေချိန်တွင် ဖြစ်သည်။ အေးဂျင့်တစ်ဦးသာ ပတ်ဝန်းကျင်ကို စူးစမ်းပြီး ဘယ်သောအခါမှ အမြတ်ထုတ်မည်ဆိုပါက၊ လိုချင်သော လုပ်ဆောင်ချက်များကို မည်သည့်အခါမျှ လုပ်ဆောင်မည်မဟုတ်ပါ။ အခြားတစ်ဖက်တွင်၊ အေးဂျင့်ကသာ အမြတ်ထုတ်ပြီး ဘယ်သောအခါမှ မစူးစမ်းပါက၊ အေးဂျင့်သည် လုပ်ဆောင်ချက်တစ်ခုလုပ်ဆောင်ရန်သာ သင်ယူမည်ဖြစ်ပြီး ဆုများရရှိရန် အခြားဖြစ်နိုင်သောဗျူဟာများကို ရှာဖွေတွေ့ရှိမည်မဟုတ်ပါ။ ထို့ကြောင့် အားဖြည့်သင်ကြားရေး အေးဂျင့်ကို ဖန်တီးသည့်အခါ စူးစမ်းရှာဖွေခြင်းနှင့် အမြတ်ထုတ်ခြင်းတို့ကို ဟန်ချက်ညီအောင် ချိန်ညှိရန် အရေးကြီးပါသည်။

အားဖြည့်သင်ကြားမှုအတွက် Cases ကိုသုံးပါ။

အားဖြည့်သင်ကြားမှုကို အခန်းကဏ္ဍများစွာတွင် အသုံးပြုနိုင်ပြီး အလုပ်များကို အလိုအလျောက်လုပ်ဆောင်ရန် လိုအပ်သည့် အပလီကေးရှင်းများအတွက် အသင့်တော်ဆုံးဖြစ်သည်။

စက်မှုစက်ရုပ်များဖြင့် လုပ်ဆောင်ရမည့် အလုပ်များကို အလိုအလျောက်စနစ်ဖြင့် လုပ်ဆောင်ခြင်းသည် အားဖြည့်သင်ယူမှုတွင် အသုံးဝင်ကြောင်း သက်သေပြသည့် နယ်ပယ်တစ်ခုဖြစ်သည်။ ခိုင်ခံ့မှုသင်ယူမှုကို စာသားမိုင်းတူးခြင်းကဲ့သို့သော ပြဿနာများအတွက်လည်း အသုံးပြုနိုင်ပြီး ရှည်လျားသောစာသားများကို အကျဉ်းချုပ်ဖော်ပြနိုင်သည့် မော်ဒယ်များကို ဖန်တီးနိုင်သည်။ သုတေသီများသည် ကုသမှုမူဝါဒများကို ပိုမိုကောင်းမွန်အောင်လုပ်ဆောင်ခြင်းကဲ့သို့သော အလုပ်များကို အားဖြည့်ပေးသည့်အေးဂျင့်များနှင့်အတူ ကျန်းမာရေးစောင့်ရှောက်မှုနယ်ပယ်တွင် အားဖြည့်သင်ယူမှုကိုလည်း အသုံးပြုကာ စမ်းသပ်လျက်ရှိသည်။ ကျောင်းသားများအတွက် ပညာရေးဆိုင်ရာ အကြောင်းအရာများကို စိတ်ကြိုက်ပြင်ဆင်ရန် အားဖြည့်သင်ကြားမှုကိုလည်း အသုံးပြုနိုင်သည်။

အားဖြည့်သင်ကြားခြင်း၏ အကျဉ်းချုပ်

အားဖြည့်သင်ယူမှုသည် အထင်ကြီးလောက်စရာနှင့် တစ်ခါတစ်ရံ အံ့သြဖွယ်ရလဒ်များဆီသို့ ဦးတည်သွားစေနိုင်သည့် AI အေးဂျင့်များကို တည်ဆောက်ရာတွင် အားကောင်းသည့်နည်းလမ်းတစ်ခုဖြစ်သည်။ အားဖြည့်သင်ကြားမှုမှတဆင့် အေးဂျင့်တစ်ဦးအား လေ့ကျင့်ပေးခြင်းသည် လေ့ကျင့်ရေးအကြိမ်ကြိမ်ပြုလုပ်ခြင်းနှင့် စူးစမ်းလေ့လာခြင်း/ထုတ်ယူသုံးစွဲခြင်း၏ သိမ်မွေ့သောဟန်ချက်ညီခြင်းတို့ကြောင့် ရှုပ်ထွေးပြီး ခက်ခဲနိုင်သည်။ သို့သော်၊ အောင်မြင်ပါက၊ အားဖြည့်သင်ယူမှုဖြင့် ဖန်တီးထားသော အေးဂျင့်တစ်ဦးသည် မတူညီသောပတ်ဝန်းကျင်အမျိုးမျိုးအောက်တွင် ရှုပ်ထွေးသောအလုပ်များကို လုပ်ဆောင်နိုင်သည်။

ဘလော့ဂါနှင့် ပရိုဂရမ်မာများအတွက် အထူးပြုပါ။ စက်သင်ယူ နှင့် နက်ရှိုင်းသောသင်ယူခြင်း အကြောင်းအရာများ လူမှုဆက်ဆံရေးကောင်းမွန်ရန်အတွက် AI ၏စွမ်းအားကို အခြားသူများအား ကူညီပေးနိုင်ရန် Daniel က မျှော်လင့်ထားသည်။