ဆောင်းပါးတို Machine Learning ဆိုတာဘာလဲ။ - Unite.AI
ကြှနျုပျတို့နှငျ့အတူချိတ်ဆက်ပါ
AI Masterclass-

AI ၅၀

စက်သင်ယူခြင်းဆိုသည်မှာအဘယ်နည်း။

mm
နောက်ဆုံးရေးသားချိန် on

Machine Learning သည် အလျင်မြန်ဆုံး ကြီးထွားလာသော နည်းပညာနယ်ပယ်များထဲမှ တစ်ခုဖြစ်သော်လည်း "machine learning" ဟူသော စကားလုံးများကို မကြာခဏ လွှင့်ပစ်နေသော်လည်း machine learning ဆိုသည်မှာ အတိအကျ နားလည်ရန် ခက်ခဲနိုင်ပါသည်။

စက်သင်ယူမှု တစ်ခုတည်းကို ရည်ညွှန်းခြင်းမဟုတ်ပါ၊ ၎င်းသည် မတူညီသော အယူအဆများနှင့် နည်းပညာများစွာတွင် အသုံးချနိုင်သော ထီးအသုံးအနှုန်းတစ်ခုဖြစ်သည်။ စက်သင်ယူမှုကို နားလည်ခြင်းဆိုသည်မှာ မတူညီသော မော်ဒယ်ခွဲခြမ်းစိတ်ဖြာမှု၊ ကိန်းရှင်များနှင့် အယ်လဂိုရီသမ်များ၏ ပုံစံအမျိုးမျိုးနှင့် အကျွမ်းတဝင်ရှိခြင်းဖြစ်သည်။ ၎င်းတွင်ပါဝင်သည့်အရာများကို ပိုမိုနားလည်ရန် machine learning ကို အနီးကပ်လေ့လာကြည့်ကြပါစို့။

Machine Learning ဆိုတာ ဘာလဲ

machine learning ဟူသော အသုံးအနှုန်းသည် မတူညီသော အရာများစွာတွင် အသုံးချနိုင်သော်လည်း ယေဘုယျအားဖြင့်၊ အဆိုပါ အသုံးအနှုန်းသည် တိကျပြတ်သားသော လိုင်းတစ်ခုပြီးတစ်ခု ညွှန်ကြားချက်များ မရရှိဘဲ အလုပ်များကို လုပ်ဆောင်ရန် ကွန်ပျူတာအား လုပ်ဆောင်နိုင်စေခြင်းကို ရည်ညွှန်းပါသည်။ စက်သင်ယူခြင်းဆိုင်ရာ ကျွမ်းကျင်သူတစ်ဦးသည် ပြဿနာကိုဖြေရှင်းရန် လိုအပ်သောအဆင့်အားလုံးကို ရေးမှတ်ရန်မလိုအပ်သောကြောင့် ကွန်ပျူတာသည် ဒေတာအတွင်းပုံစံများကို ပိုင်းခြားစိတ်ဖြာကာ ဤပုံစံများကို ဒေတာအသစ်သို့ ယေဘုယျအားဖြင့် “သင်ယူခြင်း” လုပ်နိုင်သောကြောင့်ဖြစ်သည်။

စက်သင်ယူမှုစနစ်တွင် အခြေခံ အပိုင်းသုံးပိုင်းရှိသည်။

  • သွင်းအားစု
  • algorithms
  • အကျိုးရလဒ်များ

သွင်းအားစုများသည် စက်သင်ယူမှုစနစ်သို့ ဖြည့်သွင်းထားသည့် ဒေတာဖြစ်ပြီး ထည့်သွင်းဒေတာကို အညွှန်းများနှင့် အင်္ဂါရပ်များအဖြစ် ခွဲခြားနိုင်သည်။ အင်္ဂါရပ်များသည် သက်ဆိုင်ရာ ကိန်းရှင်များ၊ ပုံစံများကို လေ့လာရန်နှင့် ကောက်ချက်ဆွဲရန် ခွဲခြမ်းစိတ်ဖြာမည့် ကိန်းရှင်များဖြစ်သည်။ ဤအတောအတွင်း၊ အညွှန်းများသည် ဒေတာ၏ တစ်ခုချင်းစီ သာဓကများအတွက် ပေးထားသော အတန်း/ဖော်ပြချက်များဖြစ်သည်။

အင်္ဂါရပ်များနှင့် အညွှန်းများကို မတူညီသော စက်သင်ယူမှုပြဿနာ နှစ်မျိုးတွင် သုံးနိုင်သည်- ကြီးကြပ်သင်ကြားမှုနှင့် ကြီးကြပ်မထားသော သင်ယူမှု။

ကြီးကြပ်မထားသော နှင့် ကြီးကြပ်ထားသော သင်ယူမှု

In ကြီးကြပ်သင်ယူမှုသွင်းသွင်းဒေတာသည် မြေပြင်အမှန်တရားဖြင့် ပါ၀င်သည်။ ကြီးကြပ်ထားသော သင်ယူမှုပြဿနာများသည် ဒေတာအတွဲ၏တစ်စိတ်တစ်ပိုင်းအနေဖြင့် မှန်ကန်သောထွက်ရှိမှုတန်ဖိုးများရှိသည်၊ ထို့ကြောင့် မျှော်လင့်ထားသည့်အတန်းများကို ကြိုတင်သိရှိနိုင်မည်ဖြစ်သည်။ ၎င်းသည် စမ်းသပ်ဒေတာအတွဲတစ်ခုပေါ်ရှိ ဒေတာများကို စမ်းသပ်ပြီး မည်သည့်ရာခိုင်နှုန်းကို မှန်ကန်စွာ ခွဲခြားထားသည်ကို ကြည့်ရှုခြင်းဖြင့် ဒေတာသိပ္ပံပညာရှင်သည် အယ်လဂိုရီသမ်၏ စွမ်းဆောင်ရည်ကို စစ်ဆေးနိုင်စေပါသည်။

မတူတာကတော့, ထိန်းချုပ်မှုမရှိသင်ယူမှု ပြဿနာများသည် ၎င်းတို့တွင် မြေပြင်အမှန်တရားတံဆိပ်များ မပါရှိပါ။ ကြီးကြပ်မထားသော သင်ကြားရေးတာဝန်များကို ထမ်းဆောင်ရန် လေ့ကျင့်ထားသော စက်သင်ယူမှု အယ်လဂိုရီသမ်သည် ဒေတာအတွင်းရှိ သက်ဆိုင်ရာပုံစံများကို သူ့ဘာသာသူ ကောက်ချက်ချနိုင်ရပါမည်။

ကြီးကြပ်ထားသော သင်ယူမှု အယ်လဂိုရီသမ်များကို အမျိုးအစားခွဲခြင်းဆိုင်ရာ ပြဿနာများအတွက် ယေဘုယျအားဖြင့် အသုံးပြုပါသည်။ ကြီးကြပ်ထားသော သင်ယူမှုနောက်တစ်မျိုးမှာ အယ်ဂိုရီသမ်မှ တန်ဖိုးထုတ်လွှတ်မှုကို အမျိုးအစားအလိုက် အမျိုးအစားအလိုက် စဉ်ဆက်မပြတ်လုပ်ဆောင်သည့် ဆုတ်ယုတ်မှုတာဝန်ဖြစ်သည်။

တစ်ချိန်တည်းတွင်၊ ကြီးကြပ်မှုမရှိသော သင်ယူမှု အယ်လဂိုရီသမ်များကို သိပ်သည်းဆခန့်မှန်းခြင်း၊ အစုအဝေးပြုလုပ်ခြင်းနှင့် ကိုယ်စားပြုမှုသင်ယူခြင်းကဲ့သို့သော လုပ်ငန်းဆောင်တာများအတွက် အသုံးပြုပါသည်။ ဤလုပ်ငန်းသုံးရပ်သည် ဒေတာဖွဲ့စည်းပုံအား တွက်ဆရန် စက်သင်ယူမှုမော်ဒယ် လိုအပ်သည်၊ မော်ဒယ်အတွက် ကြိုတင်သတ်မှတ်ထားသော အတန်းများ မရှိပါ။

ကြီးကြပ်မထားသော သင်ယူမှုနှင့် ကြီးကြပ်သင်ကြားမှု နှစ်ခုစလုံးတွင် အသုံးပြုသည့် အသုံးအများဆုံး အယ်လဂိုရီသမ်အချို့ကို အတိုချုံးကြည့်ကြပါစို့။

ကြီးကြပ်သင်ကြားမှု အမျိုးအစားများ

အများအားဖြင့် ကြီးကြပ်ထားသော သင်ယူမှု အယ်လဂိုရီသမ်များ ပါဝင်သည်-

  • Naive Bayes ဖြစ်သည်
  • ပံ့ပိုးမှု Vector Machines
  • Logistic Regression
  • ကျပန်းသစ်တောများ
  • အတုအာရုံကြောကွန်ယက်များ

ပံ့ပိုးမှု Vector Machines algorithms များသည် dataset တစ်ခုကို မတူညီသော class များအဖြစ် ပိုင်းခြားပေးသော algorithms များဖြစ်သည်။ အတန်းများကို တစ်ခုနှင့်တစ်ခု ခွဲခြားထားသော မျဉ်းကြောင်းများဆွဲခြင်းဖြင့် ဒေတာအမှတ်များကို အစုအဖွဲ့များအဖြစ် အစုဖွဲ့သည်။ မျဉ်းတစ်ဖက်ရှိ အမှတ်များသည် အတန်းတစ်ခုနှင့် သက်ဆိုင်မည်ဖြစ်ပြီး၊ မျဉ်းတစ်ဖက်ရှိ အမှတ်များသည် မတူညီသောအတန်းဖြစ်သည်။ ပံ့ပိုးမှု Vector Machines များသည် မျဉ်းတစ်ဖက်တစ်ချက်ရှိ အမှတ်များနှင့် မျဉ်းတစ်ဖက်ကြားရှိ အကွာအဝေးကို ချဲ့ထွင်ရန် ရည်ရွယ်ပြီး အကွာအဝေး ပိုများလေလေ အမှတ်အမျိုးအစားသည် အတန်းတစ်တန်းနှင့် အခြားအတန်းမဟုတ်ကြောင်း ယုံကြည်လေလေဖြစ်သည်။

Logistic Regression ဒေတာအမှတ်များကို class နှစ်ခုအနက်မှ တစ်ခုသို့ ခွဲခြားသတ်မှတ်ရန် လိုအပ်သည့်အခါ binary အမျိုးအစားခွဲခြင်းလုပ်ငန်းများတွင် အသုံးပြုသည့် algorithm တစ်ခုဖြစ်သည်။ Logistic Regression သည် ဒေတာအမှတ် 1 သို့မဟုတ် 0 တစ်ခုခုကို အညွှန်းတပ်ခြင်းဖြင့် အလုပ်လုပ်ပါသည်။ ဒေတာအမှတ်၏ ရိပ်မိသောတန်ဖိုးသည် 0.49 သို့မဟုတ် အောက်ဖြစ်ပါက ၎င်းကို 0 အဖြစ် ခွဲခြားသတ်မှတ်ထားပြီး 0.5 သို့မဟုတ် အထက်ရှိပါက ၎င်းကို 1 အဖြစ် သတ်မှတ်ထားသည်။

ဆုံးဖြတ်ချက်သစ်ပင် အယ်လဂိုရီသမ်များ ဒေတာအတွဲများကို သေးငယ်သောအပိုင်းအစများအဖြစ် ပိုင်းခြားခြင်းဖြင့် လုပ်ဆောင်ပါ။ ဒေတာကို ပိုင်းခြားရန် အသုံးပြုသည့် တိကျသော စံနှုန်းများသည် machine learning engineer နှင့် သက်ဆိုင်သည်၊ သို့သော် ရည်မှန်းချက်မှာ ဒေတာကို နောက်ဆုံးတွင် ဒေတာအမှတ်များအဖြစ် ခွဲထုတ်ရန်ဖြစ်ပြီး၊ ထို့နောက် သော့ကို အသုံးပြု၍ အမျိုးအစားခွဲမည်ဖြစ်သည်။

Random Forest algorithm သည် အခြေခံအားဖြင့် တစ်ခုတည်းသော Decision Tree အမျိုးအစားခွဲထွက်ခြင်းများစွာကို ပိုမိုအားကောင်းသော အမျိုးအစားခွဲတစ်ခုအဖြစ် အတူတကွချိတ်ဆက်ထားသည်။

အဆိုပါ Naive Bayes အမျိုးအစားခွဲခြားမှု ကြိုတင်ဖြစ်ရပ်တစ်ခု၏ဖြစ်နိုင်ခြေအပေါ်အခြေခံ၍ ပေးထားသောဒေတာအမှတ်တစ်ခုဖြစ်ပေါ်လာသည့်ဖြစ်နိုင်ခြေကို တွက်ချက်သည်။ ၎င်းသည် Bayes Theorem ကိုအခြေခံထားပြီး ၎င်းသည် ၎င်းတို့၏တွက်ချက်ဖြစ်နိုင်ခြေအပေါ်အခြေခံ၍ ဒေတာအမှတ်များကို အတန်းများထဲသို့ ပေးသည်။ Naive Bayes အမျိုးအစားခွဲခြားမှုကို အကောင်အထည်ဖော်သောအခါ၊ ကြိုတင်ခန့်မှန်းသူအားလုံးသည် အတန်းရလဒ်အပေါ် တူညီသောသြဇာသက်ရောက်မှုရှိသည်ဟု ယူဆပါသည်။

An Artificial Neural Networkသို့မဟုတ် Multi-layer perceptron သည် လူ့ဦးနှောက်၏ တည်ဆောက်ပုံနှင့် လုပ်ဆောင်မှုမှ မှုတ်သွင်းထားသော စက်သင်ယူမှု အယ်လဂိုရီသမ်များ ဖြစ်သည်။ Artificial neural networks များသည် ၎င်းတို့ကို node/neurons အများအပြားဖြင့် ချိတ်ဆက်ထားသည့်အချက်မှ ၎င်းတို့၏အမည်ကို ရရှိသည်။ နျူရွန်တိုင်းသည် ဒေတာများကို သင်္ချာလုပ်ဆောင်ချက်ဖြင့် စီမံခန့်ခွဲသည်။ အာရုံကြောအတု ကွန်ရက်များတွင် အဝင်အလွှာများ၊ ဝှက်ထားသော အလွှာများနှင့် အထွက်အလွှာများ ရှိသည်။

အာရုံကြောကွန်ရက်၏ လျှို့ဝှက်အလွှာသည် ဒေတာများကို အမှန်တကယ် အဓိပ္ပာယ်ကောက်ယူပြီး ပုံစံများအတွက် ခွဲခြမ်းစိတ်ဖြာသည့်နေရာဖြစ်သည်။ တစ်နည်းဆိုရသော် ၎င်းသည် algorithm သင်ယူသည့်နေရာဖြစ်သည်။ ပိုများသော နျူရွန်များ အတူတကွ ပေါင်းစည်းထားသော ပိုမိုရှုပ်ထွေးသော ကွန်ရက်များကို ပိုမိုရှုပ်ထွေးသော ပုံစံများကို သင်ယူနိုင်စေပါသည်။

ကြီးကြပ်မထားသော သင်ယူမှုအမျိုးအစားများ

ကြီးကြပ်မထားသော သင်ယူမှု အယ်လဂိုရီသမ်များတွင်-

  • K- ကိုဆိုလိုသည်စပျစ်သီးပြွတ်
  • အော်တိုကုဒ်များ
  • အဓိကအစိတ်အပိုင်းခွဲခြမ်းစိတ်ဖြာခြင်း

K- ကိုဆိုလိုသည်စပျစ်သီးပြွတ် ကြီးကြပ်မှုမရှိသော အမျိုးအစားခွဲခြင်းနည်းပညာတစ်ခုဖြစ်ပြီး ၎င်းသည် ၎င်းတို့၏အင်္ဂါရပ်များအပေါ်အခြေခံ၍ ဒေတာအချက်အလတ်များကို အစုအဖွဲ့များ သို့မဟုတ် အုပ်စုများအဖြစ် ခွဲခြားခြင်းဖြင့် လုပ်ဆောင်သည်။ K-ဆိုလိုသည်မှာ အစုလိုက်ဖွဲ့ခြင်း သည် ဒေတာအချက်များတွင် တွေ့ရသည့် အင်္ဂါရပ်များကို ပိုင်းခြားစိတ်ဖြာပြီး ပေးထားသည့် အတန်းအစုအဝေးတွင် တွေ့ရသော ဒေတာအမှတ်များသည် အခြားဒေတာအချက်များပါရှိသော အစုအဝေးများထက် ၎င်းတို့နှင့် ပိုမိုတူညီစေမည့် ပုံစံများကို ခွဲခြားသည်။ ဒေတာ၏ဂရပ်တစ်ခုတွင် ဖြစ်နိုင်ချေရှိသော အစုအဝေးများ သို့မဟုတ် centroids များကို နေရာချထားပေးပြီး centroid ၏အတန်းနှင့်သက်ဆိုင်သည့်အချက်များကြားအကွာအဝေးကို အနေအထားတစ်ခုရှာမတွေ့မချင်း centroid ၏အနေအထားကို ပြန်လည်သတ်မှတ်ခြင်းဖြင့် ပြီးမြောက်သည်။ သုတေသီသည် လိုချင်သောအစုအရေအတွက်ကို သတ်မှတ်နိုင်သည်။

အဓိကအစိတ်အပိုင်းခွဲခြမ်းစိတ်ဖြာခြင်း အင်္ဂါရပ်များ/ကိန်းရှင်အများအပြားကို သေးငယ်သော အင်္ဂါရပ်နေရာ/ပိုနည်းသော အင်္ဂါရပ်များအဖြစ်သို့ လျှော့ချပေးသည့် နည်းပညာတစ်ခုဖြစ်သည်။ ဒေတာအချက်များ၏ "အဓိကအစိတ်အပိုင်းများ" ကို ထိန်းသိမ်းရန်အတွက် ရွေးချယ်ထားသော်လည်း အခြားအင်္ဂါရပ်များကို သေးငယ်သောကိုယ်စားပြုမှုအဖြစ်သို့ ညှစ်ချထားသည်။ မူလဒေတာဆေးရည်များကြား ဆက်စပ်မှုကို ထိန်းသိမ်းထားသော်လည်း ဒေတာအချက်များ၏ ရှုပ်ထွေးမှုသည် ပိုမိုရိုးရှင်းသောကြောင့် ဒေတာကို အရေအတွက်နှင့် ဖော်ပြရန် ပိုမိုလွယ်ကူလာသည်။

အော်တိုကုဒ်များ ကြီးကြပ်မထားသော သင်ယူမှုလုပ်ငန်းများအတွက် အသုံးချနိုင်သော အာရုံကြောကွန်ရက်များ၏ ဗားရှင်းများဖြစ်သည်။ Autoencoders များသည် တံဆိပ်မပါသော၊ အခမဲ့ပုံစံဒေတာကို ယူဆောင်နိုင်ပြီး ၎င်းတို့ကို အာရုံကြောကွန်ရက်တစ်ခုတွင် အသုံးပြုနိုင်သော ဒေတာအဖြစ် ပြောင်းလဲနိုင်သည်၊ အခြေခံအားဖြင့် ၎င်းတို့၏ကိုယ်ပိုင်တံဆိပ်တပ်ထားသော လေ့ကျင့်ရေးဒေတာကို ဖန်တီးနိုင်သည်။ autoencoder တစ်ခု၏ ရည်မှန်းချက်မှာ ထည့်သွင်းဒေတာကို တတ်နိုင်သမျှ တိကျစွာ ပြန်လည်တည်ဆောက်ရန်ဖြစ်ပြီး၊ မည်သည့်အင်္ဂါရပ်များက အရေးကြီးဆုံးဖြစ်ကြောင်း ဆုံးဖြတ်ပြီး ၎င်းတို့ကို ထုတ်ယူရန် ကွန်ရက်၏ မက်လုံးတွင် ရှိနေပါသည်။

ဘလော့ဂါနှင့် ပရိုဂရမ်မာများအတွက် အထူးပြုပါ။ စက်သင်ယူ နှင့် နက်ရှိုင်းသောသင်ယူခြင်း အကြောင်းအရာများ လူမှုဆက်ဆံရေးကောင်းမွန်ရန်အတွက် AI ၏စွမ်းအားကို အခြားသူများအား ကူညီပေးနိုင်ရန် Daniel က မျှော်လင့်ထားသည်။