ဆောင်းပါးတို စက်သင်ယူခြင်းအတွက် လူသားဒေတာပြင်ဆင်မှုသည် အရင်းအမြစ်-အလေးအနက်ထားပါသည်- ဤနည်းလမ်းနှစ်ခုသည် ကုန်ကျစရိတ်များကို လျှော့ချရန်အတွက် အရေးကြီးသည် - Unite.AI
ကြှနျုပျတို့နှငျ့အတူချိတ်ဆက်ပါ

အတွေးခေါင်းဆောင်များ

စက်သင်ယူခြင်းအတွက် လူသားဒေတာပြင်ဆင်မှုသည် အရင်းအမြစ်-အလေးအနက်ထားပါသည်- ဤနည်းလမ်းနှစ်ခုသည် ကုန်ကျစရိတ်များကို လျှော့ချရန်အတွက် အရေးကြီးပါသည်။

mm

Published

 on

Data Scientist အကြီးအကဲ Dattaraj Rao၊ တည်မြဲသောစနစ်များ

ဒေတာသွင်းအားစုများပေါ်တွင်မူတည်သည့် မည်သည့်စနစ်ကဲ့သို့ပင်၊ Machine Learning (ML) သည် "အမှိုက်မှ အမှိုက်ထွက်ခြင်း" ၏ နိမိတ်ပုံအတိုင်းဖြစ်သည်။ သန့်ရှင်းပြီး တိကျစွာ တံဆိပ်တပ်ထားသော အချက်အလက်သည် မည်သည့် ML မော်ဒယ်ကိုမဆို တည်ဆောက်ရန်အတွက် အခြေခံအုတ်မြစ်ဖြစ်သည်။ ML လေ့ကျင့်ရေး အယ်လဂိုရီသမ်တစ်ခုသည် မြေပြင်အမှန်တရားဒေတာမှ ပုံစံများကို နားလည်ပြီး ထိုနေရာမှ မမြင်ရသော ဒေတာများကို ယေဘူယျပြုလုပ်ရန် နည်းလမ်းများကို လေ့လာသည်။ သင်၏လေ့ကျင့်ရေးဒေတာအရည်အသွေးနိမ့်ပါက၊ ML algorithm သည် စဉ်ဆက်မပြတ်လေ့လာပြီး အပိုထည့်ရန် အလွန်ခက်ခဲပါလိမ့်မည်။

အိမ်မွေးခွေးလေးတစ်ကောင်ကို လေ့ကျင့်ဖို့ စဉ်းစားကြည့်ပါ။ ခွေးအား အခြေခံ အပြုအမူဆိုင်ရာ အမိန့်များ (သွင်းအားစုများ) ဖြင့် စနစ်တကျ လေ့ကျင့်ရန် ပျက်ကွက်ပါက သို့မဟုတ် ၎င်းကို မှားယွင်း/မှန်ကန်စွာ လုပ်ဆောင်ပါက၊ စတင်ရန် အရင်းခံ သွင်းအားစုများ မရှိခြင်း သို့မဟုတ် ချို့ယွင်းချက်များ မရှိသောကြောင့် ခွေးအား စူးစမ်းလေ့လာခြင်းဖြင့် ပိုမိုရှုပ်ထွေးသော အပြုသဘောဆောင်သော အပြုအမူများအဖြစ်သို့ ချဲ့ထွင်ရန် သင်ဘယ်တော့မှ မျှော်လင့်နိုင်မည် မဟုတ်ပါ။ အတူ။ သင့်လျော်သော လေ့ကျင့်မှုသည် အချိန်ကုန်ပြီး ကျွမ်းကျင်သူတစ်ဦးကို ခေါ်လာလျှင်ပင် ငွေကုန်ကြေးကျ များသော်လည်း အစကတည်းက မှန်ကန်စွာ လုပ်ဆောင်ပါက ပေးချေမှုမှာ ကောင်းမွန်ပါသည်။

ML မော်ဒယ်ကို လေ့ကျင့်သင်ကြားသောအခါ၊ အရည်အသွေးကောင်းသော ဒေတာဖန်တီးခြင်းသည် ဒေတာကို မှတ်သားရန် အချိန်ဖြုန်းရန် ဒိုမိန်းကျွမ်းကျင်သူ လိုအပ်သည်။ ၎င်းတွင် ပုံတစ်ခုရှိ လိုချင်သော အရာဝတ္ထုတစ်ခုနှင့် ပြတင်းပေါက်တစ်ခုကို ရွေးချယ်ခြင်း သို့မဟုတ် စာသားထည့်သွင်းမှု သို့မဟုတ် ဒေတာဘေ့စ်မှတ်တမ်းတစ်ခုသို့ အညွှန်းတစ်ခု သတ်မှတ်ပေးခြင်း ပါဝင်သည်။ အထူးသဖြင့် ရုပ်ပုံများ၊ ဗီဒီယိုများနှင့် စာသားများကဲ့သို့ ဖွဲ့စည်းပုံမထားသော ဒေတာအတွက်၊ မှတ်ချက်အရည်အသွေးသည် မော်ဒယ်အရည်အသွေးကို ဆုံးဖြတ်ရာတွင် အဓိကအခန်းကဏ္ဍမှ ပါဝင်ပါသည်။ ပုံမှန်အားဖြင့်၊ ပုံကြမ်းများနှင့် စာသားများကဲ့သို့ တံဆိပ်မကပ်ထားသော ဒေတာများ ပေါများသည် - သို့သော် အညွှန်းတပ်ခြင်းသည် အားထုတ်မှုကို အကောင်းဆုံးဖြစ်အောင် လုပ်ဆောင်ရန် လိုအပ်ပါသည်။ ၎င်းသည် ML ဘဝစက်ဝန်း၏ လူအချင်းချင်းချိတ်ဆက်မှုအပိုင်းဖြစ်ပြီး များသောအားဖြင့် ML ပရောဂျက်အားလုံး၏ စျေးအကြီးဆုံးနှင့် လုပ်သားအသုံးအများဆုံးအပိုင်းဖြစ်သည်။

Prodigy၊ Amazon Sagemaker Ground Truth၊ NVIDIA RAPIDS နှင့် DataRobot human-in-the-loop ကဲ့သို့သော ဒေတာမှတ်ချက်ပေးကိရိယာများသည် အရည်အသွေးတွင် အဆက်မပြတ်တိုးတက်နေပြီး ဒိုမိန်းကျွမ်းကျင်သူများအတွက် အလိုလိုသိမြင်နိုင်သော အင်တာဖေ့စ်များကို ပေးဆောင်လျက်ရှိသည်။ သို့သော်၊ ဒေတာမှတ်စုရန် ဒိုမိန်းကျွမ်းကျင်သူများ လိုအပ်သည့်အချိန်ကို လျှော့ချခြင်းသည် ယနေ့ခေတ် လုပ်ငန်းများအတွက် သိသာထင်ရှားသော စိန်ခေါ်မှုတစ်ခု ဖြစ်နေဆဲဖြစ်သည်—အထူးသဖြင့် ဒေတာသိပ္ပံစွမ်းရည်ကို ကန့်သတ်ထားသော်လည်း ဝယ်လိုအားများသော ပတ်ဝန်းကျင်တွင် ဖြစ်သည်။ ဤနေရာတွင် ဒေတာပြင်ဆင်ခြင်းအတွက် ချဉ်းကပ်မှုအသစ်နှစ်ခု ထွက်ပေါ်လာပါသည်။

တက်ကြွသောသင်ယူမှု

Active learning သည် သီးခြားမှတ်ချက်များအတွက် ML model မှ domain ကျွမ်းကျင်သူအား တက်ကြွစွာမေးမြန်းသည့်နည်းလမ်းတစ်ခုဖြစ်သည်။ ဤနေရာတွင်၊ အာရုံစူးစိုက်မှုသည် တံဆိပ်မပါသောဒေတာအတွက် ပြည့်စုံသောမှတ်စာတစ်ခုရရှိရန်မဟုတ်ဘဲ မှန်ကန်သောဒေတာအမှတ်အသားများကို ရယူခြင်းဖြင့် မော်ဒယ်ပိုမိုကောင်းမွန်စွာလေ့လာနိုင်စေရန်အတွက်သာဖြစ်သည်။ ဥပမာအားဖြင့် ကျန်းမာရေးစောင့်ရှောက်မှုနှင့် အသက်မွေးဝမ်းကျောင်းပညာရပ်များ၊ စောစီးစွာကင်ဆာရှာဖွေတွေ့ရှိမှုတွင် အထူးပြုထားသော ရောဂါရှာဖွေရေးကုမ္ပဏီတစ်ခုဖြစ်သည့် လူနာစောင့်ရှောက်မှုဆိုင်ရာ အချက်အလက်ဖြင့် ဆုံးဖြတ်ချက်များချနိုင်ရန် ဆေးခန်းများမှ တာဝန်ရှိသူများက ကူညီပေးပါသည်။ ၎င်းတို့၏ရောဂါရှာဖွေရေးလုပ်ငန်းစဉ်၏တစ်စိတ်တစ်ပိုင်းအနေဖြင့်၊ ၎င်းတို့သည် မီးမောင်းထိုးပြရန်လိုအပ်သည့် အကျိတ်များဖြင့် CT စကင်န်ပုံများကို မှတ်သားထားရန် လိုအပ်သည်။

ML မော်ဒယ်သည် အကျိတ်အတုံးများကို အမှတ်အသားပြုထားသည့် ပုံအနည်းငယ်မှ သင်ယူပြီးနောက်၊ တက်ကြွစွာ သင်ယူခြင်းဖြင့်၊ မော်ဒယ်သည် အကျိတ်ရှိနေခြင်းနှင့်ပတ်သက်၍ မသေချာသည့်ပုံများကို မှတ်သားရန် အသုံးပြုသူများကိုသာ တောင်းဆိုမည်ဖြစ်သည်။ ဤအရာများသည် နယ်နိမိတ်မှတ်များဖြစ်မည်ဖြစ်ပြီး၊ မှတ်ပုံတင်သည့်အခါ မော်ဒယ်၏ယုံကြည်မှုကို တိုးစေမည်ဖြစ်သည်။ မော်ဒယ်သည် သတ်မှတ်ထားသော အတိုင်းအတာတစ်ခုထက်ပို၍ ယုံကြည်ပါက၊ အသုံးပြုသူကို မှတ်ချက်ပေးရန် တောင်းဆိုမည့်အစား ကိုယ်တိုင်မှတ်ချက်ပေးမည်ဖြစ်သည်။ ဤသည်မှာ ဒေတာမှတ်စုမှတ်ရန် လိုအပ်သည့်အချိန်နှင့် ကြိုးစားအားထုတ်မှုကို လျှော့ချနေစဉ် တိကျသောမော်ဒယ်များတည်ဆောက်ရာတွင် တက်ကြွစွာသင်ယူရန် ကြိုးစားပုံဖြစ်သည်။ modAL ကဲ့သို့သော မူဘောင်များသည် အချက်အလက်အရှိဆုံးဖြစ်ရပ်များကို တံဆိပ်တပ်ရန် ဒိုမိန်းကျွမ်းကျင်သူများကို ဥာဏ်ပညာရှိရှိ မေးမြန်းခြင်းဖြင့် အမျိုးအစားခွဲခြားမှုစွမ်းဆောင်ရည်ကို တိုးမြှင့်ရန် ကူညီပေးနိုင်ပါသည်။

ကြီးကြပ်မှု အားနည်းတယ်။

အားနည်းသော ကြီးကြပ်မှုသည် ဆူညံပြီး မတိကျသော ဒေတာ သို့မဟုတ် စိတ္တဇ အယူအဆများကို ကြီးကြပ်ခြင်းမရှိသော ဒေတာပမာဏများစွာကို တံဆိပ်တပ်ခြင်းအတွက် ညွှန်ပြချက်များကို ပေးဆောင်ရန် အသုံးပြုနိုင်သည့် ချဉ်းကပ်မှုတစ်ခုဖြစ်သည်။ ဤချဉ်းကပ်မှုသည် အများအားဖြင့် အားနည်းသော အညွှန်းများကို အသုံးပြုပြီး အရည်အသွေးအမှတ်အသားပြုဒေတာကို တည်ဆောက်ရန် အစုလိုက်ချဉ်းကပ်မှုတွင် ၎င်းတို့ကို ပေါင်းစပ်ရန် ကြိုးစားသည်။ ကြိုးပမ်းမှုမှာ ဒိုမိန်းအသိပညာကို အလိုအလျောက်တံဆိပ်ကပ်ခြင်းဆိုင်ရာ လုပ်ဆောင်ချက်တစ်ခုတွင် ထည့်သွင်းရန် ကြိုးစားခြင်းဖြစ်သည်။

ဥပမာအားဖြင့်၊ အကယ်၍ အင်တာနက်ဝန်ဆောင်မှုပေးသူ (ISP) သည် အီးမေးလ်ဒေတာအတွဲများကို spam သို့မဟုတ် spam အဖြစ်အလံပြရန်စနစ်တစ်ခုလိုအပ်ပါက၊ "ကမ်းလှမ်းသည်"၊ "ဂုဏ်ပြုလွှာ"၊ "အခမဲ့" ကဲ့သို့သောစာပိုဒ်တိုများကိုစစ်ဆေးခြင်းကဲ့သို့သောအားနည်းသောစည်းမျဉ်းများကိုရေးနိုင်သည်။ ၎င်းသည် များသောအားဖြင့် spam အီးမေးလ်များနှင့် ဆက်စပ်နေသည်။ အခြားစည်းမျဉ်းများသည် ပုံမှန်အသုံးအနှုန်းများဖြင့် ရှာဖွေနိုင်သော အရင်းအမြစ်လိပ်စာများ၏ သီးခြားပုံစံများမှ အီးမေးလ်များ ဖြစ်နိုင်သည်။ ဤအားနည်းသောလုပ်ဆောင်ချက်များကို Snorkel နှင့် Skweak ကဲ့သို့သော အားနည်းသော ကြီးကြပ်မှုမူဘောင်ဖြင့် ပေါင်းစပ်၍ အရည်အသွေးကောင်းမွန်သော လေ့ကျင့်ရေးဒေတာကို တည်ဆောက်နိုင်သည်။

၎င်း၏အဓိကအချက်မှာ ML သည် ကုမ္ပဏီများအား ကိုယ်တိုင်လုပ်ဆောင်ရန် မဖြစ်နိုင်သော နည်းလမ်းများဖြင့် တိုးချဲ့လုပ်ဆောင်မှုများကို အတိုင်းအတာတစ်ခုအထိ ကူညီပေးသည့်အကြောင်းဖြစ်သည်။ သို့သော်လည်း ML သည် မှော်ပညာမဟုတ်သော်လည်း (က) မော်ဒယ်များကို အစမှစ၍ စနစ်တကျ တပ်ဆင်လေ့ကျင့်ရန်၊ ခ) မော်ဒယ်သည် ရလဒ်များ အသုံးမဝင်တော့သည့်နေရာတွင် ယခုအချိန်အထိ လွဲချော်သွားကြောင်း သေချာစေရန် လိုအပ်သောအခါတွင် ကြားဝင်ဆောင်ရွက်ပေးပါသည်။ ဆန့်ကျင်ဘက်ဖြစ်စေ သို့မဟုတ် အနုတ်လက္ခဏာဖြစ်နိုင်သည်။

ပန်းတိုင်သည် အချိန်နှင့်အမျှ စျေးကွက်နှင့် ရလဒ်များကို တိုးမြှင့်ရန်အတွက် လူသားများ၏ ပါဝင်ပတ်သက်မှု၏ အစိတ်အပိုင်းများကို ချောမွေ့စေပြီး အလိုအလျောက်ဖြစ်စေသော နည်းလမ်းများကို ရှာဖွေရန်ဖြစ်ပြီး အကောင်းမွန်ဆုံးတိကျမှု၏ အကာအရံများတွင် ရှိနေစဉ်တွင်ဖြစ်သည်။ အရည်အသွေးမှတ်စုများ ဒေတာရယူခြင်းသည် ML ပရောဂျက်တစ်ခု၏ စျေးအကြီးဆုံးဖြစ်သော်လည်း အလွန်အရေးကြီးသော အစိတ်အပိုင်းဖြစ်ကြောင်း တစ်ကမ္ဘာလုံးက လက်ခံထားသည်။ ဤအရာသည် ပြောင်းလဲနေသောနေရာတစ်ခုဖြစ်ပြီး ဒိုမိန်းကျွမ်းကျင်သူများအသုံးပြုသည့်အချိန်ကို လျှော့ချရန်နှင့် ဒေတာမှတ်ချက်များ၏ အရည်အသွေးကို မြှင့်တင်ရန် ကြိုးပမ်းမှုများစွာ လုပ်ဆောင်နေပါသည်။ တက်ကြွသောသင်ယူမှုနှင့် ကြီးကြပ်မှုအားနည်းခြင်းကို စူးစမ်းလေ့လာခြင်းနှင့် အသုံးချခြင်းသည် လုပ်ငန်းအများအပြားနှင့် အသုံးပြုမှုကိစ္စများတွင် ၎င်းကိုအောင်မြင်ရန် ခိုင်မာသောဗျူဟာတစ်ခုဖြစ်သည်။

Data Scientist ချုပ် Dattaraj Rao တည်မြဲသောစနစ်များ“Keras to Kubernetes: The Journey of a Machine Learning Model to Production” စာအုပ်ကို ရေးသားသူဖြစ်သည်။ Persistent Systems တွင်၊ Dattaraj သည် Computer Vision၊ သဘာဝဘာသာစကားနားလည်မှု၊ Probabilistic programming၊ Reinforcement Learning၊ ရှင်းပြနိုင်သော AI စသည်ဖြင့် ကွန်ပျူတာအမြင်၊ ခေတ်မီသော အယ်လဂိုရီသမ်များကို စူးစမ်းလေ့လာသည့် AI သုတေသနဓာတ်ခွဲခန်းကို ဦးဆောင်ပြီး ကျန်းမာရေးစောင့်ရှောက်မှု၊ ဘဏ်လုပ်ငန်းနှင့် စက်မှုလုပ်ငန်းနယ်ပယ်များတွင် အသုံးချနိုင်မှုကို သရုပ်ပြသည်။ Dattaraj တွင် Machine Learning နှင့် Computer Vision တွင် မူပိုင်ခွင့် ၁၁ ခုရှိသည်။