ဆောင်းပါးတို Computer Vision ဆိုတာ ဘာလဲ။ - Unite.AI
ကြှနျုပျတို့နှငျ့အတူချိတ်ဆက်ပါ
AI Masterclass-

AI ၅၀

Computer Vision ဆိုတာဘာလဲ။

mm
နောက်ဆုံးရေးသားချိန် on

Computer Vision ဆိုတာဘာလဲ။

Computer vision algorithms သည် လက်ရှိအချိန်တွင် ကမ္ဘာပေါ်တွင် အသွင်ပြောင်းပြီး အစွမ်းထက်ဆုံး AI စနစ်များထဲမှ တစ်ခုဖြစ်သည်။ ကွန်ပျူတာအမြင်စနစ်များ ကိုယ်ပိုင်အုပ်ချုပ်ခွင့်ရယာဉ်များ၊ စက်ရုပ်လမ်းညွှန်မှု၊ မျက်နှာမှတ်သားမှုစနစ်များနှင့် အခြားအရာများတွင် အသုံးပြုမှုကို ကြည့်ပါ။ သို့သော်၊ ကွန်ပျူတာအမြင်ဆိုင်ရာ အယ်လဂိုရီသမ်များသည် အဘယ်နည်း။ သူတို့ဘယ်လိုအလုပ်လုပ်သလဲ? ဤမေးခွန်းများကိုဖြေဆိုရန်အတွက် ကွန်ပျူတာအမြင်၊ ကွန်ပျူတာအမြင်ဆိုင်ရာ အယ်လဂိုရီသမ်များနှင့် ကွန်ပျူတာအမြင်စနစ်များအတွက် အပလီကေးရှင်းများနောက်ကွယ်ရှိ သီအိုရီကို နက်နက်နဲနဲလေ့လာပါမည်။

Computer Vision Systems ဘယ်လိုအလုပ်လုပ်လဲ

ကွန်ပြူတာအမြင်အာရုံစနစ်များ မည်သို့အလုပ်လုပ်သည်ကို အပြည့်အဝနားလည်သဘောပေါက်စေရန်အတွက်၊ လူသားများသည် အရာဝတ္တုများကို မည်သို့မှတ်မိပုံအကြောင်း ဆွေးနွေးကြစို့။ အာရုံကြောစိတ်ပညာတွင် ကျွန်ုပ်တို့သည် အရာဝတ္ထုများကို မှတ်မိပုံအတွက် အကောင်းဆုံးရှင်းပြချက်မှာ ကနဦးအဆင့်ကို ဖော်ပြသည့် စံနမူနာတစ်ခုဖြစ်သည်။ အရာဝတ္ထုအသိအမှတ်ပြုမှု အရာဝတ္ထုများ၏ အခြေခံ အစိတ်အပိုင်းများဖြစ်သည့် ပုံစံ၊ အရောင်နှင့် အတိမ်အနက်ကို ဦးဏှောက်က ဦးစွာ ဘာသာပြန်ဆိုပါသည်။ ဦးနှောက်ထဲသို့ ဝင်ရောက်လာသော မျက်လုံးမှ အချက်ပြမှုများကို အရာဝတ္ထုတစ်ခု၏ အစွန်းများကို ဦးစွာ ဆွဲထုတ်ရန် ခွဲခြမ်းစိတ်ဖြာပြီး အဆိုပါ အစွန်းများကို အရာဝတ္တု၏ ပုံစံနှင့် ပြည့်စုံသော ပိုမိုရှုပ်ထွေးသော ကိုယ်စားပြုမှုအဖြစ် ပေါင်းစပ်ထားသည်။

ကွန်ပျူတာ အမြင်အာရုံစနစ်များသည် အရာဝတ္တုတစ်ခု၏ အစွန်းများကို ဦးစွာပိုင်းခြားသိမြင်ပြီးနောက် ယင်းအစွန်းများကို အရာဝတ္တု၏ပုံစံသို့ ပေါင်းစည်းခြင်းဖြင့် လူသားအမြင်အာရုံစနစ်နှင့် အလွန်ဆင်တူပါသည်။ ကြီးမားသော ကွာခြားချက်မှာ ကွန်ပျူတာများသည် ရုပ်ပုံများကို ဂဏန်းများအဖြစ် အဓိပ္ပာယ်ဖွင့်ဆိုသောကြောင့်၊ ကွန်ပျူတာအမြင်စနစ်သည် ရုပ်ပုံပါ၀င်သည့် pixels များကို အနက်ပြန်ဆိုရန် နည်းလမ်းအချို့ လိုအပ်ပါသည်။ ကွန်ပြူတာအမြင်စနစ်သည် ပုံရှိ pixels များသို့ တန်ဖိုးများကို သတ်မှတ်ပေးမည်ဖြစ်ပြီး pixels ၏ ဒေသတစ်ခုနှင့် pixels ၏ အခြားဒေသတစ်ခုကြား တန်ဖိုးများကွာခြားမှုကို ဆန်းစစ်ခြင်းဖြင့် ကွန်ပျူတာသည် အစွန်းများကို ပိုင်းခြားနိုင်မည်ဖြစ်သည်။ ဥပမာအားဖြင့်၊ မေးခွန်းထုတ်ထားသောပုံသည် မီးခိုးရောင်စကေးဖြစ်လျှင် တန်ဖိုးများသည် အနက်ရောင် (0 ဖြင့်ကိုယ်စားပြုသည်) မှ အဖြူရောင် (255 ဖြင့်ကိုယ်စားပြုသည်) အထိရှိမည်ဖြစ်သည်။ တစ်ခုနှင့်တစ်ခုအနီးရှိ pixels များ၏တန်ဖိုးများအကွာအဝေးတွင် ရုတ်တရက်ပြောင်းလဲမှုသည် အစွန်းတစ်ခုကိုညွှန်ပြလိမ့်မည်။

ကွဲပြားခြားနားသော RGB အရောင်ချန်နယ်များကြားရှိ မတူညီမှုများကို ကွန်ပျူတာမှ နှိုင်းယှဉ်ခြင်းဖြင့် pixel တန်ဖိုးများကို နှိုင်းယှဉ်ခြင်း၏ အခြေခံမူကို ရောင်စုံပုံများနှင့်လည်း လုပ်ဆောင်နိုင်သည်။ ဒါကြောင့် ကွန်ပြူတာအမြင်စနစ်က ပုံတစ်ပုံကို အနက်ပြန်ဆိုဖို့ pixel တန်ဖိုးတွေကို ဆန်းစစ်ပုံကို သိပြီး ကွန်ပျူတာအမြင်စနစ်ရဲ့ တည်ဆောက်ပုံကို လေ့လာကြည့်ရအောင်။

Convolutional Neural Networks (CNNs)

ကွန်ပြူတာ အမြင်အာရုံဆိုင်ရာ လုပ်ငန်းဆောင်တာများတွင် အသုံးပြုသည့် AI ၏ အဓိက အမျိုးအစားမှာ တစ်ခုဖြစ်သည်။ convolutional neural networks များကိုအခြေခံသည်။. ချာတိတ်ဆိုတာ ဘာလဲ။

Convolutions များသည် pixels များကြား တန်ဖိုးများကွာခြားချက်ကို ဆုံးဖြတ်ရန် ကွန်ရက်အသုံးပြုသည့် သင်္ချာဆိုင်ရာ လုပ်ငန်းစဉ်များဖြစ်သည်။ အကယ်၍ သင်သည် pixel တန်ဖိုးများ၏ ဇယားကွက်တစ်ခုကို မြင်ယောင်ပါက၊ ဤပင်မဂရစ်အပေါ်မှ သေးငယ်သော ဂရစ်တစ်ခုကို ရွှေ့နေသည့်ပုံကို ပုံဖော်ပါ။ ဒုတိယဂရစ်အောက်ရှိ တန်ဖိုးများကို ကွန်ရက်မှ ခွဲခြမ်းစိတ်ဖြာနေသောကြောင့် ကွန်ရက်သည် တစ်ကြိမ်လျှင် လက်တစ်ဆုပ်စာ pixels များကိုသာ စစ်ဆေးနေပါသည်။ ၎င်းကို "လျှောပြတင်းပေါက်များ" နည်းပညာဟုခေါ်သည်။ လျှောပြတင်းပေါက်မှ ခွဲခြမ်းစိတ်ဖြာထားသည့် တန်ဖိုးများကို ပုံ၏ ရှုပ်ထွေးမှုကို လျှော့ချပေးပြီး ပုံစံများကို ထုတ်ယူရန် ကွန်ရက်အတွက် ပိုမိုလွယ်ကူစေသည့် ကွန်ရက်ဖြင့် အကျဉ်းချုပ်ထားသည်။

Convolutional neural networks တွေဖြစ်ပါတယ်။ ကွဲပြားသော အပိုင်းနှစ်ပိုင်း ခွဲခြားထားသည်။၊ convolutional section နှင့် အပြည့်အဝချိတ်ဆက်ထားသောအပိုင်း။ ကွန်ရက်၏ convolutional layers များသည် feature extractors များဖြစ်ပြီး၊ ၎င်း၏အလုပ်မှာ ရုပ်ပုံအတွင်းရှိ pixels များကိုခွဲခြမ်းစိတ်ဖြာရန်နှင့် neural network ၏သိပ်သည်းစွာချိတ်ဆက်ထားသောအလွှာများမှပုံစံများကိုလေ့လာနိုင်သည့်သူတို့၏ပုံသဏ္ဍာန်များဖြစ်သည်။ convolutional အလွှာများသည် pixels များကိုစစ်ဆေးပြီး edges ကဲ့သို့ ပုံ၏ အဆင့်နိမ့်အင်္ဂါရပ်များကို ထုတ်ယူရုံဖြင့် စတင်သည်။ နောက်ပိုင်းတွင် convolutional အလွှာများသည် အစွန်းများကို ပိုမိုရှုပ်ထွေးသော ပုံသဏ္ဍာန်အဖြစ်သို့ ပေါင်းစပ်သည်။ အဆုံးတွင်၊ ကွန်ရက်သည် အပြည့်အ၀ချိတ်ဆက်ထားသော အလွှာများသို့ ကူးသွားနိုင်သည့် ပုံ၏အနားများနှင့် အသေးစိတ်အချက်အလက်များကို ကိုယ်စားပြုနိုင်လိမ့်မည်ဟု မျှော်လင့်ပါသည်။

Image ကိုမှတ်စုများ

convolutional neural network သည် ပုံများမှ ပုံစံများကို သူ့ဘာသာသူ ထုတ်ယူနိုင်သော်လည်း၊ ကွန်ပြူတာ အမြင်စနစ်၏ တိကျမှုကို ရုပ်ပုံများကို မှတ်သားခြင်းဖြင့် ပိုမိုကောင်းမွန်လာနိုင်သည်။ Image ကိုမှတ်စု ပုံတွင် အရေးကြီးသော အရာဝတ္တုများကို ရှာဖွေရာတွင် အမျိုးအစားခွဲသူကို အထောက်အကူဖြစ်စေသော ရုပ်ပုံသို့ မက်တာဒေတာကို ပေါင်းထည့်သည့် လုပ်ငန်းစဉ်ဖြစ်သည်။ ကွန်ပြူတာအမြင်အာရုံစနစ်များသည် အလိုအလျောက်မောင်းနှင်နိုင်သောယာဉ် သို့မဟုတ် စက်ရုပ်ကိုထိန်းချုပ်သည့်အခါတိုင်းတွင် ရုပ်ပုံမှတ်စုကိုအသုံးပြုခြင်းသည် အရေးကြီးပါသည်။

ကွန်ပြူတာ အမြင်အမျိုးအစားခွဲခြားမှု၏ စွမ်းဆောင်ရည်ကို မြှင့်တင်ရန်အတွက် ပုံများကို မှတ်သားနိုင်သော နည်းလမ်းအမျိုးမျိုးရှိသည်။ ပုံမှတ်စာသည် ပစ်မှတ်အရာဝတ္တု၏ အစွန်းများကို ဝန်းရံထားသော အကွက်များနှင့် ဘောင်အတွင်းမှ ၎င်း၏အာရုံကို ကွန်ပြူတာအား အာရုံစိုက်ရန် ဘောက်စ်ကို မကြာခဏ ပြုလုပ်လေ့ရှိသည်။ Semantic segmentation သည် ပုံတစ်ပုံရှိ pixel တစ်ခုစီသို့ ပုံတစ်ပုံချင်းစီကို သတ်မှတ်ပေးခြင်းဖြင့် လုပ်ဆောင်သည့် အခြား image annotation အမျိုးအစားဖြစ်သည်။ တစ်နည်းဆိုရသော်၊ "မြက်" သို့မဟုတ် "သစ်ပင်များ" ဟု ယူဆနိုင်သည့် pixel တိုင်းကို ထိုအတန်းများနှင့် သက်ဆိုင်သည်ဟု တံဆိပ်တပ်ပါမည်။ နည်းပညာသည် pixel အဆင့် တိကျမှုကို ပေးစွမ်းသော်လည်း ရိုးရှင်းသော ဘောင်ကွက်များကို ဖန်တီးခြင်းထက် အဓိပ္ပါယ်ရှိသော အပိုင်းခွဲမှတ်ချက်များကို ဖန်တီးခြင်းသည် ပိုမိုရှုပ်ထွေးပြီး အချိန်ကုန်သည်။ မျဉ်းကြောင်းများနှင့် အမှတ်များကဲ့သို့ အခြားသော မှတ်စုနည်းလမ်းများလည်း ရှိသေးသည်။

ဘလော့ဂါနှင့် ပရိုဂရမ်မာများအတွက် အထူးပြုပါ။ စက်သင်ယူ နှင့် နက်ရှိုင်းသောသင်ယူခြင်း အကြောင်းအရာများ လူမှုဆက်ဆံရေးကောင်းမွန်ရန်အတွက် AI ၏စွမ်းအားကို အခြားသူများအား ကူညီပေးနိုင်ရန် Daniel က မျှော်လင့်ထားသည်။