ဆောင်းပါးတို TinySAM : ဘယ်အရာမဆို အပိုင်းအတွက် နယ်နိမိတ်များကို တွန်းအားပေးခြင်း မော်ဒယ် - Unite.AI
ကြှနျုပျတို့နှငျ့အတူချိတ်ဆက်ပါ

ဉာဏ်ရည်တု

TinySAM : ဘယ်အရာမဆို မော်ဒယ်အတွက် နယ်နိမိတ်များကို တွန်းအားပေးခြင်း။

mm

Published

 on

TinySAM : ဘယ်အရာမဆို မော်ဒယ်အတွက် နယ်နိမိတ်များကို တွန်းအားပေးခြင်း။

Object segmentation သည် ခေတ်သစ်ကွန်ပြူတာအမြင်တွင် အခြေခံကျပြီး အရေးပါသောနယ်ပယ်တစ်ခုဖြစ်သည်။ အရာဝတ္ထုကို ဒေသသတ်မှတ်ခြင်းနှင့် ခွဲခြားသတ်မှတ်ခြင်းကဲ့သို့သော ကျယ်ပြန့်သောအမြင်အာရုံအစိတ်အပိုင်းများလိုအပ်သည့် အပလီကေးရှင်းများတွင် အရေးပါသောအခန်းကဏ္ဍမှပါဝင်ပြီး အချိန်နှင့်တပြေးညီ၊ မြန်ဆန်ပြီး တိကျသောအပိုင်းခွဲခြင်းကို တောင်းဆိုပါသည်။ ဤအရေးပါမှုသည် အရာဝတ္တုကို ပိုင်းဖြတ်ခြင်းအား တသမတ်တည်း ပြင်းပြင်းထန်ထန် သုတေသနပြုသည့် ခေါင်းစဉ်တစ်ခု ဖြစ်လာစေခဲ့ပြီး၊ ဥပမာ အပိုင်းခွဲခြင်း၊ အဓိပ္ပာယ်ခွဲခြင်း နှင့် panoptic segmentation ကဲ့သို့သော နယ်ပယ်များတွင် သိသာထင်ရှားသော အလုပ်များကို လုပ်ဆောင်ခဲ့သည်။

Object segmentation ၏ ဆင့်ကဲဖြစ်စဉ်နှင့်အတူ၊ Segment Anything Model (SAM) သည် ထူးထူးခြားခြား ခွဲခြမ်းခြင်းစွမ်းရည်များကို ပြသပြီး အမျိုးမျိုးသော ကွန်ပျူတာအမြင်ဆိုင်ရာ အပလီကေးရှင်းများတွင် လျင်မြန်စွာ လက်ခံကျင့်သုံးနေသော မှတ်သားဖွယ်ကိရိယာတစ်ခုအဖြစ် ပေါ်ထွက်လာခဲ့သည်။ ကြိုတင်လေ့ကျင့်ထားသည့် SAM ဗိသုကာကို အသုံးပြုထားသော မူဘောင်များသည် ရေအောက်ပိုင်းအမြင်ဆိုင်ရာ လုပ်ဆောင်ချက်များတွင် အထင်ကြီးလောက်သော စွမ်းဆောင်ရည်ကို ရရှိခဲ့ပါသည်။ သို့ရာတွင်၊ ၎င်း၏စွမ်းရည်များနှင့် ခွဲခြမ်းခြင်းလုပ်ငန်းများတွင် မြင့်မားတိကျမှုရှိသော်လည်း၊ SAM ၏ ရှုပ်ထွေးပြီး လေးလံသော ဗိသုကာသည် များပြားလှသော တွက်ချက်မှုဆိုင်ရာ ပါဝါကို လိုအပ်ပြီး ကွန်ပျူတာဆိုင်ရာ ကန့်သတ်ထားသော စက်ပစ္စည်းများတွင် ၎င်း၏ အကောင်အထည်ဖော်မှုကို ဟန့်တားစေသည်။

SAM ၏ တွက်ချက်မှုဆိုင်ရာ စိန်ခေါ်မှုများကို ကိုင်တွယ်ဖြေရှင်းရာတွင် သုတေသီများသည် ပိုမိုပေါ့ပါးနေချိန်တွင် မူလဘောင်၏ သုည-ရိုက်ချက်မပြည့်မီသော စွမ်းဆောင်ရည်ကို ထိန်းသိမ်းထားသည့် Tiny Segment Anything Model (TinySAM) ကို တီထွင်ခဲ့သည်။ TinySAM သည် ပိုမိုထိရောက်သော ကျောင်းသားပုံစံကို ဖန်တီးရန်အတွက် အွန်လိုင်းမှ ခက်ခဲသော အချက်များဖြင့် စင်မြင့်ပြည့် အသိပညာပေါင်းခံခြင်းနည်းလမ်းကို အသုံးပြုပါသည်။ လေ့ကျင့်မှုအပြီးတွင် ပမာဏသတ်မှတ်ခြင်း သည် ချက်ခြင်း ခွဲခြမ်းခြင်းလုပ်ငန်းများကို လိုက်လျောညီထွေဖြစ်အောင် ဆောင်ရွက်ခြင်းသည် တွက်ချက်မှုဆိုင်ရာ လိုအပ်ချက်များကို ပိုမိုလျော့နည်းစေသည်။ ထို့အပြင် TinySAM ၏ ဒီဇိုင်းသည် စွမ်းဆောင်ရည်ကို အလျှော့မပေးဘဲ အနုမာနအမြန်နှုန်းကို နှစ်ဆနီးပါး တိုးမြှင့်ရန် ရည်မှန်းထားသည်။

ဤဆောင်းပါးသည် TinySAM မူဘောင်တွင် ၎င်း၏ အခြေခံမူများ၊ ဗိသုကာပညာနှင့် စွမ်းဆောင်ရည်ကို အခြားခေတ်မီသော အပိုင်းခွဲခြင်းဆိုင်ရာ မူဘောင်များနှင့် နှိုင်းယှဉ်ကာ စူးစမ်းလေ့လာထားသည်။ ဒီအချက်တွေကို အသေးစိတ်လေ့လာကြည့်ရအောင်။

TinySAM : ထိရောက်သောအပိုင်း မည်သည့်အရာမဆို မော်ဒယ်

Segment Anything Model သည် ရုပ်ပုံပေါင်း 11 သန်းကျော်နှင့် image mask ပေါင်း တစ်ဘီလီယံကျော်ကို စုစည်းထားသော ကြီးမားသော ခွဲခြမ်းမှုဆိုင်ရာ ဒေတာအစုံနှင့်အတူ ၎င်း၏ ချီးကျူးထိုက်သော အပိုင်းခွဲခြင်းစွမ်းရည်ကြောင့် ကွန်ပျူတာအမြင်ဆိုင်ရာ အပလီကေးရှင်းများစွာ၏ လျင်မြန်စွာတိုးတက်မှုအတွက် ကူညီပေးခဲ့ပါသည်။ အရာဝတ္တုများကို ထူးထူးခြားခြား အမျိုးအစားခွဲခြင်းနှင့် ပုံသဏ္ဍာန်များဖြင့် ပိုင်းခြားထားသော လုပ်ဆောင်မှုများကြောင့် ၎င်းသည် ရုပ်ပုံဆေးခြယ်ခြင်း၊ အရာဝတ္ထုခြေရာခံခြင်း၊ 3D အမြင်နှင့် အခြားအရာများကဲ့သို့ ရေအောက်ပိုင်းလုပ်ဆောင်သည့် မူဘောင်များအတွက် အခြေခံအုတ်မြစ်အဖြစ် ဆောင်ရွက်ပါသည်။ ထို့အပြင်၊ Segment Anything Model သည်လည်း ထူးထူးခြားခြား ပံ့ပိုးပေးပါသည်။ zero-shot အပိုင်း ဆေးသုတေသနနှင့် ဆေးဘက်ဆိုင်ရာ ပုံရိပ်ဖော်ခြင်းလုပ်ငန်းများ အပါအဝင် ဒေတာပမာဏအကန့်အသတ်ဖြင့် လုပ်ဆောင်သည့် အရေးကြီးသော လုပ်ငန်းများကို အကျိုးပြုသည့် စွမ်းဆောင်ရည်။ 

Segment Anything Model မှ ပေးဆောင်သော ထူးထူးခြားခြား အပိုင်းခွဲခြင်း စွမ်းရည်များကို ကျယ်ပြန့်စွာ ရှုမြင်နိုင်စွမ်းရှိသော်လည်း၊ ရှုပ်ထွေးသော ဗိသုကာဆိုင်ရာ ဝန်ပိုလျှံမှု၊ မြင့်မားသော တွက်ချက်မှုဆိုင်ရာ လိုအပ်ချက်များနှင့် သိသာထင်ရှားသော လုပ်ငန်းဆောင်ရွက်မှု ကုန်ကျစရိတ်များအတွက် ၎င်း၏ အားနည်းချက်ရှိသည်။ ခေတ်မီ GPU ပေါ်တွင် လုပ်ဆောင်နေသည့် စနစ်အတွက်၊ SAM မော်ဒယ်တစ်ခု၏ အနုမာနအချိန်သည် 2×1024 ပုံအတွက် 1024 စက္ကန့်အထိ ကြာမြင့်နိုင်သည်။ ရလဒ်အနေဖြင့်၊ အကန့်အသတ်ရှိသော ကွန်ပျူတာစွမ်းရည်ရှိသော စက်များတွင် SAM အက်ပ်လီကေးရှင်းများကို အကောင်အထည်ဖော်ရန် အလွန်ခက်ခဲသောအလုပ်ဖြစ်သည်။ ဤအခက်အခဲကို ကျော်လွှားရန်အတွက် MobileSAM နှင့် FastSAM ကဲ့သို့သော မကြာသေးမီက လုပ်ဆောင်ချက်များသည် တွက်ချက်မှုဆိုင်ရာ ထိရောက်မှုပိုမိုရှိသော SAM မော်ဒယ်ကို တီထွင်ရန် ကြိုးစားခဲ့ကြသည်။ MobileSAM မူဘောင်သည် ရုပ်ပုံကုဒ်ဒါရှိ လေးလံသောအစိတ်အပိုင်းအား TinyViT မူဘောင်၏ တည်ဆောက်ပုံနှင့် အစားထိုးရန် ကြိုးပမ်းသော်လည်း FastSAM မော်ဒယ်သည် အပိုင်းတာဝန်ကို အမျိုးအစားတစ်ခုတည်းဖြင့်သာ အမျိုးအစားခွဲခြင်းလုပ်ငန်းတစ်ခုသို့ လွှဲပြောင်းပေးပါသည်။ YoloV8 မော်ဒယ်။ ဤနည်းလမ်းများသည် တွက်ချက်မှုဆိုင်ရာလိုအပ်ချက်များကို လျှော့ချခြင်းအတွက် အောင်မြင်မှုအဆင့်အချို့ကို ဆောင်ရွက်နိုင်ခဲ့သော်လည်း၊ အထူးသဖြင့် downstream zero-shot လုပ်ဆောင်မှုများတွင် စွမ်းဆောင်ရည်ကို မထိန်းသိမ်းနိုင်ခဲ့ကြပါ။ 

TinySAM သို့မဟုတ် Tiny Segment Anything Model သည် လက်ရှိ SAM မော်ဒယ်၏ တွက်ချက်မှုဆိုင်ရာ လိုအပ်ချက်များကို လျှော့ချရန် ကြိုးပမ်းမှုတစ်ခုဖြစ်သည်။ ထို့အပြင်၊ TinySAM မူဘောင်သည် ကျစ်လစ်သိပ်သည်းသော ကျောင်းသားကွန်ရက်၏စွမ်းရည်ကို မြှင့်တင်ရန် ရည်ရွယ်၍ ၎င်း၏ဗိသုကာပညာတွင် အဆင့်ပြည့်အသိပညာပေါင်းခံခြင်းနည်းလမ်းကို အကောင်အထည်ဖော်ရန် အဆိုပြုပါသည်။ TinySAM မူဘောင်သည် အဆင့်အမျိုးမျိုးမှ ဆရာကွန်ရက်၏ ကြီးကြပ်မှုအောက်တွင် ကျောင်းသားကွန်ရက်ကို အဆုံးမှအဆုံးသတ်သည့်ပုံစံဖြင့် သန့်စင်ပေးသည်။ ပိုမိုစွမ်းဆောင်ရည်မြှင့်တင်ရန်၊ မူဘောင်သည် ပေါင်းခံခြင်းလုပ်ငန်းစဉ်အား နောက်ထပ်အွန်လိုင်း hard prompt sampling နည်းဗျူဟာကို အကောင်အထည်ဖော်ခြင်းဖြင့် ခက်ခဲသောနမူနာများကို ပိုမိုတက်ရောက်နိုင်စေပါသည်။ ထို့အပြင်၊ ထို့အပြင်၊ တွက်ချက်မှုကုန်ကျစရိတ်များကိုလျှော့ချရန်အတွက် TinySAM မူဘောင်သည် လေ့ကျင့်ရေးအပြီးတွင် quantization အစိတ်အပိုင်းများကို ချက်ခြင်းလုပ်ဆောင်နိုင်သော အပိုင်းခွဲခြင်းလုပ်ငန်းတာဝန်များကို ဖော်ထုတ်ပေးပါသည်။ 

Segment Anything Model ၏ တွက်ချက်မှုလိုအပ်ချက်၏ အဓိကအကျဆုံးအပိုင်းမှာ မော်ဒယ်သည် ပုံရှိအရာအားလုံးကို အပိုင်းပိုင်းခွဲရန် grid prompt point များမှ ကြီးမားသောမျက်နှာဖုံးများကိုထုတ်ပေးသောကြောင့်ဖြစ်သည်။ ဤအပိုင်းခွဲနည်းဗျူဟာ၏ တွက်ချက်မှုဆိုင်ရာလိုအပ်ချက်ကို ကျော်လွှားရန်၊ TinySAM မူဘောင်သည် စွမ်းဆောင်ရည်ကို မထိခိုက်စေဘဲ အနုမာနအမြန်နှုန်းကို နှစ်ဆနီးပါးတိုးစေသည့် အရာခပ်သိမ်း၏ အထက်အောက် အပိုင်းဗျူဟာကို အသုံးပြုထားသည်။ ၎င်း၏ဗိသုကာလက်ရာများတွင် ဤနည်းလမ်းများကိုအသုံးပြုခြင်းဖြင့် TinySAM မူဘောင်သည် တွက်ချက်မှုဆိုင်ရာလိုအပ်ချက်များကို သိသာထင်ရှားစွာလျှော့ချပေးကာ ထိရောက်သောအပိုင်းလုပ်ဆောင်စရာများအတွက် အကန့်အသတ်အသစ်များကို သတ်မှတ်ပေးပါသည်။ 

TinySAM : ဗိသုကာနှင့် နည်းစနစ်

TinySAM မူဘောင်၏ ဗိသုကာပညာနှင့် နည်းစနစ်အကြောင်း မပြောမီ၊ ၎င်း၏ရှေ့ဆက်ဖြစ်သော SAM မူဘောင်ကို ဦးစွာကြည့်ရှုရန် အရေးကြီးပါသည်။ မိတ်ဆက်ပြီးကတည်းက၊ Segment Anything Model သည် ရေအောက်ပိုင်းအမြင်နှင့် အရာဝတ္ထုအပိုင်းပိုင်းခွဲခြင်းဆိုင်ရာ လုပ်ငန်းများစွာတွင် ထူးထူးခြားခြား စွမ်းဆောင်ရည်၊ ဘက်စုံအသုံးပြုနိုင်မှုနှင့် ယေဘုယျလုပ်ဆောင်နိုင်စွမ်းများကို ပြသခဲ့သည်။ 

၎င်း၏အဓိကတွင်၊ SAM မော်ဒယ်တွင် ကွန်ရက်ခွဲသုံးခုပါဝင်သည်- အချက်ပြကုဒ်ဒါ၊ ရုပ်ပုံကုဒ်ဒါနှင့် မျက်နှာဖုံးကုဒ်ဒါ။ prompt encoder ၏ အဓိက ရည်ရွယ်ချက်မှာ မထင်သလို ပုံသဏ္ဍာန်ရှိသော မျက်နှာဖုံးများ၊ ဖြည့်သွင်းသည့် အချက်များ နှင့် အကွက်များနှင့် နေရာချထားသော အချက်အလက်များဖြင့် အခမဲ့ ပုံစံစာသားကို ကုဒ်လုပ်ရန် ဖြစ်သည်။ image encoder သည် လေးလံသော ViT သို့မဟုတ် vision transformer ကိုအခြေခံထားသော network တစ်ခုဖြစ်ပြီး input image ကို embedded အဖြစ်သို့ထုတ်ယူသည်။ မော်ဒယ်သည် ဂျီဩမေတြီနှင့် စာသားအချက်ပြမှုများကို လုပ်ဆောင်ရန် မတူညီသော ကွန်ရက်များကို အသုံးပြုသည်။ နောက်ဆုံးတွင်၊ မျက်နှာဖုံး ဒီကုဒ်ဒါတွင် နောက်ဆုံးမျက်နှာဖုံးကို ခန့်မှန်းချက်ထုတ်ပေးရန် prompt ၏ output ကိုလက်ခံရရှိသည့် two-way transformer နှင့် image encoder ပါရှိသည်။ ဒေတာအတွဲဖြင့်၊ SAM မူဘောင်သည် ၎င်းတို့၏ ပုံသဏ္ဍာန်နှင့် အမျိုးအစားမခွဲခြားဘဲ အရာဝတ္ထုများအတွက် ထူးထူးခြားခြား အရည်အသွေးမြင့် ခွဲထွက်ခြင်းစွမ်းရည်များကို ပြသသည်။ ထိုမျှသာမက၊ Segment Anything Model အရာဝတ္ထုအဆိုပြုချက်၊ အနားသတ်ထောက်လှမ်းမှု၊ မျက်နှာဖုံးကြိုတင်ခန့်မှန်းမှုနှင့် သာဓကခွဲခွဲခြားခြားခြင်းအပါအဝင် သုည-ရိုက်ချက်မရှိသော အောက်ပိုင်းရူပါရုံအလုပ်များတွင် ထူးထူးခြားခြား စွမ်းဆောင်ရည်နှင့် စွမ်းဆောင်ရည်ကို ပြသသည်။ ၎င်း၏ အရည်အသွေးမြင့်မားသော ခွဲထွက်ခြင်းစွမ်းရည်များနှင့် လိုက်လျောညီထွေရှိသော အချက်ပြပေးဆောင်မှုများကြောင့် SAM မူဘောင်များသည် အမြင်အာရုံအသုံးချမှုများအတွက် အခြေခံအုတ်မြစ်ဖြစ်လာသည်။ ထိုသို့ပြောဆိုခြင်းဖြင့်၊ ကန့်သတ်ရင်းမြစ်များရှိသော စက်ပစ္စည်းများတွင် developer များအတွက် SAM အခြေပြုအက်ပ်ပလီကေးရှင်းများကို အသုံးပြုရန် မဖြစ်နိုင်သလောက်ဖြစ်သဖြင့် ဘောင်အများအပြားရှိသော ရိုးရာ SAM ဗိသုကာ၏ မြင့်မားသောတွက်ချက်မှုလိုအပ်ချက်ကို လျစ်လျူရှု၍မရပါ။ 

အသိပညာ ပေါင်းခံခြင်း။

အသိပညာပေါင်းခံခြင်းသည် လေ့ကျင့်ရေးအဆင့်အတွင်း ကျစ်လစ်သိပ်သည်းသောကွန်ရက်များ၏စွမ်းဆောင်ရည်ကိုမြှင့်တင်ရန် အရေးကြီးသောချဉ်းကပ်မှုတစ်ခုဖြစ်သည်။ ပေါ့ပါးသော ကျောင်းသားကွန်ရက်၏ လေ့ကျင့်မှုကို ကြီးကြပ်ရန် ဆရာကွန်ရက်၏ ရလဒ်ကို အသုံးပြုသည့် အသိပညာပေါင်းခံနည်း။ အသိပညာပေါင်းခံခြင်းနည်းလမ်းကို အမျိုးအစားခွဲနှစ်ခုအဖြစ် ခွဲခြားနိုင်သည်- အလယ်အလတ်အင်္ဂါရပ်များအတွက် ပေါင်းခံခြင်း နှင့် ကွန်ရက်အထွက်များ အတွက် ပေါင်းခံခြင်း ၊ သုတေသနလုပ်ငန်း အများစုသည် ရုပ်ပုံအမျိုးအစားခွဲခြင်းဆိုင်ရာ လုပ်ငန်းများကို အာရုံစိုက်လုပ်ဆောင်ပြီး အသိပညာပေါင်းခံခြင်းဆိုင်ရာ သုတေသနလုပ်ငန်း အများစုဖြင့် လုပ်ဆောင်ပါသည်။ 

ထိုသို့ပြောဆိုခြင်းဖြင့်၊ အောက်ဖော်ပြပါပုံသည် TinySAM မူဘောင်၏ ယေဘူယျဗိသုကာလက်ရာကို သုည-ရိုက်ချက် ဥပမာ အပိုင်းခွဲခြင်းလုပ်ဆောင်ခြင်းဆိုင်ရာ လုပ်ဆောင်ချက်များအပေါ် စွမ်းဆောင်ရည် ခြုံငုံသုံးသပ်ချက်နှင့်အတူ သရုပ်ပြပါသည်။ 

ပထမအဆင့်တွင်၊ TinySAM မူဘောင်သည် SAM မူဘောင်အတွက် အထူးဒီဇိုင်းထုတ်ထားသော အသိပညာပေါင်းခံခြင်းကို အကောင်အထည်ဖော်ပြီး ပေါင်းခံခြင်းလုပ်ငန်းစဉ်ကို ပိုမိုအသက်ဝင်လာစေရန်၊ မော်ဒယ်သည် ဆရာကွန်ရက်မှ ကျောင်းသားကွန်ရက်ထံ ခက်ခဲသောအသိပညာများကို တူးဖော်ရန်အတွက် အွန်လိုင်း hard prompt နမူနာကို အသုံးပြုပါသည်။ ဒုတိယအဆင့်တွင်၊ TinySAM မူဘောင်သည် လေ့ကျင့်မှုအပြီးတွင် အရေအတွက်တွက်ချက်မှုနည်းလမ်းကို ချက်ခြင်းလုပ်ဆောင်နိုင်သော အပိုင်းခွဲခြင်းလုပ်ငန်းများအတွက် လိုက်လျောညီထွေဖြစ်စေပြီး ၎င်းကို ပေါ့ပါးသောကျောင်းသားကွန်ရက်တွင် အကောင်အထည်ဖော်သည်။ နောက်ဆုံးတွင်၊ မော်ဒယ်သည် အသေးအဖွဲ တိကျမှုမရှိသော တိကျမှုဆုံးရှုံးမှုဖြင့် ခွဲခြမ်းခွဲခြင်းလုပ်ငန်းများအတွက် ဒီဇိုင်းထွင်ထားသည့်အရာအားလုံးကို အနုမာနမုဒ်ကို မော်ဒယ်မှ အကောင်အထည်ဖော်ပေးပါသည်။ 

Full-Stage Knowledge Distillation

အစောပိုင်းတွင်ဖော်ပြခဲ့သည့်အတိုင်း၊ Segment Anything Model တွင် ၎င်း၏ core တွင် ကွန်ရက်ခွဲသုံးခုပါဝင်သည်- prompt encoder၊ image encoder နှင့် mask decoder၊ vision transformer ပေါ်တွင်တည်ဆောက်ထားသော image encoder component နှင့် high computational လိုအပ်ချက်များရှိသည်။ ဤပြဿနာကိုကိုင်တွယ်ဖြေရှင်းရန်အတွက် MobileSAM မူဘောင်သည် Vision transformer ကို TinyViT သို့မဟုတ် Tiny Vision Transformer ဖြင့် အစားထိုးခဲ့သည်၊ အစားထိုးမှုသည် သိသာထင်ရှားသောစွမ်းဆောင်ရည်ယိုယွင်းမှုကြောင့်ထိရောက်မှုမရှိခဲ့ပါ။ စွမ်းဆောင်ရည် ပျက်စီးယိုယွင်းမှု မရှိစေရန်၊ TinySAM မူဘောင်သည် ပေါ့ပါးသော ရုပ်ပုံကုဒ်ဒါကို သင်ယူမှုအဆင့်မှ အသိပညာအဆင့်သို့ လမ်းညွှန်ပေးသည့် ပြည့်စုံသောအဆင့် အသိပညာပေါင်းခံနည်းလမ်းကို အကောင်အထည်ဖော်သည်။ မြေပြင်အမှန်တရားတံဆိပ်များနှင့် ခန့်မှန်းရလဒ်များအကြား သမားရိုးကျဆုံးရှုံးမှုအပြင် TinySAM မူဘောင်သည် အောက်ပါပုံတွင်ပြထားသည့်အတိုင်း မတူညီသောအဆင့်များအတွင်း ပေါင်းခံဆုံးရှုံးမှုများစွာကို မိတ်ဆက်ပေးပါသည်။ 

အရေအတွက်

Model Quantization သည် ကွန်ပျူတာအမြင်ဘောင်များတွင် ရေပန်းစားသောချဉ်းကပ်မှုတစ်ခုဖြစ်ပြီး ထုတ်ကုန်အရည်အသွေးကို သိသိသာသာမပျက်စီးစေဘဲ အလေးချိန်များ သို့မဟုတ် လှိုင်းနှုန်းမြင့်မှ လုပ်ဆောင်ချက်များကို လျှော့ချခြင်းဖြင့် မော်ဒယ်ကို ချုံ့ရန်အသုံးပြုသည်။ 

TinySAM တွင် quantization ၏ အဓိက ရည်ရွယ်ချက်မှာ မက်ထရစ်ပွားကိန်းနှင့် ကိန်းစကေးကိန်းကို ပိုကောင်းအောင်လုပ်ဆောင်ရန်အတွက် အရေးကြီးသောအခန်းကဏ္ဍမှပါဝင်သည့် မက်ထရစ်ကိန်းဂဏန်းဖြင့် ကိန်းဂဏန်းကိန်းဂဏန်းကို အသုံးပြု၍ ကိန်းဂဏန်းတင်းဆာကို ကိန်းဂဏန်းတင်းဆာသို့ ပရောဂျက်လုပ်ရန်ဖြစ်သည်။ 

Hierarchical Segment က အဲ့မှာ

Segment Anything Model သည် ပုံရှိအရာအားလုံးကို အပိုင်းပိုင်းခွဲရန် ဇယားကွက်အဖြစ် အမှတ်အသားပြုသည့် အလိုအလျောက်မျက်နှာဖုံး ဂျင်နရေတာကို အသုံးပြုရန် အဆိုပြုသည်။ သို့ရာတွင်၊ သိပ်သည်းသောအမှတ်ဇယားကွက်ကိုအသုံးပြုခြင်းသည် ကောင်းစွာဆန်သောအပိုင်းခွဲခြင်းရလဒ်များကိုရရှိစေပြီး လုပ်ငန်းစဉ်သည် ကြီးမားသောတွက်ချက်မှုဆိုင်ရာလိုအပ်ချက်များလိုအပ်ပြီး မြင့်မားသောလုပ်ငန်းလည်ပတ်မှုကုန်ကျစရိတ်များပါ၀င်ကြောင်း ညွှန်ပြထားပါသည်။ ထို့အပြင်၊ တစ်ဖက်တွင်၊ ပြီးပြည့်စုံသော အရာတစ်ခုအတွက် နမူနာအချက်များ များလွန်းခြင်းသည် အရာဝတ္တု၏ မတူညီသော အပိုင်းများကို သီးခြားမျက်နှာဖုံးများအဖြစ် မှားယွင်းစွာ ပိုင်းခြားနိုင်သော်လည်း အခြားတစ်ဖက်တွင်၊ အရာအားလုံးမုဒ်အနုမာန၏ အချိန်ကုန်ကျစရိတ်သည် အဓိကအကြောင်းရင်းကြောင့် ဖြစ်သည်။ image encoder သည် သိသိသာသာ ကျုံ့သွားသည်။ အရာအားလုံးမုဒ်၏ လုပ်ငန်းလည်ပတ်မှုကုန်ကျစရိတ်ကို လျှော့ချရန်အတွက် TinySAM မူဘောင်သည် အောက်ဖော်ပြပါပုံတွင်ပြသထားသည့် မူရင်း SAM မူဘောင်နှင့် ဗျူဟာကွဲပြားမှုနှင့်အတူ အထက်အောက်မျက်နှာဖုံးမျိုးဆက်ချဉ်းကပ်မှုကို အသုံးပြုပါသည်။ 

မူလ SAM မူဘောင်တွင် အကောင်အထည်ဖော်သည့် ချဉ်းကပ်ပုံနှင့် ကွဲပြားသည်၊ TinySAM မော်ဒယ်သည် တစ်ဖက်စီတွင် အမှတ် 25% ကိုသာ အသုံးပြုသောကြောင့် မူလဆက်တင်ရှိ ရမှတ်များ၏ 1/16 ကိုသာ အသုံးပြုသည်။ ထို့နောက် မော်ဒယ်သည် mask decoder နှင့် prompt encoder တို့ကို အဆိုပါ prompt များဖြင့် ထည့်သွင်းပြီး output ကို ရရှိမည်ဖြစ်သည်။ ထို့နောက် မော်ဒယ်သည် သတ်မှတ်ထားသော အတိုင်းအတာတစ်ခုထက်ပိုသော ယုံကြည်မှုဖြင့် မျက်နှာဖုံးအချို့ကို စစ်ထုတ်ပြီး ဖြစ်နိုင်ချေရှိသော နောက်ဆုံးခန့်မှန်းချက်များအတွက် နယ်မြေများအဖြစ် သက်ဆိုင်ရာတည်နေရာများကို ဖုံးအုပ်ထားသည်။ မော်ဒယ်သည် ဤဒေသများကို ယုံကြည်စိတ်ချမှုမြင့်မားသော ဖြစ်ရပ်များ၏ အပိုင်းခွဲခြင်းရလဒ်အဖြစ် မှတ်ယူထားသောကြောင့်၊ ၎င်းသည် ပွိုင့်အချက်ပြမှုများ ပြုလုပ်ရန် မလိုအပ်ပါ။ မဟာဗျူဟာသည် အရာဝတ္တု၏ အစေ့အဆံများ အပိုင်းပိုင်းခွဲခြင်းကို တားဆီးရာတွင် အထောက်အကူဖြစ်စေရုံသာမက လုပ်ငန်းလည်ပတ်မှုကုန်ကျစရိတ်နှင့် တွက်ချက်မှုဆိုင်ရာ လိုအပ်ချက်များကို သိသိသာသာ ကျဆင်းစေရန်လည်း ကူညီပေးပါသည်။ ထို့နောက် မူဘောင်သည် နောက်ဆုံးမျက်နှာဖုံးများရရှိရန် ဤအကျော့နှစ်ခု၏ရလဒ်များကို ပေါင်းစပ်ပြီး လုပ်ငန်းစဉ်များအပြီးလုပ်ဆောင်သည်။ 

TinySAM - စမ်းသပ်မှုများနှင့် ရလဒ်များ

ပေါင်းခံခြင်းလုပ်ငန်းစဉ်ကို အရှိန်မြှင့်ရန်အတွက် TinySAM မူဘောင်သည် လေ့ကျင့်ရေးအဆင့်တွင် ဆရာကွန်ရက်၏ လေးလံသောရုပ်ပုံကုဒ်ဒါကို မော်ဒယ်အတွက် မဖြစ်မနေတွက်ချက်စရာမလိုသောကြောင့်၊ TinySAM မူဘောင်သည် ဆရာကွန်ရက်မှ ရုပ်ပုံထည့်သွင်းမှုများကို ကြိုတင်တွက်ချက်ပြီး သိမ်းဆည်းထားမည်ဖြစ်သည်။ လေ့ကျင့်ရေး quantization အတွက်၊ TinySAM မူဘောင်သည် အလွှာများ အားလုံးကို matrix ပွားခြင်း၊ convolution layers၊ deconvolution layers နှင့် linear layers များကို convolution နှင့် deconvolution layers နှစ်ခုလုံးအတွက် chanel-wise scaling Factors များကို အသုံးပြု၍ မော်ဒယ်ဖြင့် တွက်ချက်သည်။ မက်ထရစ်အလွှာများ များပြားခြင်းအတွက်၊ မော်ဒယ်သည် မျဉ်းလိုက်အလွှာများအတွက် ဦးခေါင်းအလိုက် စကေးချဲ့သည့်အချက်များကို ဖော်ဆောင်ပေးကာ မော်ဒယ်သည် မျဉ်းအတိုင်း အတိုင်းအတာအလိုက် အတိုင်းအတာအချက်များကို အကောင်အထည်ဖော်သည်။ မော်ဒယ်သည် လုံးဝရိုက်ချက်မရှိသော downstream လုပ်ဆောင်ချက်များကိုလည်း အကဲဖြတ်ပေးပါသည်။ 

သုည-ရိုက်ချက်ဆက်တင်တွင် အပိုင်းခွဲခြင်းလုပ်ဆောင်စရာများအတွက်၊ TinySAM မူဘောင်သည် ၎င်း၏အရင်က Segment Anything Model ၏ စမ်းသပ်ဆက်တင်များကို လိုက်နာပြီး ဥပမာ အပိုင်းခွဲခြင်းအတွက် Vision Transformer Det-H သို့မဟုတ် VitDet-H မူဘောင်၏ အရာဝတ္ထုကို ထောက်လှမ်းခြင်းရလဒ်များကို အသုံးပြုသည်။ အောက်ဖော်ပြပါပုံတွင် သရုပ်ပြထားသည့်အတိုင်း TinySAM မူဘောင်သည် သာဓကခွဲခြားသတ်မှတ်ခြင်းဆိုင်ရာ တိကျမှုနှင့် FLOPs ရမှတ်များ၏ သတ်မှတ်ချက်များတွင် ရှိပြီးသားနည်းလမ်းများကို ပိုမိုကောင်းမွန်စေပါသည်။ 

ထို့အပြင် TinySAM မော်ဒယ်၏ အရည်အသွေးကောင်းမွန်သော စွမ်းဆောင်ရည်ကို အကွက်သတိပေးချက်များကို ကိုယ်စားပြုသည့် အစိမ်းရောင်အကွက်ဖြင့် သုည-ရိုက်ချက် ခွဲခြမ်းခြင်းအတွက် အောက်ပါပုံတွင် သရုပ်ပြထားသည်။ 

သုည-ပစ်မှတ်များ တရားဝင်မျက်နှာဖုံးအကဲဖြတ်ခြင်း၏စည်းကမ်းချက်များအရ၊ TinySAM မော်ဒယ်သည် မတူညီသောဒေတာအတွဲများပေါ်တွင် MobileSAM မူဘောင်ကို သိသိသာသာ စွမ်းဆောင်နိုင်ပြီး မူဘောင်က အချက်အနည်းငယ်ကို ညွှန်ပြသည့်အနေဖြင့် အသုံးပြုသောအခါတွင် သိသိသာသာ ပိုမိုကောင်းမွန်သောရလဒ်များကို ပေးဆောင်ပါသည်။ 

ထို့အပြင်၊ အောက်ဖော်ပြပါဇယားသည် အထက်အောက်အရာအားလုံးမုဒ်ဗျူဟာ၏ ရလဒ်အနေဖြင့် ရရှိလာသော အရှိန်အဟုန်နှင့် တွက်ချက်မှုဆိုင်ရာလိုအပ်ချက်များတွင် ကျဆင်းခြင်း၏ရလဒ်များကို အကျဉ်းချုပ်ဖော်ပြထားသည်။ မော်ဒယ်သည် တူညီသောတည်ငြိမ်မှုရမှတ်နှင့် အတိုင်းအတာတန်ဖိုးကို မျှတသောနှိုင်းယှဉ်မှုတစ်ခုအတွက် မတူညီသောဗျူဟာများဖြင့် အသုံးချပြီး ရလဒ်များကို အောက်တွင် အကျဉ်းချုံးထားသည်။ 

နောက်ဆုံးထင်မြင်ချက်များ

ဤဆောင်းပါးတွင်၊ မည်သည့်လုပ်ငန်းကိုမဆို အပိုင်းခွဲခြင်းအတွက် နယ်နိမိတ်များကို တွန်းအားပေးသည့် အဆိုပြုထားသော မူဘောင်ဖြစ်သော TinySAM အကြောင်း ဆွေးနွေးခဲ့ပြီး မူရင်း SAM မူဘောင်နှင့် တိကျမှုနည်းသော တွက်ချက်မှုလိုအပ်ချက်များနှင့် တိကျမှုနည်းပါးသော ထိရောက်သော မော်ဒယ်ဗိသုကာကို ရယူထားပါသည်။ TinySAM သို့မဟုတ် မူရင်းဘောင်၏ လုံးဝရိုက်ချက်မရှိသော စွမ်းဆောင်ရည်ကို ထိန်းသိမ်းပြီး ပေးဆောင်သည့် သေးငယ်သည့်အပိုင်း မည်သည့်အရာမဆို မော်ဒယ်။ TinySAM မူဘောင်သည် ပေါ့ပါးသော ကျောင်းသားပုံစံကို ပေါင်းထည့်ရန်အတွက် အွန်လိုင်းမှ ပြင်းထန်သော အချက်ပြမှုများကို အသုံးပြုသည့် အဆင့်ပြည့် အသိပညာ ပေါင်းခံနည်းလမ်းကို ဦးစွာ အကောင်အထည် ဖော်ပါသည်။ TinySAM မူဘောင်သည် တွက်ချက်မှုဆိုင်ရာ လိုအပ်ချက်များကို လျှော့ချရာတွင် ပိုမိုအထောက်အကူဖြစ်စေသော ချက်ခြင်း အပိုင်းခွဲခြင်းဆိုင်ရာ လုပ်ငန်းဆောင်တာများဆီသို့ လေ့ကျင့်မှုအပြီး အရေအတွက်ကို လိုက်လျောညီထွေဖြစ်စေသည်။ ထို့အပြင်၊ မူဘောင်သည် စွမ်းဆောင်ရည်ကိုမထိခိုက်စေဘဲ အနုမာနအမြန်နှုန်းကို နှစ်ဆနီးပါးတိုးစေသည့်အရာအားလုံးကို အထက်တန်းကျကျခွဲခြမ်းရန်လည်း ရည်ရွယ်ပါသည်။ 

"အသက်မွေးဝမ်းကြောင်းပြုသော အင်ဂျင်နီယာ၊ နှလုံးသားဖြင့် စာရေးဆရာ"။ Kunal သည် AI နှင့် ML တို့ကို နက်နက်ရှိုင်းရှိုင်း ချစ်မြတ်နိုးပြီး နားလည်မှုရှိသော နည်းပညာစာရေးဆရာတစ်ဦးဖြစ်ပြီး ဤနယ်ပယ်များရှိ ရှုပ်ထွေးသောအယူအဆများကို ရိုးရှင်းလွယ်ကူစေရန် ရည်ရွယ်၍ ၎င်း၏ပါဝင်ပတ်သက်မှုနှင့် သတင်းအချက်အလက်ဆိုင်ရာ စာရွက်စာတမ်းများမှတစ်ဆင့် သိရသည်။