ဉာဏ်ရည်တု

Mini-Gemini- Multi-modality Vision Language Models များ၏ အလားအလာကို တူးဖော်ခြင်း။

Published

2 weeks ago

ဧပြီလ 26, 2024

Mini-Gemini- Multi-modality Vision Language Models များ၏ အလားအလာကို တူးဖော်ခြင်း။

တိုးတက်မှုများ ကြီးမားသောဘာသာစကားမော်ဒယ်များ ဖွံ့ဖြိုးတိုးတက်မှုကို သိသိသာသာ အရှိန်မြှင့်လာခဲ့သည်။ သဘာဝဘာသာစကားအပြောင်းအလဲနဲ့ဒါမှမဟုတ် NLP Transformer မူဘောင်ကို မိတ်ဆက်ခြင်းသည် OPT နှင့် BERT အပါအဝင် ဘာသာစကား မော်ဒယ်လ်အသစ်များ၏ ဖွံ့ဖြိုးတိုးတက်မှုကို ပံ့ပိုးပေးသည့် မှတ်တိုင်တစ်ခုအဖြစ် သက်သေပြခဲ့ပြီး၊ လေးနက်သော ဘာသာစကားနားလည်မှုကို ပြသသည်။ ထို့အပြင်၊ GPT သို့မဟုတ် Generative Pre-trained Transformer မော်ဒယ်များကို စတင်ခြင်းတွင် autoregressive modeling ပါရာဒိုင်းအသစ်ကို မိတ်ဆက်ခဲ့ပြီး ဘာသာစကားခန့်မှန်းခြင်းနှင့် မျိုးဆက်များအတွက် ခိုင်မာသောနည်းလမ်းကို တည်ထောင်ခဲ့သည်။ GPT-4၊ ChatGPT၊ Mixtral၊ LLaMA နှင့် အခြားဘာသာစကားမော်ဒယ်များ ပေါ်ထွန်းလာခြင်းသည် ရှုပ်ထွေးသော ဘာသာစကား စီမံဆောင်ရွက်ပေးခြင်း ပါ၀င်သည့် လုပ်ငန်းများတွင် စွမ်းဆောင်ရည်မြှင့်မားကြောင်း မော်ဒယ်တစ်ခုစီတွင် သရုပ်ပြခြင်းဖြင့် အရှိန်အဟုန်ဖြင့် ဆင့်ကဲပြောင်းလဲမှုကို ပိုမိုဖြစ်ပေါ်စေခဲ့သည်။ ရှိပြီးသားနည်းလမ်းများထဲတွင်၊ သင်ကြားပို့ချမှုကို ချိန်ညှိခြင်းသည် အကြိုလေ့ကျင့်ထားသည့် ကြီးမားသောဘာသာစကားမော်ဒယ်များ၏ အထွက်ကို သန့်စင်ရန်အတွက် အဓိကနည်းပညာတစ်ခုအဖြစ် ပေါ်ထွက်လာပြီး ယင်းမော်ဒယ်များကို အမြင်အာရုံဆိုင်ရာလုပ်ဆောင်စရာများအတွက် သီးခြားကိရိယာများနှင့် ပေါင်းစပ်ခြင်းသည် ၎င်းတို့၏ လိုက်လျောညီထွေရှိမှုနှင့် အနာဂတ်အပလီကေးရှင်းများအတွက် တံခါးဖွင့်ထားသည်ကို မီးမောင်းထိုးပြထားသည်။ ၎င်းတို့သည် ဘက်စုံသုံး အပြန်အလှန်တုံ့ပြန်မှုများပါ၀င်ရန် LLM များ၏ ရိုးရာစာသားအခြေခံလုပ်ဆောင်ခြင်းထက် ကျော်လွန်ပါသည်။

ထို့အပြင်၊ သဘာဝဘာသာစကားဖြင့် လုပ်ဆောင်ခြင်းနှင့် ကွန်ပျူတာအမြင် မော်ဒယ်များ၏ ပေါင်းစည်းမှုသည် ဘာသာစကားနှင့် အမြင်ပုံစံများကို ပေါင်းစပ်ထားသည့် VLMs သို့မဟုတ် Vision Language Models များဆီသို့ တိုးလာစေသည်။ အမြင်နှင့် ဘာသာစကားဆိုင်ရာ မော်ဒယ်များ ပေါင်းစပ်ခြင်းနှင့် ထွန်းကားလာခြင်းတို့သည် ဘာသာစကား လုပ်ဆောင်ခြင်းနှင့် အမြင်ပိုင်း နားလည်မှု နှစ်မျိုးလုံး လိုအပ်သည့် လုပ်ငန်းများကို မြှင့်တင်ရာတွင် အရေးပါသော အခန်းကဏ္ဍမှ ပါဝင်ခဲ့သည်။ CLIP ကဲ့သို့သော တော်လှန်ရေးပုံစံများ ပေါ်ထွန်းလာခြင်းသည် အမြင်အလုပ်များနှင့် ဘာသာစကားမော်ဒယ်များကြား ကွာဟချက်ကို ပိုမိုတံတားထိုးစေပြီး၊ မော်ဒန်အပလီကေးရှင်းများ၏ ဖြစ်နိုင်ခြေနှင့် လက်တွေ့ကျမှုကို သရုပ်ပြသည်။ LLaMA နှင့် BLIP ကဲ့သို့သော မကြာသေးမီက မူဘောင်များသည် မော်ဒယ်၏ အစွမ်းထက်သော စွမ်းဆောင်ရည်များကို ပြသသည့် ထိရောက်သော မဟာဗျူဟာများကို ရေးဆွဲရန်အတွက် အံဝင်ခွင်ကျဖြစ်သော ညွှန်ကြားချက်ဒေတာကို အသုံးချပါသည်။ ထို့အပြင်၊ ရုပ်ပုံအထွက်များနှင့် ကြီးမားသောဘာသာစကားမော်ဒယ်များကို ပေါင်းစပ်ခြင်းသည် မကြာသေးမီက ဘက်စုံသုတေသန၏ အာရုံစိုက်မှုဖြစ်ပြီး၊ မကြာသေးမီက နည်းလမ်းများဖြင့် တိုက်ရိုက်မျိုးဆက်ကို ဖြတ်ကျော်နိုင်ခြင်းဖြင့် ရုပ်ပုံအထွက်များနှင့် ပေါင်းစပ်စာသားများကို ထုတ်လုပ်ရန် ဓါတ်ပုံပြန်လည်ရယူခြင်းနည်းလမ်းကို အသုံးပြုခြင်းဖြင့် တိုက်ရိုက်မျိုးဆက်ကို ကျော်ဖြတ်နိုင်မည်ဖြစ်သည်။

ထိုသို့ပြောဆိုခြင်းဖြင့် အခြေခံကျိုးကြောင်းဆင်ခြင်မှုနှင့် အမြင်ဆိုင်ရာ ဆွေးနွေးမှုများကို ပံ့ပိုးပေးသည့် ရူပါရုံဘာသာစကားမော်ဒယ်များတွင် လျင်မြန်စွာ တိုးတက်လာသော်လည်း၊ GPT-4 ကဲ့သို့သော အဆင့်မြင့်မော်ဒယ်များနှင့် အမြင်ဘာသာစကားမော်ဒယ်များကြားတွင် သိသာထင်ရှားသော စွမ်းဆောင်ရည်ကွာဟချက် ရှိနေသေးသည်။ Mini-Gemini သည် အမြင်ဘာသာစကားမော်ဒယ်များနှင့် ပိုမိုအဆင့်မြင့်သော မော်ဒယ်များကြားရှိ ကွာဟချက်ကို ကျဉ်းမြောင်းစေရန် ကြိုးပမ်းမှုတစ်ခုဖြစ်သည်- VLM လမ်းညွှန်မျိုးဆက်၊ အရည်အသွေးမြင့် ဒေတာနှင့် ကြည်လင်ပြတ်သားမှုမြင့်မားသော ရုပ်ပုံဆိုင်ရာ တိုကင်များကို ကဏ္ဍသုံးရပ်မှ ပိုမိုကောင်းမွန်သောစွမ်းဆောင်ရည်အတွက် VLM များ၏ အလားအလာကို တူးဖော်ခြင်းဖြင့် ကျဉ်းမြောင်းသွားစေရန် ကြိုးပမ်းမှုတစ်ခုဖြစ်သည်။ ရုပ်ပုံဆိုင်ရာ တိုကင်များကို မြှင့်တင်ရန်အတွက်၊ Mini-Gemini framework သည် ရုပ်ထွက်တိုကင်များကို အရေအတွက်မတိုးဘဲ ကြည်လင်ပြတ်သားစွာ သန့်စင်ရန်အတွက် နောက်ထပ် အမြင်အာရုံ ကုဒ်ဒါတစ်ခုကို အသုံးပြုရန် အဆိုပြုပါသည်။ Mini-Gemini framework သည် ရုပ်ပုံများ၏ တိကျသော နားလည်နိုင်စွမ်းနှင့် ကျိုးကြောင်းဆင်ခြင်မှုအခြေခံသော မျိုးဆက်တို့ကို မြှင့်တင်ရန် ကြိုးပမ်းမှုတွင် အရည်အသွေးမြင့် ဒေတာအတွဲကို ထပ်မံတည်ဆောက်သည်။ ယေဘုယျအားဖြင့်၊ Mini-Gemini framework သည် အမြင်ဘာသာစကားမော်ဒယ်များ၏ အလားအလာကို တူးဖော်ရန် ကြိုးပမ်းနေပြီး၊ ရုပ်ပုံဆင်ခြင်ခြင်း၊ နားလည်မှုနှင့် မျိုးဆက်ပွားစွမ်းရည်များ တစ်ပြိုင်နက်တည်း ရှိပြီးသားဘောင်များကို အားကောင်းစေရန် ရည်ရွယ်ပါသည်။ ဤဆောင်းပါးသည် Mini-Gemini မူဘောင်ကို နက်ရှိုင်းစွာ ခြုံငုံမိစေရန် ရည်ရွယ်ပြီး ယန္တရား၊ နည်းစနစ်၊ မူဘောင်၏ ဗိသုကာလက်ရာကို အနုပညာမူဘောင်များနှင့် နှိုင်းယှဉ်ချက်နှင့်အတူ ၎င်းကို စူးစမ်းလေ့လာပါသည်။ ဒါဆို စလိုက်ရအောင်။

Mini-Gemini- Multi-Modality VLM များကို အရှိန်မြှင့်ခြင်း။

နှစ်များတစ်လျှောက်၊ ကြီးမားသောဘာသာစကားပုံစံများသည် ပြောင်းလဲလာခဲ့ပြီး ယခုအခါ ၎င်းတို့သည် ထူးထူးခြားခြား ဘက်စုံသုံးစွမ်းရည်များကို ကြွားလုံးထုတ်လာကြပြီး လက်ရှိအမြင်အာရုံဘာသာစကားမော်ဒယ်များ၏ မရှိမဖြစ်အစိတ်အပိုင်းတစ်ခုဖြစ်လာသည်။ သို့သော်၊ ရုပ်ပုံများနှင့် ဗီဒီယိုများကို အသုံးပြု၍ ကြီးမားသောဘာသာစကားမော်ဒယ်များနှင့် ရူပါရုံကို ရုပ်ပုံများနှင့် ဗီဒီယိုများအသုံးပြု၍ ကြီးမားသောဘာသာစကားမော်ဒယ်များနှင့် ပေါင်းစပ်ရန်နည်းလမ်းများကို ရှာဖွေနေသည့် မကြာသေးမီက သုတေသနပြုခြင်းဖြင့် ကြီးမားသောဘာသာစကားမော်ဒယ်များ၏ ဘက်စုံစွမ်းဆောင်ရည်နှင့် အမြင်ဘာသာစကားမော်ဒယ်များအကြား ကွာဟချက်တစ်ခုရှိသည်။ အမြင်အာရုံဆိုင်ရာလုပ်ဆောင်မှုများကိုယ်တိုင်အတွက်၊ ရုပ်ပုံကြည်လင်ပြတ်သားမှုသည် ပတ်ဝန်းကျင်ပတ်ဝန်းကျင်တွင် အနည်းငယ်မျှသာ အမြင်အာရုံယောင်မှားမှုများရှိနေသော်လည်း ပြတ်သားစွာလုပ်ဆောင်ရန် အရေးကြီးသောဒြပ်စင်ဖြစ်သည်။ ကွာဟချက်ကို ပေါင်းကူးရန်၊ သုတေသီများသည် လက်ရှိတွင် အမြင်အာရုံနားလည်မှုကို တိုးတက်စေရန် သုတေသီများ တီထွင်ဖန်တီးနေကြသည်။ အမြင်ဘာသာစကားမော်ဒယ်များနှင့် အဖြစ်အများဆုံး ချဉ်းကပ်နည်း နှစ်ခုမှာ- ကြည်လင်ပြတ်သားမှုကို တိုးမြှင့်ခြင်းနှင့် အမြင်အာရုံဆိုင်ရာ တိုကင်အရေအတွက် တိုးလာခြင်း။ ပိုမြင့်သော ရုပ်ပုံများပါသည့် ရုပ်ထွက်တိုကင်နံပါတ်များကို တိုးမြှင့်ခြင်းသည် အမြင်အာရုံကို ပိုမိုကောင်းမွန်စေသော်လည်း၊ မြှင့်တင်မှုသည် များပြားသော တွက်ချက်မှုဆိုင်ရာ လိုအပ်ချက်များနှင့် အထူးသဖြင့် ပုံများစွာကို လုပ်ဆောင်သည့်အခါ ဆက်စပ်ကုန်ကျစရိတ်များနှင့်အတူ လိုက်ပါသွားလေ့ရှိသည်။ ထို့အပြင် လက်ရှိ မော်ဒယ်များ၏ စွမ်းဆောင်ရည်များ၊ ရှိပြီးသား အချက်အလက်များ၏ အရည်အသွေးနှင့် အသုံးချနိုင်မှုသည် အရှိန်မြှင့်သည့် ဖွံ့ဖြိုးတိုးတက်မှု လုပ်ငန်းစဉ်အတွက် မလုံလောက်သေးသဖြင့် သုတေသီများကို မေးခွန်းထုတ်စရာ ဖြစ်ခဲ့သည်၊လက်ခံနိုင်သောကုန်ကျစရိတ်များဖြင့် အမြင်အာရုံဘာသာစကားမော်ဒယ်များ ဖွံ့ဖြိုးတိုးတက်ရေးကို မည်သို့အရှိန်မြှင့်မည်နည်း။"?

Mini-Gemini framework သည် VLM-guided generation သို့မဟုတ် တိုးချဲ့ထားသော application များ၊ အရည်အသွေးမြင့် data နှင့် high-resolution visual tokens သုံးခုမှ vision language model များ၏ အလားအလာကို စူးစမ်းရန် ကြိုးပမ်းသောကြောင့် မေးခွန်းကိုဖြေဆိုရန် ကြိုးပမ်းမှုတစ်ခုဖြစ်သည်။ ပထမဦးစွာ၊ Mini-Gemini framework သည် ကြီးမားသောဘာသာစကားမော်ဒယ်အတွက် အမြင်အာရုံဆိုင်ရာ တိုကင်အရေအတွက်များကို ထိန်းသိမ်းထားစဉ်တွင် ပိုမိုမြင့်မားသော ရုပ်ထွက်ကိုယ်စားလှယ်လောင်းများကို ထိရောက်စွာထုတ်လုပ်ရန်၊ ရုပ်ပုံပိုင်းဆိုင်ရာအသေးစိတ်အချက်အလက်များကို မြှင့်တင်ရန်အတွက် ConvNet ဗိသုကာကို အကောင်အထည်ဖော်ဆောင်ရွက်ပါသည်။ Mini-Gemini framework သည် ဒေတာအရည်အသွေးကို မြှင့်တင်ရန် ကြိုးပမ်းမှုတွင် လူသိရှင်ကြားရရှိနိုင်သည့် အရည်အသွေးမြင့် ဒေတာအတွဲများကို ပေါင်းစပ်ကာ VLMs များ၏ စွမ်းဆောင်ရည်ကို မြှင့်တင်ရန်နှင့် မြှင့်တင်ရန် ကြိုးပမ်းမှုဖြင့် အဆိုပါ အဆင့်မြှင့်တင်မှုများကို အနုပညာ၏ မျိုးဆက်သစ်နှင့် ကြီးမားသော ဘာသာစကားပုံစံများနှင့် ပေါင်းစပ်ထားသည်။ အသုံးပြုသူအတွေ့အကြုံ။ Mini-Gemini framework မှ အကောင်အထည်ဖော်သော ဘက်စုံသုံးမဟာဗျူဟာသည် ၎င်းအား အမြင်ဘာသာစကားမော်ဒယ်များ၏ လျှို့ဝှက်လုပ်ဆောင်နိုင်စွမ်းများကို ရှာဖွေနိုင်စေပြီး ထင်ရှားသောအရင်းအမြစ်ကန့်သတ်ချက်များနှင့်အတူ သိသာထင်ရှားသောတိုးတက်မှုများကိုရရှိစေပါသည်။

ယေဘူယျအားဖြင့်၊ Mini-Gemini framework သည် စာသားနှင့် ပုံများကို input နှင့် output အဖြစ် ကိုင်တွယ်နိုင်စွမ်းရှိသောကြောင့် မည်သည့် paradigm တွင်မဆို အသုံးပြုထားသည်။ အထူးသဖြင့်၊ Mini-Gemini framework သည် input ပုံများအတွက် အမြင်အာရုံဆိုင်ရာ တိုကင်များကို မြှင့်တင်ရန်အတွက် ထိရောက်သော ပိုက်လိုင်းကို မိတ်ဆက်ပေးထားပြီး၊ twin encoders များပါ၀င်သည့် dual-encoder စနစ်ပါရှိသည်- ပထမကုဒ်ဒါသည် ကြည်လင်ပြတ်သားသော ရုပ်ပုံများအတွက်ဖြစ်ပြီး ဒုတိယကုဒ်ဒါသည် နိမ့်သောအတွက်ဖြစ်သည်။ အရည်အသွေးအမြင်အာရုံမြှပ်နှံမှု။ ကောက်ချက်ချစဉ်အတွင်း၊ ကုဒ်ပြောင်းကိရိယာများသည် ကြည်လင်ပြတ်သားမှုနည်းသော ကုဒ်ကုဒ်ဒါမှ အမြင်ဆိုင်ရာ မေးမြန်းချက်များကို ထုတ်ပေးသည့် အာရုံစူးစိုက်မှု ယန္တရားတစ်ခုတွင် အလုပ်လုပ်ကြပြီး ကြည်လင်ပြတ်သားမှုမြင့်မားသောကုဒ်ဒါသည် ကိုးကားရန်အတွက် သော့နှင့်တန်ဖိုးများကို ပေးဆောင်သည်။ ဒေတာအရည်အသွေးကို မြှင့်တင်ရန်အတွက်၊ Mini-Gemini framework သည် လုပ်ငန်းဆောင်တာများကို ဦးတည်သည့် ညွှန်ကြားချက်များ၊ မျိုးဆက်ဆိုင်ရာ ဒေတာနှင့် အရည်အသွေးမြင့် တုံ့ပြန်မှုများ အပါအဝင် အများသူငှာ အရင်းအမြစ်များအပေါ် အခြေခံ၍ ဒေတာများကို စုဆောင်းကာ ပိုမိုထုတ်လုပ်ပေးပါသည်။ မော်ဒယ်၏စွမ်းရည်များ။ ထို့အပြင်၊ Mini-Gemini framework သည် အဆင့်မြင့်မျိုးဆက်သစ်မော်ဒယ်များနှင့် Vision language model ၏ပေါင်းစပ်မှုကြောင့် တစ်ပြိုင်နက်တည်း စာသားနှင့် ရုပ်ပုံထုတ်လုပ်ခြင်းကို ပံ့ပိုးပေးပါသည်။

မီနီ-မေထုန်- နည်းစနစ်နှင့် ဗိသုကာပညာ

၎င်း၏အဓိကတွင်၊ Mini-Gemini framework သည် သဘောတရားအရရိုးရှင်းပြီး အစိတ်အပိုင်းသုံးခုပါဝင်သည်။

မူဘောင်သည် ကြည်လင်ပြတ်သားမှုနည်းသော အမြင်အာရုံမြှပ်နှံမှုများနှင့် ကြည်လင်ပြတ်သားမှုမြင့်မားသော ကိုယ်စားလှယ်လောင်းများကို ပံ့ပိုးပေးရန်အတွက် dual vision encoders များကို အသုံးပြုထားသည်။
ကြည်လင်ပြတ်သားမှုနည်းသော အမြင်ဆိုင်ရာမေးမြန်းချက်များနှင့် ကြည်လင်ပြတ်သားမှုမြင့်မားသောဒေသများကြားတွင် patch အဆင့်တွင် တူးဖော်မှုပြုလုပ်ရန် patch info mining ကို အကောင်အထည်ဖော်ရန် မူဘောင်က အဆိုပြုထားသည်။
Mini-Gemini framework သည် မျိုးဆက်နှင့် နားလည်မှု နှစ်ခုစလုံးအတွက် တစ်ပြိုင်နက် ရုပ်ပုံများနှင့် စာသားများကို လက်ထပ်ရန် ကြီးမားသော ဘာသာစကားပုံစံကို အသုံးပြုသည်။

Dual-Vision ကုဒ်နံပါတ်များ

Mini-Gemini framework သည် ၎င်းတို့ကို တစ်ဦးချင်း သို့မဟုတ် ပေါင်းစပ်မှုတွင် ကိုင်တွယ်ရန် ရွေးချယ်မှုဖြင့် စာသားနှင့် ရုပ်ပုံထည့်သွင်းမှုများကို လုပ်ဆောင်နိုင်သည်။ အောက်ဖော်ပြပါပုံတွင် သရုပ်ပြထားသည့်အတိုင်း၊ Mini-Gemini framework သည် ၎င်း၏သက်ဆိုင်ရာ resolution မြင့်မားသောရုပ်ပုံမှ ပုံရိပ်ပြတ်သားမှုနည်းပါးသောပုံတစ်ပုံကို ဖန်တီးရန်အတွက် bilinear interpolation ကိုအသုံးပြုခြင်းဖြင့် လုပ်ငန်းစဉ်ကိုစတင်သည်။

ထို့နောက် framework သည် ဤပုံများကို လုပ်ဆောင်ပြီး ၎င်းတို့ကို အပြိုင်ပုံစီးဆင်းမှုနှစ်ခုတွင် ထည့်သွင်းထားသော multi-grid အမြင်အာရုံအဖြစ်သို့ ကုဒ်လုပ်သည်။ အထူးသဖြင့်၊ Mini-Gemini framework သည် ပုံရိပ်ပြတ်သားမှုနည်းသောစီးဆင်းမှုများအတွက် ရိုးရာပိုက်လိုင်းကို ထိန်းသိမ်းထားပြီး အမြင်အာရုံမြှပ်နှံမှုများကို encode လုပ်ရန် CLIP-pretrained Visual Transformer ကို အသုံးပြုထားပြီး၊ မော်ဒယ်သည် နောက်ဆက်တွဲအပြန်အလှန်တုံ့ပြန်မှုများအတွက် အမြင်ဆိုင်ရာပြင်ဆင်မှုများအကြား တာဝေးကွာသောဆက်နွှယ်မှုကို ထိန်းသိမ်းထားရန် ကူညီပေးသည်။ မော်ဒယ်များ။ မြင့်မားသော resolution စီးဆင်းမှုများအတွက်၊ Mini-Gemini framework သည် လိုက်လျောညီထွေရှိပြီး ထိရောက်သော မြင့်မားသော resolution ရုပ်ပုံလုပ်ဆောင်မှုအတွက် CNN သို့မဟုတ် Convolution Neural Networks အခြေပြု ကုဒ်ဒါကို လက်ခံပါသည်။

Patch Info Mining

dual vision encoders များသည် LR embeddings နှင့် HR အင်္ဂါရပ်များကိုထုတ်ပေးခြင်းဖြင့် Mini-Gemini framework သည် patch info mining ကိုအကောင်အထည်ဖော်ရန် အဆိုပြုသည် ကြီးမားသောဘာသာစကားမော်ဒယ်များတွင် ထိရောက်မှုရှိစေရန် အမြင်အာရုံဆိုင်ရာ တိုကင်အရေအတွက်ကို ထိန်းသိမ်းထားရန်အတွက် Mini-Gemini framework သည် query အဖြစ် ကြည်လင်ပြတ်သားမှုနည်းသော အမြင်အာရုံများကို မြှပ်နှံထားပြီး HR လုပ်ဆောင်ချက် ကိုယ်စားလှယ်လောင်းများထံမှ သက်ဆိုင်ရာ အမြင်အာရုံများကို ပြန်လည်ရယူရန် ရည်ရွယ်ပါသည်။ HR အင်္ဂါရပ်မြေပုံသည် သော့နှင့်တန်ဖိုးအဖြစ်။

အထက်ဖော်ပြပါပုံတွင် သရုပ်ပြထားသည့်အတိုင်း၊ ဖော်မြူလာသည် အမြင်အာရုံကို သန့်စင်ခြင်းနှင့် ပေါင်းစပ်ခြင်းလုပ်ငန်းစဉ်ကို ဖုံးအုပ်ထားပြီး၊ ၎င်းသည် နောက်ဆက်တွဲကြီးမားသော ဘာသာစကားပုံစံလုပ်ဆောင်ခြင်းအတွက် အဆင့်မြင့်အမြင်အာရုံတိုကင်များ မျိုးဆက်ကို ဦးတည်စေသည်။ လုပ်ငန်းစဉ်သည် HR အင်္ဂါရပ်မြေပုံရှိ သက်ဆိုင်ရာနယ်ပယ်ခွဲများသို့ မေးမြန်းမှုတစ်ခုစီအတွက် သတ္တုတူးဖော်ခြင်းအား pixel-wise လုပ်ဆောင်ချက်အရေအတွက်ဖြင့် ကန့်သတ်ထားနိုင်ပြီး စွမ်းဆောင်ရည်ကို မြှင့်တင်ပေးနိုင်ကြောင်း လုပ်ငန်းစဉ်က သေချာစေသည်။ ဤဒီဇိုင်းကြောင့် Mini-Gemini framework သည် အမြင်အာရုံဆိုင်ရာ တိုကင်များရေတွက်မှုကို တိုးမြှင့်ခြင်းမရှိဘဲ HR အင်္ဂါရပ်အသေးစိတ်အချက်အလက်များကို ထုတ်ယူနိုင်ပြီး တွက်ချက်နိုင်ခြေနှင့် အသေးစိတ်ကြွယ်ဝမှုကြား ချိန်ခွင်လျှာကို ထိန်းသိမ်းထားသည်။

စာသားနှင့်ရုပ်ပုံမျိုးဆက်

Mini-Gemini framework သည် auto-regressive generation အတွက် ကြီးမားသော language model များသို့ input အဖြစ် ရုပ်ပုံတိုကင်များကို ပေါင်းစပ်ပြီး စာသားတိုကင်များကို ပေါင်းထည့်သည်။ သမားရိုးကျအမြင်ဘာသာစကားမော်ဒယ်များနှင့်မတူဘဲ Mini-Gemini framework သည် စာသားတစ်ခုတည်းသာမက စာသား-ပုံသဏ္ဍာန်ကို ထည့်သွင်းခြင်းနှင့် အထွက်အဖြစ် ပံ့ပိုးပေးသည်၊ ဆိုလိုသည်မှာ မည်သည့်အနုမာနနှင့်မဆို ဤထူးခြားသော ရုပ်ပုံ-စာသားနားလည်မှုနှင့် ကျိုးကြောင်းဆင်ခြင်နိုင်စွမ်းများ၏ ရလဒ်ဖြစ်သည်။ Mini-Gemini သည် အရည်အသွေးမြင့် ရုပ်ပုံများကို ဖန်တီးနိုင်သည်။ မျိုးဆက်မော်ဒယ်များနှင့် ကြီးမားသောဘာသာစကားမော်ဒယ်များ၏ စာသားထည့်သွင်းမှုများကြားရှိ ဒိုမိန်းကွာဟမှုကို အာရုံစိုက်သည့် မကြာသေးမီက အလုပ်များနှင့်မတူဘဲ၊ Mini-Gemini framework သည် အသုံးပြုသူညွှန်ကြားချက်များကို ဆက်စပ်ပုံများထုတ်လုပ်ပေးသည့် အရည်အသွေးမြင့်သောပြချက်များအဖြစ် ဘာသာပြန်ခြင်းဖြင့်၊ Mini-Gemini framework သည် အသုံးပြုသူညွှန်ကြားချက်များကို ဆက်စပ်ပုံများထုတ်လုပ်ပေးသည့် domain အတွင်းရှိ ကွာဟချက်ကို အကောင်းဆုံးဖြစ်အောင်ကြိုးစားသည်။ latent diffusion မော်ဒယ်များတွင်။ ထို့အပြင်၊ ညွှန်ကြားချက်ကို ချိန်ညှိခြင်းနှင့် ဖြတ်ပိုင်းပုံစံ ချိန်ညှိခြင်းတို့ကို ပိုမိုကောင်းမွန်စွာ နားလည်နိုင်စေရန်၊ Mini-Gemini framework သည် အများသူငှာရရှိနိုင်သော အရည်အသွေးမြင့် ဒေတာအတွဲများမှ နမူနာများကို စုဆောင်းကာ ရုပ်ပုံထုတ်လုပ်ခြင်းကို ပံ့ပိုးရန်အတွက် 4K ညွှန်ကြားချက်ကို ထပ်မံတည်ဆောက်ရန်အတွက် GPT-13 turbo framework ကို အသုံးပြုပါသည်။

Mini-Gemini- စမ်းသပ်မှုများနှင့် ရလဒ်များ

၎င်း၏စွမ်းဆောင်ရည်ကိုအကဲဖြတ်ရန်၊ Mini-Gemini မူဘောင်ကို HR Vision encoder အတွက်ကြိုတင်လေ့ကျင့်ထားသော ConvNext-L မူဘောင်ဖြင့် ချက်ခြင်းလုပ်ဆောင်ပြီး CLIP-ကြိုတင်လေ့ကျင့်ထားသော Vision Transformer LR vision encoder အတွက်။ လေ့ကျင့်ရေးထိရောက်မှုသေချာစေရန်၊ Mini-Gemini framework သည် vision encoders နှစ်ခုကို ဆက်လက်ထိန်းသိမ်းထားပြီး အဆင့်အားလုံးတွင် patch info mining ၏ ပရိုဂျက်တာများကို ပိုကောင်းအောင်ပြုလုပ်ပေးကာ သင်ကြားပို့ချချိန်ညှိသည့်အဆင့်အတွင်း ဘာသာစကားပုံစံကို အကောင်းဆုံးဖြစ်အောင် ပြုလုပ်ပေးပါသည်။

အောက်ဖော်ပြပါဇယားသည် မတူညီသောဆက်တင်များတစ်လျှောက် အနုပညာမော်ဒယ်များနှင့် Mini-Gemini မူဘောင်၏စွမ်းဆောင်ရည်ကို နှိုင်းယှဉ်ပြီး သီးသန့်မော်ဒယ်များကို ထည့်သွင်းစဉ်းစားပါသည်။ ၎င်းကို သတိပြုနိုင်သကဲ့သို့၊ Mini-Gemini သည် LLM များ၏ ကျယ်ပြန့်သောအကွာအဝေးတစ်လျှောက်ရှိ ရှိပြီးသားဘောင်များကို သာမာန်ကြည်လင်ပြတ်သားမှုတွင် အဆက်မပြတ်လုပ်ဆောင်ပြီး ထိရောက်သောမော်ဒယ်များအမျိုးအစားတွင် Gemma-2B ဖြင့် configure လုပ်သောအခါ သာလွန်ကောင်းမွန်သောစွမ်းဆောင်ရည်ကိုပြသသည်။ ထို့အပြင်၊ ပိုကြီးသောဘာသာစကားမော်ဒယ်များကိုအသုံးပြုသောအခါ၊ Mini-Gemini framework ၏အတိုင်းအတာသည်ထင်ရှားသည်။

မြင့်မားသော ရုပ်ထွက်နှင့် ချဲ့ထွင်ထားသော အမြင်ဆိုင်ရာ တိုကင်များတွင် ၎င်း၏ စွမ်းဆောင်ရည်ကို အကဲဖြတ်ရန်၊ စမ်းသပ်မှုများကို LR vision encoder အတွက် 672 နှင့် visual encoder အတွက် 1536 input size ဖြင့် လုပ်ဆောင်ပါသည်။ အစောပိုင်းတွင်ဖော်ပြခဲ့သည့်အတိုင်း HR visual encoder ၏အဓိကရည်ရွယ်ချက်မှာ resolution မြင့်မားသောကိုယ်စားလှယ်လောင်းအချက်အလက်များကိုပေးဆောင်ရန်ဖြစ်သည်။ သတိပြုနိုင်သကဲ့သို့၊ Mini-Gemini မူဘောင်သည် အနုပညာမူဘောင်များနှင့် နှိုင်းယှဉ်ပါက သာလွန်ကောင်းမွန်သော စွမ်းဆောင်ရည်ကို ပေးစွမ်းသည်။

ထို့အပြင်၊ လက်တွေ့ကမ္ဘာဆက်တင်များတွင် Mini-Gemini framework ၏ အမြင်အာရုံစွမ်းရည်ကို အကဲဖြတ်ရန် developer များသည် မော်ဒယ်ကို အောက်ပါပုံတွင်ပြထားသည့်အတိုင်း ကျိုးကြောင်းဆင်ခြင်မှုနှင့် နားလည်မှုဆိုင်ရာ လုပ်ငန်းဆောင်တာများစွာတွင် အသုံးပြုပါသည်။ ၎င်းကို လေ့လာတွေ့ရှိနိုင်သကဲ့သို့၊ Mini-Gemini framework သည် patch info mining နှင့် အရည်အသွေးမြင့် data တို့ကို အကောင်အထည်ဖော်ပေးသောကြောင့် ကျယ်ပြန့်သောရှုပ်ထွေးသောလုပ်ငန်းဆောင်တာများကို ဖြေရှင်းပေးနိုင်ပါသည်။ သို့သော် ပို၍အထင်ကြီးစရာမှာ Mini-Gemini framework သည် အသိအမှတ်ပြုမှုစွမ်းရည်ထက် ကျော်လွန်ပြီး ရှုပ်ထွေးသောဒြပ်စင်များကို တိတိပပဖော်ပြသည့် အသေးစိတ်အချက်များအပေါ် စိတ်အားထက်သန်စွာ ပေါင်းထည့်ထားသည့် အချက်ဖြစ်သည်။

အောက်ဖော်ပြပါပုံသည် Mini-Gemini framework ၏ မျိုးဆက်ပွားစွမ်းရည်များကို ကျယ်ကျယ်ပြန့်ပြန့် အကဲဖြတ်ပေးပါသည်။

ChatIllusion နှင့် AnyGPT ကဲ့သို့သော မကြာသေးမီက မော်ဒယ်များနှင့် နှိုင်းယှဉ်ကြည့်သောအခါ၊ Mini-Gemini framework သည် ပိုမိုအားကောင်းသည့် multi-modal နားလည်မှုစွမ်းရည်ကို ထုတ်လုပ်နိုင်သည်၊ ပုံသို့ စာသား ထည့်သွင်းမှု ညွှန်ကြားချက်များနှင့် ကိုက်ညီသော စာတန်းများကို ပိုကောင်းစေပြီး ရုပ်ပုံမှ စာသားအဖြေများကို ပိုမိုခိုင်မာသော သဘောတရားဆိုင်ရာ ဆင်တူယိုးမှားဖြစ်စေသည်။ ပို၍အထင်ကြီးစရာကောင်းသည်မှာ Mini-Gemini framework သည် စာသားလေ့ကျင့်မှုဒေတာဖြင့်သာ မော်ဒယ်လ်လူသားလမ်းညွှန်ချက်များဖြင့် အရည်အသွေးမြင့်အကြောင်းအရာများထုတ်လုပ်ရာတွင် ထူးထူးခြားခြားအရည်အသွေးမြင့်အကြောင်းအရာများကို ဖန်တီးရာတွင် ထူးထူးခြားခြား အရည်အချင်းရှိကြောင်း ပြသသည့်အချက်မှာ၊ Mini-Gemini ၏ ခိုင်မာသော semantic အနက်ပြန်ဆိုမှုနှင့် ရုပ်ပုံ-စာသား ချိန်ညှိမှုစွမ်းရည်တို့ကို ပြသသည့်စွမ်းရည်ဖြစ်သည်။

နောက်ဆုံးထင်မြင်ချက်များ

ဤဆောင်းပါးတွင် Multi-Modality Vision ဘာသာစကားမော်ဒယ်များအတွက် အစွမ်းထက်ပြီး လိုက်လျောညီထွေရှိသော မူဘောင်တစ်ခုဖြစ်သည့် Mini-Gemini အကြောင်း ဆွေးနွေးထားပါသည်။ Mini-Gemini framework ၏ အဓိကရည်ရွယ်ချက်မှာ အရည်အသွေးမြင့်ဒေတာ၊ မူဘောင်၏ ဗျူဟာဒီဇိုင်းနှင့် တိုးချဲ့လုပ်ဆောင်နိုင်သော နယ်ပယ်ကို အသုံးပြု၍ အမြင်ဘာသာစကားမော်ဒယ်များ၏ ငုပ်လျှိုးနေသော စွမ်းရည်များကို အသုံးချရန်ဖြစ်သည်။ Mini-Gemini သည် အမြင်ဘာသာစကားမော်ဒယ်များနှင့် ပိုမိုအဆင့်မြင့်သော မော်ဒယ်များကြားရှိ ကွာဟချက်ကို ကျဉ်းမြောင်းစေရန် ကြိုးပမ်းမှုတစ်ခုဖြစ်သည်- VLM လမ်းညွှန်မျိုးဆက်၊ အရည်အသွေးမြင့် ဒေတာနှင့် ကြည်လင်ပြတ်သားမှုမြင့်မားသော ရုပ်ပုံဆိုင်ရာ တိုကင်များကို ကဏ္ဍသုံးရပ်မှ ပိုမိုကောင်းမွန်သောစွမ်းဆောင်ရည်အတွက် VLM များ၏ အလားအလာကို တူးဖော်ခြင်းဖြင့် ကျဉ်းမြောင်းသွားစေရန် ကြိုးပမ်းမှုတစ်ခုဖြစ်သည်။ ရုပ်ပုံဆိုင်ရာ တိုကင်များကို မြှင့်တင်ရန်အတွက်၊ Mini-Gemini framework သည် ရုပ်ထွက်တိုကင်များကို အရေအတွက်မတိုးဘဲ ကြည်လင်ပြတ်သားစွာ သန့်စင်ရန်အတွက် နောက်ထပ် အမြင်အာရုံ ကုဒ်ဒါတစ်ခုကို အသုံးပြုရန် အဆိုပြုပါသည်။ Mini-Gemini framework သည် ရုပ်ပုံများ၏ တိကျသော နားလည်နိုင်စွမ်းနှင့် ကျိုးကြောင်းဆင်ခြင်မှုအခြေခံသော မျိုးဆက်တို့ကို မြှင့်တင်ရန် ကြိုးပမ်းမှုတွင် အရည်အသွေးမြင့် ဒေတာအတွဲကို ထပ်မံတည်ဆောက်သည်။ ယေဘုယျအားဖြင့်၊ Mini-Gemini framework သည် အမြင်ဘာသာစကားမော်ဒယ်များ၏ အလားအလာကို တူးဖော်ရန် ကြိုးပမ်းနေပြီး၊ ရုပ်ပုံဆင်ခြင်ခြင်း၊ နားလည်မှုနှင့် မျိုးဆက်ပွားစွမ်းရည်များ တစ်ပြိုင်နက်တည်း ရှိပြီးသားဘောင်များကို အားကောင်းစေရန် ရည်ရွယ်ပါသည်။

Next ကို up ကို

ကုဒ်ဒါကိုအခြေခံထားသော ကြီးမားသောဘာသာစကားမော်ဒယ်များ- ပြီးပြည့်စုံသောလမ်းညွှန်

သတိရနေတယ်မနေပါနဲ့

Snowflake Arctic- Enterprise AI အတွက် Cutting-Edge LLM

Kunal Kejriwal

"အသက်မွေးဝမ်းကြောင်းပြုသော အင်ဂျင်နီယာ၊ နှလုံးသားဖြင့် စာရေးဆရာ"။ Kunal သည် AI နှင့် ML တို့ကို နက်နက်ရှိုင်းရှိုင်း ချစ်မြတ်နိုးပြီး နားလည်မှုရှိသော နည်းပညာစာရေးဆရာတစ်ဦးဖြစ်ပြီး ဤနယ်ပယ်များရှိ ရှုပ်ထွေးသောအယူအဆများကို ရိုးရှင်းလွယ်ကူစေရန် ရည်ရွယ်၍ ၎င်း၏ပါဝင်ပတ်သက်မှုနှင့် သတင်းအချက်အလက်ဆိုင်ရာ စာရွက်စာတမ်းများမှတစ်ဆင့် သိရသည်။