ဉာဏ်ရည်တု

မိုဘိုင်း-အေးဂျင့်များ- အမြင်အာရုံဖြင့် ကိုယ်ပိုင်အုပ်ချုပ်ခွင့်ရ Multi-modal မိုဘိုင်းကိရိယာ အေးဂျင့်

Published

2 months ago

ဖေဖေါ်ဝါရီလ 26, 2024

Multimodal Large Language Models (MLLM) ပေါ်ထွန်းလာမှုသည် စာသား၊ ရုပ်ပုံများနှင့် အသံများမှတစ်ဆင့် ကမ္ဘာကြီးနှင့် နားလည်သဘောပေါက်နိုင်ပြီး အပြန်အလှန်ဆက်သွယ်နိုင်သည့် မိုဘိုင်းကိရိယာအေးဂျင့်များ၏ ခေတ်သစ်ကို ရောက်ရှိလာပါသည်။ ဤအေးဂျင့်များသည် သမားရိုးကျ AI ထက် သိသာထင်ရှားသော တိုးတက်မှုကို အမှတ်အသားပြုပြီး သုံးစွဲသူများအတွက် ၎င်းတို့၏စက်ပစ္စည်းများနှင့် အပြန်အလှန်အပြန်အလှန်ဆက်ဆံရန်အတွက် ပိုမိုကြွယ်ဝပြီး အလိုလိုသိသာသောနည်းလမ်းကို ပေးဆောင်သည်။ MLLM ကို အသုံးချခြင်းဖြင့်၊ ဤအေးဂျင့်များသည် အမျိုးမျိုးသောနည်းလမ်းများမှ အချက်အလက်အများအပြားကို စီမံဆောင်ရွက်နိုင်ပြီး ပေါင်းစပ်ဖန်တီးနိုင်ကာ ၎င်းတို့အား ပုဂ္ဂိုလ်ရေးသီးသန့်အကူအညီများပေးကာ ယခင်က မထင်မှတ်ထားသောနည်းလမ်းများဖြင့် သုံးစွဲသူအတွေ့အကြုံများကို မြှင့်တင်နိုင်စေပါသည်။

ဤအေးဂျင့်များသည် ခေတ်မီဆန်းသစ်သော စက်သင်ယူမှုနည်းပညာများနှင့် အဆင့်မြင့်သဘာဝဘာသာစကားလုပ်ဆောင်နိုင်စွမ်းများဖြင့် စွမ်းဆောင်နိုင်သောကြောင့် ၎င်းတို့ကို လူသားနှင့်တူသော စာသားများကို နားလည်ပြီး ထုတ်လုပ်နိုင်သည့်အပြင် မှတ်သားဖွယ်ကောင်းသော တိကျမှန်ကန်မှုဖြင့် ရုပ်မြင်သံကြားနှင့် အသံဒေတာများကို အနက်ပြန်ဆိုနိုင်စေပါသည်။ ရုပ်ပုံများရှိ အရာဝတ္တုများနှင့် မြင်ကွင်းများကို အသိအမှတ်ပြုခြင်းမှ စကားပြောအမိန့်များကို နားလည်ခြင်းနှင့် စာသားခံစားချက်ကို ပိုင်းခြားစိတ်ဖြာခြင်းအထိ၊ ဤဘက်စုံသုံးအေးဂျင့်များသည် ကျယ်ပြန့်သောထည့်သွင်းမှုများကို ချောမွေ့စွာကိုင်တွယ်ရန် တပ်ဆင်ထားပါသည်။ ဤနည်းပညာ၏ အလားအလာသည် ကြီးမားပြီး လူသားတစ်ဦးချင်းစီ၏ သင်ယူမှုပုံစံများနှင့် လိုက်လျောညီထွေဖြစ်စေသော သင်ကြားမှုပုံစံများနှင့် လိုက်လျောညီထွေဖြစ်စေသော အတုအယောင်လက်ထောက်များကဲ့သို့သော ဆက်စပ်၍သိနိုင်သော ဝန်ဆောင်မှုများကို ပေးဆောင်ပါသည်။ ၎င်းတို့သည် ဘာသာစကားနှင့် အာရုံခံအတားအဆီးများကိုဖြတ်ကျော်ကာ နည်းပညာကို ပိုမိုချဉ်းကပ်နိုင်စေရန်အတွက် အသုံးပြုနိုင်စွမ်းကို တော်လှန်ရန် အလားအလာများရှိသည်။

ဤဆောင်းပါးတွင်၊ ကျွန်ုပ်တို့သည် မိုဘိုင်းအပလီကေးရှင်း၏ ရှေ့ဆုံးမျက်နှာပြင်ဖြင့် ရုပ်ပုံနှင့်စာသားဆိုင်ရာဒြပ်စင်များကို တိကျစွာရှာဖွေဖော်ထုတ်ရန် ပထမဆုံးအမြင်အာရုံခံကိရိယာများ၏စွမ်းရည်ကို မြှင့်တင်ပေးသည့် ကိုယ်ပိုင်အုပ်ချုပ်ခွင့်ရ ဘက်စုံသုံးစက်ပစ္စည်းအေးဂျင့် Mobile-Agents အကြောင်း ပြောဆိုပါမည်။ ဤအမြင်အာရုံကို အသုံးပြု၍ Mobile-Agent မူဘောင်က စီစဉ်ပြီး ရှုပ်ထွေးသော လည်ပတ်မှုလုပ်ငန်းကို အလိုအလျောက် ပြိုကွဲစေပြီး အဆင့်ဆင့်လုပ်ဆောင်မှုများမှတစ်ဆင့် မိုဘိုင်းအက်ပ်များမှတစ်ဆင့် သွားလာနိုင်သည်။ Mobile-Agent မူဘောင်သည် မိုဘိုင်းစနစ် မက်တာဒေတာ သို့မဟုတ် မိုဘိုင်းအက်ပလီကေးရှင်းများ၏ XML ဖိုင်များကို အားကိုးခြင်းမရှိသောကြောင့် ကွဲပြားသောမိုဘိုင်းလည်ပတ်မှုပတ်ဝန်းကျင်များတစ်လျှောက် လိုက်လျောညီထွေဖြစ်စေမည့် နေရာလွတ်ကို အမြင်အာရုံဗဟိုပြုသည့်နည်းလမ်းဖြင့် မိုဘိုင်းလ်စနစ်လည်ပတ်မှုပတ်ဝန်းကျင်တစ်လျှောက်တွင် ပိုမိုကောင်းမွန်အောင်လုပ်ဆောင်နိုင်စေမည့် နေရာလွတ်ဖြစ်သဖြင့် Mobile-Agent မူဘောင်သည် လက်ရှိဖြေရှင်းချက်များနှင့် ကွဲပြားသည်။ Mobile-Agent framework ၏နောက်ဆက်တွဲချဉ်းကပ်မှုသည် စွမ်းဆောင်ရည်မြှင့်တင်ပေးသည့်စနစ်နှင့် တွက်ချက်မှုလိုအပ်ချက်များကို နိမ့်ကျစေသည့် စနစ်အလိုက် စိတ်ကြိုက်ပြင်ဆင်မှုများအတွက် လိုအပ်ချက်များကို ဖယ်ရှားပေးပါသည်။

မိုဘိုင်း-အေးဂျင့်များ- ကိုယ်ပိုင်အုပ်ချုပ်ခွင့်ရ ဘက်စုံသုံး မိုဘိုင်းကိရိယာ ကိုယ်စားလှယ်

အရှိန်အဟုန်ဖြင့် မိုဘိုင်းနည်းပညာလောကတွင် ရှေ့ဆောင်အယူအဆတစ်ခု ပေါ်ထွက်လာသည်- ကြီးမားသောဘာသာစကားမော်ဒယ်များ၊ အထူးသဖြင့် Multimodal Large Language Models သို့မဟုတ် MLLMs များသည် မတူညီသောဘာသာစကားများတစ်လျှောက် ကျယ်ပြန့်သော စာသား၊ ရုပ်ပုံများ၊ ဗီဒီယိုများနှင့် စကားပြောဆိုမှုများကို ဖန်တီးပေးနိုင်စွမ်းရှိသည်။ လွန်ခဲ့သည့်နှစ်အနည်းငယ်အတွင်း MLLM မူဘောင်များ၏ လျင်မြန်စွာ ဖွံ့ဖြိုးတိုးတက်မှုသည် MLLMs ၏ အစွမ်းထက်သော အပလီကေးရှင်းအသစ်ဖြစ်သည်- ကိုယ်ပိုင်အုပ်ချုပ်ခွင့်ရ မိုဘိုင်းအေးဂျင့်များဆီသို့ တိုးလာခဲ့သည်။ ကိုယ်ပိုင်အုပ်ချုပ်ခွင့်ရှိသော မိုဘိုင်းအေးဂျင့်များသည် တိုက်ရိုက်လူ့ညွှန်ကြားချက်များမလိုအပ်ဘဲ၊ လုပ်ငန်းတာဝန်များပြီးမြောက်စေရန်၊ အချက်အလက်များစုဆောင်းရန် သို့မဟုတ် ပြဿနာများကိုဖြေရှင်းရန်အတွက် ကွန်ရက်များ သို့မဟုတ် စက်ပစ္စည်းများကို ဖြတ်ကျော်ရန် ဒီဇိုင်းထုတ်ထားခြင်းမရှိဘဲ လွတ်လပ်စွာလုပ်ဆောင်ခြင်း၊ ရွှေ့ခြင်းနှင့် လုပ်ဆောင်နိုင်သောဆော့ဖ်ဝဲအဖွဲ့အစည်းဖြစ်သည်။

Mobile Agents များသည် အသုံးပြုသူ၏ လမ်းညွှန်ချက်များနှင့် စခရင်ရုပ်ပုံများကို အခြေခံ၍ အသုံးပြုသူ၏ မိုဘိုင်းစက်ပစ္စည်းကို လည်ပတ်စေရန် ဒီဇိုင်းထုတ်ထားခြင်းဖြစ်ပြီး၊ အေးဂျင့်များသည် အခေါ်အဝေါ်နားလည်မှုနှင့် အမြင်အာရုံခံနိုင်မှုစွမ်းရည်နှစ်ခုစလုံးကို ပိုင်ဆိုင်ရန် လိုအပ်သည့် အလုပ်ဖြစ်သည်။ သို့သော်၊ လက်ရှိမိုဘိုင်းအေးဂျင့်များသည် ဘက်စုံသုံးဘာသာစကား မော်ဒယ်များကို အခြေခံထားသောကြောင့် ပြီးပြည့်စုံမှုမရှိသေးဘဲ၊ GPT-4V အပါအဝင် အနုပညာဆိုင်ရာ MLLM မူဘောင်များပင်လျှင် ထိရောက်စွာလုပ်ဆောင်ရန် လိုအပ်သော အမြင်အာရုံခံစွမ်းရည်များ ကင်းမဲ့နေပါသည်။ မိုဘိုင်းအေးဂျင့်. ထို့အပြင်၊ ရှိပြီးသားဘောင်များသည် ထိရောက်သောလည်ပတ်မှုများကို ဖန်တီးနိုင်သော်လည်း၊ ၎င်းတို့သည် မျက်နှာပြင်ပေါ်တွင် ဤလုပ်ငန်းဆောင်တာများ၏ တည်နေရာကို တိကျစွာရှာဖွေရန်၊ မိုဘိုင်းလ်ဖုန်းအေးဂျင့်များ၏ အပလီကေးရှင်းများနှင့် မိုဘိုင်းလ်အေးဂျင့်များ၏ လုပ်ဆောင်နိုင်စွမ်းကို ကန့်သတ်ထားသည်။

ဤပြဿနာကိုဖြေရှင်းရန်၊ အချို့သောဘောင်များသည် အပလီကေးရှင်း၏ XML ဖိုင်များကို ဝင်ရောက်ကြည့်ရှုခြင်းဖြင့် အခြားမူဘောင်များအတိုင်း လုပ်ဆောင်နိုင်သော်လည်း အချို့သောဘောင်များသည် အပလီကေးရှင်း၏ XML ဖိုင်များကို ဝင်ရောက်ကြည့်ရှုခြင်းဖြင့် ဖန်သားပြင်ပေါ်ရှိ လုပ်ဆောင်နိုင်သောနေရာများကို ထုတ်ယူရန် စီမံခြင်းဖြင့် GPT-4V သို့မဟုတ် အခြားသော MLLMs များကို ကူညီရန်အတွက် အသုံးပြုသူမျက်နှာပြင် အပြင်အဆင်ဖိုင်များကို အသုံးချရန် ရွေးချယ်ခဲ့သည်။ ဝဘ်အပလီကေးရှင်းများမှ HTML ကုဒ်ကို အသုံးပြုရန် ရွေးချယ်ခဲ့သည်။ ၎င်းကိုတွေ့မြင်နိုင်သည်အတိုင်း၊ ဤဘောင်အများစုသည် အရင်းခံနှင့် ဒေသတွင်း အပလီကေးရှင်းဖိုင်များကို ဝင်ရောက်ကြည့်ရှုခြင်းအပေါ် မှီခိုနေရပြီး framework သည် အဆိုပါဖိုင်များကို မဝင်ရောက်နိုင်ပါက နည်းလမ်းမှာ ထိရောက်မှု မရှိသလောက်ဖြစ်သည်။ ဤပြဿနာကို ဖြေရှင်းရန်နှင့် ဒေသန္တရပြုခြင်းနည်းလမ်းများပေါ်ရှိ နောက်ခံဖိုင်များပေါ်တွင် အရင်းခံဖိုင်များပေါ်တွင် ဒေသခံအေးဂျင့်များ၏ မှီခိုမှုကို ဖယ်ရှားရန်အတွက် developer များသည် အထင်ကြီးလောက်သော အမြင်အာရုံခံနိုင်စွမ်းရှိသော ကိုယ်ပိုင်အုပ်ချုပ်ခွင့်ရမိုဘိုင်းအေးဂျင့်ဖြစ်သည့် Mobile-Agent တွင် လုပ်ဆောင်ခဲ့သည်။ ၎င်း၏အမြင်အာရုံခံယူမှု module ကိုအသုံးပြု၍ Mobile-Agent framework သည် လုပ်ဆောင်ချက်များကိုတိကျစွာရှာဖွေရန် မိုဘိုင်းကိရိယာမှစခရင်ပုံများကိုအသုံးပြုသည်။ အမြင်အာရုံခံယူမှု module သည် စခရင်အတွင်း စာသားခွဲခြားသတ်မှတ်ခြင်းနှင့် မိုဘိုင်းစခရင်၏ သီးခြားဒေသတစ်ခုအတွင်းရှိ အကြောင်းအရာကို ဖော်ပြခြင်းအတွက် တာဝန်ရှိသော OCR နှင့် ထောက်လှမ်းမှုပုံစံများကို ထားရှိပေးပါသည်။ Mobile-Agent မူဘောင်သည် ဂရုတစိုက်ပြုလုပ်ထားသော အချက်ပြမှုများကို အသုံးပြုထားပြီး ကိရိယာများနှင့် အေးဂျင့်များအကြား ထိရောက်သော အပြန်အလှန်တုံ့ပြန်မှုကို ပံ့ပိုးပေးသောကြောင့် မိုဘိုင်းစက်ပစ္စည်း၏ လုပ်ဆောင်ချက်များကို အလိုအလျောက်လုပ်ဆောင်ပေးပါသည်။

ထို့အပြင်၊ Mobile-Agents မူဘောင်သည် လည်ပတ်မှုသမိုင်း၊ အသုံးပြုသူလမ်းညွှန်ချက်များနှင့် ဖန်သားပြင်ဓာတ်ပုံများကို လုံးလုံးလျားလျားလုပ်ဆောင်နိုင်စေမည့် မော်ဒယ်လ်အား လုပ်ငန်းဆောင်ရွက်မှုမှတ်တမ်း၊ အသုံးပြုသူညွှန်ကြားချက်များနှင့် ဖန်သားပြင်ဓာတ်ပုံများကို လုံးလုံးလျားလျားလုပ်ဆောင်နိုင်စေမည့် GPT-4V ကဲ့သို့သော နယ်ပယ်စုံစွမ်းရည်များကို အသုံးချရန် ရည်ရွယ်ပါသည်။ မပြည့်စုံသောညွှန်ကြားချက်များနှင့် မှားယွင်းသောလုပ်ဆောင်မှုများကို ဖော်ထုတ်ရန် အေးဂျင့်၏စွမ်းရည်ကို ပိုမိုမြှင့်တင်ရန်၊ Mobile-Agent မူဘောင်သည် မိမိကိုယ်ကို ရောင်ပြန်ဟပ်သည့်နည်းလမ်းကို မိတ်ဆက်ပေးသည်။ ဂရုတစိုက်ပြုလုပ်ထားသော အချက်ပြမှုများ၏ လမ်းညွှန်မှုအောက်တွင်၊ အေးဂျင့်သည် မမှန်မကန်နှင့် မမှန်ကန်သော လုပ်ဆောင်ချက်များကို တသမတ်တည်း ထင်ဟပ်စေပြီး အလုပ် သို့မဟုတ် ညွှန်ကြားချက်ကို ပြီးမြောက်သည်နှင့် လုပ်ဆောင်မှုများကို ရပ်တန့်စေသည်။

ယေဘုယျအားဖြင့်၊ Mobile-Agent မူဘောင်၏ ပံ့ပိုးကူညီမှုများကို အောက်ပါအတိုင်း အကျဉ်းချုံးနိုင်ပါသည်။

Mobile-Agent သည် လည်ပတ်ဒေသအဖြစ်သတ်မှတ်ခြင်းကို လုပ်ဆောင်ရန် အမြင်အာရုံခံကိရိယာများကို အသုံးပြု၍ ကိုယ်ပိုင်အုပ်ချုပ်ခွင့်ရ မိုဘိုင်းကိရိယာ ကိုယ်စားလှယ်အဖြစ် လုပ်ဆောင်သည်။ ၎င်းသည် အဆင့်တစ်ဆင့်ချင်းစီကို နည်းစနစ်တကျ စီစဉ်ပြီး ဉာဏ်စဉ်တွင် ပါဝင်ပါသည်။ မှတ်သားဖွယ်၊ Mobile-Agent သည် မည်သည့်စနစ်ကုဒ်ကိုမျှ အသုံးမပြုဘဲ၊ စက်ပစ္စည်းစခရင်ပုံများပေါ်တွင်သာ မှီခိုနေရပြီး အမြင်နည်းပညာများကို သက်သက်အခြေခံထားသည့် ဖြေရှင်းချက်ကို ပြသထားသည်။
Mobile-Agent သည် မိုဘိုင်း-စက်ပစ္စည်း အေးဂျင့်များကို အကဲဖြတ်ရန် ဒီဇိုင်းထုတ်ထားသော စံညွှန်းဖြစ်သည့် Mobile-Eval ကို မိတ်ဆက်ပေးသည်။ ဤစံသတ်မှတ်ချက်တွင် အသုံးအများဆုံးမိုဘိုင်းအက်ပ်ဆယ်ခု၏ အမျိုးမျိုးပါဝင်ပြီး အဆိုပါအက်ပ်များအတွက် ဉာဏ်ရည်ထက်မြက်သောလမ်းညွှန်ချက်များနှင့်အတူ အခက်အခဲအဆင့်သုံးဆင့်ဖြင့် အမျိုးအစားခွဲထားသည်။

မိုဘိုင်း-အေးဂျင့်- ဗိသုကာနှင့် နည်းစနစ်

၎င်း၏အဓိကတွင်၊ Mobile-Agent မူဘောင်သည် အနုပညာ၏အခြေအနေတစ်ခုဖြစ်သည်။ Multimodal Large Language Model၊ GPT-4V၊ စာသားကို ဒေသအလိုက် ပြောင်းလဲခြင်း လုပ်ငန်းများအတွက် အသုံးပြုသည့် စာသားထောက်လှမ်းမှု မော်ဂျူး။ GPT-4V နှင့်အတူ၊ Mobile-Agent သည် အိုင်ကွန်ဒေသခံအဖြစ်ပြောင်းလဲခြင်းအတွက် အိုင်ကွန်ထောက်လှမ်းမှု module တစ်ခုကိုလည်း အသုံးပြုပါသည်။

အမြင်အာရုံအမြင်

အစောပိုင်းတွင် ဖော်ပြခဲ့သည့်အတိုင်း၊ GPT-4V MLLM သည် ညွှန်ကြားချက်များနှင့် စခရင်ဓာတ်ပုံများအတွက် ကျေနပ်ဖွယ်ရလဒ်များကို ပေးစွမ်းသော်လည်း လုပ်ဆောင်ချက်များ လုပ်ဆောင်သည့်နေရာကို ထိထိရောက်ရောက် ထုတ်မပေးနိုင်ပါ။ ဤကန့်သတ်ချက်ကြောင့် GPT-4V မော်ဒယ်ကို အကောင်အထည်ဖော်သည့် Mobile-Agent မူဘောင်သည် လည်ပတ်ဒေသအဖြစ်သတ်မှတ်ခြင်းကို အထောက်အကူပြုရန် ပြင်ပကိရိယာများကို အားကိုးရမည်ဖြစ်ပြီး၊ ထို့ကြောင့် မိုဘိုင်းစခရင်ပေါ်ရှိ လုပ်ဆောင်ချက်များ ထုတ်ပေးမှုကို လွယ်ကူချောမွေ့စေပါသည်။

Text Localization

Mobile-Agent framework သည် မိုဘိုင်းစခရင်ပေါ်တွင် ပြသထားသည့် သီးခြားစာသားတစ်ခုကို အေးဂျင့်က နှိပ်လိုက်သည့်အခါတိုင်း စခရင်ပေါ်ရှိ သက်ဆိုင်ရာ စာသားများ၏ အနေအထားကို သိရှိနိုင်ရန် OCR ကိရိယာကို အကောင်အထည်ဖော်ပေးပါသည်။ ထူးခြားသော စာသားဒေသသတ်မှတ်ခြင်းဆိုင်ရာ အခြေအနေသုံးမျိုးရှိသည်။

ဇာတ်လမ်း 1- သတ်မှတ်ထားသော စာသားကို ရှာမတွေ့ပါ။

ထုတ်ပြန်သည်: ရှုပ်ထွေးသောပုံများတွင် သို့မဟုတ် OCR ကန့်သတ်ချက်များကြောင့် ဖြစ်ပေါ်လာနိုင်သည့် သတ်မှတ်ထားသော စာသားကို OCR မှ မတွေ့ပါ။

တုန့်ပြန်: အေးဂျင့်ကို ညွှန်ကြားပါ-

OCR ၏ကြီးကြပ်ကွပ်ကဲမှုအား ကိုယ်တိုင်ပြင်ဆင်မှုပြုလုပ်နိုင်စေရန် နှိပ်ခြင်းအတွက် စာသားကို ပြန်လည်ရွေးချယ်ပါ။
မတူညီသောထည့်သွင်းမှုနည်းလမ်းကိုအသုံးပြုခြင်း သို့မဟုတ် လက်ရှိအလုပ်နှင့်သက်ဆိုင်သည့် အခြားလုပ်ဆောင်ချက်ကို လုပ်ဆောင်ခြင်းကဲ့သို့သော အခြားလုပ်ဆောင်မှုတစ်ခုကို ရွေးချယ်ပါ။

ကျိုးကြောင်းဆင်ခြင်: GPT-4V ၏ ရံဖန်ရံခါ မမှန်ကန်မှုများ သို့မဟုတ် ယောင်ယောင်ချောက်ချားမှုများကို စီမံခန့်ခွဲရန် ဤပြောင်းလွယ်ပြင်လွယ်သည် လိုအပ်ပြီး အေးဂျင့်သည် ထိထိရောက်ရောက် ဆက်လက်လုပ်ဆောင်နိုင်ကြောင်း သေချာစေပါသည်။

ဇာတ်လမ်း 2- သတ်မှတ်ထားသော စာသား၏ တစ်ခုတည်းသော သာဓကကို ရှာတွေ့ထားသည်။

စစ်ဆင်ရေး: ရှာဖွေတွေ့ရှိထားသော စာသားအကွက်၏ အလယ်ဗဟိုသြဒိနိတ်များကို နှိပ်ရန် လုပ်ဆောင်ချက်တစ်ခုကို အလိုအလျောက် ထုတ်ပေးပါသည်။

တရားသေလွှတ်ခြင်း: သာဓကတစ်ခုသာ တွေ့ရှိသဖြင့်၊ မှန်ကန်သော သက်သေခံခြင်း ဖြစ်နိုင်ခြေ မြင့်မားပြီး တိုက်ရိုက်လုပ်ဆောင်ချက်ကို ဆက်လက်လုပ်ဆောင်ရန် ထိရောက်မှု ရှိစေသည်။

ဇာတ်လမ်း 3- သတ်မှတ်ထားသော စာသား၏ ဖြစ်ရပ်များစွာကို တွေ့ရှိထားသည်။

အကဲဖြတ်ခြင်း: ပထမဦးစွာ တွေ့ရှိထားသော ဖြစ်ရပ်အရေအတွက်ကို အကဲဖြတ်ပါ-

သာဓကများစွာ− အလားတူအကြောင်းအရာများဖြင့် ရှုပ်ပွနေသော စခရင်ကို ညွှန်ပြပြီး ရွေးချယ်မှုလုပ်ငန်းစဉ်ကို ရှုပ်ထွေးစေသည်။

လှုပ်ရှားမှု ရွေးချယ်မှုကို ပြန်လည်ပြင်ဆင်ရန် သို့မဟုတ် ရှာဖွေမှုဘောင်များကို ချိန်ညှိရန် ရည်ရွယ်သော စာသားကို ပြန်လည်ရွေးချယ်ရန် ကိုယ်စားလှယ်အား တောင်းဆိုပါ။

သာဓကအနည်းငယ်- စီမံခန့်ခွဲနိုင်သော ထောက်လှမ်းမှု အရေအတွက်သည် ပို၍ သပ်ရပ်သော ချဉ်းကပ်မှုကို ရရှိစေပါသည်။

လှုပ်ရှားမှု နောက်ထပ်အကြောင်းအရာများကိုဖမ်းယူရန်အတွက် စာသားထောက်လှမ်းမှုသေတ္တာများကို အပြင်ဘက်တွင်ချဲ့ကာ ဤဖြစ်ရပ်များအနီးရှိ ဒေသများကို ဖြတ်ယူပါ။ ဤချဲ့ထွင်မှုသည် ဆုံးဖြတ်ချက်ချရာတွင် အထောက်အကူဖြစ်စေပြီး အချက်အလက်များကို ပိုမိုထိန်းသိမ်းထားကြောင်း သေချာစေသည်။

Next ကိုအဆင့်: ဖြတ်ထားသောပုံများတွင် ထောက်လှမ်းမှုသေတ္တာများဆွဲပြီး ၎င်းတို့ကို အေးဂျင့်ထံ တင်ပြပါ။ ဤအမြင်အာရုံအကူအညီသည် ဆက်စပ်အခြေအနေဆိုင်ရာသဲလွန်စများ သို့မဟုတ် လုပ်ငန်းလိုအပ်ချက်များအပေါ်အခြေခံ၍ မည်သည့်ဥပမာနှင့် တုံ့ပြန်ရမည်ကို ဆုံးဖြတ်ရာတွင် ကိုယ်စားလှယ်အား ကူညီပေးပါသည်။

ဤဖွဲ့စည်းပုံနည်းလမ်းသည် OCR ရလဒ်များနှင့် အေးဂျင့်လုပ်ဆောင်မှုများကြား အပြန်အလှန်အကျိုးသက်ရောက်မှုကို ပိုကောင်းစေပြီး၊ အခြေအနေအမျိုးမျိုးတွင် စာသားအခြေခံလုပ်ဆောင်စရာများကို ကိုင်တွယ်ရာတွင် စနစ်၏ယုံကြည်စိတ်ချရမှုနှင့် လိုက်လျောညီထွေရှိမှုကို မြှင့်တင်ပေးသည်။ လုပ်ငန်းစဉ်တစ်ခုလုံးကို အောက်ပါပုံတွင် သရုပ်ပြထားသည်။

အိုင်ကွန် Localization

Mobile-Agent framework သည် မိုဘိုင်းစခရင်ပေါ်တွင် အေးဂျင့်က ၎င်းကိုနှိပ်ရန်လိုအပ်သောအခါတွင် အိုင်ကွန်၏တည်နေရာကိုရှာဖွေရန် အိုင်ကွန်ရှာဖွေခြင်းကိရိယာကို လုပ်ဆောင်သည်။ ပိုမိုတိကျစေရန်အတွက်၊ framework သည် ပုံသဏ္ဍာန်နှင့်အရောင်အပါအ ၀ င်ရုပ်ပုံသဏ္ဌာန်အချို့ကိုပေးဆောင်ရန်အေးဂျင့်ကို ဦး စွာတောင်းဆိုသည်၊ ထို့နောက် framework သည်စခရင်ရှော့အတွင်းပါရှိသောအိုင်ကွန်အားလုံးကိုခွဲခြားသတ်မှတ်ရန်အချက်ပြသင်္ကေတဖြင့် Grounding DINO နည်းလမ်းကိုအကောင်အထည်ဖော်သည်။ နောက်ဆုံး၊ မိုဘိုင်း-အေဂျင်t သည် ကလစ်ဧရိယာ၏ ဖော်ပြချက်ကြားရှိ ဆင်တူယိုးမှားကို တွက်ချက်ရန်နှင့် ဖျက်လိုက်သော အိုင်ကွန်များကြား တူညီမှုကို တွက်ချက်ရန် CLIP မူဘောင်ကို အသုံးချကာ ကလစ်တစ်ခုအတွက် အမြင့်ဆုံးတူညီသည့် ဒေသကို ရွေးချယ်သည်။

ညွှန်ကြားချက် အကောင်အထည်ဖော်ခြင်း။

လုပ်ဆောင်ချက်များကို အေးဂျင့်များဖြင့် စခရင်ပေါ်ရှိ လုပ်ဆောင်ချက်များအဖြစ် ဘာသာပြန်ဆိုရန်၊ Mobile-Agent မူဘောင်တွင် မတူညီသော လုပ်ဆောင်ချက်များ 8 ခုကို သတ်မှတ်သည်။

အပလီကေးရှင်းကိုဖွင့်ပါ (အက်ပ်အမည်)- desktop interface မှ သတ်မှတ်ထားသော အပလီကေးရှင်းကို စတင်ပါ။
Text (Text Label) ကို နှိပ်ပါ။ အညွှန်း “စာသားအညွှန်း” ကိုပြသသည့် မျက်နှာပြင်အပိုင်းနှင့် အပြန်အလှန်တုံ့ပြန်ပါ။
အိုင်ကွန်နှင့် အပြန်အလှန်အကျိုးသက်ရောက်မှု (အိုင်ကွန်ဖော်ပြချက်၊ တည်နေရာ)။ “အိုင်ကွန်ဖော်ပြချက်” အိုင်ကွန်၏အရောင်နှင့် ပုံသဏ္ဍာန်ကဲ့သို့ အရည်အချင်းအသေးစိတ်များပါရှိသည့် သတ်မှတ်ထားသော အိုင်ကွန်ဧရိယာကို ပစ်မှတ်ထားပြီး နှိပ်ပါ။ တိကျသောလမ်းညွှန်မှုအတွက်နှင့် အမှားများကိုလျှော့ချရန် နှစ်ခုကို ပေါင်းစည်းနိုင်သည်ကဲ့သို့သော ရွေးချယ်မှုများဖြစ်သည့် အပေါ်၊ အောက်၊ ဘယ်၊ ညာ သို့မဟုတ် အလယ်မှ "တည်နေရာ" ကို ရွေးပါ။
စာသားထည့်ပါ (Input Text) ပေးထားသော “Input Text” ကို တက်ကြွသော စာသားအကွက်တွင် ထည့်သွင်းပါ။
အပေါ်နှင့်အောက်ကို ရွှေ့ပါ- လက်ရှိစာမျက်နှာ၏ အကြောင်းအရာမှတဆင့် အထက် သို့မဟုတ် အောက်သို့ လမ်းညွှန်ပါ။
ပြန်သွားသည်: ယခင်ကြည့်ခဲ့သည့် စာမျက်နှာသို့ ပြန်ပြောင်းပါ။
အနီးကပ်: လက်ရှိမျက်နှာပြင်မှ ဒက်စ်တော့သို့ တိုက်ရိုက်ပြန်သွားပါ။
ရပ်ရန်- အလုပ်ပြီးသည်နှင့် လုပ်ဆောင်ချက်ကို နိဂုံးချုပ်ပါ။

Self-Planning

လုပ်ဆောင်ချက်၏ ခြေလှမ်းတိုင်းကို မူဘောင်ဖြင့် ထပ်ခါတလဲလဲ လုပ်ဆောင်ပြီး ထပ်ခါထပ်ခါ လုပ်ဆောင်မှုတစ်ခုစီ၏ မစတင်မီတွင် အသုံးပြုသူသည် ထည့်သွင်းညွှန်ကြားချက်တစ်ခုပေးရန် လိုအပ်ပြီး Mobile-Agent မော်ဒယ်သည် လုပ်ငန်းစဉ်တစ်ခုလုံးအတွက် system prompt တစ်ခုထုတ်ပေးရန် ညွှန်ကြားချက်ကို အသုံးပြုသည်။ ထို့အပြင်၊ ထပ်ခါထပ်ခါတိုင်း မစတင်မီ၊ framework သည် ဖန်သားပြင်ဓာတ်ပုံကို ရိုက်ယူပြီး ၎င်းကို အေးဂျင့်ထံ ပေးပို့သည်။ ထို့နောက် အေးဂျင့်သည် ဖန်သားပြင်ဓာတ်ပုံ၊ လုပ်ဆောင်ချက်မှတ်တမ်းနှင့် လုပ်ဆောင်ချက်များ၏ နောက်တစ်ဆင့်ကို ထုတ်ပြန်ရန် စနစ်သတိပေးချက်များကို စောင့်ကြည့်သည်။

မိမိကိုယ်ကိုပြန်လည်သုံးသပ်ခြင်း

၎င်း၏လုပ်ဆောင်မှုများအတွင်း၊ အေးဂျင့်သည် အမိန့်ကို အောင်မြင်စွာလုပ်ဆောင်ခြင်းမှ တားဆီးသည့် အမှားအယွင်းများနှင့် ရင်ဆိုင်ရနိုင်သည်။ ညွှန်ကြားချက်များ ပြည့်စုံမှုနှုန်းကို မြှင့်တင်ရန်၊ သီးခြားအခြေအနေနှစ်ခုအောက်တွင် အသက်ဝင်စေမည့် မိမိကိုယ်ကို အကဲဖြတ်ခြင်းနည်းလမ်းကို အကောင်အထည်ဖော်ခဲ့သည်။ ကနဦးတွင်၊ အေးဂျင့်သည် လုပ်ဆောင်ချက်ကို ရပ်တန့်စေသည့် ချို့ယွင်းချက် သို့မဟုတ် မမှန်ကန်သည့် လုပ်ဆောင်ချက်ကို လုပ်ဆောင်ပါက၊ ဖန်သားပြင်ဓာတ်ပုံကို လုပ်ဆောင်ချက်အပြီးတွင် မပြောင်းလဲကြောင်း အသိအမှတ်ပြုသည့်အခါ သို့မဟုတ် မမှန်ကန်သော စာမျက်နှာကို ပြသသည့်အခါ၊ အစားထိုးလုပ်ဆောင်မှုများကို ထည့်သွင်းစဉ်းစားရန် သို့မဟုတ် လက်ရှိလုပ်ဆောင်မှု၏ ကန့်သတ်ဘောင်များကို ချိန်ညှိရန် ညွှန်ကြားမည်ဖြစ်သည်။ ဒုတိယအနေဖြင့်၊ အေးဂျင့်သည် ရှုပ်ထွေးသောညွှန်ကြားချက်၏အစိတ်အပိုင်းအချို့ကို လွတ်သွားနိုင်သည်။ အေးဂျင့်သည် ၎င်း၏ကနဦးအစီအစဉ်ကိုအခြေခံ၍ လုပ်ဆောင်ချက်များစွာကို လုပ်ဆောင်ပြီးသည်နှင့်၊ ၎င်းသည် ၎င်း၏လုပ်ဆောင်ချက်အစီအစဉ်ကို ပြန်လည်သုံးသပ်ရန်၊ နောက်ဆုံးပေါ် ဖန်သားပြင်ဓာတ်ပုံနှင့် အသုံးပြုသူ၏ ညွှန်ကြားချက်ကို လုပ်ဆောင်ပြီးပြီးမြောက်ခြင်းရှိမရှိကို အကဲဖြတ်ရန် သတိပေးမည်ဖြစ်သည်။ ကွဲလွဲမှုများကို တွေ့ရှိပါက၊ ညွှန်ကြားချက်ကို ဖြည့်ဆည်းရန်အတွက် လုပ်ဆောင်ချက်အသစ်များကို အလိုအလျောက်ထုတ်လုပ်ရန် ကိုယ်စားလှယ်အား တာဝန်ပေးထားသည်။

မိုဘိုင်း-အေးဂျင့်- စမ်းသပ်မှုများနှင့် ရလဒ်များ

၎င်း၏စွမ်းရည်များကို ကျယ်ကျယ်ပြန့်ပြန့် အကဲဖြတ်ရန်၊ Mobile-Agent framework သည် အသုံးများသော အပလီကေးရှင်း 10 ခု ပါဝင်သော Mobile-Eval စံညွှန်းကို မိတ်ဆက်ပြီး အပလီကေးရှင်းတစ်ခုစီအတွက် လမ်းညွှန်ချက် (၃) ခုကို ဒီဇိုင်းထုတ်ပါသည်။ ပထမလုပ်ဆောင်ချက်သည် ရိုးရှင်းပြီး အခြေခံအပလီကေးရှင်းလုပ်ဆောင်ချက်များကိုသာ အကျုံးဝင်သော်လည်း ဒုတိယလုပ်ဆောင်ချက်သည် ပထမအကြိမ်ထက် အနည်းငယ်ပို၍ ရှုပ်ထွေးပါသည်။ နောက်ဆုံးတွင်၊ တတိယလုပ်ဆောင်ချက်သည် မည်သည့်အက်ပ်ကိုအသုံးပြုရမည် သို့မဟုတ် မည်သည့်လုပ်ဆောင်ချက်ကိုလုပ်ဆောင်ရမည်ကို သုံးစွဲသူက အတိအကျမသတ်မှတ်ထားသောကြောင့် ၎င်းတို့အားလုံးတွင် အရှုပ်ထွေးဆုံးဖြစ်သည်။

တစ်ပါတည်း ရွေ့လျားရင်း၊ မတူညီသောရှုထောင့်များမှ စွမ်းဆောင်ရည်ကို အကဲဖြတ်ရန်၊ Mobile-Agent framework သည် မတူညီသော မက်ထရစ် ၄ ခုကို ဒီဇိုင်းဆွဲပြီး အကောင်အထည်ဖော်ပါသည်။

ဆု သို့မဟုတ် အောင်မြင်သည်- မိုဘိုင်းအေးဂျင့်သည် ညွှန်ကြားချက်များကို ပြီးမြောက်ပါက၊ အောင်မြင်သည်ဟု ယူဆပါသည်။

လုပ်ငန်းစဉ်ရမှတ် သို့မဟုတ် PS လုပ်ငန်းစဉ်ရမှတ် မက်ထရစ်သည် အသုံးပြုသူညွှန်ကြားချက်များကို လုပ်ဆောင်နေစဉ်အတွင်း အဆင့်တစ်ခုစီ၏ တိကျမှုကို တိုင်းတာပြီး ၎င်းကို မှန်ကန်သောအဆင့်အရေအတွက်ကို စုစုပေါင်းအဆင့်အရေအတွက်ဖြင့် ပိုင်းခြားခြင်းဖြင့် တွက်ချက်သည်။

နှိုင်းရ စွမ်းဆောင်ရည် သို့မဟုတ် RE- နှိုင်းယှဥ်ထိရောက်မှုရမှတ်သည် ညွှန်ကြားချက်ကို လူတစ်ဦးမှ ကိုယ်တိုင်လုပ်ဆောင်ရန် လိုအပ်သည့် ခြေလှမ်းအရေအတွက်နှင့် တူညီသောညွှန်ကြားချက်ကို လုပ်ဆောင်ရန် အေးဂျင့်အတွက် လိုအပ်သည့် အဆင့်အရေအတွက်ကြား အချိုး သို့မဟုတ် နှိုင်းယှဉ်မှုဖြစ်သည်။

ပြီးစီးမှုနှုန်း သို့မဟုတ် CR- ပြီးစီးမှုနှုန်း မက်ထရစ်သည် ညွှန်ကြားချက်ကို ပြီးမြောက်ရန် လူသားမှ လုပ်ဆောင်သည့် အဆင့် စုစုပေါင်း အရေအတွက်နှင့် မူဘောင်ကို အောင်မြင်စွာ ပြီးမြောက်သည့် လူသားလုပ်ဆောင်သည့် အဆင့်အရေအတွက်ကို ပိုင်းခြားပေးပါသည်။ အေးဂျင့်က ညွှန်ကြားချက်ကို အောင်မြင်စွာ ပြီးမြောက်သောအခါ CR ၏တန်ဖိုးသည် 1 ဖြစ်သည်။

ရလဒ်များကို အောက်ပါပုံတွင် သရုပ်ပြထားပါသည်။

ကနဦးတွင်၊ ပေးထားသောအလုပ်သုံးခုအတွက်၊ Mobile-Agent သည် ပြီးစီးမှုနှုန်း 91%, 82%, နှင့် 82% အသီးသီးရရှိခဲ့သည်။ လုပ်ဆောင်စရာအားလုံးကို အပြစ်အနာအဆာမရှိအောင် လုပ်ဆောင်နိုင်သော်လည်း လုပ်ငန်းအမျိုးအစားတစ်ခုစီအတွက် အောင်မြင်မှုနှုန်းသည် 90% ကျော်လွန်သွားပါသည်။ ထို့အပြင်၊ PS မက်ထရစ်သည် Mobile-Agent သည် အလုပ်သုံးခုအတွက် တိကျသောလုပ်ဆောင်ချက်များကို အကောင်အထည်ဖော်ရန် အလားအလာ မြင့်မားကြောင်း ပြသထားပြီး အောင်မြင်မှုနှုန်း 80% ဝန်းကျင်ရှိသည်။ ထို့အပြင်၊ RE မက်ထရစ်အရ၊ Mobile-Agent သည် လူသားများ၏ အကောင်းဆုံးလုပ်ဆောင်နိုင်စွမ်းနှင့် နှိုင်းယှဉ်နိုင်သော အဆင့်တွင် လုပ်ဆောင်ချက်များကို လုပ်ဆောင်ရာတွင် 80% ထိရောက်မှုကို ပြသသည်။ ဤရလဒ်များသည် Mobile-Agent ၏ ကျွမ်းကျင်မှုကို မိုဘိုင်းကိရိယာလက်ထောက်အဖြစ် စုပေါင်းဖော်ပြသည်။

အောက်ဖော်ပြပါပုံသည် သုံးစွဲသူ၏အမိန့်များကို ဆုပ်ကိုင်ရန်နှင့် ၎င်း၏လုပ်ဆောင်ချက်များကို လွတ်လပ်စွာ စီမံကွပ်ကဲရန် Mobile-Agent ၏စွမ်းရည်ကို သရုပ်ဖော်ထားသည်။ ညွှန်ကြားချက်များတွင် တိကျပြတ်သားသော လုပ်ဆောင်ချက်အသေးစိတ်များ မရှိလျှင်ပင်၊ Mobile-Agent သည် သုံးစွဲသူ၏ လိုအပ်ချက်များကို တိကျစွာ အဓိပ္ပါယ်ဖွင့်ဆိုခဲ့ပြီး ၎င်းတို့ကို လုပ်ဆောင်နိုင်သော အလုပ်များအဖြစ်သို့ ပြောင်းလဲပေးပါသည်။ ဤနားလည်မှုပြီးနောက်၊ အေးဂျင့်သည် ညွှန်ကြားချက်များကို စနစ်တကျ စီစဉ်ဆောင်ရွက်မှုဖြင့် လုပ်ဆောင်ခဲ့သည်။

နောက်ဆုံးထင်မြင်ချက်များ

ဤဆောင်းပါးတွင် ကျွန်ုပ်တို့သည် မိုဘိုင်းအက်ပလီကေးရှင်း၏မျက်နှာပြင်အတွင်း ရုပ်ပုံနှင့်စာသားဆိုင်ရာ အစိတ်အပိုင်းများကို တိကျစွာသိရှိနိုင်စေရန် အစပိုင်းတွင် အသုံးပြုသည့် ဘက်စုံသုံးကိုယ်ပိုင်အုပ်ချုပ်ခွင့်ရကိရိယာအေးဂျင့်ဖြစ်သည့် Mobile-Agents အကြောင်း ပြောဆိုထားပါသည်။ ဤမြင်သာသောအကြောင်းအရာကို စိတ်ထဲတွင်ထားခြင်းဖြင့်၊ Mobile-Agent မူဘောင်သည် ရှုပ်ထွေးပွေလီသောလုပ်ဆောင်မှုများကို အလိုအလျောက်ဖော်ပြပြီး စီမံခန့်ခွဲနိုင်သောလုပ်ဆောင်ချက်များအဖြစ် မိုဘိုင်းလ်အပလီကေးရှင်းများမှတစ်ဆင့် ချောမွေ့စွာသွားလာနိုင်ရန် အဆင့်ဆင့်လုပ်ဆောင်သည်။ ဤမူဘောင်သည် မိုဘိုင်းလ်စနစ်၏ မက်တာဒေတာ သို့မဟုတ် မိုဘိုင်းအက်ပ်များ၏ XML ဖိုင်များအပေါ်တွင် မမူတည်သောကြောင့် တည်ဆဲနည်းစနစ်များမှ ထင်ရှားပေါ်လွင်ပြီး အမြင်အာရုံကို ဗဟိုပြုသည့် စီမံဆောင်ရွက်မှုကို အာရုံစိုက်ခြင်းဖြင့် မိုဘိုင်းလ်လည်ပတ်မှုစနစ်အမျိုးမျိုးတွင် ပိုမိုလွယ်ကူချောမွေ့စေပါသည်။ Mobile-Agent မူဘောင်မှ အသုံးပြုသည့် နည်းဗျူဟာသည် စနစ်အလိုက် လိုက်လျောညီထွေဖြစ်စေရန် လိုအပ်ချက်ကို ပျက်ပြယ်စေပြီး စွမ်းဆောင်ရည် မြှင့်တင်ပေးပြီး ကွန်ပျူတာဆိုင်ရာ တောင်းဆိုချက်များကို လျှော့ချပေးသည်။

Next ကို up ကို

Empathetic AI- စိတ်ကျန်းမာရေးစောင့်ရှောက်မှုကို အသွင်ပြောင်းပြီး စိတ်ခံစားမှုဆိုင်ရာ ဉာဏ်ရည်ဉာဏ်သွေးကို ကျော်လွန်ခြင်း။

သတိရနေတယ်မနေပါနဲ့

Meta သည် 2024 အီးယူပါလီမန် ရွေးကောက်ပွဲများအတွက် မဟာဗျူဟာကို ထုတ်ပြသည်။

Kunal Kejriwal

"အသက်မွေးဝမ်းကြောင်းပြုသော အင်ဂျင်နီယာ၊ နှလုံးသားဖြင့် စာရေးဆရာ"။ Kunal သည် AI နှင့် ML တို့ကို နက်နက်ရှိုင်းရှိုင်း ချစ်မြတ်နိုးပြီး နားလည်မှုရှိသော နည်းပညာစာရေးဆရာတစ်ဦးဖြစ်ပြီး ဤနယ်ပယ်များရှိ ရှုပ်ထွေးသောအယူအဆများကို ရိုးရှင်းလွယ်ကူစေရန် ရည်ရွယ်၍ ၎င်း၏ပါဝင်ပတ်သက်မှုနှင့် သတင်းအချက်အလက်ဆိုင်ရာ စာရွက်စာတမ်းများမှတစ်ဆင့် သိရသည်။