ဆောင်းပါးတို POKELLMON - LLMs နှင့် Pokemon တိုက်ပွဲများအတွက် လူသားချင်းတူသော အေးဂျင့် - Unite.AI
ကြှနျုပျတို့နှငျ့အတူချိတ်ဆက်ပါ

ဉာဏ်ရည်တု

POKELLMON- LLM များနှင့် Pokemon တိုက်ပွဲများအတွက် လူသားချင်းတူသော အေးဂျင့်

mm

Published

 on

POKELLMON- LLM များနှင့် Pokemon တိုက်ပွဲများအတွက် လူသားချင်းတူသော အေးဂျင့်

ကြီးမားသောဘာသာစကားမော်ဒယ်များနှင့် Generative AI တို့သည် သဘာဝဘာသာစကားဖြင့်လုပ်ဆောင်ခြင်းလုပ်ငန်းများကျယ်ပြန့်စွာလုပ်ဆောင်ခြင်းတွင် မကြုံစဖူးအောင်မြင်မှုကိုပြသခဲ့သည်။ NLP နယ်ပယ်ကို သိမ်းပိုက်ပြီးနောက်၊ GenAI နှင့် LLM သုတေသီများအတွက် နောက်ထပ်စိန်ခေါ်မှုမှာ ကြီးမားသောဘာသာစကားပုံစံများသည် စာသားတစ်ခုမှတစ်ခုသို့ လုပ်ဆောင်ချက်တစ်ခုမှတစ်ခုအထိ ချဲ့ထွင်ထားသော မျိုးဆက်ကွာဟချက်ဖြင့် လက်တွေ့ကမ္ဘာတွင် ကြီးမားသောဘာသာစကားပုံစံများ မည်သို့လုပ်ဆောင်နိုင်သည်ကို ရှာဖွေရန်ဖြစ်ပြီး၊ ထို့ကြောင့် Artificial General Intelligence ကိုရှာဖွေရာတွင် သိသာထင်ရှားသောပါရာဒိုင်းကို ကိုယ်စားပြုခြင်းဖြစ်သည်။ . အွန်လိုင်းဂိမ်းများသည် လူသားတစ်ဦးလုပ်ဆောင်သည့်ပုံစံဖြင့် အမြင်အာရုံပတ်ဝန်းကျင်နှင့် အပြန်အလှန်တုံ့ပြန်သည့် ကြီးမားသောဘာသာစကားပုံစံ embodied အေးဂျင့်များကို ပြုစုပျိုးထောင်ရန် သင့်လျော်သောစမ်းသပ်မှုအခြေခံတစ်ခုဟု ယူဆပါသည်။ 

ဥပမာအားဖြင့်၊ လူကြိုက်များသောအွန်လိုင်း simulation ဂိမ်း Minecraft တွင်၊ ကိရိယာများဖန်တီးခြင်းနှင့် အလုပ်များဖြေရှင်းခြင်းဆိုင်ရာ ကျွမ်းကျင်မှုများဖွံ့ဖြိုးတိုးတက်လာစေရန် ကစားသမားများအား ကမ္ဘာကြီးကိုရှာဖွေရာတွင် ကူညီပေးရန်အတွက် ဆုံးဖြတ်ချက်ချသည့်အေးဂျင့်များကို ခန့်အပ်နိုင်သည်။ အမြင်အာရုံပတ်ဝန်းကျင်နှင့် တုံ့ပြန်သည့် LLM အေးဂျင့်များ၏ နောက်ထပ်ဥပမာကို အခြားသောအွန်လိုင်းဂိမ်းဖြစ်သည့် The Sims တွင် အေးဂျင့်များက လူမှုဆက်ဆံရေးတွင် ထူးထူးခြားခြားအောင်မြင်ခဲ့ပြီး လူသားများနှင့်ဆင်တူသည့် အမူအကျင့်များကို ပြသသည့် အေးဂျင့်များဖြစ်သည်။ သို့သော်လည်း လက်ရှိဂိမ်းများနှင့် နှိုင်းယှဉ်ပါက၊ နည်းဗျူဟာမြောက် တိုက်ပွဲဂိမ်းများသည် virtual ဂိမ်းများကို ကစားရန် ကြီးမားသော ဘာသာစကားမော်ဒယ်များ၏ စွမ်းရည်ကို စံပြုရန် ပိုမိုကောင်းမွန်သော ရွေးချယ်မှုတစ်ခုအဖြစ် သက်သေပြနိုင်မည်ဖြစ်သည်။ နည်းဗျူဟာဂိမ်းများသည် ပိုမိုကောင်းမွန်သောစံနှုန်းတစ်ခုရရှိစေသည့် အဓိကအကြောင်းရင်းမှာ အနိုင်ရနှုန်းကို တိုက်ရိုက်တိုင်းတာနိုင်ပြီး လူသားကစားသမားများနှင့် AI အပါအဝင် တသမတ်တည်းပြိုင်ဘက်များကို အမြဲရရှိနိုင်သောကြောင့်ဖြစ်သည်။ 

POKELLMON သည် Pokemon တိုက်ပွဲများတွင် မြင်တွေ့ခဲ့ရသည့် နည်းဗျူဟာဂိမ်းများတွင် လူသားအဆင့်စွမ်းဆောင်ရည်ကို ရရှိသည့် ကမ္ဘာ့ပထမဆုံးသော သရုပ်ဖော်အေးဂျင့်ဖြစ်လာစေရန် ရည်ရွယ်ပါသည်။ ၎င်း၏အဓိကတွင်၊ POKELLMON မူဘောင်တွင် အဓိကဗျူဟာသုံးခုကို ပေါင်းစပ်ထားသည်။

  1. မူဝါဒကို ထပ်ခါတလဲလဲ ပြန်လည်ပြင်ဆင်ရန် တိုက်ပွဲများမှရရှိသော စာသားအခြေခံ တုံ့ပြန်ချက်ကို ချက်ခြင်းစားသုံးသည့် ဆက်စပ်အားဖြည့်သင်ကြားမှု။ 
  2. အေးဂျင့်ကို ကောင်းစွာလုပ်ဆောင်နိုင်ပြီး လိုအပ်သည့်အခါတွင် အံ့အားသင့်ဖွယ်ရာများကို တန်ပြန်ရန် ပြင်ပအသိပညာကို ရယူသည့် အသိပညာ-တိုးမြင့်သည့်မျိုးဆက်။ 
  3. အေးဂျင့်သည် သန်မာသောကစားသမားတစ်ဦးကို ဖြတ်ကျော်လာသည့်အခါ ထိတ်လန့်တုန်လှုပ်သွားသည့်အခြေအနေများကို လျှော့ချရန် တသမတ်တည်းလုပ်ဆောင်သည့် မျိုးဆက်ဖြစ်သည်။ 

ဤဆောင်းပါးသည် POKELLMON မူဘောင်ကို နက်ရှိုင်းစွာ ခြုံငုံမိစေရန် ရည်ရွယ်ပြီး ယန္တရား၊ နည်းစနစ်၊ မူဘောင်၏ ဗိသုကာလက်ရာနှင့် ၎င်း၏ အနုပညာမူဘောင်များနှင့် နှိုင်းယှဉ်ချက်နှင့်အတူ ကျွန်ုပ်တို့သည် ယန္တရား၊ POKELLMON မူဘောင်သည် ထူးထူးခြားခြား လူသားနှင့်တူသော တိုက်ပွဲနည်းဗျူဟာများကို သရုပ်ပြပုံနှင့် အချိန်နှင့်တပြေးညီ ဆုံးဖြတ်ချက်ချနိုင်သည့် စွမ်းရည်များအကြောင်း၊ လေးစားထိုက်သော အနိုင်ရနှုန်း 50% နီးပါးကို ရရှိသည့်အကြောင်းကိုလည်း ဆွေးနွေးပါမည်။ ဒါဆို စလိုက်ရအောင်။

POKELLMON- Pokemon Battles အတွက် LLM ပါသော လူသားချင်း တူညီသော အေးဂျင့်

ကြီးမားသောဘာသာစကားမော်ဒယ်များ၏စွမ်းဆောင်ရည်နှင့် လွန်ခဲ့သည့်နှစ်အနည်းငယ်အတွင်း Generative AI မူဘောင်များ တိုးတက်မှုသည် အထူးသဖြင့် NLP လုပ်ဆောင်ချက်များတွင် အံ့ဩစရာမဟုတ်ပေ။ မကြာသေးမီက၊ developer များနှင့် AI သုတေသီများသည် ရုပ်ပိုင်းဆိုင်ရာလောကတွင် အလိုအလျောက်လုပ်ဆောင်နိုင်စွမ်းရှိသော လက်တွေ့ကမ္ဘာအခြေအနေများတွင် Generative AI နှင့် LLMs များကို ပိုမိုထင်ရှားစေမည့် နည်းလမ်းများကို ရှာဖွေနေပါသည်။ ရုပ်ပိုင်းဆိုင်ရာနှင့် လက်တွေ့ကမ္ဘာအခြေအနေများတွင် ဤကိုယ်ပိုင်အုပ်ချုပ်ခွင့်ရစွမ်းဆောင်ရည်ကိုရရှိရန်၊ သုတေသီများနှင့် ဆော့ဖ်ဝဲအင်ဂျင်နီယာများသည် ဂိမ်းများကို လူသားအပြုအမူနှင့်ဆင်တူသော virtual ပတ်ဝန်းကျင်နှင့် အပြန်အလှန်တုံ့ပြန်နိုင်စွမ်းရှိသည့် LLM-embodied အေးဂျင့်များကို ဖွံ့ဖြိုးတိုးတက်စေရန် သင့်လျော်သောစမ်းသပ်မှုခင်းတစ်ခုအဖြစ် မှတ်ယူကြသည်။ 

ယခင်က၊ developer များသည် Minecraft နှင့် Sims ကဲ့သို့သော virtual simulation ဂိမ်းများတွင် LLM-embodied အေးဂျင့်များကို Pokemon ကဲ့သို့သော နည်းဗျူဟာဂိမ်းများ ဖန်တီးရန် ပိုမိုကောင်းမွန်သော ရွေးချယ်မှုဖြစ်နိုင်သည်ဟု ယုံကြည်ထားသော်လည်း၊ Pokemon battles များသည် developer များအား နာမည်ကြီး Pokemon ဂိမ်းများတွင် တိုက်ခိုက်ရန် လေ့ကျင့်သူ၏ စွမ်းရည်ကို အကဲဖြတ်နိုင်ပြီး အခြားသော နည်းဗျူဟာဂိမ်းများထက် အားသာချက်များစွာကို ပေးဆောင်နိုင်သည်။ လုပ်ဆောင်ချက်နှင့် ပြည်နယ်နေရာလွတ်များသည် သီးခြားဖြစ်သောကြောင့်၊ ၎င်းကို အရှုံးမရှိဘဲ စာသားအဖြစ် ဘာသာပြန်နိုင်သည်။ အောက်ဖော်ပြပါပုံသည် တစ်ဖက်စီမှ Pokemon ၏လက်ရှိအခြေအနေအရ ကစားသမားအား အလှည့်တစ်ခုစီတွင် လုပ်ဆောင်ရန် တောင်းဆိုသည့် ပုံမှန် Pokemon တိုက်ပွဲကို သရုပ်ဖော်ထားသည်။ အသုံးပြုသူများသည် မတူညီသော Pokemon ငါးမျိုးမှ ရွေးချယ်ရန် ရွေးချယ်ခွင့်ရှိပြီး လုပ်ဆောင်ချက်နေရာများတွင် စုစုပေါင်း လှုပ်ရှားမှု လေးခုရှိသည်။ ထို့အပြင်၊ ဂိမ်းသည် ပြင်းထန်သောဂိမ်းကစားမှုအတွက် လိုအပ်ချက်များကို ဖယ်ထုတ်လိုက်သောကြောင့် LLMs အတွက် အနုမာနအချိန်နှင့် အနုမာနကုန်ကျစရိတ်များအတွက် ဖိအားများကို လျော့ပါးသက်သာစေရန် ကူညီပေးပါသည်။ ထို့ကြောင့် စွမ်းဆောင်ရည်သည် ကျိုးကြောင်းဆင်ခြင်နိုင်စွမ်းပေါ်တွင် အဓိကမူတည်ပါသည်။ ကြီးမားသောဘာသာစကားမော်ဒယ်. နောက်ဆုံးတွင်၊ Pokemon တိုက်ပွဲဂိမ်းများသည် ရိုးရှင်းပုံပေါ်သော်လည်း လက်တွေ့တွင် အနည်းငယ်ပိုမိုရှုပ်ထွေးပြီး ဗျူဟာမြောက်သည်။ အတွေ့အကြုံရှိကစားသမားသည် တိုက်ပွဲအတွက် Pokemon ကို ကျပန်းရွေးချယ်ခြင်းမပြုသော်လည်း အမျိုးအစား၊ ကိန်းဂဏန်းများ၊ စွမ်းရည်များ၊ မျိုးစိတ်များ၊ ပစ္စည်းများ၊ Pokemon များ၏ ရွေ့လျားမှုများ၊ စစ်မြေပြင်တွင်ရော ပြင်ပတွင်ပါ ထည့်သွင်းစဉ်းစားရန် အချက်များစွာပါဝင်ပါသည်။ ထို့အပြင်၊ ကျပန်းတိုက်ပွဲတစ်ခုတွင်၊ Pokemon များကို ဇာတ်ကောင်တစ်ထောင်ကျော်ရှိသော ရေကန်တစ်ခုမှ ကျပန်းရွေးချယ်ခံရပြီး ၎င်းတို့တစ်ဦးစီသည် ကျိုးကြောင်းဆင်ခြင်နိုင်စွမ်းနှင့် Pokemon အသိပညာရှိသော ကွဲပြားသောဇာတ်ကောင်များပါရှိသည်။ 

POKELLMON : နည်းစနစ်နှင့် ဗိသုကာပညာ

POKELLMON မူဘောင်၏ အလုံးစုံမူဘောင်နှင့် တည်ဆောက်ပုံအား အောက်ပါပုံတွင် သရုပ်ဖော်ထားသည်။ 

အလှည့်တစ်ခုစီအတွင်း၊ POKELLMON မူဘောင်သည် ယခင်လုပ်ဆောင်ချက်များကို အသုံးပြုပြီး မူဝါဒကို အထပ်ထပ်အခါခါ ပြန်လည်ပြင်ဆင်ရန်အတွက် စွမ်းရည်/ရွေ့လျားမှုဆိုင်ရာ အကျိုးသက်ရောက်မှုများ သို့မဟုတ် အားသာချက်/အားနည်းချက် ဆက်စပ်မှုကဲ့သို့သော ပြင်ပအသိပညာဖြင့် လက်ရှိနိုင်ငံပိုင်အချက်အလက်များကို မြှင့်တင်ပေးပါသည်။ ထည့်သွင်းမှုအဖြစ် ပေးထားသည့် အချက်အလက်အတွက်၊ POKELLMON မူဘောင်သည် လုပ်ဆောင်ချက်များစွာကို သီးခြားလွတ်လပ်စွာ ထုတ်ပေးပြီး နောက်ဆုံးထွက်ရှိမှုအဖြစ် အကိုက်ညီဆုံးများကို ရွေးချယ်သည်။ 

In-Context Reinforcement Learning

လူသားကစားသမားများနှင့် အားကစားသမားများသည် လက်ရှိအခြေအနေအပေါ်အခြေခံ၍ ဆုံးဖြတ်ချက်များချလေ့ရှိသည်သာမက ယခင်လုပ်ဆောင်မှုများမှ တုံ့ပြန်မှုများအပြင် အခြားကစားသမားများ၏ အတွေ့အကြုံများကိုပါ ထင်ဟပ်စေသည်။ အပြုသဘောဆောင်သောတုံ့ပြန်ချက်သည် ကစားသမားတစ်ဦး၏အမှားများမှ သင်ခန်းစာယူရန်နှင့် တူညီသောအမှားကို ထပ်ခါတလဲလဲမပြုလုပ်မိစေရန် ရှောင်ကြဉ်သည်ဟု ဆိုရပေမည်။ သင့်လျော်သော တုံ့ပြန်ချက်မရှိဘဲ၊ POKELLMON အေးဂျင့်များသည် အောက်ပါပုံတွင်ပြသထားသည့်အတိုင်း တူညီသောအမှားအယွင်းလုပ်ဆောင်မှုကို စွဲမြဲနေနိုင်သည်။ 

၎င်းကို သတိပြုနိုင်သကဲ့သို့၊ ဂိမ်းအတွင်း အေးဂျင့်သည် ရေအခြေခံတိုက်ခိုက်မှုများကို ပျက်ပြယ်စေသည့် စွမ်းရည်ရှိသော Pokemon ဇာတ်ကောင်ကို ရေဖြင့်အခြေခံသည့် လှုပ်ရှားမှုကို အသုံးပြုကာ ၎င်းအား ရေအခြေခံတိုက်ခိုက်မှုများကို ပျက်ပြယ်စေပါသည်။ ဂိမ်းသည် လူသားကစားသမားတစ်ဦးအား ၎င်းတို့၏ လုပ်ဆောင်ချက်များကို ပြန်လည်စဉ်းစားရန်နှင့် “Dry Skin” အကြောင်းမသိဘဲ ပြောင်းလဲစေမည့် ဖန်သားပြင်ပေါ်ရှိ “Immune” ဟူသော မက်ဆေ့ချ်ကို မှိတ်တုတ်မှိတ်တုတ်ဖြင့် သုံးစွဲသူအား သတိပေးရန် ကြိုးပမ်းသည်။ သို့ရာတွင်၊ ၎င်းသည် အေးဂျင့်အတွက် ပြည်နယ်ဖော်ပြချက်တွင် မပါဝင်သောကြောင့် အေးဂျင့်သည် အလားတူအမှားမျိုး ထပ်မံပြုလုပ်ခဲ့သည်။ 

POKELLMON အေးဂျင့်သည် ၎င်း၏ယခင်အမှားများမှ သင်ယူကြောင်းသေချာစေရန်၊ မူဘောင်သည် In-Context Reinforcement Learning ချဉ်းကပ်မှုကို အကောင်အထည်ဖော်သည်။ အားဖြည့်သင်ယူခြင်းသည် စက်သင်ယူမှုတွင် ရေပန်းစားသောချဉ်းကပ်မှုတစ်ခုဖြစ်ပြီး ၎င်းသည် လုပ်ဆောင်ချက်များကို အကဲဖြတ်ရန် ဂဏန်းဆုလာဘ်များ လိုအပ်သောကြောင့် developer များအား သန့်စင်ရေးမူဝါဒတွင် ကူညီပေးပါသည်။ ကတည်းက ကြီးမားသောဘာသာစကားမော်ဒယ်များ ဘာသာစကားကို အဓိပ္ပာယ်ပြန်ဆိုခြင်းနှင့် နားလည်နိုင်စွမ်းရှိသည်၊ စာသားအခြေခံဖော်ပြချက်များသည် LLM များအတွက် ဆုလာဘ်ပုံစံအသစ်တစ်ခုအဖြစ် ပေါ်ထွက်လာပါသည်။ ယခင်လုပ်ဆောင်မှုများမှ စာသားအခြေခံ တုံ့ပြန်ချက်ပါ၀င်ခြင်းဖြင့်၊ POKELLMON အေးဂျင့်သည် ၎င်း၏မူဝါဒဖြစ်သော In-Context Reinforcement Learning ဟုခေါ်သော ၎င်း၏မူဝါဒကို ထပ်ခါတလဲလဲနှင့် ချက်ချင်းပြန်လည်ပြင်ဆင်နိုင်သည်။ POKELLMON မူဘောင်သည် တုံ့ပြန်ချက် အမျိုးအစား လေးခုကို ဖန်တီးပေးသည်၊

  1. HP ၏ ခြားနားချက်အပေါ် အခြေခံ၍ တိုက်ခိုက်မှု ရွေ့လျားမှုကြောင့် ဖြစ်ပေါ်လာသော အမှန်တကယ် ပျက်စီးမှုသည် နှစ်ကြိမ်ဆက်တိုက် ဖြစ်ပွားသည်။ 
  2. တိုက်ခိုက်မှု လှုပ်ရှားမှုများ၏ ထိရောက်မှု။ တုံ့ပြန်ချက်သည် အာနိသင်မရှိခြင်း သို့မဟုတ် ခုခံအားမရှိခြင်း၊ ထိရောက်မှုမရှိသော သို့မဟုတ် အလွန်ထိရောက်မှုရှိသော စွမ်းရည်/ရွေ့လျားမှုအကျိုးသက်ရောက်မှုများ သို့မဟုတ် အမျိုးအစားအားသာချက်များကြောင့် တိုက်ခိုက်ခြင်း၏ထိရောက်မှုကို ညွှန်ပြသည်။ 
  3. အပြောင်းအရွှေ့တစ်ခုကို လုပ်ဆောင်ရန်အတွက် ဦးစားပေးအမိန့်။ ဆန့်ကျင်ဘက် Pokemon ဇာတ်ကောင်အတွက် တိကျသောကိန်းဂဏန်းများကို မရရှိနိုင်သောကြောင့် ဦးစားပေးမှာယူမှု အကြံပြုချက်သည် အမြန်နှုန်းခန့်မှန်းချက်ကို အကြမ်းဖျင်းဖော်ပြပါသည်။ 
  4. ပြိုင်ဘက်အပေါ် အကျိုးသက်ရောက်စေသော လှုပ်ရှားမှုများ။ တိုက်ခိုက်မှုနှစ်ခုလုံးသည် ရွေ့လျားမှုများနှင့် အခြေအနေသည် HP ပြန်လည်ရယူရန်၊ stat boost သို့မဟုတ် debuffs၊ အေးခဲခြင်း၊ လောင်ကျွမ်းခြင်း သို့မဟုတ် အဆိပ်ကဲ့သို့သော အခြေအနေများကို ထိခိုက်စေခြင်းကဲ့သို့သော ရလဒ်များကို ဖြစ်ပေါ်စေနိုင်သည်။ 

ထို့အပြင်၊ In-Context Reinforcement Learning ချဉ်းကပ်မှုကို အသုံးပြုခြင်းသည် အောက်ပါပုံတွင်ပြသထားသည့်အတိုင်း စွမ်းဆောင်ရည်ကို သိသာထင်ရှားစွာ မြှင့်တင်ပေးပါသည်။ 

GPT-4 တွင် မူရင်းစွမ်းဆောင်ရည်ကို ဆန့်ကျင်သောအခါ၊ တိုက်ပွဲရမှတ်တွင် 10% နီးပါး မြှင့်တင်မှုနှင့်အတူ အနိုင်ရနှုန်းသည် 13% နီးပါးတက်လာသည်။ ထို့အပြင်၊ အောက်ဖော်ပြပါပုံတွင် သရုပ်ပြထားသည့်အတိုင်း၊ ယခင်ရွေ့လျားမှုများတွင် လုပ်ဆောင်ခဲ့သော မျှော်မှန်းချက်များနှင့် မကိုက်ညီပါက အေးဂျင့်သည် ၎င်း၏လုပ်ဆောင်ချက်ကို စတင်ခွဲခြမ်းစိတ်ဖြာပြီး ပြောင်းလဲပါသည်။ 

Knowledge-augmented Generation သို့မဟုတ် KAG

In-Context Reinforcement Learning ကို အကောင်အထည်ဖော်ခြင်းသည် အံ့အားသင့်စရာများကို အတိုင်းအတာတစ်ခုအထိ အထောက်အကူဖြစ်စေသော်လည်း၊ ၎င်းသည် အေးဂျင့်တုံ့ပြန်ချက်မရရှိမီ ဆိုးရွားသောအကျိုးဆက်များကို ဖြစ်ပေါ်စေနိုင်သေးသည်။ ဥပမာအားဖြင့်၊ အေးဂျင့်သည် မြက်ပင်အမျိုးအစား Pokemon နှင့် မီးအမျိုးအစား Pokemon ကို တိုက်ခိုက်ရန် ဆုံးဖြတ်ပါက၊ ယခင်သည် ဖြစ်နိုင်ချေ တစ်ကြိမ်တည်းတွင် အနိုင်ရဖွယ်ရှိသည်။ အထင်မှားခြင်းများကို ပိုမိုလျှော့ချရန်နှင့် အေးဂျင့်၏ဆုံးဖြတ်ချက်ချနိုင်စွမ်းကို မြှင့်တင်ရန်အတွက် POKELLMON မူဘောင်သည် Knowledge-Augmented Generation သို့မဟုတ် KAG ချဉ်းကပ်မှု၊ ပြင်ပအသိပညာကို အသုံးချသည့်နည်းပညာကို အသုံးပြုသည်။ တိုးမြှင့်မျိုးဆက်

ယခု၊ မော်ဒယ်သည် အထက်တွင်ဖော်ပြထားသော တုံ့ပြန်ချက် 4 မျိုးအား ထုတ်ပေးသောအခါတွင်၊ ၎င်းသည် Pokemon လှုပ်ရှားမှုများနှင့် အမျိုးအစားအားသာချက်ဆိုင်ရာ ဆက်ဆံရေးကို သူ့ဘာသာသူ ခန့်မှန်းနိုင်စေမည့် အေးဂျင့်အား ခွင့်ပြုပေးသည့် Pokemon ရွေ့လျားမှုနှင့် အချက်အလက်များကို မှတ်သားထားသည်။ ထပ်ဆင့်ဆင်ခြင်ခြင်းတွင်ပါရှိသော အံ့ဩခြင်းများကို လျှော့ချရန် ကြိုးပမ်းမှုတွင်၊ POKELLMON မူဘောင်သည် အမျိုးအစား အားသာချက်၊ ဆန့်ကျင်ဘက် Pokemon ၏ အားနည်းချက်၊ နှင့် အေးဂျင့်၏ Pokemon တို့ကို လုံလောက်သောဖော်ပြချက်များဖြင့် အတိအလင်းဖော်ပြပါသည်။ ထို့အပြင်၊ အထူးသဖြင့် Pokemon များ၏ထူးခြားသောအကျိုးသက်ရောက်မှုများနှင့်အတူလှုပ်ရှားမှုများနှင့်စွမ်းရည်များကိုအလွတ်ကျက်ရန်စိန်ခေါ်မှုရှိသည်။ အောက်ဖော်ပြပါဇယားသည် အသိပညာတိုးပွားလာသောမျိုးဆက်၏ရလဒ်များကို သရုပ်ပြသည်။ Knowledge Augmented Generation ချဉ်းကပ်မှုကို အကောင်အထည်ဖော်ခြင်းဖြင့် POKELLMON မူဘောင်သည် လက်ရှိ 20% မှ 36% မှ 55% ခန့်အနိုင်ရနှုန်းကို တိုးမြှင့်ပေးနိုင်သည်ကို သတိပြုသင့်ပါသည်။ 

ထို့အပြင်၊ ဆော့ဖ်ဝဲအင်ဂျင်နီယာသည် Pokemons များအကြောင်း ပြင်ပအသိပညာပေးသောအခါတွင် အောက်ပါပုံတွင်ပြထားသည့်အတိုင်း အထူးလှုပ်ရှားမှုများကို စတင်အသုံးပြုလာသည်ကို လေ့လာတွေ့ရှိရပါသည်။ 

တသမတ်တည်းလုပ်ဆောင်မှုမျိုးဆက်

လှုံ့ဆော်ခြင်းနှင့် ကျိုးကြောင်းဆင်ခြင်ခြင်းချဉ်းကပ်မှုများကို အကောင်အထည်ဖော်ခြင်းဖြင့် ရှုပ်ထွေးသောအလုပ်များကိုဖြေရှင်းရာတွင် LLMs စွမ်းရည်ကို မြှင့်တင်ပေးနိုင်ကြောင်း လက်ရှိမော်ဒယ်များက သရုပ်ပြသည်။ တစ်ချက်တည်းရိုက်ချက်တစ်ခုဖန်တီးမည့်အစား၊ POKELLMON မူဘောင်သည် CoT သို့မဟုတ် အတွေးကွင်းဆက်၊ ToT သို့မဟုတ် Tree of Thought နှင့် Self Consistency အပါအဝင် လက်ရှိလှုံ့ဆော်မှုဆိုင်ရာဗျူဟာများကို အကဲဖြတ်သည်။ Chain of Thought အတွက်၊ အေးဂျင့်သည် လက်ရှိ တိုက်ပွဲအခြေအနေအား ပိုင်းခြားစိတ်ဖြာပြီး အတွေးတွင် သတ်မှတ်ထားသော လုပ်ဆောင်ချက်တစ်ခုကို ထုတ်လွှတ်သည့် အတွေးတစ်ခုကို စတင်သည်။ Self Consistency အတွက်၊ ကိုယ်စားလှယ်သည် လုပ်ဆောင်ချက်များကို သုံးဆထုတ်ပေးပြီး မဲအများဆုံးရရှိသည့် ရလဒ်ကို ရွေးချယ်သည်။ နောက်ဆုံးတွင်၊ Tree of Thought ချဉ်းကပ်မှုအတွက်၊ မူဘောင်သည် မိမိကိုယ်မိမိ လိုက်လျောညီထွေမှုရှိသော ချဉ်းကပ်မှုတွင်ကဲ့သို့ လုပ်ဆောင်ချက်သုံးခုကို ထုတ်ပေးသည်၊ သို့သော် ၎င်းတို့အားလုံးကို ကိုယ်တိုင်အကဲဖြတ်ပြီးနောက် အကောင်းဆုံးဟု ယူဆသည့်အရာကို ရွေးပါ။ အောက်ပါဇယားသည် လှုံ့ဆော်ပေးသည့်ချဉ်းကပ်မှုများ၏ စွမ်းဆောင်ရည်ကို အကျဉ်းချုပ်ဖော်ပြထားသည်။ 

အလှည့်တစ်ခုစီအတွက် လုပ်ဆောင်ချက်တစ်ခုတည်းသာ ရှိပြီး အေးဂျင့်က ပြောင်းဖို့ ဆုံးဖြတ်ပြီး ပြိုင်ဘက်က တိုက်ခိုက်ဖို့ ဆုံးဖြတ်ရင်တောင်မှ switch-in Pokémon က ပျက်စီးသွားလိမ့်မယ်လို့ ဆိုလိုတာပါ။ သာမာန်အားဖြင့် အေးဂျင့်သည် ဆန့်ကျင်ဘက်ပိုကီမွန်၏ လှုပ်ရှားမှုများကို အမျိုးအစား-ခံနိုင်ရည်ရှိသောကြောင့် ပြောင်းရန် ဆုံးဖြတ်သည်၊ ထို့ကြောင့် Pokémon တွင် ကူးပြောင်းခြင်းသည် ပျက်စီးမှုကို ထိန်းထားနိုင်သောကြောင့် ဖြစ်သည်။ သို့ရာတွင်၊ အထက်တွင်ကဲ့သို့၊ CoT အကြောင်းပြချက်ဖြင့် အေးဂျင့်အတွက်၊ အားကောင်းသော ဆန့်ကျင်ဘက် Pokémon သည် အမျိုးမျိုးသော လှည့်ပတ်မှုကို တွန်းအားပေးသော်လည်း၊ ၎င်းသည် Pokemon သို့မပြောင်းချင်သော်လည်း ကျွန်ုပ်တို့အခေါ်အဝေါ်အရ Pokémon နှင့် back အများအပြားကို မစ်ရှင်နှင့် ကွဲလွဲစွာလုပ်ဆောင်သောကြောင့်၊ အထိတ်တလန့်ပြောင်းခြင်း။ အထိတ်တလန့် ကူးပြောင်းခြင်းသည် လှုပ်ရှားမှုများ ပြုလုပ်ရန် အခွင့်အလမ်းများကို ဖယ်ရှားပေးကာ ရှုံးနိမ့်ခြင်း ဖြစ်သည်။ 

POKELLMON : ရလဒ်များနှင့် စမ်းသပ်မှုများ

ရလဒ်များကို မဆွေးနွေးမီ၊ တိုက်ပွဲပတ်ဝန်းကျင်ကို နားလည်ရန် အရေးကြီးပါသည်။ အလှည့်၏အစတွင်၊ ပတ်ဝန်းကျင်သည် ဆာဗာထံမှ လုပ်ဆောင်ချက်-တောင်းဆိုချက် မက်ဆေ့ချ်ကို လက်ခံရရှိပြီး နောက်ဆုံးအလှည့်မှ လုပ်ဆောင်မှုရလဒ်ပါရှိသည့် ဤမက်ဆေ့ဂျ်ကို အဆုံးတွင် တုံ့ပြန်မည်ဖြစ်သည်။ 

  1. ပထမဦးစွာ မက်ဆေ့ချ်ကို ခွဲခြမ်းစိပ်ဖြာပြီး ဒေသန္တရပြည်နယ် ကိန်းရှင်များကို အပ်ဒိတ်လုပ်ပါ၊ 2. ထို့နောက် ပြည်နယ်ကိန်းရှင်များကို စာသားအဖြစ် ဘာသာပြန်ပါ။ စာသားဖော်ပြချက်တွင် အဓိကအားဖြင့် အပိုင်းလေးပိုင်းပါဝင်သည်- 1. Pokémon in-the-field နှင့် off-the-field (အသုံးမပြုသော) တို့ပါရှိသော ကိုယ်ပိုင်အဖွဲ့အချက်အလက်၊
  2. ပြိုင်ဘက် Pokémon ၏ အရည်အချင်းများ ပါဝင်သည့် ပြိုင်ဘက်အဖွဲ့ အချက်အလက်၊ (အချို့သော အချက်အလက်ကို မသိရသေးပါ)။
  3. ရာသီဥတု၊ ဝင်ရောက်မှုအန္တရာယ်များနှင့် မြေမျက်နှာသွင်ပြင်တို့ပါ၀င်သည့် စစ်မြေပြင်အချက်အလက်။
  4. Pokémon နှစ်ခုလုံး၏ ယခင်လုပ်ဆောင်မှုများပါ၀င်ပြီး မှတ်တမ်းတန်းစီခြင်းတွင် သိမ်းဆည်းထားသည့် သမိုင်းဝင်အလှည့်မှတ်တမ်းအချက်အလက်များ။ LLM များသည် နောက်တဆင့်အတွက် ဘာသာပြန်သည့်အခြေအနေကို ထည့်သွင်းခြင်းနှင့် အထွက်လုပ်ဆောင်ချက်များအဖြစ် ယူသည်။ ထို့နောက် လုပ်ဆောင်ချက်ကို ဆာဗာသို့ ပေးပို့ပြီး လူသား၏ လုပ်ဆောင်မှုအတိုင်း တစ်ချိန်တည်းတွင် လုပ်ဆောင်သည်။

လူသားကစားသမားများနှင့် တိုက်ပွဲ

အောက်ပါဇယားသည် လူသားကစားသမားများနှင့် ဆန့်ကျင်ဘက် POKELLMON အေးဂျင့်၏ စွမ်းဆောင်ရည်ကို သရုပ်ဖော်သည်။ 

သတိပြုနိုင်သကဲ့သို့ POKELLMON အေးဂျင့်သည် ဖိတ်ခေါ်ထားသည့်ကစားသမားနှင့် နှိုင်းယှဉ်ပါက ပိုမိုမြင့်မားသောအနိုင်ရနှုန်းရှိသည့် လှေကားကစားသမားများနှင့် နှိုင်းယှဉ်နိုင်သောစွမ်းဆောင်ရည်ကို ပေးဆောင်သည်။ 

တိုက်ပွဲကျွမ်းကျင်မှုဆန်းစစ်ခြင်း။

POKELLMON မူဘောင်သည် ထိရောက်သော လှုပ်ရှားမှုကို ရွေးချယ်ရာတွင် အမှားအယွင်းမရှိသလောက်နည်းပါးပြီး Knowledge Augmented Generation နည်းဗျူဟာကြောင့် အခြားသင့်လျော်သော Pokemon သို့ ပြောင်းသည်။ 

အထက်ဖော်ပြပါ ဥပမာတွင် ပြထားသည့်အတိုင်း၊ အေးဂျင့်သည် ပြိုင်ဘက်အသင်းတစ်ခုလုံးကို အနိုင်ယူရန် Pokemon တစ်ခုတည်းကိုသာ အသုံးပြု၍ မတူညီသောတိုက်ခိုက်မှုလှုပ်ရှားမှုများကို ရွေးချယ်နိုင်သောကြောင့် ထိုအခြေအနေတွင် ပြိုင်ဘက်အတွက် အထိရောက်ဆုံးဖြစ်သည်။ ထို့အပြင်၊ POKELLMON မူဘောင်သည် လူနှင့်တူသော သုတ်လိမ်းခြင်းဆိုင်ရာ ဗျူဟာကိုလည်း ပြသထားသည်။ အချို့သော Pokemon များသည် အလှည့်တစ်ခုစီတွင် အပိုပျက်စီးမှုများကို ထိခိုက်စေနိုင်သည့် “အဆိပ်” လှုပ်ရှားမှုတစ်ခုရှိပြီး “Recover” လှုပ်ရှားမှုသည် ၎င်း၏ HP ကို ​​ပြန်လည်ရယူရန် ခွင့်ပြုပေးထားသည်။ အလားတူအခွင့်ကောင်းယူပြီး၊ အေးဂျင့်သည် ဆန့်ကျင်ဘက် Pokemon ကို ဦးစွာအဆိပ်ခတ်ပြီး သူ့ကိုယ်သူ မူးမေ့ခြင်းမှ ကာကွယ်ရန် Recover လှုပ်ရှားမှုကို အသုံးပြုသည်။ 

နောက်ဆုံးထင်မြင်ချက်များ

ဤဆောင်းပါးတွင်၊ ကျွန်ုပ်တို့သည် လူသားများနှင့် Pokemon တိုက်ပွဲများကို အလိုအလျောက်ကစားနိုင်သည့် ကြီးမားသောဘာသာစကားမော်ဒယ်များကို လုပ်ဆောင်နိုင်သည့် ချဉ်းကပ်နည်းတစ်ခုဖြစ်သည့် POKELLMON အကြောင်း ဆွေးနွေးထားပါသည်။ POKELLMON သည် Pokemon တိုက်ပွဲများတွင် မြင်တွေ့ခဲ့ရသည့် ဗျူဟာဂိမ်းများတွင် လူသားအဆင့်စွမ်းဆောင်ရည်ကို ရရှိသည့် ကမ္ဘာ့ပထမဆုံးသော သရုပ်ဖော်အေးဂျင့်ဖြစ်လာရန် ရည်ရွယ်သည်။ POKELLMON မူဘောင်သည် လေ့ကျင့်မှုမပါဘဲ လှုပ်ရှားမှုမျိုးဆက်မူဝါဒကို ထပ်ခါတလဲလဲ ပြုပြင်မွမ်းမံရန်အတွက် စာသား-အခြေခံသည့် တုံ့ပြန်ချက်အား "ဆုလာဘ်" အဖြစ် အသုံးပြုသည့် In-Context Reinforcement Learning၊ လေ့ကျင့်မှုမပါဘဲ ပြင်ပအသိပညာကို ပြန်လည်ရယူသည့် Knowledge-augmented Generation၊ အချိန်နှင့်တပြေးညီ၊ အစွမ်းထက်သောပြိုင်ဘက်များနှင့်ကြုံတွေ့ရသောအခါ ထိတ်လန့်တုန်လှုပ်ခြင်းပြဿနာကို တားဆီးပေးသည့် တစ်သမတ်တည်းလုပ်ဆောင်မှုမျိုးဆက်။ 

"အသက်မွေးဝမ်းကြောင်းပြုသော အင်ဂျင်နီယာ၊ နှလုံးသားဖြင့် စာရေးဆရာ"။ Kunal သည် AI နှင့် ML တို့ကို နက်နက်ရှိုင်းရှိုင်း ချစ်မြတ်နိုးပြီး နားလည်မှုရှိသော နည်းပညာစာရေးဆရာတစ်ဦးဖြစ်ပြီး ဤနယ်ပယ်များရှိ ရှုပ်ထွေးသောအယူအဆများကို ရိုးရှင်းလွယ်ကူစေရန် ရည်ရွယ်၍ ၎င်း၏ပါဝင်ပတ်သက်မှုနှင့် သတင်းအချက်အလက်ဆိုင်ရာ စာရွက်စာတမ်းများမှတစ်ဆင့် သိရသည်။