ဆောင်းပါးတို Visual Autoregressive Modeling- Next-Scale Prediction မှတစ်ဆင့် အရွယ်တင်နိုင်သော ရုပ်ပုံထုတ်လုပ်ခြင်း- Unite.AI
ကြှနျုပျတို့နှငျ့အတူချိတ်ဆက်ပါ

ဉာဏ်ရည်တု

Visual Autoregressive Modeling- Next-Scale Prediction မှတဆင့် အရွယ်တင်နိုင်သော ပုံရိပ်မျိုးဆက်

mm

Published

 on

Visual Autoregressive Modeling- Next-Scale Prediction မှတဆင့် အရွယ်တင်နိုင်သော ပုံရိပ်မျိုးဆက်

အခြား autoregressive သို့မဟုတ် AR ကြီးမားသော ဘာသာစကားမော်ဒယ်များနှင့်အတူ GPT မော်ဒယ်များ ထွန်းကားမှုသည် စက်သင်ယူမှုနယ်ပယ်တွင် ခေတ်သစ်နှင့် ဉာဏ်ရည်တုကို ဖော်ထုတ်ပေးခဲ့သည်။ GPT နှင့် autoregressive မော်ဒယ်များသည် ယောင်ယောင်ချောက်ချားခြင်းကဲ့သို့သော ပြဿနာအချို့ရှိသော်လည်း ယေဘူယျအတုဉာဏ်ရည် သို့မဟုတ် AGI သို့ သိသာထင်ရှားသောခြေလှမ်းတစ်ခုဟု ယူဆရသည့် ယေဘုယျဉာဏ်ရည်နှင့် ဘက်စုံစွမ်းရည်ကို ပြသလေ့ရှိသည်။ သို့သော်၊ ဤကြီးမားသော မော်ဒယ်များ၏ ရှုပ်ထွေးပွေလီသော ပြဿနာမှာ မော်ဒယ်အား နောက်လာမည့် တိုကင်ကို ကြိုတင်ခန့်မှန်းနိုင်စေမည့် ရိုးရှင်းသော်လည်း ထိရောက်သော နည်းဗျူဟာတစ်ခုဖြစ်သည်။ မကြာသေးမီက လက်ရာများသည် ဤကြီးမားသော autoregressive မော်ဒယ်များ၏ အောင်မြင်မှုကို သရုပ်ပြခဲ့ပြီး ၎င်းတို့၏ ယေဘူယျဖြစ်နိုင်စွမ်းနှင့် ချဲ့ထွင်နိုင်မှုကို မီးမောင်းထိုးပြခဲ့သည်။ Scalability သည် သုတေသီများအား မော်ဒယ်ငယ်များ၏ စွမ်းဆောင်ရည်မှ ကြီးမားသော မော်ဒယ်များ၏ စွမ်းဆောင်ရည်ကို ခန့်မှန်းနိုင်စေပြီး အရင်းအမြစ်များကို ပိုမိုကောင်းမွန်စွာ ခွဲဝေရရှိစေမည့် လက်ရှိ အတိုင်းအတာဥပဒေများ၏ ပုံမှန်ဥပမာတစ်ခုဖြစ်သည်။ အခြားတစ်ဖက်တွင်၊ သုည-ရိုက်ချက်၊ တစ်ချက်ချက်နှင့် အနည်းအကျဉ်းသင်ယူမှုကဲ့သို့သော သင်ယူမှုနည်းဗျူဟာများဖြင့် ယေဘုယျဖြစ်နိုင်မှုကို မကြာခဏ သက်သေပြပြီး ကြီးကြပ်မထားသော လေ့ကျင့်သင်ကြားထားသော မော်ဒယ်များ၏ စွမ်းရည်ကို မီးမောင်းထိုးပြပြီး ကွဲပြားပြီး မမြင်ရသော အလုပ်များကို လိုက်လျောညီထွေဖြစ်အောင် လုပ်ဆောင်ပါ။ အတူတကွ၊ ယေဘူယျဖြစ်နိုင်စွမ်းနှင့် ချဲ့ထွင်နိုင်မှုသည် တံဆိပ်မကပ်ထားသော အချက်အလက်များစွာမှ သင်ယူရန် autoregressive မော်ဒယ်များ၏ အလားအလာကို ဖော်ပြသည်။ 

ဤဆောင်းပါးတွင်၊ ကျွန်ုပ်တို့သည် Visual AutoRegressive သို့မဟုတ် VAR မူဘောင်အကြောင်း၊ ရုပ်ပုံများပေါ်တွင် autoregressive သင်ယူမှုကို ကြမ်းမှိန်မှိန်မှိန်အထိ ပြန်လည်သတ်မှတ်ပေးသည့် မျိုးဆက်သစ်ပုံစံတစ်ခုဖြစ်သည့် Visual AutoRegressive သို့မဟုတ် VAR မူဘောင်အကြောင်း ပြောပါမည်။ . ရိုးရှင်းသော်လည်း၊ ချဉ်းကပ်မှုသည် ထိရောက်ပြီး autoregressive ထရန်စဖော်မာများကို အမြင်အာရုံဖြန့်ဝေမှုများကို ပိုမိုကောင်းမွန်စွာ လေ့လာနိုင်ပြီး ယေဘုယျဆန်နိုင်စွမ်းကို ပိုမိုကောင်းမွန်စေသည်။ ထို့အပြင်၊ Visual AutoRegressive မော်ဒယ်များသည် ရုပ်ပုံထုတ်လုပ်ခြင်းတွင် ပထမဆုံးအကြိမ် ပျံ့နှံ့မှုကူးပြောင်းမှုများကို ကျော်လွန်နိုင်စေရန် GPT-စတိုင် autoregressive မော်ဒယ်များကို အသုံးပြုနိုင်မည်ဖြစ်သည်။ စမ်းသပ်မှုများတွင် VAR မူဘောင်သည် autoregressive baselines များကို သိသိသာသာ တိုးတက်ကောင်းမွန်စေပြီး ဒေတာထိရောက်မှု၊ ရုပ်ပုံအရည်အသွေး၊ အတိုင်းအတာနှင့် အနုမာနအမြန်နှုန်းတို့အပါအဝင် အတိုင်းအတာများစွာတွင် Diffusion Transformer သို့မဟုတ် DiT မူဘောင်ကို ပိုမိုကောင်းမွန်စေကြောင်း သက်သေပြပါသည်။ ထို့အပြင်၊ Visual AutoRegressive မော်ဒယ်များကို ချဲ့ထွင်ခြင်းသည် ဘာသာစကား မော်ဒယ်ကြီးများနှင့် တူညီသော ပါဝါ-မက်မောမှု အတိုင်းအတာ ဥပဒေများကို သရုပ်ပြပြီး တည်းဖြတ်ခြင်း၊ ပန်းချီဆွဲခြင်းနှင့် ပန်းချီဆွဲခြင်း အပါအဝင် ရေအောက်ပိုင်းအလုပ်များတွင် လုံးဝရိုက်ချက်မရှိ ယေဘုယျလုပ်ဆောင်နိုင်စွမ်းကို ပြသသည်။ 

ဤဆောင်းပါးသည် Visual AutoRegressive မူဘောင်ကို နက်ရှိုင်းစွာ ခြုံငုံမိစေရန် ရည်ရွယ်ပြီး ယန္တရား၊ နည်းစနစ်၊ မူဘောင်၏ ဗိသုကာလက်ရာကို ၎င်း၏ အနုပညာမူဘောင်များနှင့် နှိုင်းယှဉ်ချက်နှင့်အတူ ကျွန်ုပ်တို့ ရှာဖွေလေ့လာပါသည်။ Visual AutoRegressive framework သည် LLMs များ၏ အရေးကြီးသော ဂုဏ်သတ္တိနှစ်ခုကို သရုပ်ပြပုံ- Scaling Laws နှင့် zero-shot အထွေထွေပြုလုပ်ခြင်းတို့ကိုလည်း ဆွေးနွေးပါမည်။ ဒါဆို စလိုက်ရအောင်။

Visual AutoRegressive Modeling- ရုပ်ပုံမျိုးဆက်ကို ချဲ့ထွင်ခြင်း။

မကြာသေးမီက ကြီးမားသော ဘာသာစကားမော်ဒယ်များကြားတွင် ဘုံပုံစံတစ်ခုသည် ဆက်တိုက်တွင် နောက်ထပ်တိုကင်ကို ခန့်မှန်းပေးသည့် ရိုးရှင်းသော်လည်း ထိရောက်သောချဉ်းကပ်မှုဖြစ်သည့် ကိုယ်တိုင်ကြီးကြပ်ကွပ်ကဲသည့် သင်ယူမှုဗျူဟာကို အကောင်အထည်ဖော်ခြင်းဖြစ်သည်။ ချဉ်းကပ်မှုကြောင့်၊ ယနေ့ခေတ်တွင် autoregressive နှင့် ကြီးမားသောဘာသာစကားမော်ဒယ်များသည် မှတ်သားလောက်သော အတိုင်းအတာအပြင် ယေဘုယျဖြစ်နိုင်စွမ်း၊ တံဆိပ်မပါသောဒေတာများစွာထဲမှ သင်ယူရန် autoregressive မော်ဒယ်များ၏ အလားအလာကိုဖော်ပြသည့် ဂုဏ်သတ္တိများကို ဖော်ပြသောကြောင့်၊ ထို့ကြောင့် General Artificial Intelligence ၏အနှစ်သာရကို အကျဉ်းချုပ်ဖော်ပြပါသည်။ ထို့အပြင်၊ DALL-E နှင့် VQGAN ကဲ့သို့သော မော်ဒယ်များသည် ၎င်းတို့၏ အထင်ကြီးလောက်နိုင်မှုနှင့် ယေဘူယျဖြစ်နိုင်စွမ်းကို ကိုက်ညီရန် သို့မဟုတ် သာလွန်စေရန် ရည်ရွယ်ချက်ဖြင့် ကြီးမားသော autoregressive သို့မဟုတ် ကမ္ဘာ့မော်ဒယ်များကို တီထွင်ရန် တပြိုင်နက် လုပ်ဆောင်နေပါသည်။ ပုံရိပ်မျိုးဆက်။ ဤမော်ဒယ်များသည် 2D တိုကင်များကို ဇယားကွက်အတွင်း ကိုယ်စားပြု သို့မဟုတ် အနီးစပ်ဆုံး စဉ်ဆက်မပြတ်ပုံများကို ကိုယ်စားပြုသော သို့မဟုတ် အနီးစပ်ဆုံး ရုပ်ပုံများကို ပုံဖော်ပေးသည့် တိုကင်များကို မကြာခဏ အကောင်အထည်ဖော်ကာ၊ ထို့နောက် autoregressive learning အတွက် 1D အစီအစဥ်အဖြစ် ပြားပြားချပ်ချပ်ဖြင့် ပြုလုပ်ထားသောကြောင့် ဆက်တိုက်ဘာသာစကား မော်ဒယ်လ်လုပ်ငန်းစဉ်ကို ထင်ဟပ်စေပါသည်။ 

သို့သော်၊ သုတေသီများသည် ဤမော်ဒယ်များ၏ အတိုင်းအတာနိယာမများကို စူးစမ်းလေ့လာခြင်းမရှိသေးဘဲ၊ ပိုမိုစိတ်ပျက်စရာကောင်းသည်မှာ ဤမော်ဒယ်များ၏ စွမ်းဆောင်ရည်သည် အောက်ဖော်ပြပါပုံတွင် ပြသထားသည့်အတိုင်း diffusion မော်ဒယ်များ၏ နောက်ကွယ်တွင် မကြာခဏ ကျဆင်းသွားခြင်းပင်ဖြစ်သည်။ စွမ်းဆောင်ရည် ကွာဟချက်က ကြီးမားသော ဘာသာစကား မော်ဒယ်များနှင့် နှိုင်းယှဉ်ပါက ကွန်ပြူတာ အမြင်တွင် autoregressive မော်ဒယ်များ၏ စွမ်းဆောင်ရည်ကို စူးစမ်းမှု နည်းပါးနေကြောင်း ညွှန်ပြနေသည်။ 

တစ်ဖက်တွင်၊ သမားရိုးကျ autoregressive မော်ဒယ်များသည် သတ်မှတ်ထားသော ဒေတာအစီအစဥ်တစ်ခု လိုအပ်ပြီး တစ်ဖက်တွင်၊ Visual AutoRegressive သို့မဟုတ် VAR မော်ဒယ်သည် ပုံတစ်ပုံအား မည်သို့မှာယူရမည်ကို ပြန်လည်စဉ်းစားပြီး ၎င်းသည် ရှိပြီးသား AR နည်းလမ်းများနှင့် VAR ကို ကွဲပြားစေသောအရာဖြစ်သည်။ ပုံမှန်အားဖြင့်၊ လူသားများသည် ပုံတစ်ပုံကို အထက်အောက်ပုံသဏ္ဍာန်ဖြင့် ဖန်တီး သို့မဟုတ် ရိပ်မိကြပြီး၊ ဒေသဆိုင်ရာအသေးစိတ်အချက်အလက်များဖြင့် ဖမ်းယူကာ၊ ပုံသဏ္ဌာန်အတွက် အစီအစဥ်ကို အကြံပြုသည့် နယ်ပယ်စုံ၊ ကြမ်းမှိန်သောချဉ်းကပ်မှုဖြင့် ကမ္ဘာလုံးဆိုင်ရာဖွဲ့စည်းပုံကို ဖမ်းယူကြသည်။ ထို့အပြင်၊ Multi-scale ဒီဇိုင်းများမှ စိတ်ကူးစိတ်သန်းများကို ရေးဆွဲရာတွင်၊ VAR မူဘောင်သည် သင်ယူမှုကို နောက်တိုကင်ခန့်မှန်းချက်အဖြစ် သတ်မှတ်သည့် သမားရိုးကျချဉ်းကပ်မှုများနှင့် ဆန့်ကျင်ကာ ပုံများအတွက် autoregressive learning ကို နောက်စကေးခန့်မှန်းချက်အဖြစ် သတ်မှတ်သည်။ VAR မူဘောင်မှ အကောင်အထည်ဖော်သည့်ချဉ်းကပ်မှုသည် ပုံတစ်ပုံအား အတိုင်းအတာများစွာသော တိုကင်မြေပုံများအဖြစ် ကုဒ်သွင်းခြင်းဖြင့် စတင်သည်။ ထို့နောက် မူဘောင်သည် 1×1 တိုကင်မြေပုံမှ autoregressive လုပ်ငန်းစဉ်ကို စတင်ကာ ကြည်လင်ပြတ်သားမှုတွင် တဖြည်းဖြည်း ချဲ့ထွင်လာသည်။ ခြေလှမ်းတိုင်းတွင်၊ ထရန်စဖော်မာသည် ယခင်အရာအားလုံးတွင် တပ်ဆင်ထားသော နောက်ထပ်ပိုမိုမြင့်မားသော ကြည်လင်ပြတ်သားသော တိုကင်မြေပုံကို ခန့်မှန်းပေးသည်၊၊ VAR မူဘောင်သည် VAR မော်ဒယ်အဖြစ် ရည်ညွှန်းသော နည်းစနစ်တစ်ခုဖြစ်သည်။ 

VAR မူဘောင်သည် အမြင်အာရုံ autoregressive learning အတွက် GPT-2 ၏ transformer ဗိသုကာကို အသုံးချရန် ကြိုးပမ်းနေပြီး VAR မော်ဒယ်သည် ၎င်း၏ AR အခြေခံလိုင်းကို သိသာထင်ရှားစွာ မြှင့်တင်ပေးသည့် FID 1.80 နှင့် အစပြုရမှတ် 356 ရှိသည့် ImageNet စံနှုန်းပေါ်တွင် ထင်ရှားပါသည်။ အနုမာနအမြန်နှုန်း 20x တိုးတက်မှုနှင့်အတူ။ ပို၍စိတ်ဝင်စားစရာကောင်းသည်မှာ VAR မူဘောင်သည် FID နှင့် IS ရမှတ်များ၊ အတိုင်းအတာ၊ အနုအရင့်အမြန်နှုန်းနှင့် ဒေတာထိရောက်မှုတို့အရ DiT သို့မဟုတ် Diffusion Transformer မူဘောင်၏ စွမ်းဆောင်ရည်ကို ကျော်တက်သွားခြင်းပင်ဖြစ်သည်။ ထို့အပြင်၊ Visual AutoRegressive မော်ဒယ်သည် ကြီးမားသောဘာသာစကားမော်ဒယ်များတွင်တွေ့မြင်ခဲ့ရသည့်အရာများနှင့်ဆင်တူသည့် ပြင်းထန်သောအတိုင်းအတာဥပဒေများကိုပြသထားသည်။ 

နိဂုံးချုပ်ရလျှင် VAR မူဘောင်သည် အောက်ပါပံ့ပိုးမှုများကို ပြုလုပ်ရန် ကြိုးစားသည်။ 

  1. ၎င်းသည် သမားရိုးကျ နောက်လာမည့် တိုကင်ဟောကိန်းကို ဆန့်ကျင်သည့် ဘက်စုံစကေး autoregressive ချဉ်းကပ်မှုအား အသုံးပြုသည့် အမြင်ဆိုင်ရာ မျိုးဆက်သစ် မူဘောင်အသစ်ကို အဆိုပြုထားသည်။ 
  2. ၎င်းသည် LLM များ၏ ဆွဲဆောင်မှုရှိသော ဂုဏ်သတ္တိများကို အတုယူသည့် သုည-ရိုက်ချက် ယေဘုယျပြုနိုင်သည့် အလားအလာနှင့်အတူ autoregressive မော်ဒယ်များအတွက် အတိုင်းအတာဆိုင်ရာ ဥပဒေများကို အတည်ပြုရန် ကြိုးပမ်းသည်။ 
  3. ၎င်းသည် GPT စတိုင် autoregressive frameworks များကို လက်ရှိထက်ကျော်သွားအောင် လုပ်ဆောင်ပေးသည့် visual autoregressive model များ၏ စွမ်းဆောင်ရည်ကို ဖြတ်တောက်ပေးပါသည်။ ပျံ့နှံ့မှုမော်ဒယ်များ ရုပ်ပုံပေါင်းစပ်ခြင်းလုပ်ငန်းများတွင် ပထမဆုံးအကြိမ်ဖြစ်သည်။ 

ထို့အပြင်၊ ဒေတာအစုံအရွယ်အစား၊ မော်ဒယ်ဘောင်များကြားမှ ဆက်နွယ်မှုကို သင်္ချာနည်းကျဖော်ပြသည့် တည်ဆဲပါဝါဥပဒေ အတိုင်းအတာဥပဒေများကို ဆွေးနွေးရန်လည်း အရေးကြီးပါသည်။ ပထမဦးစွာ၊ ဤပါဝါဥပဒေ အတိုင်းအတာဥပဒေများသည် မော်ဒယ်အရွယ်အစား၊ တွက်ချက်မှုကုန်ကျစရိတ်နှင့် ဒေတာအရွယ်အစားကို ချဲ့ထွင်ခြင်းဖြင့် မလိုအပ်သောကုန်ကျစရိတ်များကို ချွေတာပြီး လေ့ကျင့်ရေးဘတ်ဂျက်များကို ခွဲဝေပေးခြင်းဖြင့် ပိုမိုကြီးမားသော မော်ဒယ်၏စွမ်းဆောင်ရည်ကို လွယ်ကူချောမွေ့စေပါသည်။ ဒုတိယ၊ ချဲ့ထွင်ခြင်းဥပဒေများသည် စွမ်းဆောင်ရည်တွင် တသမတ်တည်းနှင့် မပြည့်ဝသော တိုးလာမှုကို သက်သေပြခဲ့သည်။ အာရုံကြောဘာသာစကားမော်ဒယ်များတွင် အတိုင်းအတာဥပဒေများကို ချဲ့ထွင်ခြင်းဆိုင်ရာ နိယာမများနှင့်အတူ ရှေ့သို့ချီတက်ရာတွင်၊ LLM အများအပြားသည် မော်ဒယ်များ၏ အတိုင်းအတာကို တိုးမြှင့်ခြင်းသည် ပိုမိုကောင်းမွန်သော စွမ်းဆောင်ရည် ရလဒ်များကို ထုတ်ပေးလေ့ရှိသည်ဟူသော နိယာမကို ဖော်ညွှန်းပါသည်။ အခြားတစ်ဖက်တွင် Zero-shot ယေဘူယျသတ်မှတ်ခြင်းသည် မော်ဒယ်တစ်ခု၏စွမ်းရည်ကို ရည်ညွှန်းသည်၊ အထူးသဖြင့် ၎င်းအား ပြတ်သားစွာမလေ့ကျင့်ရသေးသောအလုပ်များကိုလုပ်ဆောင်သည့် LLM တစ်ခုဖြစ်သည်။ ကွန်ပြူတာအမြင် ဒိုမိန်းအတွင်း၊ အုတ်မြစ်ကို သုညရိုက်ချက်ဖြင့် တည်ဆောက်ရန် စိတ်ပါဝင်စားမှုနှင့် ဖောင်ဒေးရှင်းမော်ဒယ်များ၏ ဆက်စပ်သင်ယူမှုစွမ်းရည်များ။ 

ဘာသာစကားမော်ဒယ်များသည် စာသားတိုကင်ပြုလုပ်ခြင်းအတွက် WordPiece algorithms သို့မဟုတ် Byte Pair Encoding ချဉ်းကပ်မှုအပေါ် အားကိုးသည်။ ဘာသာစကားမော်ဒယ်များကိုအခြေခံ၍ Visual မျိုးဆက်မော်ဒယ်များသည် 2D ရုပ်ပုံများကို 1D တိုကင်အစီအစဉ်များအဖြစ် ကုဒ်သွင်းခြင်းအပေါ် ကြီးမားစွာ အားကိုးပါသည်။ VQVAE ကဲ့သို့ အစောပိုင်းလက်ရာများသည် အလယ်အလတ်ပြန်လည်တည်ဆောက်မှုအရည်အသွေးဖြင့် ရုပ်ပုံများကို သီးခြားတိုကင်များအဖြစ် ကိုယ်စားပြုနိုင်စွမ်းကို ပြသခဲ့သည်။ VQVAE ၏ဆက်ခံသူဖြစ်သည့် VQGAN မူဘောင်သည် ပုံ၏သစ္စာစောင့်သိမှုကို မြှင့်တင်ရန်အတွက် အာရုံခံမှုနှင့် ဆန့်ကျင်ဘက်ဆုံးရှုံးမှုများကို ပေါင်းစပ်ထည့်သွင်းထားပြီး၊ ပုံတိုကင်များကို ပုံမှန် raster-scan autoregressive ပုံစံဖြင့် ထုတ်လုပ်ရန် ဒီကုဒ်ဒါတစ်ခုတည်းသာ ထရန်စဖော်မာကိုလည်း အသုံးပြုခဲ့သည်။ အခြားတစ်ဖက်တွင် ပျံ့နှံ့မှုပုံစံများသည် ၎င်းတို့၏ကွဲပြားမှုနှင့် သာလွန်ကောင်းမွန်သောမျိုးဆက်အရည်အသွေးကို ပေးဆောင်ပေးထားသည့် အမြင်အာရုံပေါင်းစပ်ခြင်းလုပ်ငန်းဆောင်တာများအတွက် ရှေ့ပြေးလုပ်ဆောင်သူများအဖြစ် ကာလကြာရှည်စွာ မှတ်ယူခဲ့ကြသည်။ diffusion မော်ဒယ်များ၏ တိုးတက်မှုသည် နမူနာနည်းပညာများ ပိုမိုကောင်းမွန်လာခြင်း၊ ဗိသုကာဆိုင်ရာ မြှင့်တင်မှုများနှင့် ပိုမိုမြန်ဆန်စွာ နမူနာယူခြင်းတို့ကို ဗဟိုပြုထားပါသည်။ Latent diffusion မော်ဒယ်များသည် လေ့ကျင့်မှု ထိရောက်မှုနှင့် အနုမာနကို တိုးတက်ကောင်းမွန်စေသည့် ငုပ်လျှိုးနေသော အာကာသအတွင်း ပျံ့နှံ့မှုကို သက်ရောက်သည်။ Diffusion Transformer မော်ဒယ်များသည် ရိုးရာ U-Net ဗိသုကာကို Transformer-based ဗိသုကာဖြင့် အစားထိုးပြီး ၎င်းကို SORA ကဲ့သို့ မကြာသေးမီက ရုပ်ပုံ သို့မဟုတ် ဗီဒီယိုပေါင်းစပ်မှုပုံစံများတွင် အသုံးပြုထားပြီး၊ တည်ငြိမ်သောပျံ့နှံ့မှု

Visual AutoRegressive - နည်းစနစ်နှင့် ဗိသုကာပညာ

၎င်း၏အဓိကတွင်၊ VAR မူဘောင်တွင် သီးခြားလေ့ကျင့်ရေးအဆင့် နှစ်ခုရှိသည်။ ပထမအဆင့်တွင်၊ Multi-scale quantized autoencoder သို့မဟုတ် VQVAE သည် ပုံတစ်ပုံကို တိုကင်မြေပုံများအဖြစ် ကုဒ်လုပ်ပြီး ပေါင်းစပ်ပြန်လည်တည်ဆောက်မှု ဆုံးရှုံးမှုကို လေ့ကျင့်ရေးရည်ရွယ်ချက်အတွက် လုပ်ဆောင်သည်။ အထက်ပါပုံတွင် embedding သည် discrete token များကို စဉ်ဆက်မပြတ်ထည့်သွင်းထားသော vector များအဖြစ်သို့ ပြောင်းလဲသတ်မှတ်ရန် အသုံးပြုသော စကားလုံးဖြစ်သည်။ ဒုတိယအဆင့်တွင်၊ VAR မော်ဒယ်ရှိ transformer သည် cross-entroy ဆုံးရှုံးမှုကို လျှော့ချခြင်းဖြင့် သို့မဟုတ် နောက်စကေးခန့်မှန်းချက်ချဉ်းကပ်မှုအား အသုံးပြု၍ ဖြစ်နိုင်ခြေကို အမြင့်မားဆုံးဖြစ်အောင် လေ့ကျင့်ထားသည်။ ထို့နောက် လေ့ကျင့်သင်ကြားထားသော VQVAE သည် VAR မူဘောင်အတွက် တိုကင်မြေပုံအခြေခံအမှန်တရားကို ထုတ်လုပ်သည်။ 

Next-Token Prediction မှတဆင့် Autoregressive Modeling

တိုကင်တစ်ခုစီသည် အရွယ်အစား V ၏ ကိန်းဂဏန်းတစ်ခုမှ ကိန်းပြည့်ဖြစ်နေသည့် သီးခြားတိုကင်များ၏ အစီအစဥ်တစ်ခုအတွက်၊ နောက်တိုကင် autoregressive မော်ဒယ်သည် လက်ရှိတိုကင်ကို စောင့်ကြည့်နိုင်ခြေသည် ၎င်း၏ရှေ့ဆက်ပေါ်တွင်သာ မူတည်သည်ဟု ရှေ့တန်းတင်ထားသည်။ unidirectional token dependency သည် VAR မူဘောင်ကို အခြေအနေအရ ဖြစ်နိုင်ခြေများ၏ ရလဒ်အဖြစ် စီစဥ်ခြင်း၏ အခွင့်အလမ်းများကို ပြိုကွဲသွားစေနိုင်သည်။ လေ့ကျင့်ရေးတွင် autoregressive model သည် dataset တစ်ခုအတွင်း မော်ဒယ်ကို ပိုကောင်းအောင်ပြုလုပ်ခြင်း ပါ၀င်ပြီး ဤ optimization process ကို ခေါ်သည် ။ နောက်-တိုကင် ခန့်မှန်းချက်နှင့် လေ့ကျင့်သင်ကြားထားသော မော်ဒယ်အား ဆက်တိုက်အသစ်များ ဖန်တီးနိုင်စေပါသည်။ ထို့အပြင်၊ ရုပ်ပုံများသည် အမွေဆက်ခံခြင်းဖြင့် 2D ဆက်တိုက်အချက်ပြမှုများဖြစ်ပြီး၊ နောက်တိုကင်ကြိုတင်ခန့်မှန်းခြင်း ပိုမိုကောင်းမွန်အောင်လုပ်ဆောင်ခြင်းလုပ်ငန်းစဉ်မှတစ်ဆင့် ပုံများသို့ autoregressive modeling ချဉ်းကပ်မှုကို ကျင့်သုံးရန် ကြိုတင်လိုအပ်ချက်အနည်းငယ်ရှိသည်။ ပထမဦးစွာ၊ ပုံအား သီးခြားတိုကင်များစွာအဖြစ် တိုကင်ထိုးရန် လိုအပ်သည်။ အများအားဖြင့်၊ ရုပ်ပုံအင်္ဂါရပ်မြေပုံကို သီးခြားတိုကင်များအဖြစ်သို့ ပြောင်းလဲရန် ပမာဏသတ်မှတ်ထားသော အော်တိုကုဒ်ဒါကို အသုံးပြုထားသည်။ ဒုတိယ၊ တစ်ခုတည်းသော လမ်းညွှန်ပုံစံပြုလုပ်ရန်အတွက် 1D တိုကင်အစီစဥ်ကို သတ်မှတ်ရပါမည်။ 

သီးခြားတိုကင်များရှိ ရုပ်ပုံတိုကင်များကို 2D ဇယားကွက်တွင် စီစဥ်ထားပြီး၊ ပုံမှန်အားဖြင့် ဘယ်မှညာသို့ အစဉ်လိုက်သည့် သဘာဝဘာသာစကားစာကြောင်းများနှင့် မတူဘဲ၊ ပုံသေတိုကင်များ၏ အစီအစဥ်ကို unidirectional autoregressive learning အတွက် အတိအလင်း သတ်မှတ်ရပါမည်။ အစောပိုင်း autoregressive ချဉ်းကပ်မှုများသည် discrete tokens များ၏ 2D ဂရစ်ကို အတန်း-အဓိက raster scan၊ z-curve သို့မဟုတ် spiral order ကဲ့သို့သော နည်းလမ်းများကို အသုံးပြု၍ 1D အတွဲအဖြစ်သို့ ပြားစေပါသည်။ သီးခြားတိုကင်များကို ပြားချပ်ချပ်ဖြစ်စေပြီးသည်နှင့်၊ AR မော်ဒယ်များသည် dataset မှ sequences အစုအဝေးတစ်ခုကို ထုတ်နုတ်ပြီး နောက်-တိုကင်ကြိုတင်ခန့်မှန်းခြင်းဖြင့် T conditional probabilities ၏ ဖြစ်နိုင်ခြေကို အမြင့်ဆုံးဖြစ်လာနိုင်စေရန် autoregressive model တစ်ခုကို လေ့ကျင့်သင်ကြားပေးပါသည်။ 

Next-Scale Prediction မှတဆင့် Visual-AutoRegressive Modeling

VAR မူဘောင်သည် တိုကင်တစ်ခုတည်းဖြစ်မည့်အစား autoregressive ယူနစ်သည် တိုကင်မြေပုံတစ်ခုလုံးကို တိုကင်မြေပုံတစ်ခုလုံးအဖြစ် ပြောင်းလဲခြင်းဖြင့် ရုပ်ပုံများပေါ်တွင် autoregressive modeling ကို ပြန်လည်ပုံဖော်ပေးပါသည်။ မော်ဒယ်သည် ပထမဦးစွာ အင်္ဂါရပ်မြေပုံကို အတိုင်းအတာများစွာသော တိုကင်မြေပုံများအဖြစ် တိုင်းတာပြီး တစ်ခုစီသည် ယခင်ထက် ပိုမိုကြည်လင်ပြတ်သားမှုရှိသော မြေပုံများနှင့် မူရင်းအင်္ဂါရပ်မြေပုံများ၏ ကြည်လင်ပြတ်သားမှုကို ကိုက်ညီခြင်းဖြင့် အဆုံးသတ်သည်။ ထို့အပြင်၊ VAR မူဘောင်သည် VAR သင်ယူမှုအတွက် လိုအပ်သော ပုံတစ်ပုံအား ပုံတစ်ပုံကို Multi-scale discrete တိုကင်မြေပုံများအဖြစ် ကုဒ်လုပ်ရန်အတွက် Multi-scale quantization encoder အသစ်ကို တီထွင်ပေးပါသည်။ VAR မူဘောင်သည် VQGAN ကဲ့သို့တူညီသောဗိသုကာပညာကိုအသုံးပြုထားသော်လည်း အောက်ပါပုံတွင်ဖော်ပြထားသော algorithms များဖြင့် ပြုပြင်ထားသော multi-scale quantization အလွှာနှင့်အတူ၊ 

Visual AutoRegressive - ရလဒ်များနှင့် စမ်းသပ်မှုများ

VAR မူဘောင်သည် K အပို convolution ဖြင့် များပြားသော ပမာဏခွဲထုတ်မှု အစီအစဉ်ဖြင့် vanilla VQVAE ဗိသုကာကို အသုံးပြုပြီး စကေးအားလုံးအတွက် မျှဝေထားသော ကုဒ်စာအုပ်နှင့် 32 ငုပ်လျှိုးနေသော မှိန်ဖျော့ဖျော့ကို အသုံးပြုထားသည်။ မော်ဒယ်ဗိသုကာဒီဇိုင်းကြောင့် VAR အယ်လဂိုရီသမ်အပေါ် အဓိကအာရုံစိုက်သည်။ ရိုးရှင်းသော်လည်း ထိရောက်မှုရှိသည်။ မူဘောင်သည် GPT-2 မော်ဒယ်များတွင် အကောင်အထည်ဖော်သည့် စံပြကုဒ်ဒါ-သီးသန့် ထရန်စဖော်မာ၏ တည်ဆောက်ပုံအား လက်ခံသည်၊ တစ်ခုတည်းသော ပြုပြင်မွမ်းမံမှုမှာ ရိုးရာအလွှာကို ပုံမှန်ဖြစ်အောင် အစားထိုးခြင်း သို့မဟုတ် AdaLN အတွက် အစားထိုးခြင်း ဖြစ်သည်။ အတန်းအခြေအနေဆိုင်ရာပေါင်းစပ်မှုအတွက်၊ VAR မူဘောင်သည် အတန်းမြှုပ်သွင်းမှုများကို စတင်သည့်တိုကင်အဖြစ်နှင့် လိုက်လျောညီထွေဖြစ်အောင်ပြုလုပ်သည့်အလွှာ၏အခြေအနေကိုလည်း လုပ်ဆောင်သည်။ 

အနုပညာပုံရိပ်မျိုးဆက်ရလဒ်များ

ရှိပြီးသား မျိုးဆက်သစ်မူဘောင်များနှင့် ဆန့်ကျင်ဘက် တွဲထားသည့်အခါ အပါအဝင် GANs သို့မဟုတ် Generative Adversarial NetworksBERT ပုံစံ မျက်နှာဖုံးစွပ်ထားသော ခန့်မှန်းမော်ဒယ်များ၊ ပျံ့နှံ့မှု မော်ဒယ်များနှင့် GPT ပုံစံ autoregressive မော်ဒယ်များ၊ Visual AutoRegressive မူဘောင်သည် အောက်ပါဇယားတွင် အကျဉ်းချုံးထားသော အလားအလာရှိသော ရလဒ်များကို ပြသသည်။ 

၎င်းကို သတိပြုနိုင်သကဲ့သို့ Visual AutoRegressive မူဘောင်သည် အကောင်းဆုံး FID နှင့် IS ရမှတ်များကို စွမ်းဆောင်နိုင်ရုံသာမက အနုပညာမော်ဒယ်များ၏ အခြေအနေနှင့် နှိုင်းယှဉ်ပါက အံ့သြဖွယ်ကောင်းသော ရုပ်ပုံထုတ်လုပ်ခြင်းအမြန်နှုန်းကိုလည်း ပြသသည်။ ထို့အပြင်၊ VAR မူဘောင်သည် ကျေနပ်ဖွယ်ကောင်းသော တိကျမှုနှင့် ပြန်လည်သိမ်းဆည်းမှုရမှတ်များကို ထိန်းသိမ်းထားပြီး ၎င်း၏အသုံးအနှုန်းဆိုင်ရာ ညီညွတ်မှုကို အတည်ပြုသည်။ သို့သော် အမှန်တကယ် အံ့အားသင့်စရာမှာ သမားရိုးကျ AR စွမ်းရည်လုပ်ဆောင်မှုများတွင် VAR မူဘောင်မှ ပေးဆောင်သော ထူးထူးခြားခြား စွမ်းဆောင်ရည်ဖြစ်ပြီး ၎င်းသည် အောက်ပါဇယားတွင်ပြသထားသည့်အတိုင်း Diffusion Transformer မော်ဒယ်ကို စွမ်းဆောင်ရည်ထက် သာလွန်သော ပထမဆုံး autoregressive မော်ဒယ်ဖြစ်လာသည်။ 

Zero-Shot Task Generalization ရလဒ်

ပန်းချီဆွဲခြင်း လုပ်ငန်းများအတွက်၊ VAR မူဘောင်သည် ဆရာ-ဆရာမသည် မျက်နှာဖုံးအပြင်ဘက်တွင် မြေပြင်အမှန်တရား တိုကင်များကို တွန်းအားပေးပြီး မော်ဒယ်အား အတန်းအစား အညွှန်းအချက်အလက်များကို မော်ဒယ်ထဲသို့ ထိုးသွင်းခြင်းမရှိဘဲ မျက်နှာဖုံးအတွင်းမှ တိုကင်များကိုသာ ထုတ်လုပ်ခွင့်ပေးသည်။ ရလဒ်များကို အောက်ပါပုံတွင် သရုပ်ပြထားပြီး မြင်နိုင်သကဲ့သို့၊ VAR မော်ဒယ်သည် ချိန်ညှိခြင်းဘောင်များ သို့မဟုတ် ကွန်ရက်ဗိသုကာကို မွမ်းမံခြင်းမရှိဘဲ VAR မူဘောင်၏ ယေဘူယျဖြစ်နိုင်မှုကို သရုပ်ပြခြင်းမရှိဘဲ ရေအောက်လုပ်ဆောင်မှုများတွင် လက်ခံနိုင်သောရလဒ်များကို ရရှိသည်။ 

နောက်ဆုံးထင်မြင်ချက်များ

ဤဆောင်းပါးတွင်၊ Visual AutoRegressive မော်ဒယ်လ် (VAR) ဟု အမည်ပေးထားသည့် အမြင်ဆိုင်ရာ မျိုးဆက်သစ် မူဘောင်တစ်ခုအကြောင်း ပြောဆိုထားပြီး 1) စံရုပ်ပုံ autoregressive (AR) မော်ဒယ်များတွင် ပါ၀င်သော ပြဿနာအချို့ကို သီအိုရီအရ ဖြေရှင်းပေးပြီး 2) ဘာသာစကား-မော်ဒယ်-အခြေခံ AR မော်ဒယ်များကို ပထမဦးစွာ ကျော်တက်စေသည် ရုပ်ပုံအရည်အသွေး၊ ကွဲပြားမှု၊ ဒေတာထိရောက်မှု၊ နှင့် အနုမာနအမြန်နှုန်းတို့၌ ပြင်းထန်သောပျံ့နှံ့မှုပုံစံများ။ တစ်ဖက်တွင်၊ သမားရိုးကျ autoregressive မော်ဒယ်များသည် သတ်မှတ်ထားသော ဒေတာအစီအစဥ်တစ်ခု လိုအပ်ပြီး တစ်ဖက်တွင်၊ Visual AutoRegressive သို့မဟုတ် VAR မော်ဒယ်သည် ပုံတစ်ပုံအား မည်သို့မှာယူရမည်ကို ပြန်လည်စဉ်းစားပြီး ၎င်းသည် ရှိပြီးသား AR နည်းလမ်းများနှင့် VAR ကို ကွဲပြားစေသောအရာဖြစ်သည်။ VAR ဘောင်များကို 2 ဘီလီယံအထိ ချဲ့ထွင်လိုက်သောအခါ၊ VAR မူဘောင်၏ developer များသည် စမ်းသပ်မှုစွမ်းဆောင်ရည်နှင့် မော်ဒယ်ကန့်သတ်ချက်များ သို့မဟုတ် လေ့ကျင့်ရေးတွက်ချက်မှုကြားတွင် ရှင်းလင်းပြတ်သားသော ပါဝါဥပဒေဆိုင်ရာ ဆက်ဆံရေးကို Pearson coefficients −0.998 အနီးရှိ၊ စွမ်းဆောင်ရည်ခန့်မှန်းမှုအတွက် ခိုင်မာသောမူဘောင်ကို ညွှန်ပြသည်။ LLM များ၏ လက္ခဏာများအဖြစ် ဤအတိုင်းအတာ အတိုင်းအတာဥပဒေများနှင့် သုည-ရိုက်ချက်မရှိသော လုပ်ငန်းဆောင်တာများ ယေဘုယျလုပ်ဆောင်နိုင်ခြေကို ယခုအခါ ကျွန်ုပ်တို့၏ VAR Transformer မော်ဒယ်များတွင် ကနဦးစစ်ဆေးပြီးပါပြီ။ 

"အသက်မွေးဝမ်းကြောင်းပြုသော အင်ဂျင်နီယာ၊ နှလုံးသားဖြင့် စာရေးဆရာ"။ Kunal သည် AI နှင့် ML တို့ကို နက်နက်ရှိုင်းရှိုင်း ချစ်မြတ်နိုးပြီး နားလည်မှုရှိသော နည်းပညာစာရေးဆရာတစ်ဦးဖြစ်ပြီး ဤနယ်ပယ်များရှိ ရှုပ်ထွေးသောအယူအဆများကို ရိုးရှင်းလွယ်ကူစေရန် ရည်ရွယ်၍ ၎င်း၏ပါဝင်ပတ်သက်မှုနှင့် သတင်းအချက်အလက်ဆိုင်ရာ စာရွက်စာတမ်းများမှတစ်ဆင့် သိရသည်။