ဆောင်းပါးတို AI-အခြေခံ မျိုးဆက်သစ်စာရေးပုံစံများ မကြာခဏ 'ကူးယူပြီး ကူးထည့်ပါ' အရင်းအမြစ်ဒေတာ - Unite.AI
ကြှနျုပျတို့နှငျ့အတူချိတ်ဆက်ပါ

ဉာဏ်ရည်တု

AI-အခြေခံ မျိုးဆက်သစ်စာရေးပုံစံများ မကြာခဏ 'ကူးယူပြီး ကူးထည့်ပါ' အရင်းအမြစ်ဒေတာ

mm
နောက်ဆုံးရေးသားချိန် on

အမေရိကန် ပြဇာတ်ရေးဆရာနှင့် စွန့်ဦးတီထွင်သူ Wilson Mizner သည် 'စာရေးဆရာတစ်ယောက်ထံမှ ခိုးယူလိုက်သောအခါ၊ ၎င်းသည် ခိုးယူခြင်းဖြစ်သည်၊ တော်တော်များများဆီက ခိုးရင် အဲဒါ သုတေသနပဲ’’

အလားတူ ယူဆချက်လေးကတော့ မျိုးဆက်သစ် AI အခြေခံ ဖန်တီးမှုဆိုင်ရာ အရေးအသားစနစ်များ ၏ အဓိပ္ပါယ်မှာ၊ ဒေတာပမာဏများစွာ လေ့ကျင့်ရေးအဆင့်မှာ သူတို့ကို ကျွေးမွေးတဲ့ စစ်မှန်တဲ့ ရလဒ်ကို ရရှိစေတယ်။ abstraction မြင့်မားသောအဆင့် အယူအဆများနှင့် အတွေးအခေါ်များ၊ AI သည် ဆန်းသစ်ဆန်းသစ်ပြီး မူရင်းအရေးအသားကို ပုံဖော်ပေးနိုင်သည့် ထောင်ပေါင်းများစွာသော ပံ့ပိုးကူညီသူ စာရေးဆရာများ၏ ရေစက်ပေါက်ပညာကို ဤစနစ်များက ကိုင်တွယ်ဖြေရှင်းနိုင်စေရန်၊ ၎င်းစနစ်များကို အသုံးပြုသူများသည် ၎င်းတို့သည် ခိုးကူးစနစ်ဖြင့် ပရောက်စီကို ဂရုမစိုက်ဘဲ မနှစ်မြို့ကြကြောင်း သေချာနိုင်ပါသည်။

၎င်းသည် သုတေသနလုပ်ငန်းစု (Facebook နှင့် Microsoft ၏ AI သုတေသနဌာနခွဲများအပါအဝင်) မှ သုတေသနလုပ်ငန်းစုတစ်ခုမှ စာတမ်းအသစ်တစ်ခုက စိန်ခေါ်ထားသည့် ယူဆချက်တစ်ခုဖြစ်ပြီး GPT စီးရီးကဲ့သို့သော စက်သင်ယူခြင်းဆိုင်ရာ မျိုးဆက်သစ်ဘာသာစကားမော်ဒယ်များကို တွေ့ရှိခဲ့ကြောင်း၊ 'ရံဖန်ရံခါ ရှည်လျားသော စာပိုဒ်များကိုပင် ကူးယူသည်' ထည့်သွင်းတွက်ချက်ခြင်းမပြုဘဲ ၎င်းတို့၏ ထင်မြင်ယူဆထားသော မူရင်းထွက်ရှိမှုသို့၊

အချို့ကိစ္စများတွင်၊ စာရေးသူအနေဖြင့် GPT-2 သည် ၎င်း၏ output တွင်သတ်မှတ်ထားသောလေ့ကျင့်မှုမှ စကားလုံး 1,000 ကျော်ကို ပွားနေမည်ကို သတိပြုပါ။

အဆိုပါ စက္ကူ ခေါင်းစဉ်ဖြစ်ပါတယ် ဘာသာစကားမော်ဒယ်များသည် ၎င်းတို့၏လေ့ကျင့်ရေးဒေတာမှ မည်မျှကူးယူသနည်း။ RAVEN ကို အသုံးပြု၍ စာသားမျိုးဆက်တွင် ဘာသာစကားအသစ်အဆန်းများကို အကဲဖြတ်ခြင်း။Johns Hopkins တက္ကသိုလ်၊ Microsoft သုတေသန၊ New York University နှင့် Facebook AI Research တို့ကြား ပူးပေါင်းဆောင်ရွက်ခြင်း ဖြစ်သည်။

ရဗန်

လေ့လာမှုသည် ဂန္ထဝင်ကဗျာတစ်ပုဒ်၏ ကြက်ငှက်ဗီလိန်ကို ထင်ဟပ်စေရန် ဖျော်ဖြေမှုဖြင့် ညှဉ်းပန်းနှိပ်စက်ခံထားရသည့် RAVEN (RAtingVerbalNovelty) ဟုခေါ်သော ချဉ်းကပ်မှုအသစ်ကို အသုံးပြုထားသည်။

'ဤအတိုကောက်သည် Edgar Allan Poe မှ "The Raven" ကို ရည်ညွှန်းပြီး ဇာတ်ကြောင်းပြောသူသည် "ဘယ်တော့မှမကျန်တော့ပါ!" ဇာတ်ကြောင်းပြောသူသည် ကျီးသည် လူတစ်ဦးပြောသောစကားများကို ရိုးရိုးရှင်းရှင်း ပြန်ပြောနေခြင်းလား သို့မဟုတ် ၎င်းသည် ၎င်း၏ကိုယ်ပိုင်စကားများကို တည်ဆောက်နေသလား (ပေါင်းစပ်ခြင်းဖြင့် ဖြစ်နိုင်သည်။ ဘယ်တော့မှ နှင့် နောက်ထပ်)—ကျွန်ုပ်တို့၏စာတမ်းတွင်ဖော်ပြထားသော တူညီသောအခြေခံမရေရာမှုများ။'

စာတမ်းအသစ်မှ တွေ့ရှိချက်များသည် 'ရိုးရှင်းသော' တည်းဖြတ်ခြင်းလုပ်ငန်းများကို အစားထိုးရန်နှင့် အကြောင်းအရာအပြည့်အစုံရေးရန်ပင် ကြိုးပမ်းသည့် AI အကြောင်းအရာ-ရေးစနစ်များအတွက် ကြီးကြီးမားမားတိုးတက်မှု၏ အခြေအနေတွင် ထွက်ပေါ်လာသည်။ အဲဒီလို စနစ်မျိုးပေါ့။ $ 21 သန်းကိုလက်ခံရရှိခဲ့သည် စီးရီး A တွင် ယခုသီတင်းပတ်အစောပိုင်းက ရန်ပုံငွေ။

သုတေသီများက မှတ်ချက်ပြုသည်။ 'GPT-2 သည် တစ်ခါတစ်ရံတွင် လေ့ကျင့်ရေးစာပိုဒ်များကို ထပ်နေပါသည်။ စကားလုံး 1,000 ကျော်ရှည်သည်။'' (၎င်းတို့၏အလေးပေးမှု) နှင့် မျိုးဆက်သစ်ဘာသာစကားစနစ်များသည် အရင်းအမြစ်ဒေတာတွင် ဘာသာစကားဆိုင်ရာအမှားများကို ဖြန့်ဝေသည်။

RAVEN အောက်တွင် လေ့လာထားသော ဘာသာစကားမော်ဒယ်များသည် GPT-2 အထိ ထုတ်ဝေသည့် GPT စီးရီးများဖြစ်သည် (ထိုအချိန်က စာရေးသူများသည် GPT-3 သို့ ဝင်ရောက်ခွင့်မရှိပါ)၊ Transformer၊ Transformer-XL နှင့် တစ်ခု၊ LSTM.

သစ်ခြင်း

GPT-2 ဒင်္ဂါးပြားသည် Bush 2-style inflections များကို မှတ်သားထားသည်။ 'ဆွစ်ဇာလန်'အစရှိတဲ့ ဆင်းသက်လာမှု၊ 'IKEA-ness'လေ့ကျင့်နေစဉ်အတွင်း တည်ဆောက်ထားသော ပိုမိုမြင့်မားသော အတိုင်းအတာနေရာများမှ ဆင်းသက်လာသော ဘာသာစကားဆိုင်ရာ အခြေခံမူများကို GPT-2 ၏ လေ့ကျင့်ရေးဒေတာတွင် မပေါ်လွင်သော စကားလုံးများကို ဖန်တီးခြင်း။

ရလဒ်များသည် 'Transformer-XL မှထုတ်လုပ်သောစာကြောင်းများ 74% တွင် လေ့ကျင့်ရေးဝါကျမရှိသော syntactic structure ပါရှိသည်' ၊ စာရေးသူဖော်ပြသည့်အတိုင်း၊ 'အာရုံကြောဘာသာစကားပုံစံများသည် ရိုးရှင်းစွာအလွတ်ကျက်ခြင်းမပြုပါ။ ၎င်းတို့သည် ရင်းနှီးပြီးသားအစိတ်အပိုင်းများကို ဆန်းသစ်သောနည်းလမ်းများဖြင့် ပေါင်းစပ်နိုင်စေမည့် ဖြစ်ထွန်းသော လုပ်ငန်းစဉ်များကို အသုံးပြုသည်။'

ဒါကြောင့် နည်းပညာပိုင်းအရ ယေဘူယျနဲ့ abstraction ပါ။ သင့် ဆန်းသစ်ပြီး ဆန်းသစ်သော စာသားများကို ထုတ်လုပ်ပါ။

Data Duplication သည် ပြဿနာဖြစ်နိုင်သည်။

Natural Language Generation (NLG) စနစ်များမှ ထုတ်ပေးသော ရှည်လျားပြီး စကားအပြောအဆို ကိုးကားချက်များကို AI မော်ဒယ်လ်ထဲသို့ 'ဖုတ်' ဖြစ်သွားနိုင်သည်ဟု စာတမ်းက သီအိုရီအရ မူရင်းအရင်းအမြစ်စာသားကို လုံလောက်စွာမပွားရသေးသော ဒေတာအတွဲများတွင် အကြိမ်များစွာ ထပ်ခါထပ်ခါ ပြုလုပ်ထားသောကြောင့် ဖြစ်သည်။

သော်လည်း အခြားသုတေသနပရောဂျက် အရင်းအမြစ်စာသားသာ ပေါ်လာလျှင်ပင် စာသား၏ ပြီးပြည့်စုံသော မိတ္တူပွားနိုင်သည်ကို တွေ့ရှိခဲ့သည်။ တခါ ဒေတာအတွဲတွင်၊ ပရောဂျက်တွင် အကြောင်းအရာ-ဖန်တီးသည့် AI စနစ်များ၏ ဘုံလည်ပတ်မှုမှ မတူညီသော အယူအဆဆိုင်ရာ ဗိသုကာလက်ရာများပါရှိကြောင်း စာရေးသူသတိပြုမိပါသည်။

ဘာသာစကား မျိုးဆက်စနစ်များတွင် ကုဒ်ပြောင်းသည့် အစိတ်အပိုင်းကို ပြောင်းလဲခြင်းသည် အသစ်အဆန်းကို တိုးလာစေသော်လည်း ထွက်လာသည့် အရည်အသွေးကို သုံးစွဲ၍ စမ်းသပ်မှုများတွင် တွေ့ရှိရသည်။

အကြောင်းအရာဖန်တီးမှု အယ်လဂိုရီသမ်များ ပိုမိုကြီးမားလာသည်နှင့်အမျှ ဒေတာအစုံလိုက်များသည် ပြဿနာများ ပေါ်ပေါက်လာသည်။ ဒေတာကြိုတင်လုပ်ဆောင်ခြင်း၏ တတ်နိုင်မှုနှင့် ရှင်သန်နိုင်မှုဆိုင်ရာ ပြဿနာများအပြင် အရည်အသွေးအာမခံချက်နှင့် ဒေတာကို ထပ်ပွားမှု လျှော့ချခြင်း၊ အခြေခံ error တွေ အများကြီး ကျန်ပါသေးတယ်။ ထို့နောက် AI မှ content output တွင် ပြန့်ပွားလာသော အရင်းအမြစ်ဒေတာ။

စာရေးသူ သတိပြုမိသည်*

'လေ့ကျင့်ရေး အစုံလိုက် အရွယ်အစားများ မကြာသေးမီက တိုးလာခြင်းသည် အသစ်အဆန်းအတွက် စစ်ဆေးရန် အထူးအရေးကြီးသောကြောင့် အဆိုပါ လေ့ကျင့်ရေး အစုံ၏ ပြင်းအားသည် သဘာဝအတိုင်း ဖြစ်ပေါ်လာမည့် ကျွန်ုပ်တို့၏ ထိုးထွင်းသိမြင်မှုကို ချိုးဖျက်နိုင်သောကြောင့် ဖြစ်သည်။ ဥပမာအားဖြင့် ထင်ရှားသော အလုပ်အချို့ ဘာသာစကား ရယူခြင်း ပုံမှန်မဟုတ်သော ကြိယာပုံစံများ (ဥပမာ- ဖြစ်လာသည်၊ သင်ကြားသည်) သည် သင်ယူသူ၏ အတွေ့အကြုံတွင် ပေါ်မလာဟူသော ယူဆချက်အပေါ် မူတည်သည်၊ ထို့ကြောင့် သင်ယူသူသည် ထိုကဲ့သို့သော စကားလုံးများကို ထုတ်လွှတ်ပါက၊ ၎င်းတို့သည် သင်ယူသူအတွက် ဆန်းသစ်နေရမည်ဖြစ်သည်။

'သို့သော်၊ အင်္ဂလိပ်လို အခြေခံမမှန်ကြိယာ 92 ခုလုံးအတွက်၊ မမှန်သော ပုံမှန်ပုံစံသည် GPT-2 ၏ လေ့ကျင့်မှုအစုံတွင် ပေါ်နေပါသည်။'

နောက်ထပ် Data Curation လိုအပ်ပါသည်။

မျိုးဆက်သစ်ဘာသာစကားစနစ်များ ရေးဆွဲရာတွင် အသစ်အဆန်းကို ပိုမိုအာရုံစိုက်ရန် လိုအပ်ကြောင်း စာတမ်းတွင် ဖော်ပြထားသည်မှာ ဒေတာ၏ 'သိမ်းဆည်းထားသော' စမ်းသပ်မှုအပိုင်း (မည်ကဲ့သို့ စမ်းသပ်ရန်အတွက် ဖယ်ထားလိုက်သော အရင်းအမြစ်ဒေတာ၏ အစိတ်အပိုင်းကို သေချာစေရန် အထူးအလေးပေးထားကြောင်း စာတမ်းတွင် ဖော်ပြထားသည်။ နောက်ဆုံး algorithm သည် လေ့ကျင့်သင်ကြားထားသော ဒေတာ၏ အဓိကကိုယ်ထည်ကို အကဲဖြတ်ထားသည်) သည် အလုပ်အတွက် တူညီသည်။

'စက်သင်ယူမှုတွင်၊ သိမ်းဆည်းထားသောစမ်းသပ်မှုအစုံတွင် မော်ဒယ်များကို အကဲဖြတ်ရန် အရေးကြီးပါသည်။ စာသားဖန်တီးမှု၏ အဖွင့်အဆုံးသဘာ၀ကြောင့်၊ မော်ဒယ်တစ်ခု၏ ထုတ်လုပ်လိုက်သော စာသားကို လေ့ကျင့်ရေးအစုမှ မိတ္တူကူးထားနိုင်သည်၊ ယင်းအခြေအနေတွင် ၎င်းကို သိမ်းဆည်းထားမည်မဟုတ်— ထို့ကြောင့် မော်ဒယ်ကို အကဲဖြတ်ရန် ထိုဒေတာကို အသုံးပြုခြင်း (ဥပမာ၊ ပေါင်းစပ်မှု သို့မဟုတ် သဒ္ဒါသဘောအရ) မမှန်ကန်ပါ။ .'

ဘာသာစကား မော်ဒယ်များ ထုတ်လုပ်မှုတွင် ပိုမိုဂရုစိုက်ရန် လိုအပ်ကြောင်း စာရေးဆရာများက ပြောဆိုကြသည်။ Eliza အကျိုးသက်ရောက်မှု1966 ခုနှစ်တွင်ဖော်ထုတ်ခဲ့သောရောဂါလက္ခဏာစုကိုဖော်ထုတ်ခဲ့သည်။ “လူတို့သည် ဖတ်ရှုနားလည်နိုင်မှုအား သင်္ကေတကြိုးများ—အထူးသဖြင့် စကားလုံးများ—ကွန်ပြူတာဖြင့် ချိတ်ဆွဲထားသည်ထက် ပိုမိုနားလည်နိုင်မှု”.

 

* ကျွန်ုပ်၏ inline ကိုးကားချက်များကို ဟိုက်ပါလင့်ခ်များသို့ ပြောင်းလဲခြင်း။