ဆောင်းပါးတို Quantum Stat သည် "Big Bad NLP Database" - Unite.AI ကိုထုတ်ပြန်သည်။
ကြှနျုပျတို့နှငျ့အတူချိတ်ဆက်ပါ

ဉာဏ်ရည်တု

Quantum Stat သည် "Big Bad NLP Database" ကိုထုတ်ပြန်သည်

နောက်ဆုံးရေးသားချိန် on

Quantum Stat သည် ၎င်းတို့၏ "ဆိုးရွားသော NLP ဒေတာဘေ့စ်"သဘာဝဘာသာစကားလုပ်ဆောင်ခြင်း (NLP) အတွက် ကြီးမားသောခြေလှမ်းတစ်ခုဖြစ်သည်။ ဒေတာဘေ့စ်တွင် စက်သင်ယူမှုဆော့ဖ်ဝဲရေးသားသူများအတွက် အသုံးပြုရန်အတွက် မတူညီသောဒေတာအတွဲရာပေါင်းများစွာပါရှိသည်။ 

ကုမ္ပဏီ၏အဆိုအရ ၎င်းတို့သည် NLP နှင့် AI ပဏာမလုပ်ဆောင်မှုများကို ဖြေရှင်းချက်ပေးသည်။ ၎င်းတို့သည် ဝဘ်အက်ပ် ဖွံ့ဖြိုးတိုးတက်မှုအတွက် ကြိုတင်လုပ်ဆောင်ခြင်း၊ စက်သင်ယူခြင်းနှင့် နက်နဲသောအာရုံကြောကွန်ရက်များ၊ chatbot နှင့် ဆွေးနွေးမှုစီမံခန့်ခွဲမှုနှင့် ၎င်းတို့၏ NLP ဒေတာဘေ့စ်အသစ်တို့ပါ၀င်သည့် ဘက်ပေါင်းစုံမှချဉ်းကပ်မှုကဲ့သို့သော ဝန်ဆောင်မှုများမှတစ်ဆင့် ၎င်းကို လုပ်ဆောင်သည်။ 

ကုမ္ပဏီသည် တစ်ဦးချင်းစက်မှုလုပ်ငန်းများအတွင်း ဖြစ်ပေါ်တိုးတက်မှုများကို ခွဲခြမ်းစိတ်ဖြာရာတွင် ကူညီရန် အဓိကနှင့် အလယ်တန်း သုတေသနများကိုလည်း ပြုလုပ်ပါသည်။ 

NLP ဒေတာ၏ ဗဟိုအချက်အချာ

သဘာဝဘာသာစကားဖြင့် လုပ်ဆောင်ခြင်းတွင် ကမ္ဘာ့အကြီးဆုံး ဒေတာစာကြည့်တိုက်ဖြစ်သည့် ဒေတာဘေ့စ်ကို ဖန်တီးရန် ဆုံးဖြတ်ချက်သည် NLP ဒေတာကို ထိန်းထားရန် ဗဟိုအချက်အချာတစ်ခု လိုအပ်ခြင်းမှ ထွက်ပေါ်လာခြင်းဖြစ်သည်။ ကုမ္ပဏီသည် အခြားရွေးချယ်စရာများထက် ပိုမိုလွယ်ကူစွာ ဝင်ရောက်ရှာဖွေနိုင်စေရန် ရည်ရွယ်ပြီး သုတေသီများသည် ပြင်ပအဖွဲ့အစည်း စာကြည့်တိုက်များစွာကို မကြာခဏရှာဖွေရန် လိုအပ်သည်။ 

ကုမ္ပဏီသည် ဒေတာဘေ့စ်ကို ရက်သတ္တပတ်များစွာ ပြုစုနေပါသည်။ ၎င်းတို့တွင် ဒေတာအတွဲ ၂၀၀ ခန့်ရှိသည်။ ဂန္တဝင်များသာမကဘဲ မတူညီသောဒေတာအတွဲများ အမျိုးမျိုးရှိသည်။ ကုမ္ပဏီတွင် CommonCrawl နှင့် Penn Treebank ကဲ့သို့သောအရာများပါဝင်သည်။ 

မတူညီသောဒေတာဘေ့စ်အကွာအဝေးနှင့်အတူ မတူညီသော NLP လုပ်ဆောင်စရာများပါလာသည်။ အမျိုးအစားခွဲခြားခြင်းနှင့် မေးခွန်းဖြေဆိုခြင်းအပေါ် အာရုံစိုက်သည့်အရာများ ရှိသည်၊ သို့သော် text-to-SQL၊ စကားပြောအသိအမှတ်ပြုမှုနှင့် multi-modal အတွက် ဒေတာအတွဲများလည်း ရှိပါသည်။ 

Quantum Stat သည် သုံးစွဲသူများထံမှ ပံ့ပိုးမှုများဖြင့် ဒေတာဘေ့စ်ကို ရပ်ရွာမှ မောင်းနှင်စေလိုသည်။ ကုမ္ပဏီသည် ဒေတာအတွဲအသစ်တစ်ခုပေးပို့ရန် သို့မဟုတ် အပြောင်းအလဲများကို အကြံပြုရန် မည်သူမဆိုအတွက် ၎င်း၏တံခါးများကို ဖွင့်ထားသည်။ 

နောက်ထပ်အာရုံစူးစိုက်မှုမှာ တင်းကြပ်စွာအင်္ဂလိပ်ဖြစ်ခြင်းမှ ဝေးကွာသော ဘာသာစကားကွဲပြားစေမည့် ဒေတာအတွဲများကို ပေါင်းထည့်ရန်ဖြစ်သည်။ သူတို့၏ ရည်မှန်းချက်မှာ စာကြည့်တိုက်ကို ကမ္ဘာနှင့်အဝှမ်း ပိုမိုဝင်ရောက်လာစေရန်ဖြစ်ပြီး အခြားသူများထံ အရောက်လှမ်းနိုင်ရန်ဖြစ်သည်။ 

“Big Bad NLP ဒေတာဘေ့စ်” သို့ဝင်ရောက်သောအခါ၊ အသုံးပြုသူတစ်ဦးသည် သန့်ရှင်းပြီး စနစ်တကျဖွဲ့စည်းထားသော အပြင်အဆင်နှင့် ရင်ဆိုင်ရလိမ့်မည်။ ဒေတာအတွဲ၏အမည်ကို ဖော်ပြထားပြီး၊ နောက်တွင် ဘာသာစကားနှင့် အသေးစိတ်ဖော်ပြချက်။ ၎င်းသည် သာဓကများ၊ ဖော်မတ်၊ အလုပ်၊ ဖန်တီးသည့်နှစ်နှင့် ဖန်တီးသူကို စာရင်းပြုစုထားသည်။ ဒေတာဘေ့စ်တစ်ခုစီတွင် လိုက်နာရန် ဒေါင်းလုဒ်လင့်ခ်တစ်ခုရှိသည်။ 

အမျိုးမျိုးသော Databases

၁၈၃၆ မှ ၁၉၂၂ ခုနှစ်အထိ အမေရိကန်နှင့် ယူကေရှိ သတင်းစာများ၏ နေ့စဉ်အကြောင်းအရာများပါရှိသော သမိုင်းဝင်သတင်းစာများနေ့စဉ်ကမ္ဘာ့အချိန်စီးရီးဒေတာအတွဲကဲ့သို့သော ဒေတာဘေ့စ်များကို တွေ့ကြုံရမည်ဖြစ်သည်။ ရူပဗေဒ၊ ဇီဝဗေဒ နှင့် ဓာတုဗေဒ နယ်ပယ်များတွင် လူစုလူဝေးမှ သိပ္ပံမေးခွန်းပေါင်း 1836 ပါ၀င်သော SciQ Dataset၊ ဝဘ်စာမျက်နှာ ၂၅ ဘီလီယံမှ ဒေတာများ ပါဝင်သော CommonCrawl၊ အသုံးပြုသူ 1922 ဖြင့် ရုပ်ရှင် 13,679 အတွက် အဆင့်သတ်မှတ်ချက် 25 နှင့် 22,000,000 တက်ဂ်များပါရှိသော MovieLens၊ 

Quantum Stat ၏ အထင်ကြီးလောက်သော ဒေတာဘေ့စ်သည် သုတေသီများသည် နက်ရှိုင်းသော သင်ယူမှု တိုးတက်လာမှုကြောင့် ပိုမိုကြီးမားပြီး ကွဲပြားသော ဒေတာအတွဲများကို လိုအပ်သည့်အချိန်တွင် ရောက်ရှိလာပါသည်။ လူသားဘာသာစကားအတွင်းပါရှိသော ဒေတာပမာဏများပြားသောကြောင့် ထူးခြားသောဒေတာအတွဲတစ်ခုစီသည် လုပ်ဆောင်ရန် အနည်းငယ်လွယ်ကူစေသည်။ NLP ၏တိုးတက်မှုသည် ဤဒေတာဘေ့စ်များပေါ်တွင် မှီခိုနေပြီး Quantum Stat သည် နေရာတစ်ခုတွင် ဒေတာအစုံများစွာကို စုဆောင်းခြင်းဖြင့် ထိုတိုးတက်မှုကို မြန်ဆန်စေသည်။ 

NLP သည် လူ့အဖွဲ့အစည်း၏ ကဏ္ဍများစွာတွင် အရေးပါလိမ့်မည် ။ အီလက်ထရွန်းနစ်ကျန်းမာရေးမှတ်တမ်းများနှင့် လူနာတစ်ဦး၏ပြောဆိုမှုအပေါ်အခြေခံ၍ ရောဂါများကို ကြိုတင်ခန့်မှန်းနိုင်ပြီး၊ ထုတ်ကုန်တစ်ခုနှင့်ပတ်သက်၍ သုံးစွဲသူများပြောနေသည့်အရာများကို ကုမ္ပဏီများကို ရှာဖွေဖော်ထုတ်ရန်နှင့် ပျံ့နှံ့နေသည့်ကမ္ဘာတွင် သတင်းအတုများကို ရှာဖွေဖော်ထုတ်ရန် ကူညီပေးနိုင်သည်။ 

နည်းပညာသည် အလွန်လျင်မြန်စွာ တိုးတက်နေပြီး ဤရှုပ်ထွေးသောအသုံးချပရိုဂရမ်များကို ကိုင်တွယ်ဖြေရှင်းရန် အချိန်အတော်ကြာတော့မည် မဟုတ်ပေ။ 

 

Alex McFarland သည် AI ဂျာနယ်လစ်တစ်ဦးဖြစ်ပြီး ဉာဏ်ရည်တုဆိုင်ရာ နောက်ဆုံးပေါ်တိုးတက်မှုများကို ရှာဖွေနေသော စာရေးဆရာဖြစ်သည်။ သူသည် ကမ္ဘာတစ်ဝှမ်းရှိ AI startup များနှင့် ထုတ်ဝေမှုများ အများအပြားနှင့် ပူးပေါင်းဆောင်ရွက်ခဲ့သည်။