ဆောင်းပါးတို Pinecone မှ အင်ဂျင်နီယာချုပ် ဒေါက်တာ Ram Sriharsha၊ အင်တာဗျူးစီးရီး - Unite.AI
ကြှနျုပျတို့နှငျ့အတူချိတ်ဆက်ပါ

အင်တာဗျူး

Pinecone မှ အင်ဂျင်နီယာ VP - Interview Series မှ ဒေါက်တာ Ram Sriharsha

mm

Published

 on

Dr. Ram Sriharsha သည် Pinecone ၏ အင်ဂျင်နီယာနှင့် R&D ၏ VP ဖြစ်သည်။

Pinecone သို့မ၀င်ခင် Ram သည် Yahoo၊ Databricks နှင့် Splunk တွင် VP ရာထူးများရခဲ့သည်။ Yahoo တွင် သူသည် အဓိကဆော့ဖ်ဝဲလ်အင်ဂျင်နီယာတစ်ဦးဖြစ်ပြီး ထို့နောက်တွင် သုတေသနပညာရှင်ဖြစ်သည်။ Databricks တွင် သူသည် မျိုးရိုးဗီဇဆိုင်ရာ ပေါင်းစပ်ခွဲခြမ်းစိတ်ဖြာမှုဆိုင်ရာ ပလပ်ဖောင်းအတွက် ထုတ်ကုန်နှင့် အင်ဂျင်နီယာ ဦးဆောင်သူဖြစ်သည်။ Splunk တွင် သုံးနှစ်တာကာလအတွင်း၊ သူသည် Sr Principal Scientist၊ VP Engineering နှင့် Distinguished Engineer အပါအဝင် အခန်းကဏ္ဍများစွာ ပါဝင်ခဲ့သည်။

နာနတ်သီး အပြည့်အဝစီမံခန့်ခွဲထားသော vector ဒေတာဘေ့စ်သည် ထုတ်လုပ်ရေးအက်ပ်လီကေးရှင်းများသို့ vector ရှာဖွေမှုပေါင်းထည့်ရန် လွယ်ကူစေသည်။ ၎င်းသည် မည်သည့်အတိုင်းအတာတွင်မဆို မြင့်မားသောစွမ်းဆောင်ရည်နှင့် ယုံကြည်စိတ်ချရမှုကိုပေးစွမ်းရန် vector ရှာဖွေရေးစာကြည့်တိုက်များ၊ စစ်ထုတ်ခြင်းကဲ့သို့သော စွမ်းရည်များနှင့် ဖြန့်ဝေသည့်အခြေခံအဆောက်အအုံများကို ပေါင်းစပ်ထားသည်။

မည်သည့်အရာက သင့်အား စက်သင်ယူမှုကို အစပိုင်းတွင် ဆွဲဆောင်ခဲ့သနည်း။

မြင့်မားသော ကိန်းဂဏန်းအချက်အလက်များ၊ သင်ယူမှုသီအိုရီနှင့် ထိုကဲ့သို့သော အကြောင်းအရာများသည် ကျွန်ုပ်အား စက်သင်ယူခြင်းသို့ ဆွဲဆောင်ခဲ့သည်။ ၎င်းတို့ကို သင်္ချာနည်းအရ ကောင်းစွာသတ်မှတ်ထားပြီး၊ ကျိုးကြောင်းဆင်ခြင်နိုင်ကာ သင်ယူမှု၏အဓိပ္ပာယ်နှင့် ထိရောက်စွာသင်ယူနိုင်သော အယ်လဂိုရီသမ်များကို ဒီဇိုင်းထုတ်ပုံတို့ကို ပေးဆောင်ရန် အခြေခံကျသော ထိုးထွင်းသိမြင်မှုအချို့ရှိသည်။

ယခင်က သင်သည် ဒေတာကို Observability၊ IT၊ Security နှင့် အခြားအရာများအတွက် လုပ်ဆောင်မှုအဖြစ် ပြောင်းလဲရန် ကူညီပေးသည့် ဒေတာပလပ်ဖောင်းဖြစ်သော Splunk တွင် အင်ဂျင်နီယာဒုတိယဥက္ကဌဖြစ်ခဲ့သည်။ ဒီအတွေ့အကြုံကနေ မင်းရဲ့ အဓိက ထုတ်ယူသွားတဲ့အရာတွေက ဘာတွေလဲ။

လုပ်ငန်းရှာဖွေမှုတွင် အသုံးပြုမှုကိစ္စများ မည်မျှ ကွဲပြားသည်ကို Splunk သို့ မရောက်ရှိမချင်း ကျွန်ုပ် သဘောမပေါက်ခဲ့ပေ။ ဤအသုံးများသော ကိစ္စများတွင် အဖြစ်များသောအရာမှာ တူညီသော ဖြစ်ရပ်များ သို့မဟုတ် ဖွဲ့စည်းတည်ဆောက်ပုံမရှိသော ဒေတာများတွင် အလွန်ဆင်တူသည့် (သို့မဟုတ် မမှန်မကန်) ဖြစ်ရပ်များကို ရှာဖွေရန် စိတ်ကူးဖြစ်သည်။ ၎င်းသည် ခက်ခဲသောပြဿနာတစ်ခုဖြစ်လာပြီး ထိုကဲ့သို့သောဒေတာကိုရှာဖွေခြင်း၏ ရိုးရာနည်းလမ်းများမှာ အတိုင်းအတာတစ်ခုအထိ မလွယ်ကူပေ။ Splunk မှာ ရှိနေစဉ်အတွင်း သစ်လုံးတူးဖော်မှု၊ လုံခြုံရေး ခွဲခြမ်းစိတ်ဖြာမှု စတာတွေအတွက် စက်သင်ယူမှု (နှင့် နက်ရှိုင်းစွာ သင်ယူခြင်း) ကို ဘယ်လိုအသုံးပြုရမလဲဆိုတာနဲ့ ပတ်သက်ပြီး အဲဒီနယ်ပယ်တွေမှာ သုတေသနကို စတင်ခဲ့ပါတယ်။ အဲဒီအလုပ်ကနေတစ်ဆင့် vector embedded နဲ့ vector search တွေအဆုံးသတ်သွားမယ်ဆိုတာ သဘောပေါက်လာပါတယ်။ ဤဒိုမိန်းများအတွက် ချဉ်းကပ်မှုအသစ်များအတွက် အခြေခံမူလဖြစ်သည်။

vector search က ဘာလဲဆိုတာ ငါတို့အတွက် ဖော်ပြပေးနိုင်မလား။

သမားရိုးကျရှာဖွေမှုတွင် (တစ်နည်းအားဖြင့် သော့ချက်စာလုံးရှာဖွေမှုဟု ခေါ်သည်)၊ သင်သည် မေးခွန်းနှင့် စာရွက်စာတမ်းများအကြား သော့ချက်စကားလုံး ကိုက်ညီမှုများကို ရှာဖွေနေသည် (၎င်းသည် တွစ်တာများ၊ ဝဘ်စာရွက်စာတမ်းများ၊ ဥပဒေရေးရာစာရွက်စာတမ်းများ၊ သင့်တွင် ရှိသည်)။ ၎င်းကိုလုပ်ဆောင်ရန်၊ သင်သည် သင်၏မေးမြန်းမှုအား ၎င်း၏တိုကင်များအဖြစ် ပိုင်းခြားပြီး၊ ပေးထားသော တိုကင်ပါရှိသော စာရွက်စာတမ်းများကို ရယူပြီး ပေးထားသည့်မေးခွန်းအတွက် အသက်ဆိုင်ဆုံးစာရွက်စာတမ်းများကို ဆုံးဖြတ်ရန်အတွက် ပေါင်းစပ်ပြီး အဆင့်သတ်မှတ်ပေးပါသည်။

အဓိကပြဿနာမှာ သက်ဆိုင်ရာရလဒ်များရရှိရန်၊ သင်၏မေးမြန်းမှုမှတ်တမ်းတွင် သော့ချက်စာလုံးများ ကိုက်ညီမှုရှိရန် လိုအပ်ပါသည်။ သမားရိုးကျရှာဖွေမှု၏ ဂန္တဝင်ပြဿနာမှာ- "ပေါ့ပ်" ကို သင်ရှာဖွေပါက "ပေါ့ပ်ဂီတ" နှင့် ကိုက်ညီလိမ့်မည်၊ သို့သော် "ဆိုဒါ" နှင့် ကိုက်ညီလိမ့်မည်မဟုတ်ပေ။ "ပေါ့ပ်" နှင့် "ဆိုဒါ" ပါရှိသော စာရွက်စာတမ်းများအကြား သော့ချက်စကားလုံး ထပ်နေခြင်းမရှိသောကြောင့်၊ US ရှိ နယ်ပယ်များစွာတွင် စကားအပြောအဆို လူသိများသော်လည်း၊ "pop" သည် "ဆိုဒါ" နှင့် အတူတူပင်။

vector ရှာဖွေမှုတွင်၊ သင်သည် မြင့်မားသောအတိုင်းအတာနေရာအချို့တွင် queries နှင့် document နှစ်ခုလုံးကို vector တစ်ခုသို့ ပြောင်းလဲခြင်းဖြင့် စတင်သည်။ OpenAI ၏ LLMs သို့မဟုတ် အခြားဘာသာစကားမော်ဒယ်များကဲ့သို့ နက်နဲသောသင်ယူမှုပုံစံမှတဆင့် စာသားကိုဖြတ်သန်းခြင်းဖြင့် ၎င်းကိုလုပ်ဆောင်သည်။ ရလဒ်အနေဖြင့် သင်ရရှိသည့်အရာမှာ မြင့်မားသောအတိုင်းအတာနေရာအချို့တွင် vector တစ်ခုအဖြစ် ယူဆနိုင်သော floating point နံပါတ်များ array တစ်ခုဖြစ်သည်။

အဓိက အယူအဆမှာ ဤမြင့်မားသော Dimension space ရှိ အနီးနားရှိ vector များသည် ဝေါဟာရအရ ဆင်တူပါသည်။ "ဆိုဒါ" နှင့် "ပေါ့ပ်" တို့၏ နမူနာကို ပြန်သွားကာ မော်ဒယ်ကို မှန်ကန်သော ခန္ဓာကိုယ်အစိတ်အပိုင်းတွင် လေ့ကျင့်ထားလျှင် "ပေါ့ပ်" နှင့် "ဆိုဒါ" ဟူသော ဝေါဟာရအရ ဆင်တူသည်ဟု ယူဆနိုင်ဖွယ်ရှိပြီး ထို့ကြောင့် သက်ဆိုင်ရာ မြှုပ်နှံမှုများသည် တစ်ခုနှင့်တစ်ခု နီးကပ်နေမည်ဖြစ်သည်။ မြှပ်နှံသောနေရာ။ ထိုသို့ဆိုလျှင်၊ ပေးထားသော query တစ်ခုအတွက် အနီးနားရှိ စာရွက်စာတမ်းများကို ပြန်လည်ရယူခြင်းသည် သက်ဆိုင်ရာ query vector ၏ အနီးဆုံး အိမ်နီးချင်းများကို ရှာဖွေရာတွင် ပြဿနာဖြစ်လာပါသည်။

vector ဒေတာဘေ့စ်က ဘာလဲဆိုတာနဲ့ စွမ်းဆောင်ရည်မြင့်မားတဲ့ vector ရှာဖွေရေး အပလီကေးရှင်းတွေကို ဘယ်လိုတည်ဆောက်နိုင်တယ်ဆိုတာ ဖော်ပြနိုင်မလား။

Vector ဒေတာဘေ့စ်တစ်ခုသည် သိမ်းဆည်း၊ အညွှန်းကိန်းများနှင့် ဤထည့်သွင်းမှုများ (သို့မဟုတ် vector များ) ကို စီမံခန့်ခွဲသည်။ vector ဒေတာဘေ့စ်ကိုဖြေရှင်းရန်အဓိကစိန်ခေါ်မှုများမှာ-

  • အနီးဆုံးအိမ်နီးနားချင်းမေးခွန်းများကိုဖြေဆိုရန် vector များပေါ်တွင် ထိရောက်သောရှာဖွေမှုအညွှန်းတစ်ခုတည်ဆောက်ခြင်း။
  • query filtering ကို ပံ့ပိုးရန် ထိရောက်သော အရန်ညွှန်းကိန်းများနှင့် ဒေတာဖွဲ့စည်းပုံများကို တည်ဆောက်ခြင်း။ ဥပမာအားဖြင့်၊ သင်သည် corpus ၏ အစိတ်အပိုင်းတစ်ခုမျှသာ ရှာဖွေလိုသည်ဆိုပါစို့၊ ၎င်းကို ပြန်လည်တည်ဆောက်ရန်မလိုဘဲ လက်ရှိရှာဖွေမှုအညွှန်းကို အသုံးချနိုင်သင့်သည်

ထိရောက်သော အပ်ဒိတ်များကို ပံ့ပိုးပေးပြီး ဒေတာနှင့် ရှာဖွေမှုအညွှန်းကို လတ်ဆတ်သော၊ တသမတ်တည်း၊ တာရှည်ခံစေရန်၊ စသည်တို့ကို ထိန်းသိမ်းပါ။

Pinecone တွင်အသုံးပြုသည့် machine learning algorithms အမျိုးအစားများကား အဘယ်နည်း။

ကျွန်ုပ်တို့သည် ယေဘူယျအားဖြင့် အနီးစပ်ဆုံး အိမ်နီးချင်း ရှာဖွေမှု အယ်လဂိုရီသမ်များကို လုပ်ဆောင်ပြီး ဒေတာအမြောက်အမြားကို ထိရောက်စွာ မွမ်းမံခြင်း၊ စုံစမ်းမေးမြန်းခြင်းနှင့် အခြားနည်းဖြင့် ထိရောက်စွာ မွမ်းမံပြင်ဆင်ခြင်းအတွက် အယ်လဂိုရီသမ်အသစ်များကို တီထွင်ထုတ်လုပ်ပါသည်။

ပိုမိုကောင်းမွန်သော ရှာဖွေမှုဆိုင်ရာ ဆက်စပ်မှုအတွက် ကျွန်ုပ်တို့သည် သိပ်သည်းမှုနှင့် ကျဲကျဲသော ပြန်လည်ထုတ်ယူမှုကို ပေါင်းစပ်သည့် အယ်လဂိုရီသမ်များတွင်လည်း လုပ်ဆောင်ပါသည်။

 အရွယ်စားရှာဖွေမှုကို တည်ဆောက်ခြင်း၏ နောက်ကွယ်တွင် စိန်ခေါ်မှုအချို့ကား အဘယ်နည်း။

အနီးစပ်ဆုံး အိမ်နီးချင်း ရှာဖွေမှုကို ဆယ်စုနှစ်များစွာ သုတေသနပြုခဲ့သော်လည်း ဖော်ထုတ်ရန် ကျန်နေသေးသည်ဟု ကျွန်ုပ်တို့ ယုံကြည်ပါသည်။

အထူးသဖြင့်၊ ကုန်ကျစရိတ်သက်သာသော အနီးဆုံးအိမ်နီးချင်းရှာဖွေမှုအကြီးစားကို ဒီဇိုင်းထုတ်သည့်အခါ၊ အတိုင်းအတာအလိုက် ထိရောက်သောစစ်ထုတ်မှုလုပ်ဆောင်ရာတွင် သို့မဟုတ် ပမာဏမြင့်မားသောအပ်ဒိတ်များနှင့် ယေဘုယျအားဖြင့် လတ်ဆတ်သောအညွှန်းများကို ပံ့ပိုးပေးသည့် အယ်လဂိုရီသမ်များကို ဒီဇိုင်းထုတ်ရာတွင် ယနေ့ခေတ်တွင် စိန်ခေါ်မှုပြဿနာများဖြစ်သည်။

ဤနည်းပညာအတွက် အသုံးပြုနိုင်သော မတူညီသော အမျိုးအစားအချို့မှာ အဘယ်နည်း။

vector ဒေတာဘေ့စ်များအတွက် အသုံးပြုမှုဆိုင်ရာ ကိစ္စရပ်များသည် တစ်နေ့ထက်တစ်နေ့ တိုးပွားလာသည်။ ဝေါဟာရရှာဖွေမှုတွင် ၎င်း၏အသုံးပြုမှုများအပြင်၊ ၎င်းကို ရုပ်ပုံရှာဖွေမှု၊ ရုပ်ပုံပြန်လည်ရယူမှု၊ မျိုးဆက်သစ် AI၊ လုံခြုံရေးဆိုင်ရာ ခွဲခြမ်းစိတ်ဖြာမှုစသည်ဖြင့် အသုံးပြုသည်ကို ကျွန်ုပ်တို့တွေ့မြင်ရသည်။

ရှာဖွေမှု၏အနာဂတ်အတွက် သင့်မျှော်မှန်းချက်ကဘာလဲ။

ရှာဖွေမှု၏အနာဂတ်သည် AI ၏မောင်းနှင်အားဖြစ်လာမည်ဟုကျွန်ုပ်ထင်သည်၊ ၎င်းသည်အလွန်ဝေးသည်ဟုမထင်ပါ။ ထိုအနာဂတ်တွင်၊ vector databases များသည် core primitive ဖြစ်လာမည်ဟု မျှော်လင့်ပါသည်။ ကျွန်ုပ်တို့သည် AI ၏ ရေရှည်မှတ်ဉာဏ် (သို့မဟုတ် ပြင်ပအသိပညာအခြေခံ) အဖြစ် vector ဒေတာဘေ့စ်များကို တွေးတောလိုပါသည်။

အင်တာဗျူးကောင်းအတွက် ကျေးဇူးတင်ပါသည်၊ ပိုမိုလေ့လာလိုသော စာဖတ်သူများ လာရောက်လေ့လာသင့်ပါသည်။ နာနတ်သီး.

unite.AI ၏တည်ထောင်သူမိတ်ဖက်တစ်ဦးနှင့်အဖွဲ့ဝင်တစ်ဦး Forbes နည်းပညာကောင်စီ၊ Antoine သည် တစ်ဦးဖြစ်သည်။ အနာဂတ် AI နှင့် စက်ရုပ်များ၏ အနာဂတ်ကို စိတ်အားထက်သန်သူ။

တည်ထောင်သူလည်းဖြစ်သည်။ Securities.ioအနှောင့်အယှက်ဖြစ်စေသော နည်းပညာများတွင် ရင်းနှီးမြုပ်နှံရန် အာရုံစိုက်သည့် ဝဘ်ဆိုက်တစ်ခု။