ဉာဏ်ရည်တု

Machine Learning သည် Verbose Threat Reports မှ တိုက်ခိုက်မှုဒေတာကို ထုတ်ယူသည်။

နောက်ဆုံးရေးသားချိန် on ဒီဇင်ဘာလတွင် 9, 2022

ချီကာဂိုတက္ကသိုလ်မှ သုတေသနအသစ်သည် SEO ပုံစံရှည်အကြောင်းအရာများ၏ အကျိုးကျေးဇူးများနှင့် ၎င်းမှမရှိမဖြစ်လိုအပ်သောအချက်အလက်များကို စုဆောင်းရာတွင် စက်သင်ယူမှုစနစ်များ၏ အခက်အခဲများကြား လွန်ခဲ့သည့် ဆယ်နှစ်အတွင်း ဖြစ်ပေါ်လာခဲ့သော ပဋိပက္ခကို သရုပ်ဖော်သည်။

ဖွံ့ဖြိုးတိုးတက်ရေးတွင် NLP ခွဲခြမ်းစိတ်ဖြာမှုစနစ် Cyber Threat Intelligence (CTI) အစီရင်ခံစာများမှ မရှိမဖြစ်လိုအပ်သော ခြိမ်းခြောက်မှုအချက်အလက်များကို ထုတ်ယူရန်အတွက် ချီကာဂိုမှ သုတေသီများသည် ပြဿနာသုံးခုကို ရင်ဆိုင်ခဲ့ရသည်- အစီရင်ခံစာများသည် များသောအားဖြင့် အလွန်ရှည်လျားကြပြီး အမှန်တကယ် တိုက်ခိုက်သည့်အပြုအမူအတွက် အပိုင်းအနည်းငယ်မျှသာ ပါဝင်ပါသည်။ စတိုင်သည် သိပ်သည်းပြီး သဒ္ဒါနည်းအရ ရှုပ်ထွေးပြီး စာဖတ်သူဘက်မှ ကြိုတင်ဗဟုသုတအဖြစ် ယူဆနိုင်သော ကျယ်ပြန့်သော ဒိုမိန်း-တိကျသော အချက်အလက်များဖြင့်၊ နှင့် အကြောင်းအရာသည် ၎င်းကို ဆက်စပ်နားလည်ရန် 'အလွတ်ကျက်' ရမည်ဖြစ်သည့် cross-domain ဆက်ဆံရေးအသိပညာ လိုအပ်သည် (က persistent ပြဿနာသုတေသီများက မှတ်ချက်ပြုသည်။)

Long-Winded Threat အစီရင်ခံစာများ

အဓိကပြဿနာမှာ စကားအပြောအဆိုဖြစ်သည်။ ဥပမာအားဖြင့်၊ ချီကာဂိုစာရွက်တွင် ClearSky ၏ 42 စာမျက်နှာ 2019 တွင် မှတ်သားထားသည်။ ခြိမ်းခြောက်မှုအစီရင်ခံစာ DustySky (aka NeD Worm) မဲလ်ဝဲအတွက်၊ စာကြောင်း 11 ကြောင်းမျှသာ အမှန်တကယ် တိုက်ခိုက်ခြင်းနှင့် အပြုအမူကို အကြမ်းဖျင်းဖော်ပြပါသည်။

ဒုတိယအတားအဆီးမှာ စာသားရှုပ်ထွေးမှုဖြစ်ပြီး၊ ထိထိရောက်ရောက်အားဖြင့် ဝါကျအရှည်- Microsoft ၏ခြိမ်းခြောက်မှုအစီရင်ခံစာစင်တာမှ ခြိမ်းခြောက်မှုအစီရင်ခံစာ 4020 တွင် ပျမ်းမျှစာကြောင်းတွင် စကားလုံး 52 လုံးပါရှိသည် – ပျမ်းမျှစာကြောင်းအရှည်၏ အတိုကောက်ကိုးခုသာရှိကြောင်း သုတေသီများက လေ့လာတွေ့ရှိခဲ့သည်။ 500 လွန်ခဲ့တဲ့နှစ်ပေါင်း (ဝါကျအရှည်ရှိတယ်ဆိုတဲ့အချက်ကို ဆက်စပ်ကြည့်နိုင်ပါတယ်။ ကျဆင်းသွား 75% ထိုကတည်းက)။

သို့ရာတွင်၊ ဤစာကြောင်းရှည်များသည် ၎င်းတို့ကိုယ်တိုင်၌ မရှိမဖြစ်လိုအပ်သော 'ချုံ့ထားသောစာပိုဒ်များ' ဖြစ်သည်၊ အချက်အလက်၏ အဓိကအဓိပ္ပာယ်ကို ဖုံးအုပ်ထားသည့် အပိုဒ်များ၊ ဝါကျများသည် သမားရိုးကျ သတ်ပုံသတ်ပုံအခြေခံ မကြာခဏ ကင်းမဲ့နေပါသည်။ NLP အစရှိတဲ့ စနစ်တွေ ၊ spaCyစတန်းဖို့ဒ်နှင့် NNTK ရည်ရွယ်ချက်ကို ကောက်ချက်ချရန် သို့မဟုတ် hard data ကို ထုတ်ယူရန် အားကိုးပါ။

NLP သည် အရေးကြီးသော ခြိမ်းခြောက်မှု အချက်အလက်ကို ထုတ်ယူရန်

ဒါကို ဖြေရှင်းဖို့ ချီကာဂို သုတေသီတွေ တီထွင်ထားတဲ့ machine learning ပိုက်လိုင်းကို ခေါ်ပါတယ်။ EXTRACTORနှင့် ရှည်လျားသောပုံစံ၊ ခွဲခြမ်းစိတ်ဖြာထားသော အစီရင်ခံစာများမှ တိုက်ခိုက်မှုအပြုအမူများကို ခွဲထုတ်ပြီး အကျဉ်းချုပ်ဖော်ပြသည့် ဂရပ်များကို ဖန်တီးရန် NLP နည်းစနစ်များကို အသုံးပြုသည်။ လုပ်ငန်းစဉ်သည် သတင်းအချက်အလက်ဆိုင်ရာ ဝန်ဆောင်ခကို ရှင်းရှင်းလင်းလင်း ဦးစားပေးခြင်းအတွက် အသုံးစရိတ်ဖြင့် ဆွဲဆောင်မှုရှိပြီး ပြည့်စုံသော 'ဇာတ်လမ်း' ကို ဖန်တီးပေးသည့် သမိုင်းဝင်၊ ဇာတ်ကြောင်းနှင့် ပထဝီဝင် အလှဆင်ခြင်းတို့ကို စွန့်ပစ်သည်။

အရင်းအမြစ်- https://arxiv.org/pdf/2104.08618.pdf

စကားဝိုင်းနှင့် prolix CTI အစီရင်ခံစာများတွင် အကြောင်းအရာသည် စိန်ခေါ်မှုတစ်ခုဖြစ်သောကြောင့် သုတေသီများက ၎င်းကို ရွေးချယ်ခဲ့သည်။ BERT (Bidirectional Encoder Representations from Transformer) Google ၏ ဘာသာစကား ကိုယ်စားပြု မော်ဒယ် Word2Vec သို့မဟုတ် Stanford ၏ GloVe (စကားလုံးကိုယ်စားပြုမှုများအတွက်ကမ္ဘာလုံးဆိုင်ရာ Vectors)။

BERT သည် ၎င်းတို့၏ ပတ်ဝန်းကျင်အကြောင်းအရာမှ စကားလုံးများကို အကဲဖြတ်ပြီး ဖွံ့ဖြိုးတိုးတက်သည်။ မြှပ်နှံမှုများ စကားလုံးခွဲများအတွက် (ဆိုလိုသည်မှာ ပစ်လွှတ်, စတင် နှင့် ပစ်လွှတ် အားလုံးက ဆင်းတယ်။ ပစ်လွှတ်) ၎င်းသည် EXTRACTOR သည် BERT ၏လေ့ကျင့်ရေးပုံစံတွင်မပါရှိသောနည်းပညာဆိုင်ရာဝေါဟာရကိုကိုင်တွယ်ဖြေရှင်းရန်နှင့်ဝါကျများကို 'အကျိုးဖြစ်ထွန်းမှု' (သက်ဆိုင်သောအချက်အလက်များပါရှိသော) သို့မဟုတ် 'ဖြစ်ထွန်းမှုမရှိသော' အဖြစ်ခွဲခြားရန်ကူညီပေးသည်။

Local Vocabulary တိုးမြှင့်ခြင်း။

IP လိပ်စာများနှင့် နည်းပညာဆိုင်ရာ လုပ်ငန်းစဉ်အမည်များကဲ့သို့ အလွန်သက်ဆိုင်သော စကားလုံးပုံစံများဖြစ်သည့် အလွန်သက်ဆိုင်သော စကားလုံးပုံစံများကို ဘေးဖယ်ထားရန် မလိုအပ်သောကြောင့် အချို့သော သီးခြား domain insight ကို NLP ပိုက်လိုင်းတွင် ပေါင်းစပ်ထည့်သွင်းရပါမည်။

လုပ်ငန်းစဉ်၏ နောက်ပိုင်းအပိုင်းများတွင် a ကိုအသုံးပြုသည်။ BiLSTM (နှစ်ထပ်ကိန်း LSTM) သည် စကားလုံးအသုံးအနှုန်းများကို ဖယ်ရှားခြင်းမပြုမီ ဝါကျအစိတ်အပိုင်းများအတွက် ဝေါဟာရဆိုင်ရာ အခန်းကဏ္ဍများမှ ဆင်းသက်လာကာ၊ အကျိုးမရှိသော စကားလုံးများကို မဖယ်ရှားမီ ကိုင်တွယ်ဖြေရှင်းရန် ကွန်ရက်။ BiLSTM သည် အကြောင်းအရာကို တွက်ဆရန် ပိုမိုအာရုံစိုက်ရန်နှင့် ထိန်းထားရန် လိုအပ်သည့် စကားလုံးရှည်လျားသော စာရွက်စာတမ်းများတွင် ပေါ်လာသည့် ခရီးဝေးမှီခိုမှုများကို ဆက်စပ်ပေးနိုင်သောကြောင့် ၎င်းအတွက် ကောင်းစွာသင့်လျော်ပါသည်။

EXTRACTOR သည် Proposition Bank (PropBank) မှတ်ချက်များ ထုတ်ပေးသည့် အခန်းကဏ္ဍများနှင့်အတူ စကားလုံးများကြားတွင် ဝေါဟာရဆိုင်ရာ အခန်းကဏ္ဍများနှင့် ဆက်စပ်မှုများကို အဓိပ္ပါယ်ဖွင့်ဆိုသည်။

EXTRACTOR သည် Proposition Bank မှထုတ်လုပ်သော အခန်းကဏ္ဍများဖြင့် စကားလုံးများကြားတွင် ဝေါဟာရဆိုင်ရာ အခန်းကဏ္ဍများနှင့် ဆက်စပ်မှုများကို အဓိပ္ပါယ်ဖွင့်ဆိုသည် (PropBank) မှတ်ချက်များ။

စမ်းသပ်မှုများတွင်၊ EXTRACTOR (တစ်စိတ်တစ်ပိုင်းအားဖြင့် DARPA မှ ငွေကြေးထောက်ပံ့သည်) ကို DARPA အစီရင်ခံစာများမှ လူသားဒေတာထုတ်ယူမှုနှင့် ကိုက်ညီမှုရှိသည်ကို တွေ့ရှိခဲ့သည်။ ဤစနစ်ကို Microsoft Security Intelligence နှင့် TrendMicro Threat Encyclopedia တို့မှ ဖွဲ့စည်းတည်ဆောက်ပုံမထားသော အစီရင်ခံစာများ အများအပြားကို ဆန့်ကျင်ပြီး အမှုအများစုတွင် အရေးကြီးသော အချက်အလက်များကို အောင်မြင်စွာ ထုတ်ယူနိုင်ခဲ့သည်။

သုတေသီများသည် EXTRACTOR ၏ စွမ်းဆောင်ရည်သည် စာကြောင်းများ သို့မဟုတ် စာပိုဒ်အများအပြားကို ခွဲခြမ်းစိပ်ဖြာရန် ကြိုးပမ်းသောအခါတွင် လျော့နည်းသွားဖွယ်ရှိကြောင်း သုတေသီများက ဝန်ခံသော်လည်း၊ အခြားအစီရင်ခံစာများကို လိုက်လျောညီထွေဖြစ်စေရန်အတွက် စနစ်အား ပြန်လည်အသုံးပြုခြင်းသည် ဤနေရာတွင် ရှေ့သို့နည်းလမ်းတစ်ခုအဖြစ် ညွှန်ပြထားသည်။ သို့သော်၊ ၎င်းသည် ပရောက်စီဖြင့် လူသားဦးဆောင်သော တံဆိပ်တပ်ခြင်းသို့ ပြန်ရောက်သွားသည်။

အရှည် == အာဏာပိုင် ?

Google ၏ arcane SEO algorithms တွင်ရှိပုံပေါ်သည့်နည်းလမ်းများကြားတွင်ဆက်လက်ဖြစ်ပေါ်နေသောတင်းမာမှုများကိုသတိပြုရန်စိတ်ဝင်စားစရာကောင်းသည်။ ရှည်လျားသော အကြောင်းအရာကို ပို၍ ဆုချီးမြှင့်သည်။ မကြာသေးမီနှစ်များအတွင်း (ဤရမှတ်အပေါ်တရားဝင်အကြံပြုချက်ရှိသော်လည်း၊ ဆန့်ကျင်ဘက်ဖြစ်သည်။), နှင့် AI သုတေသီများ (အဓိကအများအပြားအပါအဝင်စိန်ခေါ်မှုများ Google သုတေသနပြုမှုများ) ဤပို၍ကျယ်ပြောသော ရှည်လျားသော ဆောင်းပါးများမှ ရည်ရွယ်ချက်နှင့် အမှန်တကယ် အချက်အလက်များကို ကုဒ်ရေးခြင်းတွင် ရင်ဆိုင်ပါ။

ရှည်လျားသောအကြောင်းအရာကို ဆုချီးမြင့်ခြင်းတွင်၊ Google သည် ၎င်းနှင့်ချိတ်ဆက်သော အာဏာပိုင်ဆိုက်အရေအတွက်ကို ရေတွက်ခြင်းမှလွဲ၍ NLP လုပ်ငန်းစဉ်များမှတစ်ဆင့် ခွဲခြားသတ်မှတ်ခြင်း သို့မဟုတ် အရေအတွက်ကို သေချာပေါက်မဖော်ထုတ်နိုင်ခြင်းမရှိသေးသည့် တသမတ်တည်းအရည်အသွေးကို Google က ယူဆနေခြင်းဖြစ်သည်ဟု စောဒကတက်ရခြင်းဖြစ်သည်၊ အများဆုံးကိစ္စများ); ထို့အပြင် ဇာတ်ကြောင်းအရ 'bloat' မသက်ဆိုင်ဘဲ စကားလုံး 2,500 သို့မဟုတ် ထို့ထက်ပိုသော SERPS ထင်ရှားကျော်ကြားသည့် ပို့စ်များကို မြင်တွေ့ရခြင်းမှာ အထူးအဆန်းမဟုတ်ပါ၊ အပိုအကြောင်းအရာသည် ကျယ်ပြန့်စွာ ဥာဏ်ရည်ဥာဏ်သွေးရှိပြီး အခြားလမ်းညွှန်ချက်များကို ချိုးဖောက်ခြင်းမရှိသရွေ့၊

ဟင်းချက်နည်းက ဘယ်မှာလဲ

အကျိုးဆက် စကားလုံးအရေအတွက်တွေ များလာတယ်။တစ်စိတ်တစ်ပိုင်းကြောင့်ပါ။ စစ်မှန်သောဆန္ဒ ရှည်လျားသောအကြောင်းအရာကောင်းအတွက်၊ သေးငယ်သောအချက်အလက်အနည်းငယ်ကို 'သိမ်းဆည်းခြင်း' သည် အပိုင်းတစ်ပိုင်း၏အရှည်ကို စံပြ SEO စံနှုန်းများအထိ မြှင့်တင်နိုင်ပြီး အကြောင်းအရာအနည်းငယ်သည် ပိုမိုမြင့်မားသောအားထုတ်မှုထွက်ရှိမှုနှင့် တန်းတူယှဉ်ပြိုင်နိုင်သောကြောင့်ဖြစ်သည်။

ဥပမာတစ်ခုကတော့ ဟင်းချက်နည်းဆိုဒ်တွေ၊ မကြာခဏ ညည်းညူ of ဟက်ကာသတင်းအသိုက်အဝန်းတွင် ဇာတ်လမ်းအခြေခံသော 'ဟင်းချက်အတွေ့အကြုံ' ကိုဖန်တီးရန် ဒီဇိုင်းထုတ်ထားသော ကိုယ်ရေးအတ္ထုပ္ပတ္တိ သို့မဟုတ် ဆန်းကြယ်သော အကြောင်းအရာများနှင့်အတူ ပင်မအချက်အလက်များ (ဟင်းချက်ချက်) ကို ရှေ့ဆောင်ကာ SEO ထဲသို့ အလွန်နည်းသော စကားလုံးအရေအတွက်ကို တွန်းအားပေးရန်၊ - ဖော်ရွေသော 2,500+ စကားလုံးဒေသ။

ပွင့်လင်းရင်းမြစ် အပါအဝင် အကျုံးဝင်သော ဟင်းချက်နည်းဆိုဒ်များမှ အမှန်တကယ် ချက်ပြုတ်နည်းများကို ထုတ်ယူရန် သက်သက်လုပ်ထုံးလုပ်နည်းဆိုင်ရာ ဖြေရှင်းချက်များစွာ ထွက်ပေါ်လာသည် စာရွက်ခြစ်စက်နှင့် ဟင်းချက်နည်း ထုတ်ယူသူများအတွက် Firefox ကို နှင့် Chrome ကို. Machine learning သည် အမျိုးမျိုးသော ချဉ်းကပ်မှုများဖြင့် ဤကိစ္စနှင့်လည်း သက်ဆိုင်ပါသည်။ ဂျပန်, အမေရိကန် နှင့် ပေါ်တူဂီစတန်းဖို့ဒ်မှ သုတေသနလုပ်ငန်းများ၊ စသည်တို့ဖြစ်သည်။

ချီကာဂို သုတေသီများ ကိုင်တွယ်ဖြေရှင်းသည့် ခြိမ်းခြောက်မှု ထောက်လှမ်းရေး အစီရင်ခံစာများတွင် စကားကြမ်းခြိမ်းခြောက်မှု အစီရင်ခံခြင်း၏ ယေဘူယျအလေ့အကျင့်သည် အောင်မြင်မှုအတိုင်းအတာကို ရောင်ပြန်ဟပ်ရန် လိုအပ်ခြင်း (တစ်စိတ်တစ်ပိုင်းအားဖြင့် စာပိုဒ်တစ်ခုတွင် အကျဉ်းချုံးရလေ့ရှိသော) ကြောင့် ဖြစ်နိုင်သည်။ ၎င်းပတ်ပတ်လည်တွင် ရှည်လျားသောဇာတ်ကြောင်းနှင့် အသုံးချနိုင်မှုမခွဲခြားဘဲ ပါဝင်အားထုတ်မှုအတိုင်းအတာအတွက် ပရောက်စီတစ်ခုအဖြစ် စကားလုံးအရှည်ကို အသုံးပြုခြင်း။

ဒုတိယအချက်မှာ ပုံပြင်တစ်ပုဒ်၏ မူလရင်းမြစ်ဖြစ်လေ့ရှိသည့် ရာသီဥတုတွင်ဖြစ်သည်။ မကောင်းတဲ့ ကိုးကားတဲ့ အလေ့အကျင့်တွေ ဆုံးရှုံးသွားတယ်။ လူကြိုက်များသော သတင်း ဌာနများမှ ပြန်လည် အစီရင်ခံသော သတင်းသမား များထက် စကားလုံးများ ပမာဏ ပိုမို မြင့်မားစွာ ထုတ်လုပ်ခြင်းသည် SERPS သည် စကားလုံး ပမာဏ ဖြင့် အနိုင်ရမည်ဟု အာမခံ သည် - ယခု တွင် စကားလုံး ကျယ်ကျယ် ဖြင့် သာဓက ဖြစ်သည် ။ ကြီးထွားလာစိန်ခေါ်မှု NLP သို့ - ဤနည်းဖြင့် အမှန်တကယ် ဆုချီးမြှင့်ပါသည်။

Related ခေါင်းစဉ်များ:မီဒီယာ nlp သုတေသနလုပ်ငန်း

Next ကို up ကို

အစီရင်ခံစာသစ်တွင် ABI Research မှ အမည်ပေးထားသော ပိုမိုစမတ်ကျသော AI ကို

သတိရနေတယ်မနေပါနဲ့

Appen Limited သည် NLP အတွက် မတူကွဲပြားသော Data Training Sets များကို ဖွင့်လှစ်ထားသည်။

မာတင်အန်ဒါဆင်

စက်သင်ယူမှု၊ ဉာဏ်ရည်တုနှင့် ဒေတာကြီးကြီးမားမားဆိုင်ရာ စာရေးဆရာ။
ကိုယ်ပိုင်ဆိုက်- Martinanderson.ai
ဆက်သွယ်ရန်: [အီးမေးလ်ကိုကာကွယ်ထားသည်]
Twitter: @manders_ai