maroke Ako Miihini Tango Raraunga Whakaeke Mai i nga Ripoata Whakawehi Verbose - Unite.AI
Tūhono ki a tatou

Intelligence Artificial

Te Ako Miihini Tango Raraunga Whakaeke Mai i nga Ripoata Whakawehi Verbose

mm
whakahoutia on
NLP maina

Ko nga rangahau hou mai i te Whare Wananga o Chicago e whakaatu ana i te taupatupatu kua ara ake i roto i nga tau tekau kua hipa i waenga i nga painga SEO o nga tuhinga roa, me te uaua o nga punaha ako miihini ki te kohi raraunga nui mai i a ia.

I te whakawhanake i tetahi Pūnaha tātari NLP ki te tango i nga korero whakamataku mai i nga korero a Cyber ​​Threat Intelligence (CTI), e toru nga raruraru i pa ki nga kairangahau o Chicago: he roa rawa nga purongo, he iti noa te waahanga kua whakatapua ki te whanonga whakaeke; he mātotoru me te wetereo te kāhua, me te maha o nga korero mo te rohe-motuhake e kii ana i nga mohiotanga o mua o te kaipanui; me te rauemi e hiahia ana ki te matauranga hononga whakawhiti-rohe, me 'maumahara' kia mohio ai ki te horopaki (a raruraru tamau, ka tuhia e nga kairangahau).

Nga Ripoata Whakamatau Roa

Ko te raruraru tuatahi ko te korero. Hei tauira, ko te pepa Chicago kei roto i nga wharangi 42-wharangi a ClearSky 2019 ripoata whakawehi mo te DustySky (aka NeD Worm) malware, he 11 noa nga rerenga korero e mahi ana me te whakaatu i te whanonga whakaeke.

Ko te arai tuarua ko te uauatanga o te tuhinga, me te whai hua, te roa o te rerenga rerenga: ka kite nga kairangahau i roto i te 4020 nga purongo whakatuma mai i te pokapū purongo whakatuma a Microsoft, ko te rerenga toharite he 52 kupu – e iwa noa iho te roa o te roanga o te rerenga rerenga. tau 500 mua (i roto i te horopaki o te meka ko te roa o te rerenga korero i heke 75% mai i tera wa).

Heoi, e kii ana te pepa ko enei rerenga roa he 'kowae whakakopeke' i roto i a ratou ano, ki tonu i nga rara, kupu whakatau me nga kupu ahua e huna ana i te tino tikanga o nga korero; a, he maha nga wa karekau nga rerenga i nga tohu tohu taketake NLP pūnaha pērā i hauhau, Stanford me NLTK whirinaki ki te whakatau whakaaro, ki te tango raraunga pakeke ranei.

NLP Hei Tango i nga korero mo te riri

Ko te paipa ako miihini i hangaia e nga kairangahau Chicago ki te whakatutuki i tenei ka kiia KAUPAPA, me te whakamahi i nga tikanga NLP ki te whakaputa kauwhata hei whakamaarama me te whakarapopoto i nga whanonga whakaeke mai i nga purongo korero roa. Ka whakakorehia e te tukanga te whakapaipai o mua, korero, tae atu ki te whakapaipai matawhenua e hanga ana i te 'korero' whakahihiri me te whakapau kaha me te kore e aro nui ki te utu korero.

Puna: https://arxiv.org/pdf/2104.08618.pdf

Puna: https://arxiv.org/pdf/2104.08618.pdf

I te mea he wero te horopaki i roto i nga purongo CTI verbose me prolix, i whiriwhiria e nga kairangahau te BERT (Bidirectional Encoder Representations from Transformer) tauira reo mo Google Kupu2Vec ko Stanford's GloVe (Global Vectors for Word Representation).

Ka arotake a BERT i nga kupu mai i o raatau horopaki a tawhio noa, me te whakawhanake ano whakaurunga mo nga kupu iti (ara Whakarewatanga, whakarewa a rōnihi puta katoa ki raro Whakarewatanga). Ka awhina tenei i te EXTRACTOR ki te aro ki nga kupu hangarau karekau i te tauira whakangungu a BERT, me te whakarōpū i nga rerenga korero hei 'hua' (kei roto nga korero e tika ana), he 'kore-hua' ranei.

Te whakanui ake i nga kupu a rohe

Kore e kore me whakauru etahi matauranga rohe motuhake ki roto i te paipa NLP e pa ana ki nga momo rauemi penei, na te mea kaore e tika kia whakarerea nga puka kupu tino pai penei i nga wahitau IP me nga ingoa tukanga hangarau.

Ko nga waahanga o muri o te tukanga ka whakamahi i te a BiLSTM (Te Taakapa LSTM) ki te whakatika i te kupu kupu, te tango i nga mahi tohu mo nga wahanga rerenga korero, i mua i te tango i nga kupu huakore. He pai rawa te BiLSTM mo tenei, na te mea ka taea e ia te hono i nga whakawhirinakitanga tawhiti-tawhiti e puta mai ana i roto i nga tuhinga verbose, me nui ake te aro me te pupuri ki te whakatau i te horopaki.

Ka tautuhia e EXTRACTOR nga mahi oro me nga hononga i waenga i nga kupu, me nga mahi i hangaia e te Peeke Proposition (PropBank).

Ko te EXTRACTOR e whakaatu ana i nga mahi oro me nga hononga i waenga i nga kupu, me nga mahi i hangaia e Proposition Bank (PropBank) nga korero.

I roto i nga whakamatautau, i kitea ko te EXTRACTOR (he wahanga i utua e DARPA) he kaha ki te whakataurite i te tangohanga raraunga tangata mai i nga purongo DARPA. I whakahaerehia ano te punaha ki te maha o nga purongo kaore i hangahia mai i te Microsoft Security Intelligence me te TrendMicro Threat Encyclopedia, i pai te tango i nga korero whakahirahira i te nuinga o nga keehi.

E kii ana nga kairangahau ka heke te mahi a EXTRACTOR i te wa e ngana ana ki te whakamaarama i nga mahi ka puta puta noa i te maha o nga rerenga korero, kowae ranei, ahakoa ko te mahi taputapu ano i te punaha ki te whakauru i etahi atu purongo kua tohuhia hei huarahi whakamua i konei. Heoi, kei te hoki ano tenei ki te tapanga a te tangata ma te takawaenga.

Te Roa == Mana?

He mea rawe ki te kite i te ngangau tonu i waenga i te ahua o te ahua o te ahua o te arcane SEO algorithms a Google. ka nui ake te utu i nga ihirangi ahua roa i nga tau tata nei (ahakoa nga tohutohu whaimana mo tenei kaute he taupatupatu), me nga wero a nga kairangahau AI (tae atu ki te maha o nga mea nui Nga kaupapa rangahau a Google) ka aro ki te wetewete i te koronga me nga raraunga pono mai i enei tuhinga korero me te roa.

E whakapaetia ana mo te utu i nga ihirangi roa ake, kei te whakaaro a Google he rite tonu te kounga e kore e taea e ia te tautuhi, te ine ranei na roto i nga tikanga NLP, engari ma te tatau i te maha o nga waahi mana e hono ana ki a ia (he inenga 'meatware', i te nuinga o nga keehi); na reira ehara i te mea rereke te kite i nga whakairinga o nga kupu 2,500 neke atu ranei e eke ana ki te mana o te SERPS ahakoa te ahua o te 'pupuhi' o nga korero, i te mea kei te maarama whanui te taapiri me te kore e takahi i etahi atu aratohu.

Kei hea te Recipe?

Nā tēnei, kei te piki haere nga tatau kupu, he wahanga na te a hiahia pono mo te pai o nga ihirangi ahua roa, engari na te mea 'te whakamaarama' i etahi korero iti ka taea te whakanui i te roa o tetahi waahanga ki nga paerewa SEO pai, me te tuku i nga ihirangi paku ki te whakataetae rite ki nga putanga kaha ake.

Ko tetahi tauira o tenei ko nga waahi tunu, pinepine ka amuamu of i roto i te hapori Hacker News mo te whakamaarama i nga korero matua (te tohutaka) me te maha o nga korero mo te autobiographical, nga mea whakahihiri ranei i hangaia hei hanga i tetahi 'wheako tunu kai', me te pana i te mea he iti rawa te tatau-kupu ki roto i te SEO. -hoa 2,500+ rohe kupu.

He maha nga otinga tikanga kua puta ki te tango i nga tohutoro tuturu mai i nga waahi tohutoro kupu, tae atu ki te puna tuwhera. tunu tunu, me nga kai tango tunu mo Firefox a Chrome. Kei te awangawanga ano te ako miihini ki tenei, me nga momo huarahi mai i Japan, te US a Portugal, me nga rangahau mai i Stanford, me etahi atu.

Mo nga purongo mo te whakatuma whakatuma e korerohia ana e nga kairangahau o Chicago, ko te tikanga whanui o te purongo whakatuma verbose pea na te hiahia ki te whakaata i te tauine o te whakatutukitanga (ka taea te whakarapopotohia i roto i te wharangi) he korero roa a tawhio noa, me te whakamahi i te kupu-roa hei takawaenga mo te tauine o te whakapau kaha, ahakoa te whakamahi.

Tuarua, i roto i te ahua o te rangi ko te putake o te korero i te nuinga o te wa ngaro ki nga mahi whakahua kino na nga purongo rongonui, ko te whakaputa i te nui ake o nga kupu ka taea e nga kairipoata tuku korero ano te whakataurite i te wikitoria o te SERPS ma te nui o nga kupu kupu, ki te whakaaro ko te kupu korero - inaianei he te tipu haere o te wero ki te NLP - he tino utu tenei.