stub Barashada Mashiinku waxay ka soo saartaa xogta weerarka Warbixinada Hanjabaada Verbose - Unite.AI
Connect nala

Sirdoonka Artificial

Barashada Mashiinku waxay ka soo saartaa xogta weerarka ee Warbixinada Hanjabaada Afka ah

mm
Updated on
NLP macdanta

Cilmi-baadhis cusub oo ka soo baxday Jaamacadda Chicago ayaa muujinaysa khilaafka soo ifbaxay tobankii sano ee la soo dhaafay ee u dhexeeya faa'iidooyinka SEO ee nuxurka qaab-dheer, iyo dhibka ay nidaamyada barashada mishiinadu u leeyihiin in ay ka soo ururiyaan xogta muhiimka ah.

Horumarinta a Nidaamka falanqaynta NLP si loo soo saaro macluumaadka khatarta ah ee khatarta ah warbixinnada Sirdoonka Khatarta Internetka (CTI), cilmi-baarayaasha Chicago waxay la kulmeen saddex dhibaato: warbixinuhu badanaa aad bay u dheer yihiin, oo leh qayb yar oo keliya oo loo qoondeeyay habdhaqanka dhabta ah ee weerarka; qaabku waa cufan oo naxwe ahaan kakan, oo leh xog badan oo domain-gaar ah oo u malaynaysa aqoon hore oo dhinaca akhristaha ah; maaddaduna waxay u baahan tahay aqoonta xidhiidhka labada dhinac, kaas oo ay tahay in 'la xafido' si loo fahmo macnaha guud (a dhibaato joogto ah, cilmi-baarayaashu waxay xuseen).

Warbixinada Hanjabaada Daba-dheer

Dhibka ugu horreeyaa waa hadalka. Tusaale ahaan, xaashida Chicago waxay xustay in ka mid ah ClearSky's 42-bog 2019 warbixin hanjabaad DustySky (loo yaqaan NeD Worm) malware, 11 jumladood oo kaliya ayaa dhab ahaantii wax ka qabta oo qeexaya habdhaqanka weerarka.

Caqabadda labaad waa kakanaanta qoraalka, iyo, si wax ku ool ah, dhererka jumlada: cilmi-baarayaashu waxay u fiirsadaan in 4020 warbixinnada halista ah ee ka imanaya xarunta warbixinta hanjabaadda Microsoft, celceliska jumladdu waxay ka kooban tahay 52 kelmadood - kaliya sagaal ayaa ka gaaban celceliska dhererka jumlada. sano ka hor 500 (marka la eego xaqiiqda ah in dhererka jumlada uu leeyahay ayaa hoos u dhacay 75% tan iyo markaas).

Si kastaba ha ahaatee, warqaddu waxay ku doodaysaa in weedhahan dhaadheer ay laftoodu yihiin 'paragraphs' la isku riixay', oo ay ka buuxaan qodobbo, fal-celin iyo tilmaamo qarinaya macnaha ubucda ah ee macluumaadka; iyo in weedhaha ay inta badan ka maqan yihiin xarakaynta caadiga ah ee aasaasiga ah NLP nidaamyada sida boosCy, Stanford iyo NLTK ku tiirsanaado ujeedo ama soo saar xog adag.

NLP Si Loo Soo Saaro Macluumaad Halis Leh

Dhuumaha barashada mashiinka ee cilmi-baarayaasha Chicago ay sameeyeen si ay taas wax uga qabtaan ayaa la yiraahdaa SOO SAARE, oo adeegsada farsamooyinka NLP si ay u soo saaraan garaafyo ka dhigaya oo soo koobaya hab-dhaqanka weerarka qaab-dheer, warbixinno hadal ah. Nidaamku waxa uu meesha ka saarayaa qurxinta taariikhiga ah, sheeko iyo xataa juqraafi ahaan taas oo abuurta 'sheeko' soo jiidasho leh oo dhammaystiran iyada oo kharashka si cad loo kala hormarinayo culayska xogta.

Xigasho: https://arxiv.org/pdf/2104.08618.pdf

Xigasho: https://arxiv.org/pdf/2104.08618.pdf

Maadaama macnaha guud uu yahay caqabada odhaahda iyo warbixinada CTI-da, cilmi-baarayaashu waxay doorteen BERT (Wakiilada Encoder-ka laba jiho ee Transformer) qaabka matalaynta luqadda ee Google-ka Word2Vec ama Stanford's GloVe (Global Vectors for Prepresentation).

BERT waxay qiimaysaa ereyada ku xeeran, waxayna sidoo kale horumarisaa gundhig ereyada hoose (ie furitaanka, furitanka iyo furayey oo dhan hoos ilaa furitaanka). Tani waxay ka caawinaysaa EXTRACTOR inuu la qabsado erayada farsamada ee aan ku jirin qaabka tababarka BERT, iyo inuu u kala saaro weedhaha 'wax soo saar leh' (oo ka kooban macluumaad khuseeya) ama 'aan-soosaar lahayn'.

Kordhinta Erayada Maxalliga ah

Waa lama huraan in qaar ka mid ah aragtida domain gaar ah waa in lagu dhex daraa dhuumaha NLP ee ka hadlaya walxaha noocaan ah, maadaama kelmadaha aadka u khuseeya sida cinwaannada IP-yada iyo magacyada habka farsamada waa in aan dhinac la iska tuurin.

Qaybaha dambe ee habsocodka waxay isticmaalaan a BiLSTM (Bilaash Shabakadda LSTM) si ay wax uga qabato hadalka hadalka, ka soo saarida doorar macne ah qaybaha jumlada, ka hor inta aan meesha laga saarin ereyada aan waxtarka lahayn. BiLSTM si fiican ayey ugu habboon tahay tan, maadaama ay isku xiri karto ku-tiirsanaanta fogaanta ee ka muuqda dukumeentiyada afka ah, halkaasoo fiiro gaar ah iyo sii hayn ay lagama maarmaan tahay si loo soo saaro macnaha guud.

EXTRACTOR waxa uu qeexayaa doorarka macnaha iyo xidhiidhka ka dhexeeya erayada, iyada oo doorarka uu soo saaray Bankiga Soo jeedinta (PropBank).

EXTRACTOR waxa uu qeexayaa doorar macnawi ah iyo xidhiidhka ka dhexeeya erayada, iyada oo doorar uu soo saaray Baanka Soo jeedinta (PropBank) tafsiir.

Tijaabooyin, EXTRACTOR (oo qayb ahaan ay maalgelisay DARPA) ayaa lagu helay in ay awood u leedahay in ay iswaafajiso xogta bini'aadamka ee warbixinnada DARPA. Nidaamku waxa kale oo uu ka horyimid tiro badan oo warbixino aan habaysanayn oo ka yimid Sirdoonka Amniga Microsoft iyo TrendMicro Threat Encyclopedia, si guul leh u soo saarista macluumaadka muhiimka ah inta badan kiisaska.

Cilmi-baarayaashu waxay qireen in waxqabadka EXTRACTOR ay u badan tahay inuu hoos u dhaco marka la isku dayo in la baabi'iyo ficillada ka dhaca jumlado ama cutubyo badan, in kasta oo dib-u-habeynta nidaamka si loo waafajiyo warbixinnada kale lagu tilmaamay waddo hore loo marayo halkan. Si kastaba ha ahaatee, tani waxay asal ahaan dib ugu soo noqonaysaa ku calaamadinta wakiilnimada bani'aadamku hoggaamiyo.

Dhererka = Awood?

Waxaa xiiso leh in la ogaado xiisadda socota ee u dhaxaysa habka Google's arcane SEO algorithms u muuqdo inuu leeyahay tusmooyin qaab-dheer oo sii kordheysa oo abaal-marin leh sanadihii dhawaa (inkasta oo talada rasmiga ah ee dhibcahan waa iska horimanaya), iyo caqabadaha ay cilmi-baarayaasha AI (oo ay ku jiraan kuwa badan oo waaweyn Hindisaha cilmi-baarista Google) wajihida dejinta ujeedka iyo xogta dhabta ah ee maqaaladan sii kordheysa ee doodaha iyo dhaadheer.

Waa wax lagu doodi karo in marka la abaalmariyo nuxurka dheer, Google waxa ay u malaynaysaa tayo joogto ah oo aanay daruuri ahayn in lagu aqoonsado ama lagu qiyaaso weli iyada oo loo marayo habraacyada NLP, marka laga reebo iyada oo la tiriyo tirada goobaha maamulka ee ku xidhan (mitirka 'hilibka', in inta badan kiisaska); iyo in aysan ahayn wax aan caadi ahayn in la arko qoraallada 2,500 ama in ka badan oo lagu gaarayo sumcadda SERPS iyada oo aan loo eegin sheeko 'baro', ilaa inta nuxurka dheeriga ah uu yahay mid si ballaaran loo fahmi karo oo uusan jebin tilmaamaha kale.

Aaway Recipe?

Sidaas awgeed, tirada erayada ayaa kor u kacaya, qayb ahaan sababtoo ah a rabitaan dhab ah Wixii ka kooban qaab-dheer oo wanaagsan, laakiin sidoo kale sababtoo ah 'kaydinta' xaqiiqooyin kooban ayaa kor u qaadi kara dhererka gabal si loo gaaro heerarka SEO ee ku habboon, oo u oggolow wax yar inay si siman ula tartamaan wax soo saarka dadaalka sare.

Mid ka mid ah tusaale ahaan tan waa goobaha cuntada, had iyo jeer ka cabatay of Hackers News bulshada si ay u horu mariyaan xogta asaasiga ah (cuntada cuntada) oo leh xaashiyo taariikh nololeed ama waxyaabo xiiso leh oo loogu talagalay in lagu abuuro sheeko 'khibrad cunto karin' ah, iyo in lagu riixo waxa haddii kale noqon lahaa eray aad u hooseeya oo lagu tiriyo SEO-ga. - saaxiibtinimo 2,500+ gobolka eray.

Tiro ka mid ah xalal habraaceed oo kali ah ayaa soo baxay si looga soo saaro cuntooyinka dhabta ah ee goobaha cuntada laga qaato, oo ay ku jiraan il furan xoqista cuntada, iyo soosaarayaasha cuntada Firefox iyo Chrome. Barashada mashiinka ayaa sidoo kale khuseysa tan, iyada oo habab kala duwan laga keenay Japan, Mareykanka iyo Portugal, iyo sidoo kale cilmi-baarista Stanford, iyo kuwo kale.

Marka la eego warbixinnada sirdoonka khatarta ah ee ay ka hadlaan cilmi-baarayaasha Chicago, dhaqanka guud ee ka warbixinta hanjabaadda afka ah waxaa laga yaabaa in ay qayb ka tahay baahida loo qabo in la muujiyo cabbirka guusha (taas oo haddii kale inta badan lagu soo koobi karo cutub) iyada oo la abuurayo mid aad u badan. sheeko dheer oo ku xeeran, iyo isticmaalka ereyga-dhererka wakiil ahaan miisaanka dadaalka ku jira, iyadoon loo eegin ku-dhaqanka.

Marka labaad, jawiga halka ay inta badan tahay isha sheekada lumay dhaqamada xigashada xun Wargeysyada caanka ah ee caanka ah, soo saarida erayo ka sarreeya marka loo eego saxafi kasta oo dib u soo tebiya waxay ku celin kartaa dammaanad qaadka guusha SERPS iyadoo loo qaadanayo mug weyn, iyada oo loo malaynayo in hadal ahaan - hadda caqabad sii kordheysa si NLP - run ahaantii waxaa lagu abaalmariyey habkan.