Artificial Intelligence
Bidh Ionnsachadh Inneal a’ toirt a-mach dàta ionnsaigh bho Aithisgean Cunnart Verbose
Tha rannsachadh ùr bho Oilthigh Chicago a’ nochdadh a’ chòmhstri a tha air èirigh anns na deich bliadhna a dh’ fhalbh eadar na buannachdan SEO a tha an lùib susbaint fhada, agus an duilgheadas a th’ aig siostaman ionnsachaidh innealan ann a bhith a’ faighinn dàta riatanach bhuaithe.
Ann an leasachadh a NLP siostam mion-sgrùdadh a gus fiosrachadh bagairt riatanach a thoirt a-mach à aithisgean Cyber Threat Intelligence (CTI), bha trì duilgheadasan aig luchd-rannsachaidh Chicago: mar as trice tha na h-aithisgean glè fhada, le dìreach earrann bheag coisrigte don fhìor ghiùlan ionnsaigh; tha an stoidhle dùmhail agus iom-fhillte a thaobh gràmair, le fiosrachadh farsaing a tha sònraichte don raon a tha a’ gabhail ris gu bheil eòlas ro-làimh aig an leughadair; agus tha feum aig an stuth air eòlas dàimh thar-àrainn, a dh’ fheumar a ‘chuimhneachadh’ gus a thuigsinn ann an co-theacsa (a duilgheadas leantainneach, nota an luchd-rannsachaidh).
Aithisgean Cunnart Fad-gaoithe
Is e am prìomh dhuilgheadas briathrachas. Mar eisimpleir, tha pàipear Chicago a’ toirt fa-near sin am measg 42-duilleag ClearSky 2019 aithisg bagairt airson an malware DustySky (aka NeD Worm), chan eil ach seantansan 11 a’ dèiligeadh ri agus a’ toirt cunntas air giùlan ionnsaigh.
Is e an dàrna cnap-starra iom-fhillteachd teacsa, agus, gu h-èifeachdach, fad seantans: tha an luchd-rannsachaidh a’ faicinn, am measg aithisgean bagairt 4020 bho ionad aithris bagairt Microsoft, gu bheil an t-seantans cuibheasach a ’toirt a-steach 52 facal - dìreach naoi goirid air fad na seantans cuibheasach. 500 bliadhna air ais (ann an co-theacsa gu bheil fad seantans aig air a dhol sìos 75% bhon uairsin).
Ach, tha am pàipear a’ cumail a-mach gur e ‘paragrafan teannte’ annta fhèin a th’ anns na seantansan fada seo, làn chlàsan, gnàthasan-cainnte agus buadhairean a tha a’ còmhdach prìomh bhrìgh an fhiosrachaidh; agus gu tric nach eil am puingeachadh bunaiteach àbhaisteach anns na seantansan NLP siostaman leithid spaCy, Stanford agus NLTK an urra ri rùn a thoirt a-mach no dàta cruaidh a tharraing.
NLP gus fiosrachadh mu chunnart iomchaidh a thoirt a-mach
Canar loidhne-phìoban ionnsachadh inneal a tha luchd-rannsachaidh Chicago air a leasachadh gus dèiligeadh ris an seo EXTRACTOR, agus a’ cleachdadh dhòighean NLP gus grafaichean a ghineadh a bhios a’ tarraing agus a’ toirt geàrr-chunntas air giùlan ionnsaigh bho aithisgean cruth fada. Bidh am pròiseas a’ tilgeadh air falbh an sgeadachadh eachdraidheil, aithriseach agus eadhon cruinn-eòlasach a chruthaicheas ‘sgeulachd’ tarraingeach agus coileanta aig cosgais prìomhachas soilleir a thoirt don uallach pàighidh fiosrachaidh.
Leis gu bheil co-theacsa na dhùbhlan cho mòr ann an aithisgean gnìomhair is prolix CTI, thagh an luchd-rannsachaidh an BERT (Bidirectional Encoder Riochdachaidhean bho Transformer) modail riochdachadh cànain thairis air Google Facal 2 Vec neo Stanford's GloVe (Global Vectors for Word Riochdachadh).
Bidh BERT a’ measadh fhaclan bhon cho-theacsa mun cuairt orra, agus cuideachd a’ leasachadh fasgaidhean airson fo-fhaclan (ie a chur air bhog, a ’cur air bhog agus a ’cur air bhog uile gu leir a chur air bhog). Tha seo a’ cuideachadh EXTRACTOR gus dèiligeadh ri briathrachas teignigeach nach eil an làthair ann am modail trèanaidh BERT, agus seantansan a sheòrsachadh mar ‘torach’ (anns a bheil fiosrachadh iomchaidh) no ‘neo-thorrach’.
Ag àrdachadh briathrachas ionadail
Gu do-sheachanta feumaidh cuid de shealladh fearainn sònraichte a bhith air fhilleadh a-steach do loidhne-phìoban NLP a bhios a’ dèiligeadh ri stuthan den t-seòrsa seo, leis nach fheum foirmean facal fìor fhreagarrach leithid seòlaidhean IP agus ainmean pròiseas teignigeach a bhith air an cur an dàrna taobh.
Bidh pàirtean nas fhaide air adhart den phròiseas a 'cleachdadh a BiLSTM (Dà-thaobhach LSTM) gus dèiligeadh ri briathrachas fhaclan, a’ faighinn dreuchdan semantach airson pàirtean seantans, mus toir iad air falbh faclan neo-thorrach. Tha BiLSTM gu math freagarrach airson seo, oir faodaidh e na h-eisimeileachd astar fada a tha a’ nochdadh ann an sgrìobhainnean gnìomhair a cho-cheangal, far a bheil feum air barrachd aire agus gleidheadh gus an co-theacsa a thoirt a-mach.
Ann an deuchainnean, chaidh EXTRACTOR (air a mhaoineachadh gu ìre le DARPA) a lorg comasach air tarraing dàta daonna a cho-fhreagairt bho aithisgean DARPA. Chaidh an siostam a ruith cuideachd an aghaidh àireamh àrd de dh’ aithisgean neo-structaraichte bho Microsoft Security Intelligence agus an TrendMicro Threat Encyclopedia, a’ toirt a-mach fiosrachadh iomchaidh gu soirbheachail ann am mòr-chuid de chùisean.
Tha an luchd-rannsachaidh ag aideachadh gu bheil coltas ann gun lughdaich coileanadh EXTRACTOR nuair a thathar a’ feuchainn ri gnìomhan a tha a’ tachairt thairis air grunn sheantansan no pharagrafan a tharraing, ged a tha ath-inneal air an t-siostam gus gabhail ri aithisgean eile air a chomharrachadh mar dhòigh air adhart an seo. Ach, tha seo gu ìre mhòr a’ tuiteam air ais gu bileagan air an stiùireadh le daoine le neach-ionaid.
Fad == Ùghdarras?
Tha e inntinneach a bhith mothachail air an teannachadh leantainneach eadar an dòigh anns a bheil coltas gu bheil algorithms SEO seòlta Google susbaint cruth fada le barrachd duais o chionn beagan bhliadhnaichean (ged a tha comhairle oifigeil air an sgòr seo tha an-aghaidh), agus na dùbhlain a tha luchd-rannsachaidh AI (a’ toirt a-steach mòran de phrìomh Iomairtean rannsachaidh Google) aghaidh ann a bhith a’ còdachadh rùn agus dàta fìor bho na h-artaigilean sin a tha a’ sìor fhàs mì-chinnteach agus fada.
Faodar a ràdh, ann a bhith a’ toirt duais do shusbaint nas fhaide, gu bheil Google a’ gabhail ris gu bheil càileachd chunbhalach nach urrainn dha aithneachadh no a thomhas fhathast tro phròiseasan NLP, ach a-mhàin le bhith a’ cunntadh an àireamh de làraich ùghdarrais a tha a’ ceangal ris (meatrach ‘meatware’, ann an sa mhòr-chuid de chùisean); agus mar sin nach eil e neo-àbhaisteach puist de 2,500 facal no barrachd fhaicinn a’ faighinn follaiseachd SERPS ge bith dè an aithris ‘bloat’ a th’ ann, cho fad ‘s a tha an susbaint a bharrachd furasta a thuigsinn agus nach eil e a’ briseadh stiùiridhean eile.
Càite bheil an t-oideas?
Mar sin, tha àireamh nam faclan ag èirigh, gu ìre air sgàth a fìor mhiann airson deagh shusbaint cruth fada, ach cuideachd air sgàth ‘s gum faod ‘stòradh’ beagan fhìrinnean gann fad pìos a thogail gu inbhean SEO air leth math, agus leigeil le beagan susbaint a bhith a’ farpais gu co-ionann ri toradh oidhirp nas àirde.
Is e aon eisimpleir de seo làraich reasabaidh, tric a ' gearain of ann an coimhearsnachd Hacker News airson am prìomh fhiosrachadh (an reasabaidh) a ro-ràdh le sgadan de shusbaint fèin-eachdraidh no whimsical air a dhealbhadh gus ‘eòlas reasabaidh’ stèidhichte air sgeulachd a chruthachadh, agus gus na bhiodh air dhòigh eile na chunntas glè ìosal de fhaclan a-steach don SEO - sgìre càirdeil 2,500+ facal.
Tha grunn fhuasglaidhean fìor-mhodhail air nochdadh gus fìor reasabaidhean a thoirt a-mach à làraich reasabaidh gnìomhair, a’ gabhail a-steach stòr fosgailte sgrìoban reasabaidh, agus luchd-tarraing reasabaidh airson Firefox agus Chrome. Tha ionnsachadh inneal cuideachd co-cheangailte ri seo, le diofar dhòighean-obrach bho Iapan, na SA agus A' Phortagail, a bharrachd air rannsachadh bho Stanford, am measg feadhainn eile.
A thaobh na h-aithisgean fiosrachaidh bagairt air an do dhèilig luchd-rannsachaidh Chicago, is dòcha gu bheil cleachdadh coitcheann aithris bagairt gnìomhair gu ìre mar thoradh air an fheum air sgèile coileanaidh a nochdadh (a dh’ fhaodadh a bhith air a gheàrr-chunntas ann am paragraf air dhòigh eile) le bhith a’ cruthachadh fìor shealladh. aithris fhada timcheall air, agus a’ cleachdadh faid fhaclan mar neach-ionaid airson meud na h-oidhirp a tha na lùib, ge bith dè cho iomchaidh sa tha e.
San dàrna h-àite, ann an gnàth-shìde far a bheil tùs sgeulachd gu tric air chall le droch chleachdaidhean luaidh le ionadan naidheachd mòr-chòrdte, a’ toirt a-mach meud nas àirde de dh’fhaclan na dh’ fhaodadh neach-naidheachd ath-aithris sam bith geallaidhean ath-aithris a dhèanamh air buannachadh SERPS le àireamh fhaclan dìreach, a’ gabhail ris gu bheil briathrachas - a-nis a dùbhlan a tha a’ fàs gu NLP - air a dhuaiseachadh gu mòr san dòigh seo.