Artificial Intelligence

Bidh Ionnsachadh Inneal a’ toirt a-mach dàta ionnsaigh bho Aithisgean Cunnart Verbose

Ùraichte on Dùbhlachd 9, 2022

Tha rannsachadh ùr bho Oilthigh Chicago a’ nochdadh a’ chòmhstri a tha air èirigh anns na deich bliadhna a dh’ fhalbh eadar na buannachdan SEO a tha an lùib susbaint fhada, agus an duilgheadas a th’ aig siostaman ionnsachaidh innealan ann a bhith a’ faighinn dàta riatanach bhuaithe.

Ann an leasachadh a NLP siostam mion-sgrùdadh a gus fiosrachadh bagairt riatanach a thoirt a-mach à aithisgean Cyber Threat Intelligence (CTI), bha trì duilgheadasan aig luchd-rannsachaidh Chicago: mar as trice tha na h-aithisgean glè fhada, le dìreach earrann bheag coisrigte don fhìor ghiùlan ionnsaigh; tha an stoidhle dùmhail agus iom-fhillte a thaobh gràmair, le fiosrachadh farsaing a tha sònraichte don raon a tha a’ gabhail ris gu bheil eòlas ro-làimh aig an leughadair; agus tha feum aig an stuth air eòlas dàimh thar-àrainn, a dh’ fheumar a ‘chuimhneachadh’ gus a thuigsinn ann an co-theacsa (a duilgheadas leantainneach, nota an luchd-rannsachaidh).

Aithisgean Cunnart Fad-gaoithe

Is e am prìomh dhuilgheadas briathrachas. Mar eisimpleir, tha pàipear Chicago a’ toirt fa-near sin am measg 42-duilleag ClearSky 2019 aithisg bagairt airson an malware DustySky (aka NeD Worm), chan eil ach seantansan 11 a’ dèiligeadh ri agus a’ toirt cunntas air giùlan ionnsaigh.

Is e an dàrna cnap-starra iom-fhillteachd teacsa, agus, gu h-èifeachdach, fad seantans: tha an luchd-rannsachaidh a’ faicinn, am measg aithisgean bagairt 4020 bho ionad aithris bagairt Microsoft, gu bheil an t-seantans cuibheasach a ’toirt a-steach 52 facal - dìreach naoi goirid air fad na seantans cuibheasach. 500 bliadhna air ais (ann an co-theacsa gu bheil fad seantans aig air a dhol sìos 75% bhon uairsin).

Ach, tha am pàipear a’ cumail a-mach gur e ‘paragrafan teannte’ annta fhèin a th’ anns na seantansan fada seo, làn chlàsan, gnàthasan-cainnte agus buadhairean a tha a’ còmhdach prìomh bhrìgh an fhiosrachaidh; agus gu tric nach eil am puingeachadh bunaiteach àbhaisteach anns na seantansan NLP siostaman leithid spaCy, Stanford agus NLTK an urra ri rùn a thoirt a-mach no dàta cruaidh a tharraing.

NLP gus fiosrachadh mu chunnart iomchaidh a thoirt a-mach

Canar loidhne-phìoban ionnsachadh inneal a tha luchd-rannsachaidh Chicago air a leasachadh gus dèiligeadh ris an seo EXTRACTOR, agus a’ cleachdadh dhòighean NLP gus grafaichean a ghineadh a bhios a’ tarraing agus a’ toirt geàrr-chunntas air giùlan ionnsaigh bho aithisgean cruth fada. Bidh am pròiseas a’ tilgeadh air falbh an sgeadachadh eachdraidheil, aithriseach agus eadhon cruinn-eòlasach a chruthaicheas ‘sgeulachd’ tarraingeach agus coileanta aig cosgais prìomhachas soilleir a thoirt don uallach pàighidh fiosrachaidh.

Stòr: https://arxiv.org/pdf/2104.08618.pdf

Leis gu bheil co-theacsa na dhùbhlan cho mòr ann an aithisgean gnìomhair is prolix CTI, thagh an luchd-rannsachaidh an BERT (Bidirectional Encoder Riochdachaidhean bho Transformer) modail riochdachadh cànain thairis air Google Facal 2 Vec neo Stanford's GloVe (Global Vectors for Word Riochdachadh).

Bidh BERT a’ measadh fhaclan bhon cho-theacsa mun cuairt orra, agus cuideachd a’ leasachadh fasgaidhean airson fo-fhaclan (ie a chur air bhog, a ’cur air bhog agus a ’cur air bhog uile gu leir a chur air bhog). Tha seo a’ cuideachadh EXTRACTOR gus dèiligeadh ri briathrachas teignigeach nach eil an làthair ann am modail trèanaidh BERT, agus seantansan a sheòrsachadh mar ‘torach’ (anns a bheil fiosrachadh iomchaidh) no ‘neo-thorrach’.

Ag àrdachadh briathrachas ionadail

Gu do-sheachanta feumaidh cuid de shealladh fearainn sònraichte a bhith air fhilleadh a-steach do loidhne-phìoban NLP a bhios a’ dèiligeadh ri stuthan den t-seòrsa seo, leis nach fheum foirmean facal fìor fhreagarrach leithid seòlaidhean IP agus ainmean pròiseas teignigeach a bhith air an cur an dàrna taobh.

Bidh pàirtean nas fhaide air adhart den phròiseas a 'cleachdadh a BiLSTM (Dà-thaobhach LSTM) gus dèiligeadh ri briathrachas fhaclan, a’ faighinn dreuchdan semantach airson pàirtean seantans, mus toir iad air falbh faclan neo-thorrach. Tha BiLSTM gu math freagarrach airson seo, oir faodaidh e na h-eisimeileachd astar fada a tha a’ nochdadh ann an sgrìobhainnean gnìomhair a cho-cheangal, far a bheil feum air barrachd aire agus gleidheadh gus an co-theacsa a thoirt a-mach.

Tha EXTRACTOR a’ mìneachadh dreuchdan semantach agus dàimhean eadar faclan, le dreuchdan air an gineadh le notaichean Proposition Bank (PropBank).

Tha EXTRACTOR a’ mìneachadh dreuchdan semantach agus dàimhean eadar faclan, le dreuchdan air an cruthachadh le Proposition Bank (Banca Prop) notaichean.

Ann an deuchainnean, chaidh EXTRACTOR (air a mhaoineachadh gu ìre le DARPA) a lorg comasach air tarraing dàta daonna a cho-fhreagairt bho aithisgean DARPA. Chaidh an siostam a ruith cuideachd an aghaidh àireamh àrd de dh’ aithisgean neo-structaraichte bho Microsoft Security Intelligence agus an TrendMicro Threat Encyclopedia, a’ toirt a-mach fiosrachadh iomchaidh gu soirbheachail ann am mòr-chuid de chùisean.

Tha an luchd-rannsachaidh ag aideachadh gu bheil coltas ann gun lughdaich coileanadh EXTRACTOR nuair a thathar a’ feuchainn ri gnìomhan a tha a’ tachairt thairis air grunn sheantansan no pharagrafan a tharraing, ged a tha ath-inneal air an t-siostam gus gabhail ri aithisgean eile air a chomharrachadh mar dhòigh air adhart an seo. Ach, tha seo gu ìre mhòr a’ tuiteam air ais gu bileagan air an stiùireadh le daoine le neach-ionaid.

Fad == Ùghdarras?

Tha e inntinneach a bhith mothachail air an teannachadh leantainneach eadar an dòigh anns a bheil coltas gu bheil algorithms SEO seòlta Google susbaint cruth fada le barrachd duais o chionn beagan bhliadhnaichean (ged a tha comhairle oifigeil air an sgòr seo tha an-aghaidh), agus na dùbhlain a tha luchd-rannsachaidh AI (a’ toirt a-steach mòran de phrìomh Iomairtean rannsachaidh Google) aghaidh ann a bhith a’ còdachadh rùn agus dàta fìor bho na h-artaigilean sin a tha a’ sìor fhàs mì-chinnteach agus fada.

Faodar a ràdh, ann a bhith a’ toirt duais do shusbaint nas fhaide, gu bheil Google a’ gabhail ris gu bheil càileachd chunbhalach nach urrainn dha aithneachadh no a thomhas fhathast tro phròiseasan NLP, ach a-mhàin le bhith a’ cunntadh an àireamh de làraich ùghdarrais a tha a’ ceangal ris (meatrach ‘meatware’, ann an sa mhòr-chuid de chùisean); agus mar sin nach eil e neo-àbhaisteach puist de 2,500 facal no barrachd fhaicinn a’ faighinn follaiseachd SERPS ge bith dè an aithris ‘bloat’ a th’ ann, cho fad ‘s a tha an susbaint a bharrachd furasta a thuigsinn agus nach eil e a’ briseadh stiùiridhean eile.

Càite bheil an t-oideas?

Mar sin, tha àireamh nam faclan ag èirigh, gu ìre air sgàth a fìor mhiann airson deagh shusbaint cruth fada, ach cuideachd air sgàth ‘s gum faod ‘stòradh’ beagan fhìrinnean gann fad pìos a thogail gu inbhean SEO air leth math, agus leigeil le beagan susbaint a bhith a’ farpais gu co-ionann ri toradh oidhirp nas àirde.

Is e aon eisimpleir de seo làraich reasabaidh, tric a ' gearain of ann an coimhearsnachd Hacker News airson am prìomh fhiosrachadh (an reasabaidh) a ro-ràdh le sgadan de shusbaint fèin-eachdraidh no whimsical air a dhealbhadh gus ‘eòlas reasabaidh’ stèidhichte air sgeulachd a chruthachadh, agus gus na bhiodh air dhòigh eile na chunntas glè ìosal de fhaclan a-steach don SEO - sgìre càirdeil 2,500+ facal.

Tha grunn fhuasglaidhean fìor-mhodhail air nochdadh gus fìor reasabaidhean a thoirt a-mach à làraich reasabaidh gnìomhair, a’ gabhail a-steach stòr fosgailte sgrìoban reasabaidh, agus luchd-tarraing reasabaidh airson Firefox agus Chrome. Tha ionnsachadh inneal cuideachd co-cheangailte ri seo, le diofar dhòighean-obrach bho Iapan, na SA agus A' Phortagail, a bharrachd air rannsachadh bho Stanford, am measg feadhainn eile.

A thaobh na h-aithisgean fiosrachaidh bagairt air an do dhèilig luchd-rannsachaidh Chicago, is dòcha gu bheil cleachdadh coitcheann aithris bagairt gnìomhair gu ìre mar thoradh air an fheum air sgèile coileanaidh a nochdadh (a dh’ fhaodadh a bhith air a gheàrr-chunntas ann am paragraf air dhòigh eile) le bhith a’ cruthachadh fìor shealladh. aithris fhada timcheall air, agus a’ cleachdadh faid fhaclan mar neach-ionaid airson meud na h-oidhirp a tha na lùib, ge bith dè cho iomchaidh sa tha e.

San dàrna h-àite, ann an gnàth-shìde far a bheil tùs sgeulachd gu tric air chall le droch chleachdaidhean luaidh le ionadan naidheachd mòr-chòrdte, a’ toirt a-mach meud nas àirde de dh’fhaclan na dh’ fhaodadh neach-naidheachd ath-aithris sam bith geallaidhean ath-aithris a dhèanamh air buannachadh SERPS le àireamh fhaclan dìreach, a’ gabhail ris gu bheil briathrachas - a-nis a dùbhlan a tha a’ fàs gu NLP - air a dhuaiseachadh gu mòr san dòigh seo.

Cuspairean co-cheangailte:meadhanan se rannsachadh

Sgaoileadh

AI nas sgiobalta Air ainmeachadh le Rannsachadh ABI ann an Aithisg Ùr

Na bi a 'Bh-Uas

Bidh Appen Limited a’ cur air bhog seataichean trèanaidh dàta measgaichte airson NLP

Màrtainn MacAnndrais

Sgrìobhadair air ionnsachadh innealan, inntleachd fuadain agus dàta mòr.
Làrach pearsanta: martinanderson.ai
cuiribh fios gu: [post-d fo dhìon]
Twitter: @manders_ai