Kunsmatige Intelligensie

Masjienleer onttrek aanvaldata uit uitgebreide bedreigingsverslae

Opgedateer on Desember 9, 2022

Nuwe navorsing van die Universiteit van Chicago illustreer die konflik wat in die afgelope tien jaar ontstaan het tussen die SEO-voordele van langvorm-inhoud, en die moeilikheid wat masjienleerstelsels het om noodsaaklike data daaruit te haal.

In die ontwikkeling van 'n NLP analise stelsel om noodsaaklike bedreigingsinligting uit Cyber Threat Intelligence (CTI)-verslae te onttrek, het die Chicago-navorsers drie probleme in die gesig gestaar: die verslae is gewoonlik baie lank, met slegs 'n klein afdeling wat aan die werklike aanvalsgedrag gewy is; die styl is dig en grammatikaal kompleks, met uitgebreide domeinspesifieke inligting wat voorafkennis aan die kant van die leser veronderstel; en die materiaal vereis kruisdomeinverhoudingskennis, wat 'gememoriseer' moet word om dit in konteks te verstaan ('n aanhoudende probleem, merk die navorsers op).

Langdradige bedreigingsverslae

Die primêre probleem is breedsprakigheid. Byvoorbeeld, die Chicago-koerant merk op dat onder ClearSky se 42-bladsy 2019 dreigement verslag vir die DustySky (ook bekend as NeD Worm) wanware, 'n skamele 11 sinne handel eintlik oor en skets die aanvalsgedrag.

Die tweede struikelblok is tekskompleksiteit, en, effektief, sinlengte: die navorsers neem waar dat onder 4020 bedreigingsverslae van Microsoft se bedreigingsverslagsentrum, die gemiddelde sin uit 52 woorde bestaan – slegs nege minder as die gemiddelde sinlengte 500 jaar gelede (in die konteks van die feit dat sin lengte het afgeneem 75% sedertdien).

Die koerant voer egter aan dat hierdie lang sinne in wese 'saamgeperste paragrawe' op sigself is, vol klousules, bywoorde en byvoeglike naamwoorde wat die kernbetekenis van die inligting omhul; en dat die sinne dikwels die basiese konvensionele leestekens ontbreek wat NLP stelsels soos ruimte, Stanford en NLTK staatmaak op om voorneme af te lei of harde data te onttrek.

NLP om belangrike bedreigingsinligting te onttrek

Die masjienleerpyplyn wat die Chicago-navorsers ontwikkel het om dit aan te spreek, word genoem UITTREKKER, en gebruik NLP-tegnieke om grafieke te genereer wat aanvalsgedrag uit langvormige, diskursiewe verslae distilleer en opsom. Die proses verwerp die historiese, narratiewe en selfs geografiese versiering wat 'n boeiende en uitputtende 'storie' skep ten koste van die duidelike prioritisering van die inligtingsvrag.

Bron: https://arxiv.org/pdf/2104.08618.pdf

Aangesien konteks so 'n uitdaging is in verbose en prolix CTI-verslae, het die navorsers die BERT (Bidirectional Encoder Representations from Transformer) taalvoorstellingsmodel oor Google s'n Woord2Oud of Stanford's GloVe (Global Vectors for Word Representation).

BERT evalueer woorde vanuit hul omliggende konteks, en ontwikkel ook inbeddings vir subwoorde (bv begin, launch en loods almal stam af na begin). Dit help EXTRACTOR om tegniese woordeskat te hanteer wat nie in BERT se opleidingsmodel voorkom nie, en om sinne as 'produktief' (wat relevante inligting bevat) of 'nie-produktief' te klassifiseer.

Verhoging van plaaslike woordeskat

Een of ander spesifieke domeininsig moet onvermydelik geïntegreer word in 'n NLP-pyplyn wat met materiaal van hierdie soort handel, aangesien hoogs pertinente woordvorme soos IP-adresse en tegniese prosesname nie tersyde gestel moet word nie.

Latere dele van die proses gebruik a BiLSTM (Tweerigting LSTM) netwerk om woordwoordigheid aan te pak, wat semantiese rolle vir sindele aflei, voordat onproduktiewe woorde verwyder word. BiLSTM is goed geskik hiervoor, aangesien dit die langafstand-afhanklikhede kan korreleer wat in breedvoerige dokumente voorkom, waar groter aandag en retensie nodig is om konteks af te lei.

EXTRACTOR definieer semantiese rolle en verwantskappe tussen woorde, met rolle gegenereer deur Proposition Bank (PropBank) annotasies.

EXTRACTOR definieer semantiese rolle en verwantskappe tussen woorde, met rolle gegenereer deur Proposition Bank (PropBank) aantekeninge.

In toetse is bevind dat EXTRACTOR (gedeeltelik deur DARPA befonds) in staat is om menslike data-onttrekking uit DARPA-verslae te pas. Die stelsel is ook uitgevoer teen 'n groot volume ongestruktureerde verslae van Microsoft Security Intelligence en die TrendMicro Threat Encyclopedia, wat in die meeste gevalle opvallende inligting suksesvol onttrek het.

Die navorsers gee toe dat die werkverrigting van EXTRACTOR waarskynlik sal afneem wanneer daar gepoog word om aksies wat oor 'n aantal sinne of paragrawe voorkom, te distilleer, alhoewel die her-gereedskap van die stelsel om ander verslae te akkommodeer as 'n pad vorentoe hier aangedui word. Dit val egter in wese terug na mens-geleide etikettering deur gevolmagtigde.

Lengte == Gesag?

Dit is interessant om te let op die voortdurende spanning tussen die manier waarop Google se geheimsinnige SEO-algoritmes blyk te wees langvorm inhoud word toenemend beloon in onlangse jare (hoewel amptelike advies oor hierdie telling teenstrydig is), en die uitdagings wat KI-navorsers (insluitend baie groot Google navorsingsinisiatiewe) gesig in die dekodering van bedoeling en werklike data van hierdie toenemend diskursiewe en lang artikels.

Dit is aanvegbaar dat Google in die beloning van langer inhoud 'n konsekwente kwaliteit veronderstel wat dit nog nie noodwendig deur NLP-prosesse kan identifiseer of kwantifiseer nie, behalwe deur die aantal gesagwebwerwe te tel wat daarna skakel ('n 'vleisware'-metriek, in meeste gevalle); en dat dit dus nie ongewoon is om te sien dat plasings van 2,500 XNUMX woorde of meer SERPS-prominensie bereik nie, ongeag die narratiewe 'bloat', solank die ekstra inhoud breedweg verstaanbaar is en nie ander riglyne oortree nie.

Waar is die resep?

Gevolglik, woordtellings styg, deels as gevolg van 'n opregte begeerte vir goeie langvorm-inhoud, maar ook omdat die 'storifisering' van 'n paar karige feite 'n stuk se lengte tot ideale SEO-standaarde kan verhoog, en geringe inhoud toelaat om ewe veel te kompeteer met hoër-poging-uitset.

Een voorbeeld hiervan is reseptewebwerwe, gereeld gekla of in die Hacker News-gemeenskap om die kerninligting (die resep) voor te sit met 'n klomp outobiografiese of grillige inhoud wat ontwerp is om 'n storie-gedrewe 'resep-ervaring' te skep, en om wat andersins 'n baie lae woordtelling sou wees in die SEO -vriendelike 2,500+ woord streek.

'n Aantal suiwer prosedurele oplossings het na vore gekom om werklike resepte van breedvoerige resepwebwerwe te onttrek, insluitend oopbron resepskrapers, en resep uittrekkers vir Firefox en Chrome. Masjienleer is ook hiermee gemoeid, met verskeie benaderings van Japan, die VSA en Portugal, asook navorsing van onder andere Stanford.

In terme van die dreigementintelligensieverslae wat deur die Chicago-navorsers aangespreek is, kan die algemene praktyk van breedvoerige dreigementverslaggewing deels te wyte wees aan die behoefte om die skaal van 'n prestasie te weerspieël (wat andersins dikwels in 'n paragraaf opgesom kan word) deur 'n baie lang narratief daaromheen, en die gebruik van woordlengte as 'n volmag vir die skaal van moeite betrokke, ongeag toepaslikheid.

Tweedens, in 'n klimaat waar die oorsprong van 'n storie dikwels is verloor weens slegte aanhalingspraktyke deur gewilde nuuswinkels, die vervaardiging van 'n groter volume woorde as wat enige herrapporterende joernalis kan herhaal, waarborg 'n SERPS-oorwinning met blote woordvolume, met die veronderstelling dat breedsprakigheid - nou 'n groeiende uitdaging na NLP – word werklik op hierdie manier beloon.