Artificiell intelligens

Machine Learning extraherar attackdata från utförliga hotrapporter

Uppdaterad on December 9, 2022

Ny forskning från University of Chicago illustrerar konflikten som har uppstått under de senaste tio åren mellan SEO-fördelarna med långformatsinnehåll och svårigheten som maskininlärningssystem har att få fram viktig data från det.

I att utveckla en NLP analyssystem För att extrahera viktig hotinformation från rapporter från Cyber Threat Intelligence (CTI) stod Chicago-forskarna inför tre problem: rapporterna är vanligtvis mycket långa, med endast en liten del tillägnad det faktiska attackbeteendet; stilen är tät och grammatiskt komplex, med omfattande domänspecifik information som förutsätter förkunskaper från läsarens sida; och materialet kräver kunskap om relationer över flera domäner, som måste "memoreras" för att förstå det i sitt sammanhang (en bestående problem, konstaterar forskarna).

Långvariga hotrapporter

Det primära problemet är mångfald. Till exempel noterar Chicago-tidningen att bland ClearSkys 42-sidor 2019 hotrapport för skadlig programvara DustySky (alias NeD Worm) handlar det bara om 11 meningar om och beskriver attackens beteende.

Det andra hindret är textkomplexitet, och i praktiken meningslängd: forskarna observerar att bland 4020 52 hotrapporter från Microsofts hotrapportcenter omfattar den genomsnittliga meningen XNUMX ord – bara nio mindre än den genomsnittliga meningslängden 500 år sedan (i sammanhanget av att meningslängden har minskade 75% sedan dess).

Tidningen hävdar dock att dessa långa meningar i huvudsak är "komprimerade stycken" i sig själva, fulla av satser, adverb och adjektiv som höljer informationens kärna; och att meningarna ofta saknar den grundläggande konventionella interpunktion som NLP system som t.ex rymd, Stanford och Nltk förlita sig på för att sluta uppsåt eller extrahera hårda data.

NLP för att extrahera information om framträdande hot

Den maskininlärningspipeline som Chicago-forskarna har utvecklat för att ta itu med detta kallas EXTRAKTOR, och använder NLP-tekniker för att generera grafer som destillerar och sammanfattar attackbeteende från långa, diskursiva rapporter. Processen förkastar den historiska, narrativa och till och med geografiska utsmyckningen som skapar en engagerande och uttömmande "berättelse" på bekostnad av en tydlig prioritering av informationsnyttolasten.

Källa: https://arxiv.org/pdf/2104.08618.pdf

Eftersom sammanhang är en sådan utmaning i utförliga och prolix CTI-rapporter, valde forskarna BERTI (Bidirectional Encoder Representations from Transformer) språkrepresentationsmodell över Googles Word2Old eller Stanfords GloVe (Globala vektorer för ordrepresentation).

BERT utvärderar ord från sitt omgivande sammanhang och utvecklar också inbäddningar för underord (dvs lansera, lansera och lanserar alla stammar ner till lansera). Detta hjälper EXTRACTOR att hantera tekniskt ordförråd som inte finns i BERT:s träningsmodell, och att klassificera meningar som "produktiva" (innehåller relevant information) eller "icke-produktiva".

Öka lokalt ordförråd

Oundvikligen måste någon specifik domäninsikt integreras i en NLP-pipeline som hanterar material av detta slag, eftersom mycket relevanta ordformer som IP-adresser och tekniska processnamn inte får kastas åt sidan.

Senare delar av processen använder en BiLSTM (Dubbelriktad LSTM) nätverk för att ta itu med ordspråkighet, härleda semantiska roller för meningsdelar, innan du tar bort improduktiva ord. BiLSTM är väl lämpad för detta, eftersom det kan korrelera de långväga beroenden som förekommer i utförliga dokument, där större uppmärksamhet och retention är nödvändig för att härleda sammanhang.

EXTRACTOR definierar semantiska roller och relationer mellan ord, med roller som genereras av Proposition Bank (PropBank) annoteringar.

EXTRACTOR definierar semantiska roller och relationer mellan ord, med roller genererade av Proposition Bank (PropBank) anteckningar.

I tester befanns EXTRACTOR (delvis finansierad av DARPA) kunna matcha mänsklig dataextraktion från DARPA-rapporter. Systemet kördes också mot en stor volym av ostrukturerade rapporter från Microsoft Security Intelligence och TrendMicro Threat Encyclopedia, vilket lyckades extrahera framträdande information i de flesta fall.

Forskarna medger att prestandan för EXTRACTOR sannolikt kommer att minska när man försöker destillera handlingar som förekommer över ett antal meningar eller stycken, även om omverktyg av systemet för att tillgodose andra rapporter anges som en väg framåt här. Men detta faller i huvudsak tillbaka till mänskligt ledd märkning genom proxy.

Längd == Auktoritet?

Det är intressant att notera den pågående spänningen mellan hur Googles mystiska SEO-algoritmer verkar ha alltmer belönas långformsinnehåll under de senaste åren (även om officiella råd om detta är motsägelsefullt), och de utmaningar som AI-forskare (inklusive många stora Googles forskningsinitiativ) möter vid avkodning av avsikt och faktiska data från dessa alltmer diskursiva och långa artiklar.

Det kan argumenteras att när Google belönar längre innehåll, antar Google en konsekvent kvalitet som den inte nödvändigtvis kan identifiera eller kvantifiera ännu genom NLP-processer, förutom genom att räkna antalet auktoritetswebbplatser som länkar till det (ett "köttvaror"-mått, i flesta fall); och att det därför inte är ovanligt att se inlägg på 2,500 XNUMX ord eller mer uppnå SERPS framträdande plats oavsett narrativ "bloat", så länge det extra innehållet är i stort sett begripligt och inte bryter mot andra riktlinjer.

Var är receptet?

Följaktligen, ordtalet ökar, delvis på grund av en genuin önskan för bra innehåll i långa former, men också för att "storifiering" av några få fakta kan höja en bits längd till idealiska SEO-standarder och tillåta lite innehåll att konkurrera lika mycket med högre ansträngning.

Ett exempel på detta är receptwebbplatser, ofta klagade of i Hacker News-communityt för att inleda kärninformationen (receptet) med mängder av självbiografiskt eller nyckfullt innehåll utformat för att skapa en berättelsedriven "receptupplevelse" och för att driva upp vad som annars skulle vara ett mycket lågt antal ord till SEO. -vänlig region med över 2,500 XNUMX ord.

Ett antal rent processuella lösningar har dykt upp för att extrahera faktiska recept från utförliga receptwebbplatser, inklusive öppen källkod receptskrapor, och receptextraktorer för firefox och krom. Maskininlärning sysslar också med detta, med olika tillvägagångssätt från Japan, USA och Portugal, samt forskning från bland annat Stanford.

När det gäller de hotintelligensrapporter som Chicagoforskarna tar upp, kan den allmänna praxisen med utförlig hotrapportering delvis bero på behovet av att spegla omfattningen av en prestation (som annars ofta kan sammanfattas i ett stycke) genom att skapa en mycket lång berättelse kring det, och med hjälp av ordlängd som en proxy för omfattningen av insatsen som är involverad, oavsett tillämplighet.

För det andra, i ett klimat där ursprungskällan till en berättelse ofta är förlorade på dålig citeringsmetoder av populära nyhetsmedier, att producera en högre volym ord än någon återrapporterande journalist skulle kunna replikera garanterar en SERPS-vinst med ren ordvolym, förutsatt att mångfald – nu en växande utmaning till NLP – belönas verkligen på detta sätt.