Artificial Intelligence

Machine Learning haalt aanvalsgegevens uit uitgebreide bedreigingsrapporten

Bijgewerkt on 9 december 2022

Nieuw onderzoek van de Universiteit van Chicago illustreert het conflict dat de afgelopen tien jaar is ontstaan tussen de SEO-voordelen van lange inhoud en de moeilijkheid die machine learning-systemen hebben bij het verzamelen van essentiële gegevens daaruit.

Bij het ontwikkelen van een NLP-analysesysteem om essentiële dreigingsinformatie uit Cyber Threat Intelligence (CTI)-rapporten te halen, stuitten de Chicago-onderzoekers op drie problemen: de rapporten zijn meestal erg lang, met slechts een klein gedeelte gewijd aan het daadwerkelijke aanvalsgedrag; de stijl is dicht en grammaticaal complex, met uitgebreide domeinspecifieke informatie die voorkennis van de kant van de lezer veronderstelt; en het materiaal vereist kennis van domeinoverschrijdende relaties, die moet worden 'gememoriseerd' om het in context te begrijpen (a hardnekkig probleem, noteren de onderzoekers).

Langdradige dreigingsrapporten

Het primaire probleem is breedsprakigheid. De Chicago-krant merkt bijvoorbeeld op dat onder ClearSky's 42 pagina's tellende 2019 dreigingsrapport voor de DustySky-malware (ook bekend als NeD Worm) behandelen en schetsen slechts 11 zinnen het aanvalsgedrag.

Het tweede obstakel is de complexiteit van de tekst, en in feite de zinslengte: de onderzoekers stellen vast dat van de 4020 dreigingsrapporten van het dreigingsrapportagecentrum van Microsoft de gemiddelde zin 52 woorden bevat – slechts negen minder dan de gemiddelde zinslengte. 500 jaar geleden (in de context van het feit dat zinslengte heeft daalde 75% Vanaf dat moment).

De krant stelt echter dat deze lange zinnen in wezen 'gecomprimeerde alinea's' op zich zijn, vol met bijzinnen, bijwoorden en bijvoeglijke naamwoorden die de kernbetekenis van de informatie verhullen; en dat de zinnen vaak de fundamentele conventionele interpunctie missen die NLP systemen zoals ruim, Stanford en NLTK vertrouwen op om de intentie af te leiden of harde gegevens te extraheren.

NLP om opvallende dreigingsinformatie te extraheren

De machine learning-pijplijn die de onderzoekers uit Chicago hebben ontwikkeld om dit aan te pakken, wordt genoemd AFZUIGER, en gebruikt NLP-technieken om grafieken te genereren die aanvalsgedrag destilleren en samenvatten uit uitgebreide, discursieve rapporten. Het proces verwerpt de historische, verhalende en zelfs geografische versiering die een boeiend en uitputtend 'verhaal' creëert ten koste van het duidelijk prioriteren van de informatieve lading.

Bron: https://arxiv.org/pdf/2104.08618.pdf

Omdat context zo'n uitdaging is in uitgebreide en uitgestrekte CTI-rapporten, kozen de onderzoekers voor de BERT (Bidirectional Encoder Representations from Transformer) taalrepresentatiemodel over dat van Google Woord2Vec of Stanford's GloVe (Global Vectors for Word Representation).

BERT evalueert woorden uit hun omringende context en ontwikkelt ook inbedding voor subwoorden (bijv lancering, lancering en lanceert komen allemaal op neer lancering). Dit helpt EXTRACTOR om te gaan met technische woordenschat die niet aanwezig is in het trainingsmodel van BERT, en om zinnen te classificeren als 'productief' (met relevante informatie) of 'niet-productief'.

Het vergroten van de lokale woordenschat

Het is onvermijdelijk dat enig specifiek domeininzicht moet worden geïntegreerd in een NLP-pijplijn die met dit soort materiaal omgaat, aangezien zeer relevante woordvormen zoals IP-adressen en technische procesnamen niet terzijde mogen worden geschoven.

Latere delen van het proces gebruiken a BiLSTM (bidirectionele LSTM)-netwerk om breedsprakigheid van woorden aan te pakken, semantische rollen voor zinsdelen af te leiden, voordat onproductieve woorden worden verwijderd. BiLSTM is hier zeer geschikt voor, omdat het de langeafstandsafhankelijkheden kan correleren die verschijnen in uitgebreide documenten, waar meer aandacht en retentie nodig is om context af te leiden.

EXTRACTOR definieert semantische rollen en relaties tussen woorden, met rollen gegenereerd door Proposition Bank (PropBank) annotaties.

In tests bleek EXTRACTOR (gedeeltelijk gefinancierd door DARPA) in staat menselijke data-extractie uit DARPA-rapporten te matchen. Het systeem werd ook uitgevoerd tegen een groot aantal ongestructureerde rapporten van Microsoft Security Intelligence en de TrendMicro Threat Encyclopedia, waarbij in de meeste gevallen met succes opvallende informatie werd geëxtraheerd.

De onderzoekers geven toe dat de prestaties van EXTRACTOR waarschijnlijk zullen afnemen wanneer wordt geprobeerd acties te destilleren die plaatsvinden in een aantal zinnen of alinea's, hoewel het opnieuw inrichten van het systeem om andere rapporten te accommoderen hier als een stap voorwaarts wordt aangegeven. Dit is echter in wezen terugvallen op door mensen geleide etikettering bij volmacht.

Lengte == Autoriteit?

Het is interessant om de voortdurende spanning op te merken tussen de manier waarop de geheimzinnige SEO-algoritmen van Google lijken te hebben steeds meer beloonde long-form content in de afgelopen jaren (hoewel officieel advies over deze score is tegenstrijdig), en de uitdagingen die AI-onderzoekers (waaronder veel grote Onderzoeksinitiatieven van Google) gezicht bij het decoderen van intentie en feitelijke gegevens van deze steeds discursievere en langere artikelen.

Het is aannemelijk dat Google bij het belonen van langere inhoud uitgaat van een consistente kwaliteit die het nog niet noodzakelijkerwijs kan identificeren of kwantificeren via NLP-processen, behalve door het aantal gezaghebbende sites te tellen dat ernaar linkt (een 'meatware'-statistiek, in meeste gevallen); en dat het daarom niet ongebruikelijk is om berichten van 2,500 woorden of meer te zien die SERPS-bekendheid krijgen, ongeacht de verhalende 'bloat', zolang de extra inhoud algemeen begrijpelijk is en niet in strijd is met andere richtlijnen.

Waar is het recept?

Bijgevolg het aantal woorden stijgt, mede door a oprecht verlangen voor goede lange inhoud, maar ook omdat het 'opslaan' van een paar karige feiten de lengte van een stuk kan verhogen tot ideale SEO-normen, en ervoor kan zorgen dat kleine inhoud evenzeer kan concurreren met output met een hogere inspanning.

Een voorbeeld hiervan zijn receptensites, vaak geklaagd of in de Hacker News-community voor het voorafgaan van de kerninformatie (het recept) met massa's autobiografische of grillige inhoud die is ontworpen om een verhaalgestuurde 'receptervaring' te creëren en om wat anders een zeer laag aantal woorden zou zijn, naar de SEO te duwen -vriendelijke regio van meer dan 2,500 woorden.

Er zijn een aantal puur procedurele oplossingen naar voren gekomen om daadwerkelijke recepten te extraheren van uitgebreide receptensites, inclusief open source recept schrapers, en receptenextractors voor Firefox en Chrome. Ook machine learning houdt zich hiermee bezig, met verschillende invalshoeken van Japan, de VS. en Portugal, evenals onderzoek van onder meer Stanford.

In termen van de bedreigingsinformatierapporten die door de Chicago-onderzoekers zijn behandeld, kan de algemene praktijk van uitgebreide rapportage van bedreigingen gedeeltelijk te wijten zijn aan de noodzaak om de omvang van een prestatie weer te geven (die anders vaak in een paragraaf kan worden samengevat) door een zeer lang verhaal eromheen, en woordlengte gebruiken als een proxy voor de omvang van de inspanning, ongeacht de toepasbaarheid.

Ten tweede, in een klimaat waar vaak de oorsprong van een verhaal ligt verloren door slechte citatiepraktijken door populaire nieuwsuitzendingen, het produceren van een groter aantal woorden dan welke herrapporterende journalist dan ook zou kunnen repliceren, garandeert een SERPS-overwinning door puur woordvolume, ervan uitgaande dat breedsprakigheid - nu een groeiende uitdaging naar NLP – wordt op deze manier echt beloond.

Gerelateerde onderwerpen:gemiddeld nlp onderzoek

Slimmere AI benoemd door ABI Research in nieuw rapport

Mis het niet

Appen Limited lanceert diverse datatrainingssets voor NLP

Martin Anderson

Schrijver over machine learning, kunstmatige intelligentie en big data.
Persoonlijke site: martinanderson.ai
Contact: [e-mail beveiligd]
Twitter: @manders_ai