Stumm Machine Learning Extrait Attackdaten aus Verbose Bedrohungsberichter - Unite.AI
Connect mat eis

Kënschtlech Intelligenz

Machine Learning Extrait Attackdaten aus Verbose Bedrohungsberichter

mm
aktualiséiert on
NLP Biergbau

Nei Fuerschung vun der University of Chicago illustréiert de Konflikt deen an de leschten zéng Joer entstanen ass tëscht de SEO Virdeeler vum laange Form Inhalt, an der Schwieregkeet déi Maschinnléiere Systemer hunn fir wesentlech Donnéeën dovun ze sammelen.

An der Entwécklung vun engem NLP Analyse System fir wesentlech Bedrohungsinformatioun aus Cyber ​​Threat Intelligence (CTI) Berichter ze extrahieren, hunn d'Chicago Fuerscher dräi Probleemer konfrontéiert: d'Rapporte si meeschtens ganz laang, mat nëmmen e klengen Abschnitt deen dem aktuellen Attackverhalen gewidmet ass; de Stil ass dicht a grammatesch komplex, mat extensiv Domain-spezifesch Informatioun, déi Virauskenntnisser vum Lieser viraussetzt; an d'Material erfuerdert Cross-Domain Bezéiungskenntnisser, dat muss 'memoréiert' ginn fir et am Kontext ze verstoen (a persistent Problemer, bemierken d'Fuerscher).

Laang-Winded Bedrohung Berichter

De primäre Problem ass Verbositéit. Zum Beispill bemierkt de Chicago Pabeier datt ënner dem ClearSky 42-Säit 2019 Bedrohungsbericht fir den DustySky (alias NeD Worm) Malware, nëmmen 11 Sätz beschäftegen a beschreift d'Attackverhalen tatsächlech.

Dat zweet Hindernis ass Textkomplexitéit, an effektiv Sazlängt: d'Fuerscher beobachten datt ënner 4020 Bedrohungsberichter vum Microsoft Bedrohungsberichtzentrum den duerchschnëttleche Saz 52 Wierder enthält - nëmmen néng kuerz vun der duerchschnëttlecher Sazlängt 500 Joer (am Kontext vun der Tatsaach datt d'Satzlängt huet refuséiert 75% zanter).

Wéi och ëmmer, de Pabeier behaapt datt dës laang Sätz am Wesentlechen 'kompriméierte Abschnitter' a sech selwer sinn, voller Klauselen, Adverbs an Adjektiver, déi d'Kärbedeitung vun der Informatioun verkleeden; an datt d'Sätze dacks d'Basis konventionell Punctuatioun feelen, déi PNL Systemer wéi z spaCy, Stanford et al NLTK vertrauen op Absicht ofzeschléissen oder haart Daten extrahéieren.

NLP Fir Salient Bedrohungsinformatioun ze extrahéieren

D'Maschinn Léieren Pipeline, déi d'Chicago Fuerscher entwéckelt hunn fir dëst ze adresséieren, gëtt genannt EXTRACTOR, a benotzt NLP Techniken fir Grafiken ze generéieren déi Attackverhalen aus laangformen, diskursive Berichter distilléieren a resuméieren. De Prozess verléisst déi historesch, narrativ a souguer geographesch Ornamentatioun, déi eng engagéiert an ustrengend "Geschicht" erstellt op Käschte vun der kloer Prioritéit vun der Informatiounsnotzlaascht.

Source: https://arxiv.org/pdf/2104.08618.pdf

Source: https://arxiv.org/pdf/2104.08618.pdf

Zënter Kontext ass sou eng Erausfuerderung a verbose a prolix CTI Berichter, hunn d'Fuerscher de gewielt BERT (Bidirektional Encoder Representatioune vum Transformer) Sprooche Representatiounsmodell iwwer Google's Word2Vec oder Stanford's GloVe (Global Vectors for Word Representation).

BERT evaluéiert Wierder aus hirem Ëmgéigend Kontext, an entwéckelt och embeddings fir Ënnerwierder (dh lancéiere, lancéiert an lancéiert all Stamm erof op lancéiere). Dëst hëlleft den EXTRACTOR mat technesche Vokabulär ze këmmeren, deen am BERT sengem Trainingsmodell net präsent ass, a Sätz als 'produktiv' (mat pertinent Informatioun) oder 'net-produktiv' ze klassifizéieren.

Erhéijung Lokal Vocabulaire

Onweigerlech muss e spezifescht Domain Asiicht an eng NLP Pipeline integréiert ginn, déi mat Material vun dëser Aart beschäftegt, well héich pertinent Wuertforme wéi IP Adressen an technesch Prozessnimm däerfen net op d'Säit gegoss ginn.

Spéider Deeler vum Prozess benotzen eng BiLSTM (Bidirektional LSTM) Netzwierk fir Wuertverbositéit unzegoen, semantesch Rollen fir Sazdeeler ofgeleet, ier onproduktiv Wierder ewechgeholl ginn. BiLSTM ass gutt fir dëst gëeegent, well et d'Distanzabhängegkeete korreléiere kann, déi a verbose Dokumenter optrieden, wou méi Opmierksamkeet a Retention néideg ass fir Kontext ofzeschléissen.

EXTRACTOR definéiert semantesch Rollen a Relatiounen tëscht Wierder, mat Rollen generéiert vu Proposition Bank (PropBank) Annotatiounen.

EXTRACTOR definéiert semantesch Rollen a Relatiounen tëscht Wierder, mat Rollen generéiert vun der Proposition Bank (PropBank) Annotatiounen.

An Tester gouf EXTRACTOR (deelweis finanzéiert vun DARPA) fonnt, fäeg fir mënschlech Datenextraktioun aus DARPA Berichter ze passen. De System gouf och géint en héije Volumen vun onstrukturéierte Berichter vu Microsoft Security Intelligence an der TrendMicro Threat Encyclopedia ausgeführt, an der Majoritéit vu Fällen erfollegräich Informatioun extrahéiert.

D'Fuerscher zouginn datt d'Performance vum EXTRACTOR méiglecherweis reduzéiert gëtt wann Dir probéiert Aktiounen ze distilléieren déi iwwer eng Zuel vu Sätz oder Abschnitter optrieden, obwuel d'Re-Tooling vum System fir aner Berichter z'empfänken ass als Wee no vir hei uginn. Wéi och ëmmer, dëst fällt am Wesentlechen zréck op mënschlech gefouert Etikettéierung duerch Proxy.

Längt == Autoritéit?

Et ass interessant ze notéieren déi lafend Spannung tëscht dem Wee wéi Google seng arcane SEO Algorithmen schéngen ze hunn ëmmer méi belount laang-Form Inhalt an de leschte Joeren (obwuel offiziell Berodung iwwer dës Partitur widderspréchlech ass), an d'Erausfuerderungen déi AI Fuerscher (och vill grouss Google Fuerschung Initiativen) Gesiicht an decoding Absicht an aktuell Donnéeën vun dësen ëmmer méi diskursive a laangen Artikelen.

Et ass argumentéierbar datt beim Belounung vun méi laangen Inhalter Google eng konsequent Qualitéit ugeholl datt et nach net onbedéngt fäeg ass duerch NLP Prozesser z'identifizéieren oder ze quantifizéieren, ausser andeems Dir d'Zuel vun Autoritéitssites zielt, déi domat verlinkt sinn (eng 'Meatware' Metrik, an meeschte Fäll); an datt et dofir net ongewéinlech ass Posts vun 2,500 Wierder oder méi ze gesinn, déi SERPS Prominenz erreechen onofhängeg vun der narrativer 'bloat', soulaang den extra Inhalt breed verständlech ass an net aner Richtlinnen verletzt.

Wou ass d'Rezept?

Dofir ass Wuertzuelen klammen, deelweis wéinst engem éierleche Wonsch fir e gudde laange Form Inhalt, awer och well d'"storifying" e puer knapp Fakten d'Längt vun engem Stéck op ideal SEO Standarden erhéijen, an e klengen Inhalt erlaabt gläich mat méi héijen Efforten Output ze konkurréiere.

Ee Beispill vun dësem ass Rezept Siten, dacks beschwéiert of an der Hacker News Gemeinschaft fir d'Kärinformatioun (d'Rezept) mat Scads vun autobiographeschen oder witzegen Inhalt virzegoen entworf fir eng Geschicht-gedriwwen 'Rezepterfarung' ze kreéieren, an ze drécken wat soss e ganz nidderegen Wortzuel erop an de SEO wier. -frëndlech 2,500+ Wuert Regioun.

Eng Zuel vu reng prozedural Léisunge sinn entstanen fir tatsächlech Rezepter aus verbose Rezeptplazen ze extrahieren, dorënner Open Source Rezept scrapers, an Rezept extractors fir Firefox an Bauoffall. Maschinn Léieren ass och beschäftegt mat dësem, mat verschiddenen Approche vu Japan, der US an Portugal, souwéi Fuerschung vu Stanford, ënner anerem.

Wat d'Bedrohungsintelligenzberichter ugeet, déi vun de Chicago Fuerscher adresséiert sinn, kann d'allgemeng Praxis vu verbose Bedrohungsberichterstattung deelweis wéinst der Bedierfnes sinn fir d'Skala vun enger Leeschtung ze reflektéieren (déi soss dacks an engem Paragraf zesummegefaasst ka ginn) andeems en e ganz laang narrativ ronderëm et, a benotzt Wuert-Längt als Proxy fir d'Skala vun Effort involvéiert, onofhängeg vun Applikatioun.

Zweetens, an engem Klima wou d'Original Quell vun enger Geschicht dacks ass verluer fir schlecht Zitatpraktiken vu populäre Neiegkeeten, e méi héije Volumen vu Wierder ze produzéieren wéi all nei berichtende Journalist kéint replizéieren, garantéiert e SERPS Gewënn duerch pure Wuertvolumen, unzehuelen datt Verbositéit - elo e wuessen Erausfuerderung zu NLP - gëtt wierklech op dës Manéier belount.

Schrëftsteller iwwer Maschinnléieren, kënschtlech Intelligenz a Big Data.
Perséinlech Säit: martinanderson.ai
Contact: [Email geschützt]
Twitter: @manders_ai