csonk A Machine Learning kivonja a támadási adatokat a bőbeszédű fenyegetésjelentésekből – Unite.AI
Kapcsolatba velünk

Mesterséges Intelligencia

A Machine Learning kivonja a támadási adatokat a bőbeszédű fenyegetésjelentésekből

mm
korszerűsített on
NLP bányászat

A Chicagói Egyetem új kutatása szemlélteti azt a konfliktust, amely az elmúlt tíz évben felmerült a hosszú formátumú tartalom SEO előnyei és a gépi tanulási rendszerek által az alapvető adatok begyűjtése során tapasztalt nehézségek között.

A fejlesztés során egy NLP elemző rendszer a Cyber ​​Threat Intelligence (CTI) jelentéseiből alapvető fenyegetési információk kinyeréséhez a chicagói kutatók három problémával szembesültek: a jelentések általában nagyon hosszúak, és csak egy kis részt szenteltek a tényleges támadási viselkedésnek; a stílus sűrű és nyelvtanilag összetett, kiterjedt terület-specifikus információval, amely feltételezi az olvasó előzetes tudását; és az anyaghoz tartományok közötti kapcsolati ismeretek szükségesek, amelyeket „memorizálni” kell, hogy kontextusban megértsük (a tartós probléma, jegyzik meg a kutatók).

Hosszú ívű fenyegetésjelentések

Az elsődleges probléma a bőbeszédűség. Például a chicagói lap megjegyzi, hogy a ClearSky 42 oldalas 2019 fenyegetési jelentés a DustySky (más néven NeD Worm) kártevő esetében mindössze 11 mondat foglalkozik és vázolja fel a támadási viselkedést.

A második akadály a szöveg bonyolultsága, és gyakorlatilag a mondat hossza: a kutatók megfigyelik, hogy a Microsoft fenyegetés-jelentési központjából származó 4020 fenyegetésjelentés között az átlagos mondat 52 szóból áll – mindössze kilenccel marad el az átlagos mondathossztól. 500 éve (abban az összefüggésben, hogy a mondat hossza van 75% -kal csökkent azóta).

A lap azonban azt állítja, hogy ezek a hosszú mondatok lényegében önmagukban „tömörített bekezdések”, amelyek tele vannak tagmondatokkal, határozószókkal és melléknevekkel, amelyek befedik az információ lényegét; és hogy a mondatokból gyakran hiányoznak az alapvető egyezményes írásjelek, amelyek NLP rendszerek, mint pl borsos, Stanford és NLTK támaszkodhat a szándék kikövetkeztetésére vagy a kemény adatok kinyerésére.

NLP a kiemelt fenyegetésekkel kapcsolatos információk kinyeréséhez

A chicagói kutatók által ennek megoldására kifejlesztett gépi tanulási folyamat az úgynevezett EXTRATOR, és NLP technikákat használ olyan grafikonok létrehozására, amelyek a hosszú formátumú, diszkurzív jelentések támadási viselkedését desztillálják és összegzik. A folyamat elveti a történelmi, narratív, sőt földrajzi ornamentikát, amely egy lebilincselő és kimerítő „történetet” hoz létre, az információs hasznos terhelés egyértelmű priorizálásának rovására.

Forrás: https://arxiv.org/pdf/2104.08618.pdf

Forrás: https://arxiv.org/pdf/2104.08618.pdf

Mivel a szövegkörnyezet nagy kihívást jelent a bőbeszédű és a prolix CTI-jelentésekben, a kutatók a BERTI (Bidirectional Encoder Representations from Transformer) nyelvi reprezentációs modellje a Google-nél Word2Vec vagy Stanford's GloVe (Global Vectors for Word Representation).

A BERT a szavakat a környező kontextusból értékeli, és fejleszti is beágyazások alszavakhoz (pl indít, indítás és a elindítja minden ered indít). Ez segíti az EXTRACTOR-t abban, hogy megbirkózzon a BERT képzési modelljében nem szereplő szakszókinccsel, és a mondatokat „produktív” (releváns információt tartalmazó) vagy „nem produktív” kategóriába sorolja.

Helyi szókincs bővítése

Az ilyen anyagokkal foglalkozó NLP-folyamatba elkerülhetetlenül bizonyos specifikus tartományi betekintést kell integrálni, mivel az olyan nagyon releváns szóalakokat, mint az IP-címek és a technikai folyamatnevek, nem szabad figyelmen kívül hagyni.

A folyamat későbbi részei a BiLSTM (kétirányú LSTM) hálózat a szavak bőbeszédűségének leküzdésére, a mondatrészek szemantikai szerepeinek levezetésére, mielőtt eltávolítaná a terméketlen szavakat. A BiLSTM erre kiválóan alkalmas, mivel képes korrelálni a bőbeszédű dokumentumokban megjelenő távolsági függőségeket, ahol nagyobb odafigyelés és megtartás szükséges a kontextus levezetéséhez.

Az EXTRACTOR szemantikai szerepeket és kapcsolatokat határoz meg a szavak között, a Proposition Bank (PropBank) annotációk által generált szerepekkel.

Az EXTRACTOR szemantikai szerepeket és kapcsolatokat határoz meg a szavak között, a Proposition Bank által generált szerepekkel (PropBank) megjegyzéseket.

A tesztek során az EXTRACTOR (részben a DARPA által finanszírozott) alkalmasnak bizonyult a DARPA-jelentésekből származó emberi adatok kinyerésére. A rendszert a Microsoft Security Intelligence és a TrendMicro Threat Encyclopedia nagy mennyiségű strukturálatlan jelentése ellen is futtatták, így az esetek többségében sikeresen kinyerték a lényeges információkat.

A kutatók elismerik, hogy az EXTRACTOR teljesítménye valószínűleg csökkenni fog, ha több mondatban vagy bekezdésben előforduló műveleteket próbál meg desztillálni, bár a rendszer átszerszámozása más jelentések befogadására szolgál itt előrelépésként. Ez azonban lényegében a proxy által irányított, ember által vezetett címkézésre vonatkozik.

Hossz == Hatóság?

Érdekes megfigyelni a folyamatos feszültséget a Google rejtélyes SEO algoritmusai között egyre jobban jutalmazzák a hosszú formátumú tartalmakat az elmúlt években (bár hivatalos tanácsok erre vonatkozóan ellentmondásos), és az AI-kutatók előtt álló kihívások (többek között sok jelentős A Google kutatási kezdeményezései) szembesülnek az egyre diszkurzívabb és hosszabb cikkekből származó dekódolási szándékkal és tényleges adatokkal.

Vitatható, hogy a hosszabb tartalom jutalmazása során a Google olyan állandó minőséget feltételez, amelyet még nem feltétlenül képes azonosítani vagy számszerűsíteni az NLP-folyamatokon keresztül, kivéve, ha megszámolja a rájuk hivatkozó hatósági webhelyek számát (egy „hústermék” mérőszám, a legtöbb esetben); és ezért nem szokatlan, hogy a 2,500 vagy több szóból álló bejegyzések a narratív „felfúvódástól” függetlenül elérik a SERPS-előtt, mindaddig, amíg az extra tartalom nagyjából érthető, és nem sért más irányelveket.

Hol a Recept?

Következésképpen, szaporodik a szavak száma, részben azért, mert a őszinte vágy a jó hosszú formátumú tartalomhoz, de azért is, mert néhány csekély tény „sztorikázása” egy darab hosszát az ideális SEO szabványokhoz emelheti, és lehetővé teszi, hogy az enyhe tartalom egyformán versenyezzen a nagyobb erőfeszítéssel.

Ennek egyik példája a receptoldalak, gyakran panaszkodott of a Hacker News közösségben azért, mert az alapvető információkat (a receptet) önéletrajzi vagy szeszélyes tartalommal írták elő, amelyek célja egy történet-vezérelt „receptélmény” létrehozása, és az egyébként nagyon kevés szószámot a keresőoptimalizálás felé tolni. -barátságos 2,500+ szót tartalmazó régió.

Számos tisztán eljárási megoldás jelent meg a valódi receptek kinyerésére bőbeszédű receptoldalakról, beleértve a nyílt forráskódot is. recept kaparók, és recept kivonatolók számára Firefox és a króm. A gépi tanulás is ezzel foglalkozik, különféle megközelítésekkel Japán, Az Egyesült Államok és a Portugália, valamint többek között Stanford kutatásai is.

Ami a chicagói kutatók által tárgyalt fenyegetés-felderítési jelentéseket illeti, a bőbeszédű fenyegetésjelentés általános gyakorlata részben annak tudható be, hogy egy teljesítmény mértékét (amely egyébként gyakran egy bekezdésben is össze lehet foglalni) tükrözni kell egy nagyon hosszú narratíva körülötte, és a szóhosszúságot a szóban forgó erőfeszítés mértékének helyettesítőjeként, az alkalmazhatóságtól függetlenül.

Másodszor, olyan éghajlaton, ahol a történetek kiinduló forrása gyakran az elveszett a rossz idézési gyakorlat miatt a népszerű hírügynökségek által, ha nagyobb mennyiségű szót produkálnak, mint amennyit bármely újrajelentést készítő újságíró meg tudna reprodukálni, garantálja a SERPS puszta szótömeggel való győzelmét, feltételezve, hogy a bőbeszédűség – most egy növekvő kihívás az NLP-hez – valóban jutalmazzák így.