Kacerdasan buatan

Mesin Learning Ékstrak Data Serangan Tina Laporan Ancaman Verbose

diropéa on Désémber 9, 2022

Panalungtikan anyar kaluar ti Universitas Chicago illustrates konflik anu geus arisen dina sapuluh taun kaliwat antara kauntungan SEO eusi lila-formulir, sarta kasusah nu sistem mesin learning gaduh dina gleaning data penting ti eta.

Dina ngembangkeun hiji Sistem analisis NLP nimba informasi anceman penting tina Cyber Threat Intelligence (CTI) laporan, peneliti Chicago Nyanghareupan tilu masalah: laporan biasana panjang pisan, kalawan ukur bagian leutik dedicated ka kabiasaan serangan sabenerna; gaya anu padet tur grammatically kompléks, kalawan informasi domain-spésifik éksténsif nu presumes pangaweruh saméméhna dina bagian tina maca; jeung bahan merlukeun pangaweruh hubungan cross-domain, nu kudu 'memorized' ngartos eta dina konteks (a masalah pengkuh, panalungtik catetan).

Laporan Ancaman Panjang-Angin

Masalah primér nyaéta verbosity. Salaku conto, makalah Chicago nyatakeun yén diantara ClearSky's 42-halaman 2019 laporan ancaman pikeun malware DustySky (aka NeD Worm), ngan ukur 11 kalimat anu leres-leres nungkulan sareng ngagariskeun paripolah serangan.

Halangan kadua nyaéta pajeulitna téks, sareng, sacara efektif, panjang kalimah: panalungtik niténan yén diantara 4020 laporan ancaman ti pusat laporan ancaman Microsoft, kalimah rata-rata ngandung 52 kecap - ngan salapan pondok tina panjang kalimah rata-rata. taun 500 tukang (dina kontéks kanyataan yén panjang kalimat gaduh turun 75% ti saprak éta).

Sanajan kitu, makalah contends yén ieu kalimat panjang dasarna 'dikomprés paragraf' dina diri, pinuh ku klausa, adverbs jeung kecap sipat nu shroud inti harti informasi; sarta yén kalimah mindeng kakurangan tanda baca konvensional dasar nu NLP sistem sapertos spaCy, Stanford jeung NLTK ngandelkeun infer maksud atawa nimba data teuas.

NLP Pikeun Ékstrak Inpormasi Ancaman Penting

Pipa pembelajaran mesin anu dikembangkeun ku panaliti Chicago pikeun ngatasi ieu disebut EXTRACTOR, sareng ngagunakeun téknik NLP pikeun ngahasilkeun grafik anu nyaring sareng nyimpulkeun paripolah serangan tina laporan anu panjang sareng diskursif. Prosésna ngaleungitkeun hiasan sajarah, naratif sareng bahkan géografis anu nyiptakeun 'carita' anu pikaresepeun sareng lengkep kalayan biaya anu jelas-jelas prioritas muatan inpormasi.

Sumber: https://arxiv.org/pdf/2104.08618.pdf

Kusabab kontéks nyaéta tangtangan sapertos dina laporan verbose sareng prolix CTI, panalungtik milih Bert (Bidirectional Encoder Representations from Transformer) model representasi basa leuwih Google Kecap2Vec atanapi Stanford's GloVe (Global Vectors for Word Representation).

BERT ngaevaluasi kecap tina konteks sabudeureun maranéhanana, sarta ogé ngamekarkeun embeddings pikeun subwords (mis nyorosodkeun, launching jeung ngajalankeun kabéh batang turun ka nyorosodkeun). Ieu ngabantuan EXTRACTOR pikeun ngatasi kosakata téknis anu henteu aya dina modél latihan BERT, sareng ngagolongkeun kalimat salaku 'produktif' (ngandung inpormasi anu relevan) atanapi 'non-produktif'.

Ngaronjatkeun Kekecapan Lokal

Pasti sababaraha wawasan domain khusus kedah diintegrasikeun kana pipa NLP anu ngurus bahan sapertos kieu, sabab bentuk kecap anu penting pisan sapertos alamat IP sareng nami prosés téknis henteu kedah disingkirkeun.

Bagian engké tina prosés ngagunakeun a BiLSTM (Dua arah LSTM) jaringan pikeun nungkulan verbosity kecap, deriving peran semantis pikeun bagian kalimah, saméméh nyoplokkeun kecap unproductive. BiLSTM cocog pisan pikeun ieu, sabab tiasa ngahubungkeun katergantungan jarak jauh anu muncul dina dokumén verbose, dimana perhatian sareng ingetan anu langkung ageung diperyogikeun pikeun ngémutan kontéks.

EXTRACTOR ngahartikeun peran semantis sareng hubungan antara kecap, sareng peran anu dihasilkeun ku annotations Proposition Bank (PropBank).

EXTRACTOR ngahartikeun peran semantis jeung hubungan antara kecap, jeung peran dihasilkeun ku Proposition Bank (PropBank) anotasi.

Dina tés, EXTRACTOR (sabagian dibiayaan ku DARPA) kapanggih sanggup cocog ékstraksi data manusa tina laporan DARPA. Sistem ieu ogé dijalankeun ngalawan jumlah laporan anu teu terstruktur ti Microsoft Security Intelligence sareng TrendMicro Threat Encyclopedia, hasil ékstrak inpormasi anu penting dina kalolobaan kasus.

Panaliti ngaku yén kinerja EXTRACTOR sigana bakal ngirangan nalika nyobian nyuling tindakan anu lumangsung dina sababaraha kalimat atanapi paragraf, sanaos alat-alat deui sistem pikeun nampung laporan anu sanés dituduhkeun salaku jalan ka hareup. Sanajan kitu, ieu dasarna ragrag deui kana panyiri-dipingpin manusa ku proxy.

Panjang == Wewenang?

Éta pikaresepeun pikeun perhatikeun tegangan anu lumangsung antara cara algoritma SEO arcane Google sigana gaduh eusi lila-formulir beuki diganjar dina taun-taun ayeuna (sanaos naséhat resmi ngeunaan skor ieu nyaeta kontradiktif), jeung tantangan anu peneliti AI (kaasup loba jurusan Inisiatif panalungtikan Google) nyanghareupan dina decoding maksud jeung data aktual tina ieu artikel beuki discursive tur lengthy.

Éta bisa dibantah yén dina ngaganjar eusi anu langkung panjang, Google nganggap kualitas anu konsisten yén éta henteu merta tiasa ngaidentipikasi atanapi ngitung ngaliwatan prosés NLP, kecuali ku ngitung jumlah situs otoritas anu numbu ka éta (métrik 'meatware', dina lolobana kasus); sarta yén éta téh teu ilahar ningali tulisan 2,500 kecap atawa leuwih attaining SERPS prominence paduli naratif 'bloat', salami eusi tambahan sacara lega kaharti jeung teu breach tungtunan séjén.

Dimana Resep?

akibatna, jumlah kecap naek, sabagean kusabab a kahayang tulus pikeun eusi panjang-formulir alus, tapi ogé kusabab 'storifying' sababaraha fakta scant bisa ngangkat panjang sapotong urang pikeun standar SEO idéal, sarta ngidinan eusi slight bersaing sarua jeung luhur-usaha kaluaran.

Salah sahiji conto ieu situs resep, sering-sering humandeuar of dina komunitas Hacker News pikeun prefacing informasi inti (resep) kalawan scads of autobiographical atanapi whimsical eusi dirancang pikeun nyieun carita-disetir 'pangalaman resep', sarta pikeun nyorong naon disebutkeun bakal pisan low kecap-cacah nepi kana SEO nu -ramah 2,500+ wewengkon kecap.

Sajumlah solusi murni prosedural parantos muncul pikeun nimba resep saleresna tina situs resep verbose, kalebet open source. scrapers resep, sarta extractors resep pikeun Firefox jeung Chrome. Pembelajaran mesin ogé prihatin kana ieu, kalayan sagala rupa pendekatan ti Jepang, AS jeung Portugal, kitu ogé panalungtikan ti Stanford, antara séjén.

Dina hal laporan intelijen ancaman anu dijawab ku panalungtik Chicago, prakték umum ngalaporkeun ancaman verbose tiasa disababkeun sabagian tina kabutuhan pikeun ngagambarkeun skala prestasi (anu tiasa sering diringkeskeun dina paragraf) ku cara nyiptakeun pisan. naratif panjang sabudeureun eta, sarta ngagunakeun kecap-panjangna salaku proxy pikeun skala usaha aub, paduli applicability.

Bréh, dina iklim dimana sumber asalna carita mindeng leungit prak-prakan ngutip goréng ku toko warta populér, ngahasilkeun volume kecap nu leuwih luhur ti nu mana wae nu wartawan ulang ngalaporkeun bisa ngayakeun réplikasi jaminan hiji SERPS win ku sheer kecap-volume, asumsina yén verbosity - ayeuna a tantangan tumuwuh mun NLP - bener diganjar ku cara kieu.

Topik nu patali:media NLP panalungtikan

nepi salajengna

Smarter AI Dingaranan ku ABI Research dina Laporan Anyar

Ulah Cik

Appen Limited Ngaluncurkeun Setélan Pelatihan Data Rupa-rupa pikeun NLP

Martin Anderson

Panulis ngeunaan pembelajaran mesin, intelijen buatan sareng data ageung.
situs pribadi: martinanderson.ai
kontak: [email dijaga]
Twitter: @manders_ai