Connect with us

Kecerdasan buatan

Pembelajaran Mesin Mengekstrak Data Serangan dari Laporan Ancaman yang Panjang

mm
NLP mining

Penelitian baru dari Universitas Chicago menggambarkan konflik yang muncul selama sepuluh tahun terakhir antara manfaat SEO dari konten panjang, dan kesulitan yang dialami sistem pembelajaran mesin dalam mengambil data esensial dari konten tersebut.

Dalam mengembangkan sistem analisis NLP untuk mengekstrak informasi ancaman esensial dari laporan Intelijen Ancaman Siber (CTI), peneliti Chicago menghadapi tiga masalah: laporan biasanya sangat panjang, dengan hanya sebagian kecil yang didedikasikan untuk perilaku serangan yang sebenarnya; gaya penulisan yang padat dan kompleks secara gramatikal, dengan informasi domain-spesifik yang luas yang menganggap pengetahuan sebelumnya dari pembaca; dan materi yang memerlukan pengetahuan hubungan antar domain, yang harus “diingat” untuk memahami konteksnya (masalah persisten, catatan peneliti).

Laporan Ancaman yang Panjang

Masalah utama adalah kepanjangan. Misalnya, makalah Chicago mencatat bahwa di antara laporan ancaman 42 halaman ClearSky tahun 2019 untuk malware DustySky (aka NeD Worm), hanya 11 kalimat yang sebenarnya membahas dan menguraikan perilaku serangan.

Hambatan kedua adalah kompleksitas teks, dan, secara efektif, panjang kalimat: peneliti mengamati bahwa di antara 4020 laporan ancaman dari pusat laporan ancaman Microsoft, rata-rata kalimat terdiri dari 52 kata – hanya sembilan kata lebih pendek dari rata-rata panjang kalimat 500 tahun yang lalu (dalam konteks bahwa panjang kalimat telah menurun 75% sejak saat itu).

Namun, makalah tersebut berpendapat bahwa kalimat panjang ini pada dasarnya adalah ‘paragraf terkompresi’ dalam dirinya sendiri, penuh dengan klausa, adverbia, dan adjektiva yang menutupi makna inti informasi; dan bahwa kalimat seringkali kekurangan tanda baca konvensional dasar yang sistem NLP seperti spaCy, Stanford, dan NLTK bergantung untuk menginferensi niat atau mengekstrak data keras.

NLP untuk Mengekstrak Informasi Ancaman yang Relevan

Pipa pembelajaran mesin yang dikembangkan oleh peneliti Chicago untuk menangani ini disebut EXTRACTOR, dan menggunakan teknik NLP untuk menghasilkan grafik yang menyaring dan meringkas perilaku serangan dari laporan panjang dan diskursif. Proses ini membuang hiasan sejarah, naratif, dan bahkan geografis yang menciptakan ‘cerita’ yang menarik dan menyeluruh pada biaya mengutamakan payload informasi.

Sumber: https://arxiv.org/pdf/2104.08618.pdf

Sumber: https://arxiv.org/pdf/2104.08618.pdf

Karena konteks adalah tantangan dalam laporan CTI yang panjang dan panjang, peneliti memilih model representasi bahasa BERT (Bidirectional Encoder Representations from Transformer) daripada Word2Vec Google atau GloVe (Global Vectors for Word Representation) Stanford.

BERT mengevaluasi kata-kata dari konteks sekitarnya, dan juga mengembangkan embeddings untuk subkata (yaitu, launch, launching, dan launches semua berasal dari launch). Ini membantu EXTRACTOR untuk menangani kosakata teknis yang tidak ada dalam model pelatihan BERT, dan untuk mengklasifikasikan kalimat sebagai ‘produktif’ (mengandung informasi yang relevan) atau ‘non-produktif’.

Meningkatkan Kosakata Lokal

Tidak dapat dihindari bahwa beberapa wawasan domain spesifik harus diintegrasikan ke dalam pipa NLP yang menangani materi semacam ini, karena bentuk kata yang sangat relevan seperti alamat IP dan nama proses teknis tidak boleh dibuang.

Bagian lain dari proses menggunakan jaringan BiLSTM (Bidirectional LSTM) untuk menangani kepanjangan kata, menghasilkan peran semantik untuk bagian kalimat, sebelum menghapus kata-kata yang tidak produktif. BiLSTM sangat cocok untuk ini, karena dapat mengorelasikan ketergantungan jarak jauh yang muncul dalam dokumen yang panjang, di mana perhatian dan retensi yang lebih besar diperlukan untuk menyimpulkan konteks.

EXTRACTOR mendefinisikan peran semantik dan hubungan antara kata-kata, dengan peran yang dihasilkan oleh anotasi PropBank (PropBank).

EXTRACTOR mendefinisikan peran semantik dan hubungan antara kata-kata, dengan peran yang dihasilkan oleh anotasi PropBank (PropBank).

Dalam pengujian, EXTRACTOR (sebagian didanai oleh DARPA) terbukti mampu mencocokkan ekstraksi data manusia dari laporan DARPA. Sistem ini juga dijalankan melawan volume besar laporan tidak terstruktur dari Microsoft Security Intelligence dan TrendMicro Threat Encyclopedia, dengan berhasil mengekstrak informasi yang relevan dalam sebagian besar kasus.

Peneliti mengakui bahwa kinerja EXTRACTOR kemungkinan akan menurun ketika mencoba menyaring tindakan yang terjadi di beberapa kalimat atau paragraf, meskipun re-tooling sistem untuk menampung laporan lain diindikasikan sebagai cara maju di sini. Namun, ini pada dasarnya adalah kembali ke labeling yang dipimpin oleh manusia dengan proxy.

Panjang == Otoritas?

Menarik untuk dicatat bahwa ketegangan yang berkelanjutan antara cara algoritma SEO Google yang semakin menghargai konten panjang dalam beberapa tahun terakhir (meskipun saran resmi tentang hal ini kontradiktif), dan tantangan yang dihadapi peneliti AI (termasuk banyak inisiatif penelitian Google) dalam mendekode niat dan data sebenarnya dari artikel yang semakin panjang dan diskursif.

Dapat diperdebatkan bahwa dengan menghargai konten yang lebih panjang, Google menganggap kualitas yang konsisten yang tidak dapat diidentifikasi atau dikuantifikasi melalui proses NLP, kecuali dengan menghitung jumlah situs otoritas yang menautkan ke sana (metrik ‘meatware’, dalam sebagian besar kasus); dan bahwa tidak aneh untuk melihat postingan 2.500 kata atau lebih mendapatkan prominen SERPS meskipun ‘bloat’ naratif, selama konten tambahan itu secara umum dapat dipahami dan tidak melanggar pedoman lain.

Di Mana Resepnya?

Akibatnya, hitungan kata meningkat, sebagian karena keinginan yang tulus untuk konten panjang yang baik, tetapi juga karena ‘menceritakan’ beberapa fakta yang langka dapat meningkatkan panjang suatu artikel ke standar SEO yang ideal, dan memungkinkan konten yang ringan untuk bersaing dengan output yang lebih berusaha.

Salah satu contoh adalah situs resep, sering dikeluhkan di komunitas Hacker News untuk memulai informasi inti (resep) dengan sejumlah besar konten autobiografis atau khayalan yang dirancang untuk menciptakan ‘pengalaman resep’ yang didorong oleh cerita, dan untuk mendorong apa yang akan menjadi kata yang sangat rendah ke wilayah kata 2.500+ yang ramah SEO.

Beberapa solusi prosedural murni telah muncul untuk mengekstrak resep sebenarnya dari situs resep yang panjang, termasuk pengikis resep sumber terbuka, dan pengambil resep untuk Firefox dan Chrome. Pembelajaran mesin juga terkait dengan ini, dengan berbagai pendekatan dari Jepang, Amerika Serikat, dan Portugal, serta penelitian dari Stanford, di antara lainnya.

Dalam hal laporan intelijen ancaman yang ditangani oleh peneliti Chicago, praktik umum laporan ancaman yang panjang mungkin sebagian disebabkan oleh kebutuhan untuk mencerminkan skala prestasi (yang dapat diringkas dalam satu paragraf) dengan menciptakan narasi yang sangat panjang di sekitarnya, dan menggunakan panjang kata sebagai proxy untuk skala upaya yang dilakukan, terlepas dari keteraplikasian.

Kedua, dalam iklim di mana sumber asli dari sebuah cerita sering hilang karena praktik kutipan yang buruk oleh outlet berita populer, menghasilkan volume kata yang lebih tinggi daripada yang dapat direplikasi oleh jurnalis yang melaporkan kembali memastikan kemenangan SERPS dengan volume kata murni, dengan menganggap bahwa kepanjangan – sekarang tantangan yang berkembang bagi NLP – benar-benar dihargai dengan cara ini.

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.