Connect with us

Machine Learning Extracts Attack Data From Verbose Threat Reports

Штучний інтелект

Machine Learning Extracts Attack Data From Verbose Threat Reports

mm
NLP mining

Нові дослідження Університету Чикаго ілюструють конфлікт, який виник за останні десять років між перевагами SEO довгих контентів та труднощами, з якими системи машинного навчання мають у витягуванні необхідних даних з них.

Розробляючи систему аналізу NLP для витягування необхідної інформації про загрози з звітів про кіберzagрози (CTI), дослідники Чикаго зіткнулися з трьома проблемами: звіти зазвичай дуже довгі, з лише невеликою частиною, присвяченою фактичній поведінці атаки; стиль густий і граматично складний, з великою кількістю домен-специфічної інформації, яка припускає попередні знання читача; і матеріал вимагає знання взаємозв’язків між доменами, яке повинно бути “запам’ятане”, щоб зрозуміти його у контексті (постійна проблема, на яку вказують дослідники).

Довгі звіти про загрози

Основною проблемою є розгорнутість. Наприклад, у статті Чикаго зазначається, що серед 42-сторінкового звіту ClearSky 2019 року звіту про загрозу для малвари DustySky (також відомої як NeD Worm), лише 11 речень фактично стосуються та описують поведінку атаки.

Другою перешкодою є складність тексту, а фактично довжина речень: дослідники спостерігають, що серед 4020 звітів про загрози з центру звітів про загрози Microsoft, середня довжина речення становить 52 слова – лише дев’ять менше середньої довжини речення 500 років тому (в контексті того, що довжина речень зменшилася на 75% з тих пір).

Однак, у статті стверджується, що ці довгі речення є фактично “стиснутими абзацами” самі по собі, повними клауз, прислівників і прикметників, які приховують основний зміст інформації; і що речення часто缺ують базову конвенційну пунктуацію, на яку системи NLP, такі як NLP, spaCy, Stanford і NLTK, покладаються для висновку намірів або витягування фактичних даних.

NLP для витягування важливої інформації про загрози

Машинний навчальний потік, який розробили дослідники Чикаго для вирішення цієї проблеми, називається EXTRACTOR, і використовує техніки NLP для генерації графів, які витягують і підсумовують поведінку атаки з довгих, розгорнутих звітів. Процес відкидає історичні, нарративні та навіть географічні прикраси, які створюють цікаву і вичерпну “історію” за рахунок чіткої пріоритезації інформаційного вантажу.

Source: https://arxiv.org/pdf/2104.08618.pdf

Source: https://arxiv.org/pdf/2104.08618.pdf

Оскільки контекст є такою проблемою у розгорнутих і довгих звітах про кіберzagрози, дослідники обрали BERT (Bidirectional Encoder Representations from Transformer) мовну модель представлення над Word2Vec Google або GloVe Stanford.

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]

Розкриття інформації про рекламу: Unite.AI дотримується суворих редакційних стандартів, щоб надавати читачам точну інформацію та новини. Ми можемо отримувати компенсацію, якщо ви переходите за посиланнями на продукти, які ми оглядали.