Штучний інтелект
Machine Learning Extracts Attack Data From Verbose Threat Reports

Нові дослідження Університету Чикаго ілюструють конфлікт, який виник за останні десять років між перевагами SEO довгих контентів та труднощами, з якими системи машинного навчання мають у витягуванні необхідних даних з них.
Розробляючи систему аналізу NLP для витягування необхідної інформації про загрози з звітів про кіберzagрози (CTI), дослідники Чикаго зіткнулися з трьома проблемами: звіти зазвичай дуже довгі, з лише невеликою частиною, присвяченою фактичній поведінці атаки; стиль густий і граматично складний, з великою кількістю домен-специфічної інформації, яка припускає попередні знання читача; і матеріал вимагає знання взаємозв’язків між доменами, яке повинно бути “запам’ятане”, щоб зрозуміти його у контексті (постійна проблема, на яку вказують дослідники).
Довгі звіти про загрози
Основною проблемою є розгорнутість. Наприклад, у статті Чикаго зазначається, що серед 42-сторінкового звіту ClearSky 2019 року звіту про загрозу для малвари DustySky (також відомої як NeD Worm), лише 11 речень фактично стосуються та описують поведінку атаки.
Другою перешкодою є складність тексту, а фактично довжина речень: дослідники спостерігають, що серед 4020 звітів про загрози з центру звітів про загрози Microsoft, середня довжина речення становить 52 слова – лише дев’ять менше середньої довжини речення 500 років тому (в контексті того, що довжина речень зменшилася на 75% з тих пір).
Однак, у статті стверджується, що ці довгі речення є фактично “стиснутими абзацами” самі по собі, повними клауз, прислівників і прикметників, які приховують основний зміст інформації; і що речення часто缺ують базову конвенційну пунктуацію, на яку системи NLP, такі як NLP, spaCy, Stanford і NLTK, покладаються для висновку намірів або витягування фактичних даних.
NLP для витягування важливої інформації про загрози
Машинний навчальний потік, який розробили дослідники Чикаго для вирішення цієї проблеми, називається EXTRACTOR, і використовує техніки NLP для генерації графів, які витягують і підсумовують поведінку атаки з довгих, розгорнутих звітів. Процес відкидає історичні, нарративні та навіть географічні прикраси, які створюють цікаву і вичерпну “історію” за рахунок чіткої пріоритезації інформаційного вантажу.
Оскільки контекст є такою проблемою у розгорнутих і довгих звітах про кіберzagрози, дослідники обрали BERT (Bidirectional Encoder Representations from Transformer) мовну модель представлення над Word2Vec Google або GloVe Stanford.













