Штучний Інтелект

Машинне навчання витягує дані про атаки з детальних звітів про загрози

оновлений on 9 Грудня, 2022

Нове дослідження Чиказького університету ілюструє конфлікт, який виник протягом останніх десяти років між перевагами довгострокового контенту для SEO та труднощами, які мають системи машинного навчання під час отримання з нього важливих даних.

При розробці ан Система аналізу НЛП щоб отримати важливу інформацію про загрози зі звітів Cyber Threat Intelligence (CTI), чиказькі дослідники зіткнулися з трьома проблемами: звіти зазвичай дуже довгі, лише з невеликим розділом, присвяченим фактичній поведінці атаки; стиль щільний і граматично складний, з обширною інформацією, що стосується предметної сфери, яка передбачає попередні знання з боку читача; і матеріал потребує знань про міждоменні стосунки, які потрібно «запам’ятати», щоб зрозуміти його в контексті (а стійка проблема, зазначають дослідники).

Довгі звіти про загрози

Основною проблемою є багатослівність. Наприклад, чиказька газета зазначає, що серед 42 сторінок ClearSky за 2019 р звіт про загрозу для зловмисного програмного забезпечення DustySky (також відомого як NeD Worm) лише 11 речень описують поведінку атаки.

Другою перешкодою є складність тексту та, по суті, довжина речення: дослідники помічають, що серед 4020 повідомлень про загрози від Центру повідомлень про загрози Microsoft середнє речення складається з 52 слів – лише на дев’ять менше середньої довжини речення. 500 років тому (у контексті того, що довжина речення має знизився на 75% Відтоді).

Однак у статті стверджується, що ці довгі речення самі по собі є «стиснутими абзацами», повними речень, прислівників і прикметників, які огортають основний зміст інформації; і що в реченнях часто відсутні основні умовні розділові знаки, які НЛП системи, такі як просторий, Стенфорд і НЛТК покладатися на те, щоб зробити висновок про намір або витягнути точні дані.

НЛП для вилучення відомої інформації про загрозу

Конвеєр машинного навчання, який чиказькі дослідники розробили для вирішення цієї проблеми, називається ЕКСТРАКТОР, і використовує методи NLP для створення графіків, які дистилюють і підсумовують поведінку атаки з довгих дискурсивних звітів. Процес відкидає історичні, розповідні та навіть географічні орнаменти, які створюють привабливу та вичерпну «історію» за рахунок чіткого визначення пріоритетів інформаційного навантаження.

Джерело: https://arxiv.org/pdf/2104.08618.pdf

Оскільки контекст є таким викликом у багатослівних і довгих звітах CTI, дослідники обрали БЕРТ (Bidirectional Encoder Representations from Transformer) мовна модель представлення на відміну від Google Word2Vec або Стенфордський GloVe (Глобальні вектори для представлення слів).

BERT оцінює слова з навколишнього контексту, а також розвиває вбудовування для підслів (тобто запуск, запуск та запуски все зводиться до запуск). Це допомагає EXTRACTOR впоратися з технічною лексикою, якої немає в моделі навчання BERT, і класифікувати речення як «продуктивні» (що містять відповідну інформацію) або «непродуктивні».

Збільшення словникового запасу

Неминуче певне розуміння конкретної області має бути інтегроване в конвеєр NLP, що має справу з матеріалами такого роду, оскільки дуже доречні словоформи, такі як IP-адреси та назви технічних процесів, не можна відкидати.

Пізніші частини процесу використовують a BiLSTM (Двонаправлений Мережа LSTM) для усунення багатослівності слів, визначення семантичних ролей для частин речення перед видаленням непродуктивних слів. BiLSTM добре підходить для цього, оскільки він може співвідносити залежності на великій відстані, які з’являються в багатослівних документах, де потрібна більша увага та утримання, щоб вивести контекст.

EXTRACTOR визначає семантичні ролі та зв’язки між словами з ролями, створеними анотаціями банку пропозицій (PropBank).

EXTRACTOR визначає семантичні ролі та зв’язки між словами, з ролями, створеними Proposition Bank (ПропБанк) анотації.

У ході тестів було виявлено, що EXTRACTOR (частково фінансований DARPA) здатний зіставляти дані, отримані людьми, зі звітів DARPA. Система також перевірялася на великій кількості неструктурованих звітів від Microsoft Security Intelligence та TrendMicro Threat Encyclopedia, успішно вилучаючи важливу інформацію в більшості випадків.

Дослідники визнають, що продуктивність EXTRACTOR, ймовірно, знизиться під час спроби дистилювати дії, які відбуваються в кількох реченнях або абзацах, хоча переробка системи для розміщення інших звітів вказана як шлях вперед. Однак це, по суті, повертається до керованого людиною маркування через проксі.

Довжина == Авторитет?

Цікаво відзначити постійну напругу між тим, як таємні алгоритми Google SEO все частіше винагороджується довгостроковий вміст в останні роки (хоча офіційні поради з цього приводу є суперечливим), а також виклики, які дослідники ШІ (зокрема багато великих Дослідницькі ініціативи Google) зіткнутися з декодуванням намірів і фактичних даних із цих все більш дискурсивних і тривалих статей.

Можна стверджувати, що, винагороджуючи довший вміст, Google припускає постійну якість, яку він не обов’язково може ідентифікувати чи кількісно оцінити за допомогою процесів НЛП, за винятком підрахунку кількості авторитетних сайтів, які посилаються на нього (метрика «м’ясного посуду», у більшість випадків); і тому не є чимось незвичайним побачити дописи довжиною 2,500 слів або більше, які досягають помітності SERPS, незалежно від «роздутості» оповіді, якщо додатковий вміст є зрозумілим і не порушує інші вказівки.

Де рецепт?

Отже, кількість слів зростає, частково через a щире бажання для якісного довгострокового вмісту, а також тому, що «історіфікація» кількох мізерних фактів може збільшити довжину фрагмента до ідеальних стандартів SEO та дозволити незначному вмісту рівноправно конкурувати з результатом більших зусиль.

Одним із прикладів цього є сайти рецептів, часто скаржилися of у спільноті Hacker News для початку основної інформації (рецепту) безліччю автобіографічного чи химерного вмісту, призначеного для створення «рецептного досвіду», який керується історією, і підштовхування того, що інакше було б дуже низьким числом слів, до SEO -дружній регіон із 2,500+ слів.

З’явилася низка суто процедурних рішень для отримання реальних рецептів із багатослівних сайтів рецептів, у тому числі з відкритим кодом скребки рецептів, і екстрактори рецептів для Firefox та Chrome. Машинне навчання також стосується цього, з різними підходами Japan, США та Португалія, а також дослідження зі Стенфорда, серед іншого.

З точки зору розвідувальних звітів про загрози, розглянутих чиказькими дослідниками, загальна практика докладного звітування про загрози може бути частково пов’язана з необхідністю відображати масштаб досягнення (яке в іншому випадку часто можна підсумувати в абзаці) шляхом створення дуже довгий наратив навколо цього та використання довжини слова як проксі для масштабу залучених зусиль, незалежно від застосовності.

По-друге, в кліматі, де джерелом історії часто є джерело втрачені через погану практику цитування популярними новинними виданнями, створення більшої кількості слів, ніж будь-який репортажний журналіст, гарантує виграш SERPS через саму кількість слів, припускаючи, що багатослівність – тепер зростаючий виклик до НЛП – справді винагороджується таким чином.

Схожі теми:media nlp дослідження

Вгору Далі

Розумніший ШІ названо ABI Research у новому звіті

Не пропустіть

Appen Limited запускає різноманітні навчальні набори даних для НЛП

Мартін Андерсон

Письменник про машинне навчання, штучний інтелект і великі дані.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai