Изкуствен интелект

Машинното обучение извлича данни за атаки от подробни доклади за заплахи

Обновено on Декември 9, 2022

Ново изследване на Чикагския университет илюстрира конфликта, възникнал през последните десет години между предимствата на дългосрочното съдържание за SEO и трудността, която системите за машинно обучение имат при събирането на основни данни от него.

При разработването на НЛП система за анализ за да извлекат съществена информация за заплахите от докладите на Cyber Threat Intelligence (CTI), изследователите от Чикаго са изправени пред три проблема: докладите обикновено са много дълги, като само малък раздел е посветен на действителното поведение на атаката; стилът е плътен и граматически сложен, с обширна специфична за домейна информация, която предполага предварително знание от страна на читателя; и материалът изисква знания за връзката между домейни, които трябва да бъдат „запаметени“, за да се разбере в контекст (а постоянен проблем, отбелязват изследователите).

Дълги доклади за заплахи

Основният проблем е многословието. Например вестникът в Чикаго отбелязва, че сред 42 страници на ClearSky за 2019 г доклад за заплахата за злонамерения софтуер DustySky (известен още като NeD Worm), само 11 изречения всъщност разглеждат и очертават поведението на атаката.

Второто препятствие е сложността на текста и на практика дължината на изречението: изследователите отбелязват, че сред 4020 доклада за заплахи от центъра за докладване на заплахи на Microsoft средното изречение се състои от 52 думи – само девет по-малко от средната дължина на изречението Преди 500 години (в контекста на факта, че дължината на изречението има спада 75% от тогава).

Документът обаче твърди, че тези дълги изречения сами по себе си са „компресирани абзаци“, пълни с клаузи, наречия и прилагателни, които забулват основното значение на информацията; и че в изреченията често липсва основната конвенционална пунктуация, която НЛП системи като просторна, Станфорд и NLTK разчитат, за да изведат намерение или да извлекат твърди данни.

НЛП за извличане на важна информация за заплаха

Тръбопроводът за машинно обучение, който изследователите от Чикаго са разработили, за да се справят с това, се нарича ЕКСТРАКТОР, и използва NLP техники за генериране на графики, които дестилират и обобщават поведението на атака от дълги, дискурсивни доклади. Процесът отхвърля историческите, наративните и дори географските орнаменти, които създават ангажираща и изчерпателна „история“ за сметка на ясното приоритизиране на информационния полезен товар.

Източник: https://arxiv.org/pdf/2104.08618.pdf

Тъй като контекстът е такова предизвикателство в многословните и многобройни CTI доклади, изследователите избраха БЕРТ (Двупосочни представяния на енкодер от Transformer) модел на езиково представяне спрямо този на Google Word2Vec или GloVe на Станфорд (Глобални вектори за представяне на думи).

BERT оценява думите от заобикалящия ги контекст и също така се развива вграждания за поддуми (т.е стартира, създаване намлява стартира всички произтичат от стартира). Това помага на EXTRACTOR да се справи с техническия речник, който не присъства в модела на обучение на BERT, и да класифицира изреченията като „продуктивни“ (съдържащи уместна информация) или „непродуктивни“.

Увеличаване на местния речников запас

Неизбежно някаква конкретна информация за домейна трябва да бъде интегрирана в тръбопровода на НЛП, занимаващ се с материали от този вид, тъй като много уместни словоформи като IP адреси и имена на технически процеси не трябва да се отхвърлят.

По-късните части на процеса използват a BiLSTM (Двупосочен LSTM) мрежа за справяне с многословието на думите, извличане на семантични роли за части от изречението, преди премахване на непродуктивни думи. BiLSTM е много подходящ за това, тъй като може да корелира зависимостите от дълги разстояния, които се появяват в многословни документи, където е необходимо по-голямо внимание и задържане, за да се извлече контекст.

EXTRACTOR дефинира семантични роли и връзки между думите, с роли, генерирани от анотациите на Proposition Bank (PropBank).

EXTRACTOR дефинира семантични роли и връзки между думите, с роли, генерирани от Proposition Bank (PropBank) анотации.

При тестове беше установено, че EXTRACTOR (частично финансиран от DARPA) може да съпостави извличането на човешки данни от докладите на DARPA. Системата също беше управлявана срещу голям обем неструктурирани отчети от Microsoft Security Intelligence и TrendMicro Threat Encyclopedia, успешно извличайки важна информация в повечето случаи.

Изследователите признават, че производителността на EXTRACTOR вероятно ще намалее, когато се опитвате да дестилирате действия, които се случват в редица изречения или абзаци, въпреки че пренастройването на системата, за да поеме други отчети, е посочено като път напред тук. Това обаче по същество се връща към водено от човека етикетиране чрез прокси.

Дължина == Авторитет?

Интересно е да се отбележи продължаващото напрежение между начина, по който тайнствените SEO алгоритми на Google изглежда имат все по-възнаграждавано дългосрочно съдържание през последните години (въпреки че официалните съвети по този въпрос е противоречиво) и предизвикателствата, които изследователите на ИИ (включително много големи Изследователски инициативи на Google) се сблъскват с декодирането на намерението и действителните данни от тези все по-дискурсивни и дълги статии.

Може да се спори, че при награждаването на по-дълго съдържание Google предполага постоянно качество, което не е непременно в състояние да идентифицира или количествено все още чрез NLP процеси, освен чрез преброяване на броя авторитетни сайтове, които препращат към него (метрика „месни изделия“, в повечето случаи); и че следователно не е необичайно да видите публикации от 2,500 думи или повече, постигащи известност на SERPS, независимо от „раздуването“ на разказа, стига допълнителното съдържание да е широко разбираемо и да не нарушава други насоки.

Къде е рецептата?

Следователно, броят на думите нараства, отчасти поради a истинско желание за добро съдържание в дълга форма, но също така и защото „историята“ на няколко оскъдни факта може да повиши дължината на парчето до идеалните стандарти за SEO и да позволи на малкото съдържание да се конкурира еднакво с изхода с по-големи усилия.

Един пример за това са сайтовете с рецепти, често оплакал of в общността на Hacker News за предшестване на основната информация (рецептата) с множество автобиографично или причудливо съдържание, предназначено да създаде водено от историята „изживяване с рецепти“ и да прокара това, което иначе би било много нисък брой думи, в SEO -приятелски регион с 2,500+ думи.

Появиха се редица чисто процедурни решения за извличане на действителни рецепти от многословни сайтове с рецепти, включително с отворен код стъргалки за рецепти, и екстрактори за рецепти за Firefox намлява Chrome. Машинното обучение също се занимава с това, с различни подходи от Япония, Съединените Щати намлява Португалия, както и изследвания от Станфорд, между другото.

По отношение на докладите за разузнаване на заплахите, разгледани от изследователите от Чикаго, общата практика на подробно докладване на заплахи може да се дължи отчасти на необходимостта да се отрази мащабът на дадено постижение (което иначе често може да бъде обобщено в параграф) чрез създаване на много дълъг разказ около него и използване на дължината на думата като заместител на мащаба на вложените усилия, независимо от приложимостта.

Второ, в климат, където източникът на историята често е изгубени от лоши практики за цитиране от популярни новинарски издания, произвеждането на по-голям обем думи, отколкото който и да е репортаж журналист би могъл да възпроизведе, гарантира победа на SERPS от чист обем думи, ако приемем, че многословието – сега нарастващо предизвикателство към НЛП – наистина се възнаграждава по този начин.