stub Uczenie maszynowe wyodrębnia dane dotyczące ataków z pełnych raportów o zagrożeniach — Unite.AI
Kontakt z nami

Artificial Intelligence

Uczenie maszynowe wyodrębnia dane dotyczące ataków z pełnych raportów o zagrożeniach

mm
Zaktualizowano on
Wydobywanie NLP

Nowe badanie przeprowadzone na Uniwersytecie w Chicago ilustruje konflikt, który pojawił się w ciągu ostatnich dziesięciu lat między korzyściami SEO wynikającymi z długich treści a trudnościami, jakie systemy uczenia maszynowego mają z pozyskaniem z nich niezbędnych danych.

W opracowywaniu System analizy NLP aby wyodrębnić istotne informacje o zagrożeniach z raportów Cyber ​​Threat Intelligence (CTI), badacze z Chicago stanęli przed trzema problemami: raporty są zwykle bardzo długie i tylko niewielka część poświęcona jest rzeczywistemu zachowaniu podczas ataku; styl jest gęsty i złożony gramatycznie, z obszernymi informacjami specyficznymi dla danej dziedziny, co zakłada wcześniejszą wiedzę czytelnika; a materiał wymaga wiedzy o relacjach międzydomenowych, którą należy „zapamiętać”, aby zrozumieć go w kontekście (a uporczywy problem– zauważają badacze).

Rozwlekłe raporty o zagrożeniach

Podstawowym problemem jest gadatliwość. Na przykład gazeta chicagowska zauważa, że ​​wśród 42-stronicowych publikacji ClearSky za rok 2019 raport o zagrożeniu w przypadku złośliwego oprogramowania DustySky (aka NeD Worm) zaledwie 11 zdań opisuje i opisuje przebieg ataku.

Drugą przeszkodą jest złożoność tekstu i, w rzeczywistości, długość zdania: badacze zauważają, że spośród 4020 raportów o zagrożeniach z centrum raportowania zagrożeń firmy Microsoft przeciętne zdanie składa się z 52 słów – czyli tylko o dziewięć mniej niż średnia długość zdania 500 lat temu (w kontekście faktu, że długość zdania ma spadła o 75% od tego czasu).

Jednakże w artykule utrzymuje się, że te długie zdania są w istocie „skompresowanymi akapitami” samymi w sobie, pełnymi zdań, przysłówków i przymiotników, które przesłaniają podstawowe znaczenie informacji; oraz że w zdaniach często brakuje podstawowej konwencjonalnej interpunkcji, która NLP systemy takie jak Przestronny, Stanforda i NLTK polegać na wnioskowaniu o zamiarach lub wydobywaniu twardych danych.

NLP w celu wyodrębnienia informacji o istotnych zagrożeniach

Metoda uczenia maszynowego, którą opracowali badacze z Chicago, aby rozwiązać ten problem, nazywa się EKSTRAKTORi wykorzystuje techniki NLP do generowania wykresów, które destylują i podsumowują zachowanie ataku na podstawie długich, dyskursywnych raportów. W procesie tym odrzuca się ozdoby historyczne, narracyjne, a nawet geograficzne, które tworzą wciągającą i wyczerpującą „historię”, kosztem jasnego ustalenia priorytetów ładunku informacyjnego.

Źródło: https://arxiv.org/pdf/2104.08618.pdf

Źródło: https://arxiv.org/pdf/2104.08618.pdf

Ponieważ kontekst jest takim wyzwaniem w pełnych i obszernych raportach CTI, badacze wybrali BERTI (Dwukierunkowe reprezentacje kodera z Transformera) model reprezentacji języka w porównaniu z modelem Google Word2Stary lub GloVe Stanforda (globalne wektory do reprezentacji słów).

BERT ocenia słowa z otaczającego ich kontekstu, a także się rozwija osadzenia dla słów podrzędnych (tj uruchomić, wodowanie i uruchamia wszystko sprowadza się do uruchomić). Pomaga to EXTRACTORowi radzić sobie ze słownictwem technicznym, którego nie ma w modelu szkoleniowym BERT, i klasyfikować zdania jako „produktywne” (zawierające istotne informacje) i „nieproduktywne”.

Zwiększanie słownictwa lokalnego

Nieuchronnie w potoku NLP zajmującym się tego rodzaju materiałami należy zintegrować pewną wiedzę dotyczącą konkretnej dziedziny, ponieważ nie można pomijać bardzo trafnych form słów, takich jak adresy IP i nazwy procesów technicznych.

W późniejszych częściach procesu wykorzystuje się a BiLSTM (dwukierunkowa LSTM), aby uporać się z gadatliwością słów, wyprowadzając role semantyczne dla części zdań przed usunięciem bezproduktywnych słów. BiLSTM doskonale się do tego nadaje, ponieważ może korelować zależności na odległość pojawiające się w pełnych dokumentach, gdzie konieczna jest większa uwaga i zachowanie, aby wydedukować kontekst.

EXTRACTOR definiuje role semantyczne i relacje między słowami, z rolami generowanymi przez adnotacje z Banku Propozycji (PropBank).

EXTRACTOR definiuje role semantyczne i relacje między słowami, z rolami generowanymi przez Bank Propozycji (ProBank) adnotacje.

W testach stwierdzono, że EXTRACTOR (częściowo finansowany przez DARPA) jest w stanie dopasować dane ludzkie z raportów DARPA. System przetestowano także na podstawie dużej liczby nieustrukturyzowanych raportów z Microsoft Security Intelligence i TrendMicro Threat Encyclopedia, w większości przypadków z powodzeniem wyodrębniając istotne informacje.

Badacze przyznają, że wydajność EXTRACTORA prawdopodobnie spadnie, gdy spróbuje wyodrębnić działania, które występują w wielu zdaniach lub akapitach, chociaż jako rozwiązanie wskazane jest przebudowanie systemu w celu uwzględnienia innych raportów. Jednakże zasadniczo sprowadza się to do etykietowania prowadzonego przez człowieka przez pełnomocnika.

Długość == Władza?

Warto zauważyć ciągłe napięcie między sposobem, w jaki wydają się działać tajemnicze algorytmy SEO Google coraz bardziej nagradzane dłuższe treści w ostatnich latach (chociaż oficjalne zalecenia w tej sprawie jest sprzeczne) oraz wyzwania stojące przed badaczami sztucznej inteligencji (w tym wielu głównych Inicjatywy badawcze Google) w dekodowaniu zamiarów i rzeczywistych danych z tych coraz bardziej dyskursywnych i długich artykułów.

Można argumentować, że nagradzając dłuższe treści, Google zakłada stałą jakość, której niekoniecznie jest w stanie zidentyfikować lub określić ilościowo za pomocą procesów NLP, z wyjątkiem zliczenia liczby witryn autorytetów, które do nich prowadzą (wskaźnik „mięsnego” w w większości przypadków); oraz że w związku z tym nie jest niczym niezwykłym, że posty zawierające co najmniej 2,500 słów zyskują na znaczeniu w SERP-ach niezależnie od „nadęcia” narracyjnego, o ile dodatkowa treść jest ogólnie zrozumiała i nie narusza innych wytycznych.

Gdzie jest przepis?

W związku z tym, liczba słów rośnie, częściowo z powodu prawdziwe pragnienie dla dobrej, długiej treści, ale także dlatego, że „opowiadanie” kilku skąpych faktów może zwiększyć długość artykułu do idealnych standardów SEO i sprawić, że niewielka treść będzie w równym stopniu konkurować z wynikami wymagającymi większego wysiłku.

Jednym z przykładów są witryny z przepisami, często narzekał of w społeczności Hacker News za poprzedzanie podstawowych informacji (przepisu) zbiorami treści autobiograficznych lub fantazyjnych, których celem było stworzenie opartego na historii „przepisu” oraz umieszczenie w SEO czegoś, co w innym przypadku byłoby bardzo małą liczbą słów -przyjazny region zawierający ponad 2,500 słów.

Pojawiło się szereg czysto proceduralnych rozwiązań umożliwiających wyodrębnianie rzeczywistych przepisów z pełnych witryn z przepisami, w tym z oprogramowania open source skrobaczki do recepturi ekstraktory receptur dla Firefox i Chrom. Uczenie maszynowe również się tym zajmuje, stosując różne podejścia Japonia, Stany Zjednoczone i Portugalia, a także badania m.in. ze Stanford.

Jeśli chodzi o raporty dotyczące zagrożeń, którymi zajmują się badacze z Chicago, ogólna praktyka szczegółowego raportowania zagrożeń może częściowo wynikać z potrzeby odzwierciedlenia skali osiągnięcia (które w przeciwnym razie często można podsumować w akapicie) poprzez stworzenie bardzo długą narrację na ten temat i używanie długości słowa jako wskaźnika skali włożonego wysiłku, niezależnie od zastosowania.

Po drugie, w klimacie, w którym często znajduje się źródło pochodzenia historii przegrane z powodu złych praktyk cytowania przez popularne serwisy informacyjne, wyprodukowanie większej liczby słów, niż byłby w stanie powtórzyć jakikolwiek reporter, gwarantuje zwycięstwo SERPS samą liczbą słów, przy założeniu, że gadatliwość – obecnie rosnące wyzwanie do NLP – jest w ten sposób naprawdę nagradzany.