인공지능
기계 학습,冗長한 위협 보고서에서 공격 데이터 추출

시카고 대학교의 새로운 연구는 지난 10년 동안 장형 콘텐츠의 SEO 이점과 기계 학습 시스템이 이를 통해 필수 데이터를 추출하는 어려움 사이에 발생한 갈등을 설명한다.
시카고 연구진은 사이버 위협 지능(Cyber Threat Intelligence, CTI) 보고서에서 필수 위협 정보를 추출하기 위한 NLP 분석 시스템을 개발하면서 세 가지 문제에 직면했다. 보고서가 일반적으로 매우 길고 실제 공격 행동에 대한 작은 섹션만 포함되어 있으며, 스타일이 밀도 있고 문법적으로 복잡하여 도메인별 정보가 풍부하여 독자가 사전 지식을 가지고 있다고 가정한다. 또한, 이 자료는 교차 도메인 관계 지식을 필요로 하며, 이를 이해하기 위해 ‘기억’해야 한다(연구진이 주목하는 지속적인 문제).
冗長한 위협 보고서
기본적인 문제는冗長함이다. 예를 들어, 시카고 논문은 ClearSky의 2019년 위협 보고서에서 DustySky(aka NeD Worm) 멀웨어에 대해 실제 공격 행동을 설명하는 11개의 문장만 포함되어 있음을 지적한다.
두 번째 장애물은 텍스트의 복잡성과 효과적으로 문장 길이이다. 연구진은 Microsoft의 위협 보고 센터의 4020개의 위협 보고서에서 평균 문장이 52단어로 구성되어 있음을 관찰했는데, 이는 500년 전의 평균 문장 길이보다 9단어만 짧다(그 당시부터 문장 길이가 75% 감소했다는 사실을 고려한다).
그러나, 이 논문은 이러한 긴 문장이 본질적으로 자체적으로 ‘압축된 문단’이며, 핵심 정보의 의미를 가리는 많은 절, 부사, 형용사로 구성되어 있으며, 이러한 문장이 종종 기본적인 관용구 구두점을 缺如하여 NLP 시스템인 spaCy, Stanford 및 NLTK가 의도 또는 하드 데이터를 추출하는 데 사용하는 것을 의존한다.
NLP를 통한 주요 위협 정보 추출
시카고 연구진이 개발한 기계 학습 파이프라인은 EXTRACTOR라고 불리며,冗長한 보고서에서 공격 행동을 요약하고 추출하기 위한 그래프를 생성하기 위해 NLP 기술을 사용한다. 이 과정은 정보적 페이로드를 명확하게 우선순위에 두는 대가로 역사적, 내러티브 및 지리적 장식품을 버린다.
冗長한 CTI 보고서에서 컨텍스트가 큰 도전이 되는 경우, 연구진은 BERT(Bidirectional Encoder Representations from Transformer) 언어 표현 모델을 Google의 Word2Vec 또는 Stanford의 GloVe(글로벌 벡터 สำหร문 표현)보다 선호한다.
BERT는 주변 컨텍스트에서 단어를 평가하고, 또한 임베딩을 생성한다(즉, launch, launching 및 launches 모두 launch로 축소됨). 이것은 EXTRACTOR가 BERT의 훈련 모델에 없는 기술 용어를 처리하고, 문장을 ‘생산적’ 또는 ‘비생산적’으로 분류하는 데 도움이 된다.
로컬 어휘 증가
결과적으로, 이와 같은 종류의 자료를 다루는 NLP 파이프라인에는 특정 도메인 통찰력이 통합되어야 한다. 왜냐하면 IP 주소 및 기술 프로세스 이름과 같은 매우 관련된 단어 형태가 버려지지 않도록 해야 하기 때문이다.
이후 과정에서는 BiLSTM(Bidirectional LSTM) 네트워크를 사용하여 단어冗長함을 처리하고, 문장 부분에 대한 의미적 역할을 파악하며, 비생산적 단어를 제거한다. BiLSTM은冗長한 문서에서 나타나는 장거리 의존성을 상호 연관시킬 수 있기 때문에 이에 적합하다. 여기서 더 많은 주의와 기억이 필요하다.

EXTRACTOR defines semantic roles and relationships between words, with roles generated by Proposition Bank (PropBank) annotations.
테스트에서 EXTRACTOR(부분적으로 DARPA에서 자금을 지원)는 DARPA 보고서에서 인간이 추출한 데이터와 일치하는 능력이 있는 것으로 나타났다. 시스템은 또한 Microsoft Security Intelligence와 TrendMicro Threat Encyclopedia의大量의 비정형 보고서에 대해 성공적으로 주요 정보를 추출했다.
연구진은 EXTRACTOR의 성능이 여러 문장 또는 단락에 걸쳐 발생하는 동작을 요약하려고 할 때 감소할 가능성이 있음을 인정한다. 그러나, 이 문제를 해결하는 방법은 시스템을 다른 보고서에 맞추는 것이다. 그러나, 이것은 본질적으로 인간 주도 라벨링으로 돌아가는 것이다.
길이 == 권위?
Google의 고대적인 SEO 알고리즘이 최근 몇 년 동안 장형 콘텐츠를 점점 더 많이 보상하고 있는 것과, AI 연구자들이 이러한 장형 콘텐츠에서 의도와 실제 데이터를 해석하는 데 직면하는 도전 사이에 계속되는 긴장감을 주목하는 것은 흥미롭다(많은 Google 연구 이니셔티브를 포함한).
장형 콘텐츠를 보상함으로써, Google는 일관된 품질을 가정하고 있지만, NLP 프로세스를 통해 아직 식별하거나 양화할 수 없는 것으로 보인다. 이것은 단지 연결된 권위 사이트의 수를 세는 것에 의존하기 때문이다(대부분의 경우 ‘육성’ 메트릭). 따라서, 2,500단어 이상의 포스트가 내러티브 ‘부풀림’에 관계없이 SERPS 프로미넌스를 달성하는 것을 보는 것이 이상하지 않다.
레시피는 어디에?
따라서, 단어 수는 증가하고 있다. 이는 실제로 좋은 장형 콘텐츠를 원하는 жел望 때문이지만, 또한 ‘스토리화’를 통해 몇 가지 사실을 길게 만들 수 있고, 이로써 약간의 콘텐츠가 더 많은 노력을 기울인 출력과 동등하게 경쟁할 수 있다.
이것의 한 예는 레시피 사이트이다. 이 사이트는 핵심 정보(레시피)를 제공하기 전에 자서전적 또는 환상적인 콘텐츠로 가득 찬 경우가 많다. 이러한 콘텐츠는 이야기 주도적인 ‘레시피 경험’을 만들고, SEO 친화적인 2,500단어 이상의 지역으로 단어 수를 높이기 위해 사용된다.
레시피 사이트에서 실제 레시피를 추출하기 위한 순수한 절차적 솔루션이 등장했다. 이는 오픈 소스 레시피 스크레이퍼와 Firefox 및 Chrome용 레시피 추출기를 포함한다. 기계 학습도 관련되어 있다. 일본, 미국, 포르투갈 등에서 다양한 접근 방식이 있으며, 스탠퍼드 등에서도 연구가 진행 중이다.
시카고 연구진이 다루고 있는 위협 지능 보고서의 경우,冗長한 위협 보고의 일반적인 관행은 실제로 성과를 반영하는 데 필요한 규모(일반적으로 한 단락으로 요약할 수 있음)를 만들기 위해 매우 긴 내러티브를 생성하고, 단어 길이를 노력의 규모로 사용하는 데 기인할 수 있다. 또한, 출처가 종종 인기 있는 뉴스 아웃レット에 의한 나쁨 인용 관행으로 인해 손실되는 경우, 더 많은 단어를 생성하여 SERPS 우위를 점하는 것은 단어 볼륨으로 보상받을 수 있다. 이는冗長함이 실제로 이러한 방식으로 보상받는 경우이다.













