人工知能

マシンラーニングが冗長な脅威レポートから攻撃データを抽出する

Published April 30, 2021

Updated April 28, 2026

Martin Anderson

シカゴ大学からの新しい研究は、過去10年間に、長文コンテンツのSEOの利点と、マシンラーニングシステムがそれから必要なデータを抽出するのに苦労しているという矛盾を示しています。

シカゴの研究者は、サイバーセキュリティ脅威インテリジェンス（CTI）レポートから重要な脅威情報を抽出するために、NLP分析システムを開発しました。彼らは3つの問題に直面しました。レポートは通常非常に長く、実際の攻撃行動に専念している部分は小さなセクションしかありません。スタイルは密度が高く、文法的に複雑で、読者に事前に知識があると仮定するドメイン固有の情報が多く含まれています。また、クロスドメイン関係知識が必要で、これを「覚える」必要があります。

冗長な脅威レポート

主な問題は冗長性です。例えば、シカゴの論文では、ClearSkyの2019年のDustySky（別名NeD Worm）マルウェアの42ページの脅威レポートの中で、実際の攻撃行動について説明しているのは11文だけです。

2番目の障害はテキストの複雑性であり、実質的には文の長さです。研究者は、Microsoftの脅威レポートセンターの4020の脅威レポートの中で、平均の文は52語で構成されており、500年前に平均文の長さよりわずか9語短いことを観察しました。

しかし、論文では、これらの長い文は本質的に「圧縮された段落」であり、節、副詞、形容詞で満たされており、情報の核となる意味を隠しています。また、文は souvent 基本的な規範的な句読点が欠けていることがありますが、これはNLPシステム such as spaCy、Stanford、NLTKが意図やハードデータを推測するために依存しています。

NLPを使用して重要な脅威情報を抽出する

シカゴの研究者が開発したマシンラーニングパイプラインは、EXTRACTORと呼ばれ、NLP技術を使用して、冗長なレポートから攻撃行動を要約してグラフ化します。プロセスでは、歴史的、物語的、地理的な装飾が除去され、情報ペイロードが明確に優先されます。

Source: https://arxiv.org/pdf/2104.08618.pdf

コンテキストは冗長で長いCTIレポートでは大きな課題であるため、研究者はBERT（Bidirectional Encoder Representations from Transformer）言語表現モデルを、GoogleのWord2VecやStanfordのGloVe（Global Vectors for Word Representation）よりも選択しました。

BERTは、単語をその周囲のコンテキストから評価し、またサブワード（例：launch、launching、launchesはすべてlaunchに還元される）の埋め込みを開発します。これにより、EXTRACTORはBERTのトレーニングモデルに存在しない技術用語に対処し、文を「生産的」（関連情報を含む）または「非生産的」に分類できます。

ローカル語彙の増加

この種の資料を扱うNLPパイプラインでは、必然的に特定のドメインの洞察が統合される必要があります。なぜなら、高度に関連する単語形（例：IPアドレス、技術プロセス名）が捨て去られないからです。

プロセスの後半では、BiLSTM（Bidirectional LSTM）ネットワークを使用して、単語の冗長性に取り組み、文の部分の意味的役割を導き出し、非生産的な単語を削除します。BiLSTMは、冗長な文書で遠隔依存関係が現れるため、コンテキストを推論するために必要な注意と保持が必要です。

EXTRACTORは、PropBank（PropBank）注釈によって生成された役割を使用して、単語間の意味的役割と関係を定義します。

テストでは、EXTRACTOR（DARPAが部分的に資金提供）は、DARPAレポートからの人間によるデータ抽出と一致することができました。システムはまた、Microsoft Security IntelligenceとTrendMicro Threat Encyclopediaからの大量の構造化されていないレポートに対して実行され、多くの場合、重要な情報を抽出することができました。

研究者は、EXTRACTORのパフォーマンスは、複数の文や段落にわたるアクションを抽出しようとするときに低下する可能性があることを認めていますが、他のレポートにシステムを適応させることは前向きなステップであると示唆しています。ただし、これは本質的に人間によるラベリングに頼ることになります。

長さ == 権威?

GoogleのSEOアルゴリズムが近年長文コンテンツを報酬としているという事実（公式のアドバイスは矛盾しています）と、AI研究者（多くのGoogleの研究イニシアチブを含む）がこれらの長い記事から意図と実際のデータを解読するのに直面する課題との間には、継続的な緊張があります。

Googleが長文コンテンツを報酬としていることは、質のあるコンテンツを一貫して認識または量化できないことを意味し、代わりにそれにリンクする権威サイトの数を数える（「肉体的」なメトリック）ことになります。したがって、長さが権威の代わりになっていることは珍しくありません。したがって、2,500語以上の投稿が、ナラティブの「膨張」に関係なく、SERPSの優位性を獲得することがあります。

レシピはどこにある?

したがって、単語数は増加しています。これは、良い長文コンテンツに対する本物の欲求によるものですが、また「物語化」することで、少量の事実をSEOに適した長さに引き伸ばし、低労力の出力をより高い労力の出力と同等に競争させることができます。

レシピサイトは、Hacker Newsコミュニティで頻繁に批判されていますが、レシピ（レシピ）を提供する前に、多くの自伝的または気まぐれなコンテンツで読者を迎えることがあります。これは、レシピを「物語駆動」の「レシピ体験」に変え、2,500語以上のSEOに適した領域に引き伸ばすことを目的としています。

実際のレシピを冗長なレシピサイトから抽出するための手順的な解決策は、オープンソースのレシピスクラッパーや、FirefoxとChrome用のレシピ抽出ツールを含むものがあります。マシンラーニングもこの問題に関係しており、日本、米国、ポルトガルを含むさまざまなアプローチや、スタンフォードからの研究があります。

シカゴの研究者が扱った脅威インテリジェンスレポートの場合、冗長な脅威レポートの一般的な慣行は、達成の規模（通常は1つの段落で要約できる）を反映するために、実際の攻撃行動を中心に長い物語を作成する必要性によるものである可能性があります。単語の長さは、関与する労力の規模の代理として使用されます。

2番目に、ニュースの出典が悪い引用慣行によって人気のニュースサイトに失われることが多い状況では、他のジャーナリストが再報道することができないほど多くの単語を生成することで、SERPSの勝利を保証できます。ただし、冗長性が実際にこのように報酬として与えられている場合、単語の長さは権威の代わりになります。

Unite.AI