Anderson 视角

机器学习从冗长的威胁报告中提取攻击数据

发布于 2021年4月30日

更新于 2026年5月25日

作者

Martin Anderson

芝加哥大学最近的研究阐述了过去十年中，长篇内容的SEO优点与机器学习系统从中提取基本数据的困难之间的冲突。

在开发一个NLP分析系统来从网络威胁情报（CTI）报告中提取基本威胁信息时，芝加哥研究人员面临三个问题：报告通常很长，只有一个小部分专门用于实际攻击行为；风格密集且语法复杂，包含大量领域特定信息，假设读者具有先前的知识；材料需要跨领域关系知识，必须“记住”才能理解（这是一个持续的问题，研究人员指出）。

冗长的威胁报告

主要问题是冗长。例如，芝加哥论文指出，ClearSky的2019年42页的威胁报告中，只有11个句子真正处理和概述攻击行为。

第二个障碍是文本复杂性，有效地，句子长度：研究人员观察到，微软威胁报告中心的4020份威胁报告中，平均句子长度为52个字——仅比500年前的平均句子长度短9个字（考虑到句子长度在此期间下降了75%）。

然而，该论文认为，这些长句子本质上是“压缩的段落”，充满了子句、副词和形容词，掩盖了信息的核心意义；并且这些句子经常缺乏基本的传统标点符号，这些标点符号是NLP系统（如spaCy、Stanford和NLTK）依赖的，用于推断意图或提取硬数据。

NLP提取显著威胁信息

芝加哥研究人员开发的机器学习管道称为EXTRACTOR，使用NLP技术生成图表，总结和提取长篇报告中的攻击行为。该过程丢弃了历史、叙事和地理装饰，这些装饰会在清晰优先信息载荷的同时创建一个引人入胜和详尽的“故事”。

来源：https://arxiv.org/pdf/2104.08618.pdf

由于上下文是冗长和啰嗦的CTI报告中的一个挑战，研究人员选择了BERT(双向编码器表示从Transformer)语言表示模型，而不是Google的Word2Vec或Stanford的GloVe（全局向量表示）。

BERT评估单词的上下文，并为子单词（例如launch、launching和launches都归结为launch）开发了嵌入。这有助于EXTRACTOR处理不在BERT训练模型中的技术词汇，并将句子分类为“生产性”（包含相关信息）或“非生产性”。

增加本地词汇

不可避免地，一些特定领域的见解必须集成到处理此类材料的NLP管道中，因为诸如IP地址和技术流程名称之类的高相关性单词形式不应被丢弃。

后续过程使用BiLSTM(双向LSTM)网络来处理单词冗长，推导句子部分的语义角色，然后删除非生产性单词。BiLSTM非常适合此目的，因为它可以关联冗长文档中出现的长距离依赖关系，在这些文档中，需要更多的关注和保留来推断上下文。

EXTRACTOR定义单词之间的语义角色和关系，角色由PropBank（PropBank）注释生成。

在测试中，EXTRACTOR（部分由DARPA资助）被证明能够匹配DARPA报告中的人类数据提取。该系统还针对大量来自Microsoft Security Intelligence和TrendMicro威胁百科全书的非结构化报告，成功地在大多数情况下提取了显著信息。

研究人员承认，EXTRACTOR的性能可能会在尝试从多个句子或段落中提取操作时下降，尽管重新设计系统以适应其他报告被指出是一种前进的方式。然而，这本质上是通过代理回归到人工标记。

长度 == 权威？

值得注意的是，谷歌的神秘SEO算法似乎在近年来越来越多地奖励长篇内容（尽管在这一点上的官方建议是相互矛盾的），而AI研究人员（包括许多主要的谷歌研究计划）在解码这些日益冗长的文章中的意图和实际数据时面临挑战。

可以说，通过奖励更长的内容，谷歌假设了一种它目前无法通过NLP过程识别或量化的质量，除了通过计算链接到它的权威网站的数量（在大多数情况下，这是一种“肉类”指标）；并且不奇怪地看到2500字或更长的帖子在SERPS中占据主导地位，无论其叙事“膨胀”，只要额外的内容是大致可理解的，并且不违反其他指南。

食谱在哪里？

因此，字数正在增加，部分原因是真正渴望好的长篇内容，但也因为“讲故事”几个微不足道的事实可以使一篇文章的长度达到理想的SEO标准，并允许稍微的内容与更高质量的输出竞争。

一个例子是食谱网站，经常在Hacker News社区中被抱怨，原因是他们在核心信息（食谱）之前添加了大量的自传或奇幻内容，以创建一个故事驱动的“食谱体验”，并将原本很低的字数推入2500字以上的SEO友好区域。

已经出现了一些纯粹的程序解决方案来从冗长的食谱网站中提取实际的食谱，包括开源的食谱抓取器，以及适用于Firefox和Chrome的食谱提取器。机器学习也涉及这一点，包括来自日本、美国和葡萄牙的各种方法，以及斯坦福等其他研究机构的研究。

关于芝加哥研究人员处理的威胁情报报告，一般的冗长威胁报告做法可能部分是由于需要反映成就的规模（这通常可以在一段中总结），通过创建一个非常长的围绕它的叙述，并使用单词长度作为所涉及的工作量的代理，无论其是否适用。

其次，在一个故事的原始来源经常由于流行新闻机构的不良引用习惯而丢失的环境中，产生的单词量比任何重复报道的记者都能复制的要多，保证了SERPS的胜利，仅凭单词量，假设冗长——现在是NLP面临的日益增长的挑战——确实以这种方式得到奖励。