人工智能
机器学习从详细威胁报告中提取攻击数据

芝加哥大学的新研究说明了过去十年中长篇内容的 SEO 优势与机器学习系统从中收集基本数据的困难之间出现的冲突。
在开发一个 NLP分析系统 为了从网络威胁情报(CTI)报告中提取重要的威胁信息,芝加哥研究人员面临三个问题:报告通常很长,只有一小部分专门讨论实际的攻击行为; 风格密集且语法复杂,包含大量特定领域的信息,这些信息假定读者具备先验知识; 并且该材料需要跨领域的关系知识,必须“记住”这些知识才能在上下文中理解它(a 持久的问题,研究人员指出)。
冗长的威胁报告
主要问题是冗长。 例如,芝加哥报纸指出,ClearSky 的 42 年 2019 页 威胁报告 对于 DustySky(又名 NeD Worm)恶意软件,仅有 11 句话实际上处理并概述了攻击行为。
第二个障碍是文本复杂性,以及句子长度:研究人员观察到,在微软威胁报告中心的 4020 份威胁报告中,平均句子由 52 个单词组成,仅比平均句子长度少 XNUMX 个单词 500年前 (在句子长度已经 下降了75% 自那以后)。
然而,论文认为,这些长句子本身本质上是“压缩段落”,充满了掩盖信息核心含义的从句、副词和形容词; 而且这些句子往往缺乏基本的常规标点符号 NLP 系统如 空间、斯坦福大学和 NLTK 依靠推断意图或提取硬数据。
NLP 提取显着威胁信息
芝加哥研究人员为解决这个问题而开发的机器学习管道称为 提取器,并使用 NLP 技术生成图表,从长篇散文报告中提取和总结攻击行为。 这个过程抛弃了历史、叙事甚至地理装饰,这些装饰创造了一个引人入胜且详尽的“故事”,但代价是明确优先考虑信息负载。
由于上下文对于冗长的 CTI 报告来说是一个挑战,研究人员选择了 BERT (来自 Transformer 的双向编码器表示)Google 的语言表示模型 词向量 或斯坦福大学的 GloVe(单词表示的全局向量)。
BERT 从周围的上下文中评估单词,并开发 嵌入 对于子词(即 发射, 发射 和 启动 一切都归结为 发射)。 这有助于 EXTRACTOR 处理 BERT 训练模型中不存在的技术词汇,并将句子分类为“生产性”(包含相关信息)或“非生产性”。
增加当地词汇
不可避免地,一些特定领域的洞察必须集成到处理此类材料的 NLP 管道中,因为高度相关的单词形式(例如 IP 地址和技术流程名称)不得被抛弃。
该过程的后续部分使用 双向LSTM (双向 LSTM)网络来解决单词冗长问题,在删除无意义的单词之前导出句子部分的语义角色。 BiLSTM 非常适合于此,因为它可以关联出现在详细文档中的长距离依赖关系,而在这些文档中,需要更多的关注和保留来推断上下文。

EXTRACTOR 定义语义角色和单词之间的关系,角色由命题库生成(项目银行) 注释。
在测试中,EXTRACTOR(部分由 DARPA 资助)被发现能够匹配从 DARPA 报告中提取的人类数据。 该系统还针对来自 Microsoft 安全情报和 TrendMicro 威胁百科全书的大量非结构化报告进行运行,在大多数情况下成功提取了显着信息。
研究人员承认,当尝试提取多个句子或段落中发生的动作时,EXTRACTOR 的性能可能会下降,尽管这里表明重新调整系统以适应其他报告是一种前进的方向。 然而,这本质上又回到了以人为主导的代理标记。
长度==权威?
有趣的是,谷歌神秘的 SEO 算法似乎与 长篇内容的奖励越来越多 近年来(尽管官方对此分数的建议 是矛盾的),以及人工智能研究人员(包括许多主要研究人员)面临的挑战 谷歌研究计划)面临着从这些越来越散漫和冗长的文章中解码意图和实际数据的问题。
有争议的是,在奖励较长的内容时,谷歌假定了一致的质量,但它不一定能够通过 NLP 流程来识别或量化,除非计算链接到它的权威网站的数量(一个“肉件”指标,在在大多数情况下); 因此,只要额外内容大体上可以理解并且不违反其他准则,无论叙事如何“膨胀”,2,500 字或更多字的帖子获得 SERPS 的显着地位并不罕见。
食谱在哪里?
所以, 字数正在上升,部分原因是 真正的愿望 对于好的长篇内容来说,还因为“故事化”一些很少的事实可以将文章的长度提高到理想的 SEO 标准,并允许轻微的内容与更努力的输出平等竞争。
食谱网站就是一个例子, 频繁 抱怨 of 在黑客新闻社区中,以大量自传或异想天开的内容开头的核心信息(菜谱)旨在创建故事驱动的“菜谱体验”,并将字数非常低的内容推入 SEO - 友好的 2,500 多个单词区域。
已经出现了许多纯粹的程序解决方案,可以从详细的食谱网站中提取实际的食谱,包括开源的 食谱刮刀,以及配方提取器 Firefox 和 铬系列。 机器学习也与此相关,采用了各种方法 日本, 美国 和 葡萄牙以及斯坦福大学等机构的研究。
就芝加哥研究人员提出的威胁情报报告而言,详细威胁报告的一般做法可能部分是由于需要通过创建一个非常详细的信息来反映成就的规模(否则通常可以在段落中进行总结)围绕它进行长篇大论,并使用字长作为所涉及努力规模的代理,而不考虑适用性。
其次,在故事的来源往往是 因不良引用行为而失败 通过流行的新闻媒体,产生的字数比任何重新报道的记者都可以复制的要多,这保证了 SERPS 凭借纯粹的字数获胜,假设冗长 — — 现在是 日益增长的挑战 NLP——确实以这种方式得到回报。