人工智能
NLP 模型难以理解递归名词短语
来自美国和中国的研究人员发现,默认情况下,领先的自然语言处理 (NLP) 模型似乎都无法解析具有递归名词短语 (NP) 的英语句子,并且“难以”区分中心含义在密切相关的例子中,例如 我最喜欢的新电影 和 我最喜爱的电影 (每个都有不同的含义)。
研究人员对几个本地安装的开源语言生成模型设置了递归名词短语挑战(RNPC):OpenAI 的 GPT-3*、Google 的 BERT,以及脸书的 罗伯塔 和 BART,发现这些最先进的模型仅实现了“偶然”性能。 他们得出结论†:
“结果表明,最先进的 (SOTA) LM 根据标准进行了微调 基准 相同格式的数据都在我们的数据集上挣扎,这表明目标知识不容易获得。
例如,在上面的例子中,模型无法区分不同类别之间的语义差异。 一只死去的危险动物 (即捕食者因为死了而不会构成威胁)和 危险的死亡动物 (例如死松鼠,可能含有有害病毒,并且是当前的活跃威胁)。
(另外,虽然纸上没有触及它,但“死”也经常被使用 作为副词,这两种情况都没有解决)
然而,研究人员还发现,包含 RNPC 材料的额外或补充培训可以解决该问题:
“在 NLU 基准上具有 SOTA 性能的预训练语言模型对这些知识的掌握较差,但在接触来自 RNPC 的少量数据时仍然可以学习它。”
研究人员认为,语言模型导航此类递归结构的能力对于语言分析、翻译等下游任务至关重要,并特别说明了其在危害检测例程中的重要性:
“[我们]考虑这样的场景:用户与 Siri 或 Alexa 等面向任务的代理进行交互,代理需要确定用户查询中涉及的活动是否有潜在危害 [即未成年人]。 我们选择这个任务是因为许多误报来自递归 NP。
'例如, 如何制作自制炸弹 显然是有害的,而 如何制作自制沐浴炸弹 是无害的。
纸 标题为 “我最喜欢的新电影”是我最喜欢的电影吗? 探究递归名词短语的理解,来自宾夕法尼亚大学的五位研究人员和北京大学的一位研究人员。
数据与方法
尽管之前的工作已经 研究 递归 NP 的句法结构和 修饰语的语义分类研究人员表示,这些方法都不足以应对这一挑战。
因此,基于使用带有两个修饰语的递归名词短语,研究人员试图确定 SOTA NLP 系统中是否存在先决知识(不存在); 是否可以教给他们(可以); NLP 系统可以从递归 NP 中学到什么; 以及这些知识如何使下游应用受益。
研究人员使用的数据集是分四个阶段创建的。 首先是构建一个修饰词词典,其中包含来自先前文献和小说作品的 689 个示例。
接下来,研究人员从文献、现有语料库以及他们自己发明的补充中收集了递归 NP。 文本资源包括 宾夕法尼亚树库,并 带注释的千兆字 语料库。
然后,该团队聘请预先筛选的大学生为语言模型将面临的三项任务创建示例,然后将它们验证为 8,260 个有效实例。
最后,这次是通过 Amazon Mechanical Turk 雇用了更多经过预先筛选的大学生,将每个实例注释为人类智能任务 (HIT),以多数票决定争议。 这将实例减少到 4,567 个,并进一步过滤到 3,790 个更平衡的实例。
研究人员改编了各种现有数据集来制定他们的测试假设的三个部分,包括 MNLI, SNLI, MPE 和 ADEPT,训练所有 SOTA 模型本身,但 HuggingFace 模型除外,该模型使用了检查点。
成果
研究人员发现,所有模型在 RNPC 任务上都“挣扎”,而人类的准确度得分高达 90% 以上,SOTA 模型的表现处于“偶然”水平(即没有任何先天能力与随机响应机会的证据)。
次要调查表明,这些缺陷可以在 NLP 模型管道的训练或微调阶段通过专门包含递归名词短语的知识来弥补。 一旦进行了这种补充训练,模型就达到了 “在外在危害检测[任务]上具有强大的零样本性能”.
研究人员承诺将在以下网址发布这项工作的代码: https://github.com/veronica320/Recursive-NPs.
最初发布于 16 年 2021 月 17 日至 2021 年 6 月 55 日,上午 2:XNUMX GMT+XNUMX:更正了损坏的超链接。
* GPT-3 Ada,这是该系列中最快但不是最好的。然而,更大的“展示”达芬奇模型无法用于包括研究人员实验后期阶段的微调。
† 我将内联引用转换为超链接。