Anderson 视角

NLP 模型难以理解递归名词短语

mm

美国和中国的研究人员发现,目前没有任何领先的自然语言处理(NLP)模型能够默认地解开包含递归名词短语(NPs)的英语句子,并且这些模型在区分诸如 我最喜欢的新电影我最喜欢的电影 之间的语义差异时会“挣扎”(每个句子都有不同的含义)。

在论文中的一个标题示例中,孩子们经常无法解开的一个小谜题:第二个球是绿色的,但第五个球是“第二个绿球”

在论文中的一个标题示例中,孩子们经常无法解开的一个小谜题:第二个球是绿色的,但第五个球是“第二个绿球” 来源:https://arxiv.org/pdf/2112.08326.pdf

研究人员为几种本地安装的开源语言生成模型设置了递归名词短语挑战(RNPC):OpenAI 的 GPT-3*,Google 的 BERT 和 Facebook 的 RoBERTaBART,发现这些最先进的模型仅达到“偶然”性能。他们得出结论

‘结果表明,在标准基准上微调的最先进语言模型(LMs)在我们的数据集上都挣扎着,表明目标知识在这些模型中并不是轻易可得的。’

RNPC 挑战中的最小对例子,SOTA 模型在这些例子中犯了错误

RNPC 挑战中的最小对例子,SOTA 模型在这些例子中犯了错误

在上述例子中,模型无法区分 一个死去的危险动物(即一个不会造成威胁的死去的捕食者)和 一个危险的死去动物(例如一个可能含有有害病毒的死去的松鼠,这是一个当前的威胁)之间的语义差异。

(另外,虽然论文没有提到这一点,“死去”也经常被用作副词,这与这两种情况都不相关)

然而,研究人员还发现,包括 RNPC 材料在内的额外或补充训练可以解决这个问题:

‘具有最先进 NLU 基准性能的预训练语言模型对这种知识的掌握很差,但在接触到少量 RNPC 数据后仍然可以学习它。’

研究人员认为,语言模型能够处理这种递归结构对于下游任务(如语言分析、翻译)至关重要,并特别强调了它在危险检测例程中的重要性:

‘我们考虑这样一种场景:用户与一个任务导向的代理(如 Siri 或 Alexa)交互,代理需要确定用户查询中涉及的活动是否可能对(例如)未成年人造成危害。我们选择这个任务,因为许多假阳性来自递归名词短语。’

‘例如,如何制作一个自制炸弹显然是有害的,而如何制作一个自制浴弹则是无害的。’

论文 的标题为 “我最喜欢的新电影”是我最喜欢的电影吗?探索递归名词短语的理解,由宾夕法尼亚大学的五位研究人员和北京大学的一位研究人员共同撰写。

数据和方法

虽然以前的工作已经研究了递归名词短语的句法结构和修饰词的语义分类,但研究人员认为,这两种方法都不足以解决这个挑战。

因此,基于使用两个修饰词的递归名词短语,研究人员试图确定是否存在先决知识在最先进的 NLP 系统中(它不存在);是否可以教会它们(可以);NLP 系统可以从递归名词短语中学习什么;以及这种知识如何能够造福下游应用程序。

研究人员使用的数据集是在四个阶段创建的。首先是构建一个包含 689 个例子的修饰词词典,这些例子来自以前的文献和新工作。

接下来,研究人员从文学、现有语料库和他们自己的创作中收集了递归名词短语。文本资源包括 宾夕法尼亚树库注释的吉格字节语料库

然后,团队雇佣了预筛选的大学生为语言模型将要面临的三个任务创建示例,并在之后验证了 8,260 个有效实例。

最后,团队通过亚马逊 Mechanical Turk 雇佣了更多预筛选的大学生,这次是为了注释每个实例作为人类智能任务(HIT),以多数票决定争议。这将实例缩小到 4,567 个示例,其中进一步过滤到 3,790 个更平衡的实例。

研究人员修改了各种现有数据集,以制定他们的测试假设的三个部分,包括 MNLISNLIMPEADEPT,并训练了所有最先进的模型,除了 HuggingFace 模型,他们使用了一个检查点。

结果

研究人员发现所有模型在 RNPC 任务中都“挣扎”,而人类则可靠地达到 90% 以上的准确率,SOTA 模型的性能仅达到“偶然”水平(即没有任何证据表明它们具有与随机机会不同的能力)。

研究人员的测试结果。在这里,语言模型被测试其在现有基准上的准确率,中间线代表人类在这些任务中的等效性能。

研究人员的测试结果。在这里,语言模型被测试其在现有基准上的准确率,中间线代表人类在这些任务中的等效性能。

次要的研究线索表明,这些缺陷可以通过在 NLP 模型的管道中包含递归名词短语的知识来弥补。一旦进行了这种补充训练,模型就能够在外在的危险检测任务中实现“强大的零次性能”。

研究人员承诺在 https://github.com/veronica320/Recursive-NPs 发布这项工作的代码。

 

最初发布于 2021 年 12 月 16 日 – 17 日,6:55am GMT+2:更正了破损的超链接。

* GPT-3 Ada 是该系列中最快的,但不是最好的。然而,较大的“展示”Davinci 模型不适用于研究人员实验的后期短语的微调。

我将内联引用转换为超链接。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai