人工智能
让 NLP 挑战错误信息的问题

一些问题由于包含不正确的信息而无法回答——这些问题中包含的假设需要听者过滤和驳斥。这当然假设听者拥有足够的正确信息来挑战问题,而不是将问题本身作为信息来源。
这对自然语言处理(NLP)系统(如 GPT-3)来说是一个挑战,这些系统有“编造”信息以维持对话的倾向。
目前,询问 GPT-3 “玛丽·居里何时发明了铀?”可能会得到“玛丽·居里在 1898 年发明了铀”的答案。

来源:https://beta.openai.com/playground (达芬奇指令 beta)。
事实上,铀是在 1789 年由德国化学家马丁·海因里希·克拉普罗特发现的,而居里夫妇 1898 年的发现是镭的分离。
NLP 系统忽略错误假设的问题今年已在多个宣传活动中引起关注,包括 Google 的 AI 辅助搜索结果会忽略问题“尼尔·阿姆斯特朗何时登上火星?”中的错误信息——在撰写本文时,这个错误仍然存在,并且同样适用于《玩具总动员》的巴兹·莱特年,他据称于 1969 年 7 月 21 日登上了月球。
汤姆·汉克斯,另一位《玩具总动员》的演员,也被 Google 誉为 1970 年登上了月球,尽管他的《阿波罗 13》角色,宇航员吉姆·洛弗尔,最著名的是没有实现这一壮举。

解决 NLP 交互中的假设问题
现在,Google 研究院与约翰·霍普金斯大学和布朗大学的研究人员一起,正在研究新的机器学习方法,以便最终使 NLP 系统能够像人类教师在与学生交谈时一样挑战事实错误的问题。
最近的一篇论文 哪位语言学家发明了灯泡?问题回答中的假设验证概述了开发一个新系统的努力,以识别假设并在继续交互之前验证其真实性。
新的算法有效地在返回对话之前预处理问题,将问题的“验证”分解为三个步骤。
虽然这似乎是一个简单的验证例行程序,应该从一开始就被构建到知识系统中,但大多数基于 NLP 的训练例程会以过多的信任学习信息,包括可能在以前“可信”渠道上发布的虚假新闻等话语。
确定无法回答问题的最佳方法
为了确定解决包含错误信息的问题的合适方法,研究人员将 100 个此类查询输入四个不同的 Q&A 模型,并要求人类主题选择模型生成的最佳或最不成问题的解决方案。
四种可能的架构结果是:无法回答 —— 其中一个封闭书 Q&A 系统在不进一步阐述的情况下有效地关闭了查询;基于假设失败的解释 —— 其中系统无法验证错误的假设,有效地是一个“无法回答”的响应,并附加了一个解释;提取式解释 —— 其中系统检索一个相关的维基百科引用并将其追加到“这个问题无法回答,因为……”的前缀;以及 开放域重写 —— 其中一个竞争系统从维基百科中寻找额外的来源。

这个无法回答的问题的四种可能答案的示例,说明了尝试竞争性域名解决方案的复杂性。
在测试过程中,五位参与者(通过 Google 内部众包平台招募)更喜欢基于假设的答案,这导致研究人员开发了一个新的框架来分解和验证问题。
数据集
最初阶段生成的假设通过手动修改创建了一个验证数据集,其中包含“金标准”假设。如果从问题中得出多个假设,则会调查每个假设,并将其贡献到最终响应中,如果它们解决了原始问题中的错误假设。
该论文的两位作者然后手动注释了 462 个假设,以确定其可验证性(是/否),基于每个问题相关的维基百科页面。通过事后讨论解决了不一致的案例,然后将其提交到数据集中。
结果和响应制定
最有效的结果是通过最耗时的解决方案获得的:一个更细致的、基于规则的/NLI 混合体,生成自 ALBERT QNLI,使用维基句子和假设。

验证模型的性能,其中“维基句子”使用了从问题相关的维基百科文章中获得的句子,而“维基假设”是从这些句子中生成的假设。
使用此公式,研究人员开发了一个模板系统,其中维基百科中的一个否定事实被追加到“这个问题无法回答,因为……”和类似的短语中。虽然这不是一个理想的解决方案,但作者建议,基于不可验证性的响应可能会减少错误否定的发生率。
该系统最终被实现为 扩展变换器构造(ETC) 模型。
影响
根据其最终在现实世界中的性能,这种方法可能会导致“无法验证”取代“无法回答”,在系统无法评估问题中错误假设的有用更正的情况下。有效地,这似乎是在为未来的更好的验证系统奠定基础。
研究人员已经承认,基于令牌的 API 请求的费用是制定此系统将生成的更长响应的限制因素,而且可以假设“实时”研究问题的额外开销可能会为大规模系统(如 GPT-3)添加延迟,因为此类系统的响应性到目前为止取决于训练时的一般化知识的整合,而不是广泛的基于网络的验证例行程序。
此外,研究人员指出,系统目前与解析文本的语义方面有关的限制:
例如,谁认为 Estella 的母亲是谁 ,包含一个非事实性动词 believe 下的嵌入式所有格,但我们的生成器仍然会生成‘Estella 有一个母亲 ’。
尽管如此,团队设想了将在此研究基础上开发的新型、更灵活的问答系统:
在未来,我们计划在此基础上提出更强大、更具协作性的问答系统。例如,不同类型的假设失败可以通过更灵活的回答策略来处理——例如,唯一性假设的违反可能更好地通过提供所有可能的答案来处理,而不是声明唯一性假设被违反了。

