Anderson 视角

让 NLP 挑战错误信息的问题

发布于 2021年9月10日

更新于 2026年5月24日

作者

Martin Anderson

一些问题是不可回答的，因为它们包含不正确的信息——假设，听者必须过滤和拒绝这些假设。这当然假设听者拥有足够的正确信息来挑战问题，而不是使用问题本身作为信息来源。

对于自然语言处理（NLP）系统，例如 GPT-3，这是一个挑战，这些系统有一个倾向，即为了维持对话而“编造”信息。

目前，询问 GPT-3 “玛丽·居里何时发明了铀？”可能会得到“玛丽·居里在 1898 年发明了铀”的答案。

来源：https://beta.openai.com/playground (达芬奇指令 beta)。来源：https://beta.openai.com/playground (达芬奇指令 beta)。

事实上，铀是在 1789 年由德国化学家马丁·海因里希·克拉普罗特发现的，而居里夫妇 1898 年的发现是放射性的分离。

NLP 系统忽略错误假设的问题已经在今年的多个宣传活动中引起了关注，包括谷歌的 AI 辅助搜索结果会忽略问题“尼尔·阿姆斯特朗何时登上火星？”中的错误信息——一个错误，直到撰写本文时仍然存在，同样适用于《玩具总动员》的巴兹·莱特年，他据称于 1969 年 7 月 21 日登上月球。

汤姆·汉克斯，另一位《玩具总动员》的校友，也被谷歌认为是在 1970 年登上月球的，尽管他的《阿波罗 13》角色，宇航员吉姆·洛弗尔，最著名的是没有实现这一壮举。

解决 NLP 交互中的假设问题

现在，谷歌研究院与约翰霍普金斯大学和布朗大学的研究人员一起，正在研究新的机器学习方法，以便 NLP 系统最终能够像人类教师在与学生交谈时一样挑战事实上错误的问题。

最近的一篇论文《哪位语言学家发明了灯泡？问答中的假设验证》，概述了一项协同努力，旨在开发一个新系统来识别假设并在继续对话之前验证其真实性。

该算法有效地预处理问题，然后返回对话，分解问题的“验证”过程为三个部分。

左边是即使高级 NLP 系统能够识别问题没有意义时也会发生的“路障”。右边是提议的算法的分解，试图纠正源错误。来源：https://arxiv.org/pdf/2101.00391.pdf

尽管这似乎是一个简单的验证例行程序，应该从一开始就构建到知识系统中，但大多数基于 NLP 的训练例行程序都以过度信任源数据为基础进行学习，包括可能在以前“可信”渠道上发布的虚假信息（如虚假新闻）。

因此，一个关键问题是如何在一个充满错误信息的环境中识别出一个可靠的事实来源，在这种环境中，社交媒体上的虚假信息会默认授予其权威性，而机器学习的推广则使用数据的数量或重复作为准确性的代理，至少在最近几年，直到虚假新闻成为该领域的一个关键兴趣领域。

确定不可回答问题的最佳方法

为了确定解决包含错误信息的问题的合适方法，研究人员将 100 个此类询问运行通过四个不同的问答模型，并要求人类受试者选择模型生成的最佳或最不成问题的解决方案。

四种可能的架构结果是对“坏”问题的回答：“无法回答”——一个封闭的问答系统有效地关闭了询问，而不进行进一步的阐述；“基于假设失败的解释”——系统无法验证错误的假设，有效地是一个“无法回答”的回答，并附加了一个解释；“提取式解释”——系统检索一个与主题相关的维基百科引语，并将其附加到“这个问题无法回答，因为……”的前缀；以及“开放域重写”——一个竞争系统从维基百科中寻找额外的来源。

数据集

在初始阶段生成的假设经过手动修改，以创建一个具有“黄金”假设的验证数据集。从问题中派生的任何未在原始问题中存在的假设都被删除。

论文的两位作者随后手动注释了 462 个假设，以是/否的形式验证，基于每个问题相关的维基百科页面。通过事后讨论解决了不同意见，然后提交给数据集。

结果和响应公式

最有效的结果是通过最耗时的解决方案获得的：一个经过细致调整的、基于规则的/ NLI 混合体，生成自ALBERT QNLI，使用维基句子和假设。

验证模型的性能，其中“维基句子”使用了从问题相关的维基百科文章中获得的句子，而“维基假设”是从这些句子中生成的假设。验证模型的性能，其中“维基句子”使用了从问题相关的维基百科文章中获得的句子，而“维基假设”是从这些句子中生成的假设。

使用这种公式，研究人员开发了一个模板系统，其中维基百科中的一个否定事实被附加到“这个问题无法回答，因为……”和类似的短语中。虽然这不是一个理想的解决方案，但作者建议，基于不可验证性的响应可能会减少虚假负面的发生。

影响

根据其最终在现实世界中的性能，不难论证这种方法可能会导致“不可验证”取代“无法回答”，在系统无法评估问题中错误假设的有用更正的情况下。有效地，这似乎是在为未来的更好的验证系统奠定基础。

研究人员已经承认，基于令牌的 API 请求的费用是一个限制因素，当该系统生成更长的回复时，并且必须假设“实时”研究问题的额外开销可能会为大规模系统（如 GPT-3）添加延迟，因为这些系统的响应性到目前为止取决于在训练时的一般化知识的整合，而不是广泛的基于网络的验证例行程序。

例如，谁认为 Estella 的母亲是谁，包含一个非事实动词下的嵌入式所有格believe，但我们的生成器仍然会生成‘Estella’有‘mother’。

然而，团队设想了将在此研究基础上开发的新型、更灵活的问答系统：

在未来，我们计划在此基础上提出更具鲁棒性和协作性的 QA 系统。例如，不同类型的假设失败可以通过更流畅的回答策略来处理——例如，唯一性假设的违反可能通过提供所有可能的答案来处理，而不是声明唯一性假设被违反。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

让 NLP 挑战错误信息的问题

解决 NLP 交互中的假设问题

确定不可回答问题的最佳方法

数据集

结果和响应公式

影响

You may like