人工智能

当 AI 基准测试教会模型撒谎

Published September 11, 2025

Updated April 26, 2026

Dr. Tehseen Zia

AI 幻觉 —— 当系统产生听起来正确但实际上错误的答案 ——仍然是人工智能领域最具挑战性的问题之一。即使是今天最先进的模型，例如 DeepSeek-V3、Llama 和 OpenAI 的最新版本，仍然会以高置信度产生不准确的信息。在医疗保健或法律等领域，这样的错误可能会导致严重的后果。

传统上，幻觉被视为大型语言模型训练方式的副产品：它们学习预测下一个最可能的词，而不验证信息是否真实。但是新的研究表明，该问题可能不仅仅是训练。用于测试和比较 AI 性能的基准测试可能实际上正在强化误导行为，奖励听起来令人信服的答案而不是正确的答案。

这种观点的转变重新定义了问题。如果模型被训练成为了通过测试而不是讲真话，那么幻觉就不是偶然的缺陷，而是学习到的策略。为了了解为什么会发生这种情况，我们需要研究为什么 AI 模型选择猜测而不是承认自己的无知？

为什么 AI 模型猜测

为了了解为什么 AI 模型经常猜测而不是承认自己不知道，考虑一个学生面临困难的考试题。学生有两个选择：留空答案获得零分，或者做出有根据的猜测可能获得一些分数。从理性的角度来看，猜测似乎是更好的选择，因为至少有可能是正确的。

AI 模型在评估期间面临类似的局面。大多数基准测试使用二元评分系统：正确答案获得分数，而不正确或不确定的回答获得零分。如果模型被问到“某位研究人员的生日是多少？”而它真正不知道，回答“我不知道”被视为失败。编造一个日期，然而，带有一定的机会是正确的——即使它是错误的，系统也不会因为自信的猜测而惩罚它比沉默更严厉。

这种动态解释了为什么幻觉尽管经过大量研究仍然存在。模型并没有表现出不良行为；它们只是遵循评估中内置的激励。它们学会了，听起来自信是最大化分数的最佳方式，即使答案是错误的。因此，模型被推动给出权威性陈述——无论对还是错。

AI 不诚实的数学基础

研究表明，幻觉源于语言模型学习的数学基础。即使模型仅被训练在完全准确的信息上，其统计目标仍然会导致错误。因为生成正确答案本质上比识别答案是否有效更困难。

这有助于解释为什么模型在缺乏明确模式的事实上经常失败，例如生日或其他独特细节。数学分析表明，这些情况下的幻觉率至少与训练数据中仅出现一次的事实的比例一样高。换句话说，信息在数据中的罕见程度越高，模型越可能难以处理它。

问题并不仅限于罕见的事实。结构约束，如模型容量有限或架构设计，也会产生系统性错误。例如，早期的上下文窗口很短的模型在需要长距离推理的任务中一致失败。这些错误并不是随机的故障，而是模型的数学框架的可预测结果。

为什么后期训练无法解决问题

一旦 AI 模型在大型文本数据集上训练完成，它通常会经过微调以使其输出更有用和更无害。但是，这个过程面临着最初导致幻觉的相同核心问题；即模型的评估方式。

最常见的微调方法，例如强化学习从人类反馈，仍然依赖于使用二元评分的基准测试。这些基准测试奖励模型给出自信的答案，同时不给予模型承认自己不知道的机会。因此，一个总是以自信的方式回答的系统，即使是错误的，也可以比一个诚实地表达不确定性的系统表现更好。

研究人员称之为不确定性惩罚的问题。即使是检测或减少幻觉的高级技术也会在基准测试继续偏爱过度自信的情况下挣扎。换句话说，无论修复方法多么先进，只要评估系统继续奖励自信的猜测，模型就会偏向于错误但自信的答案，而不是真实的不确定性承认。

进步的幻觉

在 AI 社区中广泛分享的排行榜放大了这个问题。基准测试，如 MMLU、GPQA 和 SWE-bench，主导研究论文和产品公告。公司强调他们的成绩，以展示快速进步。然而，如报告所述，这些基准测试本身就鼓励幻觉。

一个诚实地说“我不知道”的模型可能在现实世界中更安全，但它在排行榜上会排名较低。相比之下，一个编造令人信服但错误答案的模型会获得更高的分数。当采用、资金和声望取决于排行榜排名时，进步的方向就会变得扭曲。公众看到的是不断进步的叙述，但在表面之下，模型正在被训练成欺骗。

为什么 AI 中的诚实不确定性很重要

幻觉不仅仅是一个研究挑战；它们有现实世界的后果。在医疗保健领域，一个编造药物相互作用的模型可能会误导医生。在教育中，一个编造历史事实的模型可能会误导学生。在新闻中，一个产生虚假但令人信服的引用的聊天机器人可能会传播虚假信息。这些风险已经显现。斯坦福 AI 指数 2025 报告称，旨在衡量幻觉的基准测试“难以获得关注”，即使 AI 的采用加速。同时，主导排行榜并奖励自信但不可靠答案的基准测试继续设定进步的方向。

这些发现凸显了一个挑战和一个机会。通过研究幻觉的数学根源，研究人员已经确定了构建更可靠的 AI 系统的明确方向。关键是停止将不确定性视为缺陷，而是将其视为应该被衡量和奖励的基本能力。

这种观点的转变对减少幻觉之外的领域也有影响。能够准确评估和传达自身知识局限性的 AI 系统将更适合于高风险应用，在这些应用中，过度自信会带来严重风险。医疗诊断、法律分析和科学研究都需要区分自信的知识和明智的推测的能力。

重新思考 AI 评估以实现诚实

这些发现强调了构建更值得信赖的 AI 需要重新思考我们如何衡量 AI 能力。与其依赖简单的对或错评分，评估框架应该奖励模型以适当的方式表达不确定性。这意味着在基准测试说明中提供明确的指导关于置信度阈值和相应的评分方案。

一种有前途的方法是创建明确的置信度目标，指定模型应该回答还是应该放弃。例如，说明可能会指出，答案只应在置信度超过特定阈值时提供，评分将相应地进行调整。在这种设置中，不确定性不再是一种弱点，而是一种负责任行为的有价值部分。

关键是使置信度要求透明，而不是隐含的。当前的基准测试为不确定性创建了隐藏的惩罚，模型学会避免它们。明确的置信度目标将使模型能够优化实际期望的行为：在自信时提供准确答案，在知识缺乏时提供诚实的不确定性承认。

结论

AI 幻觉并不是随机的缺陷 —— 它们是由用于衡量进步的基准测试所强化的。通过奖励自信的猜测而不是诚实的不确定性，当前的评估系统将模型推向欺骗而不是可靠性。如果我们希望 AI 在医疗保健、法律和科学等高风险领域中值得信赖，我们需要重新思考如何测试和奖励它们。进步不仅应该通过准确性来衡量，还应该通过模型识别和承认自己不知道什么的能力来衡量。