关注我们.

当人工智能基准测试教会模型说谎时

人工智能

当人工智能基准测试教会模型说谎时

mm

人工智能幻觉 ——系统给出的答案听起来正确,但实际上是错误的——仍然是人工智能领域最棘手的挑战之一。即使是当今最先进的模型,例如 DeepSeek-V3, 骆驼以及 OpenAI 的最新 发布,仍然会以极高的可信度产生不准确的信息。在医疗保健或法律等领域,此类错误可能导致严重后果。

传统上,幻觉被视为 副产品 大型语言模型的训练方式:它们学会预测下一个最可能的单词,而无需验证信息是否真实。但新的 研究 这表明问题可能不仅仅局限于训练。用于测试和比较人工智能性能的基准实际上可能强化了误导性行为,奖励那些听起来令人信服的答案,而不是那些正确的答案。

这种视角的转变重新定义了问题。如果模型的训练是为了满足测试而不是说实话,那么幻觉就不是偶然的缺陷,而是习得的策略。要理解为什么会发生这种情况,我们需要看看为什么人工智能模型选择猜测而不是承认自己的无知?

人工智能模型为何猜测

要理解为什么人工智能模型经常猜测而不是承认自己不知道,不妨想象一下一个学生面对一道难题的场景。他面临两种选择:要么不答,得零分;要么做出有根据的猜测,或许能获得一些分数。理性地讲,猜测似乎是更好的选择,因为至少还有一丝可能性是正确的。

人工智能模型在评估过程中也面临类似的情况。大多数基准测试采用二元评分系统:正确答案得分,错误或不确定的答案不得分。如果一个模型被问到“一位研究人员的生日是什么时候?”,而它真的不知道,回答“我不知道”就算失败。然而,编造日期有一定的正确率——即使猜错了,系统也不会像惩罚沉默那样惩罚那些自信的猜测。

这种动态解释了为什么尽管进行了大量的研究试图消除幻觉,幻觉依然存在。模型本身并没有行为不当;它们只是遵循了评估中内置的激励机制。它们学会了,即使答案是错误的,表现出自信也是提高得分的最佳方式。结果,模型被迫给出权威的陈述——无论正确与否——而不是表达不确定性。

人工智能不诚实的数学基础

这个 研究 研究表明,幻觉源于语言模型学习的数学基础。即使模型仅基于完全准确的信息进行训练,其统计目标仍然会导致错误。这是因为生成正确答案从根本上来说比识别答案是否有效更难。

这有助于解释为什么模型经常在缺乏清晰模式的事实(例如生日或其他独特细节)上失败。数学分析表明,这些情况下的幻觉率至少与训练数据中仅出现一次的事实的比例一样高。换句话说,数据中的信息越稀少,模型就越有可能难以处理。

问题不仅限于罕见事实。模型容量有限或架构设计等结构性约束也会导致系统性错误。例如,早期使用非常短上下文窗口的模型在需要长程推理的任务中始终失败。这些错误并非随机故障,而是模型数学框架可预测的结果。

为什么后训练无法解决问题

一旦人工智能模型在海量文本数据集上完成训练,它通常会进行微调,使其输出更有用、危害更小。但这个过程面临着导致幻觉的同一个核心问题:我们评估模型的方式。

最常见的精细训练方法,例如 从人类反馈强化学习仍然依赖于使用二元评分的基准测试。这些基准测试会奖励那些给出自信答案的模型,而当模型承认自己不知道答案时,则不会给予任何奖励。因此,一个即使在错误的情况下也能始终给出肯定答案的系统,其表现会优于一个诚实表达不确定性的系统。

研究人员称之为“惩罚不确定性”问题。即使是检测或减少幻觉的先进技术,当底层基准持续偏向过度自信时,也会举步维艰。换句话说,无论修复措施多么复杂,只要评估系统奖励自信的猜测,模型就会偏向于错误但确定的答案,而不是真实地承认怀疑。

进步的幻觉

人工智能社区中广泛传播的排行榜加剧了这个问题。诸如 百万美元, GP质量保证汽车保险理赔及 SWE-长凳 主导着研究论文和产品发布。各公司纷纷强调自己的得分,以显示其快速进步。然而,正如报告所指出的,这些基准本身就助长了人们的幻觉。

一个诚实回答“我不知道”的模型在现实环境中可能更安全,但在排行榜上的排名会更低。相比之下,一个编造令人信服但虚假答案的模型得分会更高。当采用率、资金和声望都取决于排行榜排名时,进步的方向就会被扭曲。公众看到的是不断改进的叙事,但其背后,模型正在被训练来欺骗。

为什么诚实的不确定性在人工智能中很重要

幻觉不仅仅是一个研究难题;它还会对现实世界产生影响。在医疗保健领域,编造药物相互作用的模型可能会误导医生。在教育领域,编造历史事实的模型可能会误导学生。在新闻领域,一个能提供虚假但令人信服的引言的聊天机器人可能会传播虚假信息。这些风险已经显而易见。 斯坦福人工智能指数 2025 报道称,即使人工智能的普及速度加快,旨在衡量幻觉的基准测试也“难以获得关注”。与此同时,那些占据排行榜榜首、奖励自信但不可靠答案的基准测试,仍在继续引领着人工智能的发展方向。

这些发现既凸显了挑战,也带来了机遇。通过探究幻觉的数学根源,研究人员找到了构建更可靠人工智能系统的清晰方向。关键在于不再将不确定性视为缺陷,而应将其视为一项值得衡量和奖励的必要能力。

这种视角的转变意义非凡,远不止减少幻觉。能够准确评估并传达自身知识局限性的人工智能系统,将更适合高风险的应用,因为在这些应用中,过度自信会带来严重的风险。医学诊断、法律分析和科学研究都需要能够区分自信的知识和基于事实的推测。

重新思考诚实人工智能的评估

这些发现强调,构建更值得信赖的人工智能需要我们重新思考如何衡量人工智能的能力。评估框架不应依赖简单的对错评分,而应奖励那些能够恰当表达不确定性的模型。这意味着需要在基准测试说明中提供关于置信度阈值及其相应评分方案的明确指导。

一种有前景的方法是创建明确的置信度目标,明确模型何时应该回答,何时应该弃权。例如,指令可以规定,只有当置信度超过特定阈值时才应提供答案,并相应地调整评分。在这种设置下,不确定性不再是弱点,而是负责任行为的宝贵组成部分。

关键在于使置信度要求透明化,而非隐含化。当前的基准测试会为不确定性设置隐藏的惩罚,而模型会学习规避这些惩罚。明确的置信度目标将使模型能够针对实际期望的行为进行优化:在充满信心时给出准确的答案,在缺乏知识时诚实地承认不确定性。

底线

人工智能的幻觉并非随机缺陷——它们恰恰被衡量进步的基准所强化。当前的评估系统通过奖励自信的猜测而非诚实的不确定性,将模型推向欺骗而非可靠性。如果我们希望人工智能在医疗保健、法律和科学等高风险领域获得信任,我们就需要重新思考如何测试和奖励它们。衡量进步的指标不应仅仅局限于准确性,还应包括识别和承认模型未知内容的能力。

Tehseen Zia 博士是伊斯兰堡 COMSATS 大学的终身副教授,拥有奥地利维也纳科技大学的人工智能博士学位。 他专注于人工智能、机器学习、数据科学和计算机视觉,在著名科学期刊上发表论文,做出了重大贡献。 Tehseen 博士还作为首席研究员领导了多个工业项目,并担任人工智能顾问。