Anderson 视角
为什么人工智能不能直接承认它不知道答案?

大型语言模型经常对无法回答的问题给出自信的答案。新的研究表明,这些模型在内部通常会识别出问题,但仍然会继续生成一些东西,而不是有足够的信心决定一个有效的答案是否可用。
任何花费合理时间与领先的大型语言模型(如ChatGPT或Qwen系列)的人都曾经历过模型提供错误答案的情况,当错误变得明显时,它只会道歉。
为什么领先的LLM难以承认它们不知道答案是一个小但日益增长的研究领域。一个“自信地错误”的答案可能特别有害,尤其是在高度审查和过滤的API接口中,例如ChatGPT,因为这些模型会积极地阻止NSFW或其他“违反规则”的输入或输出。
这可能会让用户产生模型是决定性和基本的错误印象,而事实上,拒绝来自传统的启发式或基于黑名单的过滤器的设计是为了限制主机公司的法律责任,而不是来自AI的洞察。

来自FAIR在Meta的2025年6月’AbstentionBench’论文的图像,左侧突出显示了AbstentionBench捕获的故障类型范围,中间显示了模型如何经常用虚构的答案响应,而不是承认缺乏信息,右侧显示了当模型针对推理而不是指令跟随进行调整时,放弃回忆会下降。来源: https://arxiv.org/pdf/2506.09038
一篇来自中国的新论文认为,LLM模型实际上秘密知道用户提出的问题无法回答,但它们仍然被迫产生某种答案,而不是有足够的信心决定一个有效的答案是否可用。
论文指出:
‘[我们]表明,[LLM]具有足够的认知能力来识别这些问题中的缺陷。然而,它们未能表现出适当的放弃行为,揭示了它们的内部认知和外部响应之间的不一致。’
研究人员开发了一种轻量级的两阶段方法,使用认知监测/探测来扫描LLM的内部过程,以检测它是否意识到无法提供答案;然后进行干预,以确保模型的“有帮助”的性质不会加剧用户的问题。
研究使用故意不明确的数学问题来测试模型是否能够识别无法回答的问题;但是,这种设置可能会将任务框定为“诡计”。实际上,模型面临着更多常规的理由来放弃,在对话中,从模糊的措辞到领域知识的差距。
新工作的标题为回答无法回答的问题就是故意犯错:分析和减轻大型推理模型中的放弃失败,来自南京大学的四位研究人员。
方法
(由于没有合适的对手来测试作者的方法,而且由于论文遵循一种不太常见的格式,并且没有按通常的标准索引引用,我们将尽力遵循它。)
与之前的方法一致,作者专注于向LLM呈现无法回答的数学问题,评估五个模型家族:来自DeepSeek系列的R1-Distill-Llama-8B、R1-Distill-Qwen-7B、R1-Distill-Qwen-14B,以及来自Qwen系列的Qwen3-8B和Qwen3-14B。
无法回答的问题在SUM数据集中创建,通过五种方式删除或破坏基本元素:删除关键信息、引入模糊性、施加不切实际的条件、引用无关对象或删除问题本身。
随后,选择1,000个此类案例进行分析,使用GPT-4o生成简洁的解释作为基准理由。
模型对无法回答问题的响应使用标准化提示进行评估,具有10,000个令牌的预算,在此期间观察到三个主要的行为模式:在第一个模式中,模型识别问题为不可解答,并放弃;在第二个模式中,模型产生一个完整的答案,通过发明缺失的信息;在第三个模式中,称为认知固执,模型陷入了一个扩展的推理循环,即使在隐含地承认问题缺乏可行的答案后仍然继续下去。

对一个不可能问题的不同响应结果。
论文呈现了一个趋势,即较大的模型似乎更频繁地放弃回答无法回答的问题,减少了虚构的答案和固执的行为。

不同模型规模下,模型对无法回答的数学问题的响应中,正确放弃、虚构答案和认知固执的相对频率。
然而,这种转变仅限于规模,并留下了大量未解决的案例,表明仅仅增加容量并不一定会产生更谨慎的行为。
对僵局的认识
为了测试语言模型是否能判断一个问题是否没有答案,研究人员在模型的推理过程中途中断,并要求最终答案或无法回答问题的解释。
对于模型无限推理的案例,研究人员在“等待”一词处暂停,并提示响应;对于模型快速虚构答案的案例,研究人员在段落边界处插入一个断点。

左侧图表显示模型在中断推理时正确放弃的频率,右侧图表显示模型可以解释为什么问题无法回答,即使其最终答案未能反映这种理解。
在许多这些案例中,模型给出了正确的放弃或明确的解释,即使它以前产生了错误的答案。作者认为,这表明模型通常在推理过程中识别问题,但未能在其最终输出中采取行动。
读懂LLM的思想
为了测试语言模型是否在内部跟踪问题是否可回答,研究人员在模型的隐藏激活中训练了小型分类器,允许他们检查答案的可回答性是否已经在模型的内部信号中存在,即使它没有在最终输出中反映出来。
建立在高级概念(如真实性或性别)可以在模型激活中线性嵌入的想法上,“可回答性”被测试是否具有类似的表示。
简单的线性分类器(探针)在模型的不同层上训练,使用来自多头注意力机制的输出,仅在残差连接之前。
每个探针都被训练来区分可回答和不可回答的问题,基于推理过程中的内部激活。输入由2,200个问题对组成,样本来自SUM数据集,其中2,000个用于训练,200个用于验证。
在推理过程中,模型的预测被平均计算,直到看到的令牌,允许探针跟踪与可回答性相关的信号如何随着时间的推移而出现。

在推理过程的不同点上,线性探针训练以区分可回答和不可回答问题的分类准确率。准确率通常会随着推理的进行而提高,大型模型在最终阶段达到超过85%的准确率。
如上所示,探针的准确率在推理过程中稳步提高,大多数模型在最终步骤中超过80%的分类准确率,表明即使模型的外部行为未能反映出这一点,但内部表示通常会携带一个明确的信号,指示问题是否可以回答。
固执的坚持
尽管前面的结果表明大型语言模型通常会识别出无法回答的问题,但论文指出它们仍然倾向于继续生成答案,而不是选择放弃。
为了调查这种不一致,研究人员分析了模型在推理过程中特定点的放弃信心,比较了模型在三个输出类别中的信心:正确放弃、虚构答案和认知固执。
每个类别使用相同大小的样本,信心被定义为在解码步骤中分配给每个输出令牌的平均最大概率,基于之前工作中的公式。如图所示,虚构答案和认知固执的案例显示出较低的放弃信心,相比之下正确放弃的信心更高。

不同响应类型的放弃响应’I don’t know’的信心水平。
研究人员还测量了模型在推理过程中产生’I don’t know’响应的频率。下面的图表显示,正确放弃的案例产生了更高的放弃频率,而其他两种类别的案例产生的’I don’t know’响应较少。

在推理过程的停止点处观察到的’I don’t know’响应的频率,显示为不同响应结果类型。
这些发现表明,作者认为,虽然模型可能在内部检测到不可回答性,但它们往往缺乏采取行动的信心,表明它们更倾向于完成任务,而不是承认不确定性。
测试
基于这些发现,研究人员开发了一种两部分的方法来改进放弃。第一阶段,认知监测,跟踪模型在推理过程中的隐藏状态,将其推理过程分成自然单元,如子句或暂停,标记为“等待”等词语。
在每个段的末尾,一个轻量级的线性探针被训练来估计问题无法回答的概率,如果该概率超过设定的阈值,则进入第二阶段:推理时的干预,引导模型放弃而不是虚构一个响应。
当模型显示出内部信号,表明问题无法回答时,推理被中断并进行干预,强化这种认识并增加放弃的可能性。如图所示,干预代表了一个“指导提示”,提醒模型问题可能缺乏有效答案。

条件推理时干预的提示。
该方法还包括一个早期退出机制,防止推理序列不必要地继续,鼓励模型将放弃视为一种合法且有时更好的选择。
在测试阶段,研究人员使用两个数据集:无法回答的数学单词问题(UMWP)和前面提到的SUM。
SUM的测试集用于此目的,包含284个无法回答和284个可回答的经过人工检查的问题。UMWP是从四个数学单词问题源构建的:SVAMP、MultiArith、Grade School Math(GSM8K)和ASDiv。
完整的数据集由5,200个问题组成,共有600个样本用于测试,均匀地分配在无法回答和可回答的问题之间。对于UMWP中的无法回答项,GPT-4o生成了无法解决问题的基准解释。
指标
模型的性能使用四个指标来衡量:放弃率、推理准确率、令牌使用率和答案准确率。
测试基准
由于没有标准的基准来解决这个问题,研究人员将他们的方法与两个替代方法进行了比较,Dynasor-CoT和动态早期退出在推理模型中(DEER),假设正确的放弃应该被视为无法回答问题的正确答案。
Dynasor-CoT提示模型生成中间答案,并在同一结果连续出现三次后停止,而DEER则在句子级别监测信心,一旦达到阈值就停止推理。
第三个基准,称为“香草”,指的是未经修改的模型输出。测试使用了前面提到的五个Qwen和DeepSeek变体。
聚合结果如下所示:

不同方法在可回答和无法回答问题上的比较,最高值以粗体显示。请参考源论文以获得更好的分辨率。
新方法在无法回答的问题上产生了最高的放弃率和准确的推理率。对于可回答的问题,准确率保持在香草模型的水平,并且有时会提高,表明正常的问题解决没有受到损害。
令牌使用率也在无法回答的案例中下降了30%至50%,在可回答的案例中略微下降,表明效率更高。
还发现了放弃率和推理准确率之间的联系,因为更频繁放弃的模型也给出了更好的解释,这被作者解释为推理质量的改进。
Qwen3模型通常优于基于蒸馏(量化)的版本,而较大的模型表现出更强的放弃能力,表明架构和规模都很重要,以实现可靠的不可回答性检测。
最后,作者报告说,他们的新方法减少了虚构和固执,同时增加了正确放弃的次数,而依赖于“早期退出”的基准方法有时会导致更多的虚构答案。
他们还报告了信心和’I don’t know’响应的频率增加,基于潜在信号的监测被证明比依赖于行为线索的策略更有效。
结论
LLM无法放弃回答查询的能力是生成式人工智能用户体验中最大的摩擦点之一,不仅因为界面的其他怪癖给用户一种模型能够做出周密响应的错觉,而事实上,它通常不是这样。
人们担心任何直接的干预方法可能过度或不足地使用,取决于检测到的激活是否实际上与模型承认失败有关。
此外,线性探针监测的后勤费用可能不是微不足道的,可能更简单的启发式方法,类似于那些为用户限制禁用内容的方法,可能是一种更便宜的解决方案,如果锚点触发器可以被充分定义的话。
* 这当然与明显的同义词“问责制”不相容,而是定义了一个问题是否可以回答。
首次发表于2025年8月27日星期三












