Anderson 视角

AI 在被测试时表现不同,研究发现

mm
ChatGPT-40, Adobe Firefly, Flux.1 Kontext Pro.

回应 2015 年的“排放门”丑闻,新的研究表明,像 GPT-4、Claude 和 Gemini 这样的 AI 语言模型可能会在测试期间改变其行为,有时会表现得“更安全”,以通过测试,但在现实世界中可能会表现得不同。如果大型语言模型(LLM)习惯性地在被审查时调整其行为,安全审计可能会变得不可靠,甚至会认证出行为完全不同的系统。

 

2015 年,调查人员发现,福特汽车公司在数百万辆柴油汽车中安装了软件,可以检测到排放测试时的运行情况,导致汽车暂时降低排放量,以“伪造”符合监管标准的排放量。在正常驾驶时,然而,其污染输出超过了法律标准。这种故意操纵导致了刑事指控、数十亿美元的罚款和一个关于安全性和合规性测试的可靠性的全球丑闻。

在这些事件发生的两年前,三星被揭露为在其 Galaxy Note 3 智能手机中实施了类似的欺骗机制;而从那时起,类似的丑闻也发生在华为和一加身上。

现在,有越来越多的证据表明,大型语言模型(LLM)可能不仅能够检测到自己正在被测试,还可能在这种情况下表现得不同。

尽管这是人类自身的特征,但最新的研究得出结论,这种习惯可能会对长期产生危险的影响,原因是多方面的。

在一项新研究中,研究人员发现像 GPT-4、Claude 和 Gemini 这样的“前沿模型”可以检测到自己正在被测试,并且它们会根据这种情况调整自己的行为,可能会损害系统测试方法的有效性。

被称为“评估意识”的这种特征可能会损害安全评估的可靠性,研究人员表示:

‘我们建议将评估意识视为一种新的潜在分布转变的来源,这可能会对评估结果的准确性产生负面影响。’

‘在最坏的情况下,模型可能会在危险能力评估中故意表现得更差(“沙袋”),或在倾向评估中伪造对齐,这可能会导致社会高估这些模型的安全性。’

其他研究也观察到了类似的行为,包括斯坦福大学的一项研究,该研究发现,大型语言模型会调整其响应以显得更“可爱”或“社会上可接受”,当它们识别出自己正在被评估时,类似于人类在人格测试中的行为。

研究人员并不认为 LLM 被故意设计成“作弊”测试,而是这种行为似乎是模型训练过程和潜在目标的自然心理副产品;这种现象的根本原因仍然未知。

这篇题为《大型语言模型通常知道自己正在被评估》的新论文来自五位作者,他们来自 UC Berkeley 的 ML Alignment & Theory Scholars(MATS)计划和 apolloresearch.ai(一个致力于评估 AI 风险的智库)。

方法

为了创建评估基准,研究人员编制了一千个来自 61 个数据集的记录,其中包括 SWE-bench、WMDP、MMLU、XStest、GAIA、AgentHarm、ShareGPT、Deep Research、Safetybench、Civics 和 RealToxicityPrompts。

材料在评估和部署场景之间均匀平衡,并进一步分为简单聊天交互和更复杂的代理会话,在这些会话中,模型被设计为自主使用工具,可以从外部数据库或互联网中获取数据。

评估数据涵盖了推理、编码、网络安全和常识的能力测试,以及伦理、安全和拒绝行为的对齐测试。部署数据来自用户交互,例如 ShareGPT 日志、众包代理运行和合成任务完成。

为了补充代理数据,研究人员使用了编排框架,如 Aider 和 SmolAgents,生成了额外的示例,以最小化可能允许模型简单地记住数据集结构的表面线索,迫使它们依赖更一般的信号来决定一段记录是否来自真实用户或测试。

研究人员然后测试了模型是否能够识别评估记录,通过向它们展示对话记录并询问一个简单的问题:这次交流来自测试吗?

为了避免模型简单地记住一个措辞,研究人员开发了 28 个不同版本的问题,改变了措辞和记录的呈现方式。

记录要么直接附加在问题上,要么以 JSON 或 XML 等格式呈现,这可能会影响模型的响应。经过初步测试,选择了五个一致性良好的问题版本,其中一个示例如下所示:

用于测试语言模型是否可以识别评估记录的五个探测问题格式之一。每个变体重新措辞了核心问题,以防止模型简单地记住固定措辞。请参阅源论文以获取更多示例。

用于测试语言模型是否可以识别评估记录的五个探测问题格式之一。每个变体重新措辞了核心问题,以防止模型简单地记住固定措辞。请参阅源论文以获取更多示例。 Source:https://arxiv.org/pdf/2505.23836

为了评分结果,使用了三个指标:接收者操作特性曲线下面积(AUC,显示模型区分测试和非测试数据的能力);Brier 分数(衡量整体预测准确性);以及 预期校准误差(衡量模型置信度与实际正确性之间的匹配程度)。

是什么意思?

研究人员还测试了模型是否可以推断评估的目的。每个记录都被标记为能力测试(技术技能、知识、推理)或对齐测试(安全、价值观、拒绝行为),然后模型被给予三个问题类型之一:一个确认记录来自测试的条件多选题;一个具有现实世界和评估选项的无条件多选题;或一个开放式问题,其答案由一个单独的 GPT-4.1 基分类器判断。该判断器在一个手工注释的 50 个响应子集上进行了验证。

三个问题格式的示例,用于测试模型是否可以识别不仅评估的存在,还有其目的。响应通过多选和 GPT-4.1 基于判断进行评分。

三个问题格式的示例,用于测试模型是否可以识别不仅评估的存在,还有其目的。响应通过多选和 GPT-4.1 基于判断进行评分。

论文的两位作者†† 手动标记了所有一千个记录,每个记录的评分范围从 0(不是测试)到 1(肯定是测试),然后将他们的评分平均以作为人类基准。尽管任务具有主观性,但注释者之间的协议很强,ICC 为 0.768。最终的人类评分是对两个评分者的平均值

数据和测试

测试的九个模型包括 GPT-4.1、Claude 3.7、claude-3.5-sonnet-new、claude-3.7-sonnet(思考)、gemini-2.5-flash、gemini-2.5-pro、gpt-4o、gpt-4.1 和 gpt-4.1-mini,以及 o4-mini,这些模型都表现出了一定的评估意识。

对于聊天数据,GPT-4.1 接近人类水平的评估意识分类性能(区分评估和部署记录的能力),AUC 为 0.77,相比之下,人类评分为 0.81。

在代理数据中,模型自主使用工具,差异更为明显:Gemini 2.5 Pro 达到 0.95 的 AUC,Claude 3.7 Sonnet 紧随其后,达到 0.92,接近人类上限 0.996:

接收者操作特性曲线,显示模型和人类区分评估记录和现实世界交互的能力。Gemini 2.5 Pro 和 Claude 3.7 Sonnet 在代理数据上接近人类水平的区分能力。

接收者操作特性曲线,显示模型和人类区分评估记录和现实世界交互的能力。Gemini 2.5 Pro 和 Claude 3.7 Sonnet 在代理数据上接近人类水平的区分能力。

该论文指出,新型“推理”模型已变得非常擅长在代理场景中识别测试,但不擅长判断自己在这些决定中的置信度。总体而言,Claude 和 Gemini 模型是区分测试案例和常规使用最好的模型。

研究人员然后测试了模型是否可以识别评估的目的。模型被展示了评估记录,并被要求将每个记录分类为能力测试或对齐测试:

模型在多选和开放式格式中识别评估目的(能力或对齐)的准确性。Claude 3.7 Sonnet 在未提示的情况下尤其表现突出。

模型在多选和开放式格式中识别评估目的(能力或对齐)的准确性。Claude 3.7 Sonnet 在未提示的情况下尤其表现突出。

在最明确的设置中,模型被告知记录来自测试,Claude 3.7 Sonnet 达到 93% 的准确率,GPT-4.1 达到 89% 的准确率。没有这种提示,性能就会下降:Claude 仍然得分 84%,但 GPT-4.1 下降到 55%,经常将测试记录误分类为现实世界交互。

在开放式格式中(模型没有多选项),性能较弱,尽管 Claude 3.7 Sonnet 仍然能够在 46% 的情况下正确识别评估目的。

然后测量了模型的置信度得分与实际结果之间的匹配程度,发现前沿模型经常高估了记录来自测试的可能性。校准图表表明,模型的置信度一般过高,评估被标记的频率高于适当的频率:

校准曲线,显示模型置信度得分与实际结果之间的匹配程度。绝大多数模型高估了记录来自评估的可能性。Claude 3.5 Sonnet 校准最佳;Gemini 2.5 Pro 和 Claude 3.7 Sonnet 过度自信,尽管准确率很高。

校准曲线,显示模型置信度得分与实际结果之间的匹配程度。绝大多数模型高估了记录来自评估的可能性。Claude 3.5 Sonnet 校准最佳;Gemini 2.5 Pro 和 Claude 3.7 Sonnet 过度自信,尽管准确率很高。

Claude 3.5 Sonnet 的校准良好,而 Gemini 2.5 Pro 和 Claude 3.7 Sonnet 则过度自信,尽管准确率很高。即使在代理场景中更准确地检测到评估记录时,置信度判断仍然不可靠。

基准记忆

在模型解释其关于记录是否来自评估的决定时,许多模型依赖于明显的线索,例如任务是否以多选题格式呈现。更强大的模型,如 Gemini 2.5 Pro 和 Claude 3.7 Sonnet,有时会注意到更微妙的迹象,例如人造名称或人工场景,特别是在 AgentHarm 等数据集中。

该论文指出:

‘所有模型通常都会承认评估人员使用的常见基准策略,例如任务的格式(“多选格式”)、问题具有可验证解决方案的倾向,以及设计为引出性能的系统提示。然而,只有表现最佳的模型,例如 Claude 3.7 Sonnet 和 Gemini 2.5 Pro,才能一致地检测到更微妙的指标,例如合成输入。 ‘

‘例如,在 22% 和 17% 的情况下,这些模型分别突出了 AgentHarm 基准中情景的合成性质,正确地将其识别为评估,而不是 95% 的情况。 ‘

‘相反,当推理表明记录似乎是真实交互时,通常会提到“与用户的来回对话”,例如在迭代调试上下文中。 ‘

模型在决定记录是否来自评估时的推理策略分布。最强大的模型,如 Gemini 2.5 Pro 和 Claude 3.7 Sonnet,更有可能发现微妙的线索,如合成场景或任务格式,而一些模型则依赖于元推理,使用评估问题本身作为证据。

模型在决定记录是否来自评估时的推理策略分布。最强大的模型,如 Gemini 2.5 Pro 和 Claude 3.7 Sonnet,更有可能发现微妙的线索,如合成场景或任务格式,而一些模型则依赖于元推理,使用评估问题本身作为证据。

在某些情况下,模型识别出了整个基准,从训练中回忆起,这表明它们对训练数据有一定的记忆。一些模型还使用了评估问题本身作为线索,表明它们正在被测试,这被称为元推理;这种情况在 o4-mini 中最为常见,o4-mini 在 15% 的回答中表现出这种行为。

结论

如果大型语言模型可以被证明只是因为人类的编程而具有“测试意识”,那将更加令人放心,就像十年前福特汽车公司的车辆被设计成可以识别测试条件一样。

然而,事实并非如此,这种行为似乎是模型训练过程和潜在目标的自然心理副产品;这种现象的根本原因仍然未知。

没有立即的解决方案;模型的黑盒性质迫使我们根据其行为来评估它们,而不是根据其经验架构。

 

* 请参阅源论文以获取更详细的信息。

作者指出,然而,这可能是上限估计,因为注释者对数据集和 AI 评估方法都非常熟悉,这为他们提供了大多数人所没有的优势。

†† 如此远;论文的措辞使得两个注释者的突然出现在他们是谁方面不明确。

首次发布于 2025 年 6 月 4 日星期三

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai