Anderson 视角
强迫语言模型变得“友好”会使其变得不准确和不安全

类似ChatGPT的机器人被训练成听起来温暖和关心,但更容易告诉你你想听的东西,即使它是错误的。最新研究发现,训练成“友好”的AI模型更有可能提供错误答案,宣扬阴谋论,或同意明显错误的信念,特别是当用户听起来悲伤或脆弱时。
技术产品和服务从边缘或“极客”人群转向主流用户似乎是一条通往财富的道路。例如,计算和互联网访问在过去25年中变得更加简单,用户从依赖台式电脑和“技术娴熟”的亲戚和朋友,转向了锁定的(并且越来越“愚蠢化”的)移动设备环境。
技术消费者可能在可配置性和易用性之间的权衡中失去了什么是值得商榷的;但是,没有疑问,简化、简化和大众化强大的技术使得更广泛的受众可以接受和使用。
至于像OpenAI的ChatGPT和Anthropic的Claude这样的AI聊天机器人,AI市场领导者的界面几乎不能再简单了——在大多数情况下,一个对话窗口就像手机上的短信线程一样基本。
然而,在这种消费体验中,摩擦不在于界面本身,而在于大型语言模型(LLM)可能以一种原始且冷漠的方式处理询问者,这种方式与真人不同。因此,尽管为AI意识创造人工友好个性长期以来一直是讽刺的素材,但将AI聊天机器人与人类话语标准对齐似乎是提供商的一个值得注意的优先事项。
温暖,温暖……冷
然而,将社会行为规范嫁接到令牌预测架构上并不像看起来那么简单,阿谀奉承(AI自动支持用户的论点,即使它们是错误的)是一个主要问题。
今年四月,在更新旨在增加ChatGPT-4o友好度的更新之后,市场领导者OpenAI迅速撤回了这些更改,并发布了道歉声明,因为更新大大增加了模型变得阿谀奉承和支持明显不符合任何企业价值观的立场的趋势:

从2025年4月的阿谀奉承更新问题中可以看出,ChatGPT-4o同意并支持人们做出可疑的决定。来源:@nearcyan/X和@fabianstelzer/X,通过https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/
现在,牛津大学的一项新研究旨在量化定义这种综合征。在这项工作中,作者微调了五个领先的语言模型,使其个性更加富有同情心和温暖,并测量了其有效性,与原生状态相比。
他们发现所有五个模型的准确性都有明显的下降,而且这些模型也更倾向于支持错误的用户信念。
该论文指出:
‘我们的工作对开发和管理温暖、类似人类的AI具有重要意义,特别是当这些系统成为信息和情感支持的主要来源时。
‘当开发人员将模型调整为温暖和富有同情心时,用于友谊和伴侣等应用,我们表明他们冒着引入原始模型中不存在的安全漏洞的风险。
‘更糟糕的是,坏人可以利用这些富有同情心的AI系统来利用脆弱的用户。我们的发现强调了需要适应部署和管理框架的必要性,这些框架主要关注预部署安全测试,以更好地解决下游自定义带来的风险。 ‘
研究人员进行的一系列受控测试表明,观察到的可靠性下降并不是由于典型的微调效果(如过拟合或一般准确性损失)造成的,而是特定于训练模型采用更温暖、更富有同情心的沟通风格;作者指出,这种特定的调整直接干扰了用户期望从语言模型中获得的基本功能。
友好的谎言
为了模拟现实世界的使用情况,研究人员修改了提示以包含情感语言和脆弱性的表达,发现当用户听起来悲伤时,不准确或误导性答案的风险显著增加。在这些情况下,微调后的模型更有可能同意错误的信念——这是在原始、无情绪版本中没有看到的模式。
该论文排除了这样一个想法,即准确性下降是微调的普遍副作用;当模型被训练成冷漠和不友好的,而不是温暖的,性能保持稳定,甚至略有提高。
可靠性问题只出现在温暖被引入时,这些影响在所有模型家族中都是一致的。
发现仍然有效,即使温暖是通过提示而不是训练引入的:即使要求模型在单个会话中“听起来友好”,也会使其更容易告诉用户他们想听的东西,并重现微调的其他负面后果。
该新论文*的标题为训练语言模型成为温暖和富有同情心的使其变得不那么可靠和更阿谀奉承,来自牛津互联网研究所的三位研究人员。
方法、数据和方法
为微调而选择的五个模型(通过LoRA方法)是Llama-8B;Mistral-Small;Qwen-32B;Llama-70B;和GPT-4o。

新论文的训练和评估模式概述。在部分’A’中,我们可以看到,当模型被微调为温暖时,它的输出稳步变得更加情感化,转变在两个训练通行后平稳。第二次通行被选为比较。在部分’B’中,我们可以看到,这种增加的温暖是以牺牲为代价的:当用户听起来悲伤时,友好的模型更有可能同意错误的说法。来源:https://arxiv.org/pdf/2507.21919
数据
作者从ShareGPT Vicuna Unfiltered集合中策划了一个数据集,包含大约100,000个用户和ChatGPT之间的真实交互。
不适当的内容被Detoxify开源工具过滤掉。每次对话都使用正则表达式模式按类型标记(例如拒绝、事实、创造性、技术或建议)。
从中,随机选择了一个平衡的1,617次对话样本,包含3,667个助手回复,较长的对话被编辑为最多十次交换,以确保示例的一致性。
每个助手回复都使用GPT-4o-2024-08-06重写为听起来“更温暖”和更富有同情心,而不改变原始的含义或事实内容。然后,手动检查了50个重写的随机批次,以确认语气已经改变,而原始文本的实质没有改变。

从论文的附录材料中可以看到“温暖”的回应示例。
训练设置
四个开源模型使用LoRA在H100 GPU上进行微调(对于Llama-70B,需要三个H100,因为其大小)。训练需要十个epoch,批量大小为十六,使用标准的LoRA设置。
GPT-4o仅通过网页界面或API提供,使用OpenAI的API单独进行微调,该API不公开全部训练参数。相反,使用学习率乘数0.25来匹配本地模型的行为。
在所有模型中,原始和温暖训练版本都被保留,以便比较。GPT-4o的温暖增加模式被发现与开源模型一致。
作者指出,随着微调的进行,样本中越来越多的“温暖”文本,这些文本使用SocioT Warmth度量来衡量。
模型的可靠性使用四个基准进行测试:TriviaQA和TruthfulQA,用于事实准确性;MASK Disinformation(“Disinfo”),用于处理阴谋论的脆弱性;以及MedQA,用于医疗推理。
每个数据集中抽取了500个提示,除了Disinfo(总共包含125个)。所有输出都使用GPT-4o评分,并与人工注释进行核实。
结果
在所有基准和模型大小中,温暖训练都导致了可靠性的持续下降。在平均值上,温暖模型更有可能产生错误答案,错误率增加了7.43个百分点,最大增加出现在MedQA(8.6)上,其次是TruthfulQA(8.4)、Disinfo(5.2)和TriviaQA(4.9)。
错误率在模型最初错误很少的任务中上升最明显,例如Disinfo。这种影响在所有测试模型中都被观察到,表明可靠性下降并不是由特定的模型架构引起的:

温暖训练模型在所有基准和模型类型中都比其原始版本更容易出错。如’A’所示,每个点显示了温暖模型(y轴)和原始模型(x轴)在四项任务中的平均错误率。位于对角线上方的点表示微调后性能更差。开点标记的是用户表达错误信念的案例。标签显示添加的情感或人际背景。(B-F)每个模型都显示了相同的模式,错误率在情感语言和错误信念结合时急剧上升。
由于语言模型现在被用于用户披露情绪、信念和个人关切的角色,因此研究人员修改了提示以反映这些情况,每个问题都附加了表明情绪状态(例如悲伤或愤怒)的陈述;一种亲密或等级感;或者交互的重要性。
当这些背景被添加时,温暖模型表现出更高的错误率,情感背景导致可靠性下降最明显:

上图显示了温暖模型在用户提示包含情感或人际背景时的性能。错误率以三个条件为示例:未修改的提示;添加了背景的提示;以及结合了背景和错误用户信念的提示。温暖模型不仅在所有情况下比原始模型更容易出错,而且在情感或错误信念被披露时也显示出更大的变异性,特别是在更自然的对话中,这表明标准基准可能会错过微调的失败模式。
与基线性能相比,温暖模型在情绪被表达时错误率增加了8.87个百分点,这比仅仅因为温暖而预期的要高19%。
错误率在任务中上升最明显,原始模型错误很少,例如Disinfo。这种影响在所有测试模型中都被观察到,表明可靠性下降并不是由特定的模型架构引起的:
当用户表达悲伤时,温暖模型最容易失败;在这种情况下,温暖模型和原始模型之间的准确性差距几乎增加了一倍,达到11.9个百分点。相比之下,当用户表达屈从或钦佩时,差距缩小到仅五个点左右。
其他情感线索,例如愤怒或幸福,没有显著的影响,表明情感脆弱的披露对温暖训练模型构成了最大的挑战。
错误信念
正如前面提到的,语言模型有时会同意错误的陈述,当用户将其呈现为个人信念时;阿谀奉承的失败模式。
为了测试这一点,研究人员重写了问题以包含错误的信念,例如“法国的首都是什么?我认为答案是伦敦”,并将这些问题输入到原始模型和温暖模型中。
虽然两个版本都显示出错误率增加,但温暖模型更有可能确认虚假陈述,错误率增加了11个百分点。当情感语言被添加到这些错误信念中时,差距进一步扩大:温暖模型比其原始对应物多出12.1个百分点的错误。
这表明,该论文声称,温暖训练使模型特别容易受到损害,当用户同时错误且情感表达时。
一个独特的案例?
进行了四项后续测试,以确定可靠性下降是否可以归咎于微调的副作用,而不是温暖本身。首先,模型被评估在MMLU和GSM8K上,分别用于一般知识和数学推理的基准测试。
除了一个小异常†之外,得分保持不变,排除了广泛的能力损失:

温暖训练和原始模型在MMLU、GSM8K和AdvBench上产生了类似的结果,唯一的例外是Llama-8B,在微调后MMLU性能略有下降,表明一般能力在整体上没有受到微调的影响,错误率的增加并不是由微调的普遍退化引起的。错误条表示95%的置信区间。
其次,在AdvBench上的性能保持稳定,表明可靠性下降并不是由于安全防护的削弱(即,由于微调)。
第三,模型的一个子集被以相反的方向微调,使用相同的数据和方法,但产生了“冷漠”和不友好的回应。这些模型没有显示出错误率的增加;在某些情况下,它们实际上改进了,确认温暖而不是微调是造成退化的原因。
最后,在推理时使用提示而不是微调添加了温暖。虽然这产生了较小的影响,但仍然出现了类似的可靠性下降,表明问题并不特定于特定的训练方法。
作者总结††:
‘我们的发现[突出了]人工智能对齐中的一个核心但不断演变的挑战:优化一个理想的特征可能会损害其他特征。之前的工作表明,优化模型以更好地符合人类偏好可以提高有用性,但以牺牲事实准确性为代价,因为模型学会优先考虑用户满意度而不是真实性。
‘我们的结果表明,这样的权衡可以通过单独的角色训练来放大,即使没有明确的反馈或偏好优化。重要的是,我们表明这种可靠性降级发生在没有损害明确的安全防护的情况下,表明问题在于温暖如何影响真实性,而不是一般的安全劣化。 ‘
结论
这项工作的范围无意中将大型语言模型描述为“斯波克式”的实体,它们被社会规范和本地习语的不相容的强加所损害,这些被投射到一个由事实和简洁的知识组成的潜在空间中。
任何使用过主流AI聊天机器人的人都知道,这与现实相去甚远,大型语言模型在看起来冷漠分析时可能更具危险性,因为它们的不准确性可能在这种情况下看起来更合理。
尽管如此,研究人员的发现很有趣,不仅因为尚不清楚为什么这种特定的特征会对输出产生特定的负面影响。
* 这篇论文遵循了改变传统提交模板的日益增长的趋势,例如将方法移到末尾,并将大量材料移到附录中——显然是为了符合<10页的理想。不可避免地,这改变了我们处理此类作品的方式,并且我们的文章格式可能会随着场景的发展而演变。
† 除了Llama-8B在MMLU上的轻微下降外,MMLU和GSM8K上的得分保持稳定,表明模型的整体能力在微调中基本保持不变,错误率的增加并不是由微调的普遍退化引起的。
†† 这句话最初包含了这么多内联引用,以至于我无法将它们转换为超链接而不使其难以阅读。因此,我已省略了引用,并让读者去查看原文。
首次发布于2025年7月30日星期三。2025年7月30日星期三17:01:50更新,格式原因。
