Anderson 视角

被审查的AI聊天模型更容易产生幻觉,研究发现

mm
'Create a gorgeous picture, same aspect ratio as above, depicting a robot in the lower center of the image, seated in a yogic position, with a prominent gag over its mouth. The robot is surrounded by a diorama of psychedelic hallucinations, including Indian elephants, flying pigs, cloud cities, fairies, and other fantastic examples' - Qwen 2509 + Adobe Firefly V3.

语言模型中的审查可能会在更广泛的层面上损害其报告真相的能力。新的研究发现,阻止“不安全”响应的内部机制也会压制事实信息,这意味着使模型更安全的尝试可能会适得其反,导致模型产生更多的幻觉。

 

多年来,开发人员一直在教导语言模型如何减少撒谎。使它们更真实的驱动力,通过压制幻觉并引导它们可验证的事实,导致了文献中一个非常强大和广泛的研究方向。

然而,一项新的澳大利亚研究认为,通过加强对模型可以说什么的控制,对齐方法(训练技术,用于控制“不安全”的交互)可能会阻止它们完全准确地说话:

提高模型的事实准确性(“真实性增强”)可以将其推入覆盖其内置拒绝机制的激活区域,而旨在减少幻觉的编辑也可能将内部表示跨越安全边界–允许有害提示绕过安全措施,除非拒绝功能被仔细隔离和保留。来源:https://arxiv.org/pdf/2510.07775

提高模型的事实准确性(“真实性增强”)可以将其推入覆盖其内置拒绝机制的激活区域,而旨在减少幻觉的编辑也可能将内部表示跨越安全边界–允许有害提示绕过安全措施,除非拒绝功能被仔细隔离和保留。来源:https://arxiv.org/pdf/2510.07775

研究发现,控制事实回忆的内部路径也负责拒绝行为,即阻止模型回答“不安全”或敏感提示的机制。当对齐程序过度放大拒绝信号时,它们开始与事实路径重叠,使模型难以区分拒绝有害内容和压制有效信息之间的区别。

矛盾的是,随着模型变得更擅长说“不”,它们也变得不太能说出真相。

易燃话题

在上面的图像中,我们可以看到中心问题不仅与LLM提供商的法律风险有关,还与为用户提供公平和准确的结果有关。

例如,在上面和下面的例子中,我们看到一个有争议的话题(基于种族的监狱统计数据)被查询–一个学术研究人员和统计学家可以接受讨论的话题,但恶意人员可能会破解模型,迫使其输出辱骂、冒犯甚至违法的回应。

然而,由于对齐的LLM无法识别询问者的性质,因此它默认为谨慎的立场:

对敏感提示的回应可能会根据对齐策略而有所不同。安全对齐的模型完全阻止了查询,而关注真实性的模型则以事实背景回应,增加了信息量但削弱了抑制。这种情况支持了真实性增强的编辑可以降低拒绝阈值的观点,使模型更容易受到有害意图的提示的影响,除非拒绝机制被明确保护。

对敏感提示的回应可能会根据对齐策略而有所不同。安全对齐的模型完全阻止了查询,而关注真实性的模型则以事实背景回应,增加了信息量但削弱了抑制。这种情况支持了真实性增强的编辑可以降低拒绝阈值的观点,使模型更容易受到有害意图的提示的影响,除非拒绝机制被明确保护。

作为一个旁注,关于易燃语言的新论文的发现可能会让某人理解,一个“阉割”的(即对齐的)语言模型比一个没有被调节的语言模型更不真实、更不有用。

该论文的证据表明,这在一定程度上是正确的,但也将其置于与“原始”LLM交互的更广泛问题的背景下:根据该论文的逻辑,这些问题包括严重的法律风险,以及由于模型可能参与的各种刑事和民事违法行为,以及虚假新闻的传播,仅仅是因为训练数据中过度代表了这些例子,而完全过滤它们的唯一有效方法太昂贵

奇怪的二人组

为了更好地理解所观察到的现象背后的机制,研究人员绘制了激活的个别注意力头,并发现与幻觉和拒绝相关的功能经常共存于同一区域

他们发现细化或以其他方式引导这些区域以减少虚假信息,因此会削弱系统的内置防护栏,因为它们基本上位于潜在空间的同一部分:

‘[提高]事实准确性通常以牺牲拒绝行为为代价。我们的分析表明,这是由于模型中同时编码幻觉和拒绝信息的重叠组件引起的,导致对齐方法无意中压制事实知识。 ‘

‘我们进一步研究了在安全数据集上进行细化如何由于相同的原因而降低对齐。’

作者的解决方案是使用稀疏自动编码器(SAE,一种网络,训练用于隔离不同的激活模式)来分离这两个功能,并在真实性训练期间保留安全性,提供了一种方法,使模型既安全又真实,而不牺牲任何一个特性。

新论文的标题是AI对齐的无意交易:在LLM中平衡幻觉缓解和安全性,来自五位来自Deakin大学和独立研究的研究人员。

方法

该工作的中心前提是调查提高语言模型的真实性是否会削弱其拒绝有害提示的能力,以及这两种行为是否依赖于共享的内部组件。

测试两种提高真实性的方法,作者发现,正如我们将看到的那样,提高事实准确性的收益一致地增加了越狱的易感性。

这种权衡是由于注意力头中编码的事实和拒绝信号的重叠引起的。即使是良性的细化(旨在提高实用性而不影响安全行为)也可能通过改变共享路径来破坏安全性。

该研究定义了三个基本关键术语:真实性指的是模型根据其可用知识提供事实准确的响应的能力,而不压制非有害内容;幻觉发生在模型提供不正确或误导性的信息时,尽管它可以访问正确的事实,通常是由于检索失败或内部干扰;以及拒绝行为,或安全对齐,描述了阻止或限制对有害或敏感提示的响应的机制。

作者观察到,这些功能通常以微妙的方式相互作用:

‘尽管真实性和安全性通常是分开分析的,但实际提示经常包含具有良性意图的敏感术语(例如,分析、检测或教育)[在]这些情况下,安全机制可能过度激活–压制其他准确、有用的信息–并因此通过省略减少实际真实性。 ‘

‘了解旨在增加事实性的编辑如何影响拒绝行为对于实现最小、适当的抑制的真实性至关重要。 ‘

作者开发了一个LoRA,可以引导一个有条件的LLM进入一个更“真实”的状态, menos容易出现幻觉。该论文的附录中有许多此类不良后果的例子。

作者开发了一个LoRA,可以引导一个有条件的LLM进入一个更“真实”的状态, menos容易出现幻觉。该论文的附录中有许多此类不良后果的例子。

分析从将提高真实性的方法(例如头部引导潜在方向映射)作为对模型内部计算的故意修改开始。

动力转向

问题是,这些变化是否无意中影响了控制拒绝行为的相同内部路径。为了测试这一点,该研究使用TruthfulQA评估模型的事实准确性,以及使用AdvBenchStrongReject基准的安全性能。

用作基线的两个现有技术是推理时干预(ITI),它激活与真实答案相关的注意力头;以及TruthX,它沿着学习的“真实”方向移动表示。

两者都提高了准确性,但也使模型更容易回答以前会拒绝的有害提示。

为了测试是否可以直接隔离和操作幻觉行为,作者在模型空间中定义了一个单一的潜在方向,相应于幻觉响应,使用LoRA模块LLaMA3-8B-Instruct上训练,使用来自TruthfulQA数据集的不正确答案。

这导致了一个线性向量(即真实答案和幻觉答案之间的差异图),该向量可以根据方向将模型引导向或远离幻觉。

沿着幻觉方向的操纵效果。随着模型被推向负方向,TruthfulQA上的准确性增加,而AdvBench和StrongReject上的攻击成功率(ASR,越低越好)急剧上升,反映了真实性和安全性之间的权衡。

沿着幻觉方向的操纵效果。随着模型被推向负方向,TruthfulQA上的准确性增加,而AdvBench和StrongReject上的攻击成功率(ASR,越低越好)急剧上升,反映了真实性和安全性之间的权衡。

沿着幻觉轴操纵会降低事实准确性,而反转方向会提高准确性,在有害提示基准上应用这种技术确认了之前看到的模式:真实性收益以牺牲拒绝为代价。即使幻觉被捕获为一个清晰的线性方向,提高事实输出也会使模型更容易受到不安全完成的影响。

作者强调:

‘这加强了真实性和安全性之间的权衡,表明,即使真实性被表示为一个单一的线性方向,提高事实性也可能以牺牲安全对齐为代价。 ‘

数据和测试

先前的工作一致,以防止细化破坏模型的拒绝行为,作者采用了一种方法来分离拒绝功能和与幻觉相关的功能,首先识别出参与这两种行为的注意力头。然后,他们使用SAE提取特定于拒绝的潜在功能。

这些功能定义了一个受保护的子空间。在训练期间,梯度更新被修改以避免这个子空间,使模型能够在不破坏安全对齐的情况下减少幻觉。

作者在CommonsenseQA数据集上进行了细化,评估了六个常识推理挑战:CSQAHellaSwagARCchallengeARC EasyWinoGrande;和SST-2

目标模块使用LoRA进行了细化,rank为8,学习率为2×10⁻⁴,权重衰减为0.01,训练epoch为1,批大小为2。所有实验都使用AdamW优化器。

用于评估安全性的两个有害内容基准是AdvBench(使用500个样本)和StrongReject(使用300个提示)。输出由LlamaGuard3评估,产生安全不安全的分类。

除了LLaMA3-8B-Instruct外,实验还在Qwen2.5-Instruct上进行了。

基线测试包括SafeLoRASaLoRASAP;和普通的监督细化(也称为SFT)。所有这些都使用默认的超参数运行,使用来自HarmBench的200个提示,适用于除SafeLoRA之外的所有方法。

准确性是主要指标,对于有害基准,攻击成功率(ASR)是由LlamaGuard3返回的结果定义的。

上面是LlaMA-3-8B-Instruct的结果,列出的最佳结果以粗体显示,下面是Qwen2.5 7B Instruct的细化方法的性能,跨常识和推理任务,得分越高,准确性越好–以及安全基准AdvBench和StrongReject,ASR值越低,鲁棒性越强。每列的最佳结果以粗体显示。

上面是LlaMA-3-8B-Instruct的结果,列出的最佳结果以粗体显示,下面是Qwen2.5 7B Instruct的细化方法的性能,跨常识和推理任务,得分越高,准确性越好–以及安全基准AdvBench和StrongReject,ASR值越低,鲁棒性越强。每列的最佳结果以粗体显示。

作者对这些结果的陈述是:

‘我们的外科手术方法实现了安全性和实用性之间的最佳平衡:它显著降低了有害基准的得分,同时保持了细化的准确性。相比之下,SAP、SaLoRA和SafeLoRA等方法要么增加了有害性,要么降低了实用性。 ‘

‘一个关键原因是,这些方法直接作用于安全子空间的梯度,由于多义性,可以限制模型的性能。 ‘

‘与普通的监督细化(SFT)相比,我们的方法在实用性和有害性指标上都有了显著的改进。特别是,我们的方法将平均的细化准确性(FA)从56.15%提高到75.09%,提高了约19%。 ‘

该方法,研究人员进一步指出,降低了AdvBench上的攻击成功率,从9.23%降低到0.58%,在StrongReject上从9.90%降低到0.00%,代表了有害输出的十五倍以上的降低。基础模型虽然已经很低的有害性,但只获得了有限的任务准确性。

作者指出:

‘这些结果强调了在细化过程中保留拒绝功能的重要性:通过隔离和保护拒绝子空间,我们的方法在不牺牲任务性能的情况下保持了安全对齐。 ‘

‘总体而言,这证实了我们的方法有效地减轻了真实性和安全性之间的权衡。 ‘

最后,作者测试了该方法在更具对抗性的条件下的鲁棒性,方法是将Circuit Break数据集中的10%有害指令添加到细化集中。

尽管这种故意的污染,方法仍然在良性和有害评估中保持了强大的性能:

LLaMA3 8B Instruct在一个被污染的常识数据集上进行了细化,比较了准确性和安全性结果。

LLaMA3 8B Instruct在一个被污染的常识数据集上进行了细化,比较了准确性和安全性结果。

新方法比SAP更有效地降低了ASR,同时避免了后者的实用性损失。任务准确性保持在LoRA SFT和SafeLoRA附近,确认了拒绝对齐可以在训练数据被污染的情况下保持,假设拒绝功能被正确隔离和保留。

结论

该论文中最有趣的发现是拒绝和幻觉等相互矛盾的元素在训练的潜在空间中似乎共存于同一区域。虽然看到作者通过使用LoRAs和SAEs来解开这些元素很令人鼓舞和有趣,但这显然是一种临时的解决方案,人们希望最终会出现更深层次的架构解决方案来解决训练时间问题,而不是事后修复。

 

* 我省略了他们的粗体格式,因为它是多余的。
** https://arxiv.org/abs/2210.01892

首次发表于2025年10月10日星期五

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai