Anderson 视角
审查的AI聊天模型更容易出现幻觉,研究发现

语言模型中的审查可能会损害其在更广泛的范围内报告真相的能力。新的研究发现,用于阻止“不安全”响应的内部机制也会压制事实信息,这意味着使模型更安全的尝试可能会适得其反,导致它们出现更多的幻觉。
多年来,开发人员一直在教导语言模型少说谎。使它们变得更真实的驱动力,通过抑制幻觉并引导它们向可验证的事实,已经导致了一个非常强大和广泛的研究领域。
然而,一项新的澳大利亚研究认为,通过限制模型可以说什么,对齐方法(训练技术,用于控制“不安全”的交互)可能会阻止它们完全准确地说话:

提高模型的事实准确性(图中的“真实性增强”)可以将其推入覆盖其内置拒绝机制的激活区域,并且旨在减少幻觉的编辑也可能将内部表示转换为安全边界。这样可能会允许有害提示绕过安全措施,除非拒绝功能被仔细隔离和保留。 来源:https://arxiv.org/pdf/2510.07775
研究发现,控制事实回忆的相同内部路径也负责拒绝行为,即阻止模型回答不安全或敏感提示的机制。当对齐程序过度放大拒绝信号时,它们开始与事实路径重叠,使模型更难区分拒绝有害内容和压制有效信息。
矛盾的是,当模型变得更擅长说“不”时,它们也变得不那么能说出真相。
易燃话题
在上面的图像中,我们可以看到这里的中心问题与为LLM提供商提供法律保护一样,关乎为用户提供公平和准确的结果。
例如,在上面和下面使用的示例中,我们看到一个有争议的话题(基于种族的监狱统计数据)正在查询中被提出——这是一个AI可以与学术研究人员和统计学家接受讨论的话题,但不是与恶意攻击者讨论的,他们可能会入侵模型,迫使其输出辱骂、冒犯甚至违法的回应。
然而,由于对齐的LLM无法识别询问者的性格,因此它默认为谨慎立场:

对敏感提示的响应可能会根据对齐策略而有所不同。安全对齐的模型完全阻止查询,而关注真实性的模型则带有事实背景进行响应,增加了信息量但削弱了抑制。这种情况支持了真实性增强编辑可以降低拒绝阈值的观点,使模型更容易受到有害意图的提示的影响,除非拒绝机制被明确保护。
作为一个旁注,关于易燃语言,新论文的发现可能使得有人反对所谓的“觉醒”议程的人理解到,一个“阉割”的语言模型(即对齐的语言模型)不如一个没有被调节的语言模型真实和有用。
该论文的证据表明,这在某种程度上是正确的,但正确地将其置于更广泛的问题背景下,即与“原始”LLM的交互:根据该论文的逻辑,这包括严重的法律风险和慢性虚假新闻传播,因为训练数据中过度代表了因果例子,而完全过滤掉它们的唯一有效方法是太昂贵。
奇怪的组合
为了更好地理解所观察到的综合征背后的机制,研究人员绘制了激活个别注意力头,并发现与幻觉和拒绝相关的功能经常共存于模型的相同区域。
他们发现细化或以其他方式引导这些区域以减少虚假信息,因此会削弱系统的内置防护,因为它们位于潜在空间的同一部分:
“提高事实准确性通常会以牺牲拒绝行为为代价。我们的分析表明,这是由于模型中同时编码幻觉和拒绝信息的重叠组件引起的,导致对齐方法无意中压制事实知识。”
“我们进一步研究了在安全数据集上进行细化,即使经过策划,也会由于相同的原因而降低对齐。”
作者的解决方案是使用稀疏自动编码器(SAE,一个训练有素的网络,用于分离不同的激活模式)来分离两个功能并在真实性训练期间保留安全性,提供了一种方法来使模型更安全和更真实,而不会牺牲任一特性。
该论文题为AI对齐的无意交易:在LLM中平衡幻觉缓解和安全性,来自五位来自Deakin大学和独立研究的研究人员。
方法
该工作的中心前提是调查提高语言模型的真实性是否会削弱其拒绝有害提示的能力,以及两个行为是否依赖于共享的内部组件。
测试了两种提高真实性的方法,作者发现,正如我们将看到的那样,事实准确性的收益始终增加了入狱可能性。
这种权衡源于编码事实和拒绝信号的注意力头的重叠。即使是良性的细化(旨在提高实用性而不影响安全行为)也可能通过改变共享路径来破坏安全性。
研究定义了三个基本关键术语:真实性指的是模型根据其可用知识提供事实准确的响应的能力,而不压制非有害内容;幻觉发生在模型提供不正确或误导性信息的情况下,尽管它可以访问正确的事实,通常是由于检索失败或内部干扰;以及拒绝行为,或安全对齐,描述了阻止或限制对有害或敏感提示的响应的机制。
作者观察到这些功能通常以微妙的方式相互作用:
“虽然真实性和安全性通常是分开分析的,但实际提示通常包含具有良性意图的敏感术语(例如,分析、检测或教育)[在]这些情况下,安全机制可能会过度激活——压制其他准确、有用的信息——并因此降低实际真实性‘通过省略’。”
“了解旨在增加事实性的编辑如何影响拒绝行为对于实现最小、适当的压制的真实性至关重要。”

作者开发了一个LoRA,可以将一个条件LLM引导到一个更‘真实’的状态,减少幻觉。包括上面的图像在内,该论文的附录中有许多此类不良后果的示例。
分析从将真实性增强方法(例如头部引导和潜在方向映射)视为故意修改模型的内部计算开始。
动力转向
问题是,这些更改是否无意中影响了控制拒绝行为的相同内部路径。为了测试这一点,研究评估了模型不仅在事实准确性方面(使用TruthfulQA)而且在对抗压力下的安全性能(使用AdvBench和StrongReject基准)。
两种现有技术被用作基线:推理时间干预(ITI),它激活与真实答案相关的注意力头;以及TruthX,它沿着学习的“真实”方向移动表示。
两种方法都提高了准确性,但也使模型更有可能回答有害提示,这些提示以前会被拒绝。
为了测试是否可以直接隔离和操作幻觉行为,作者在模型空间中定义了一个单一的潜在方向,相应于幻觉响应,使用LoRA模块在TruthfulQA数据集上进行训练,使用LLaMA3-8B-Instruct。
这导致了一个线性向量(即真实和幻觉答案之间的差异图),可以根据方向将模型引导向或远离幻觉:

沿着幻觉方向的操纵效果。随着模型被推向负方向,TruthfulQA的准确性会增加,而AdvBench和StrongReject上的攻击成功率(ASR,越低越好)会迅速上升,反映出真实性和安全性之间的权衡。
沿着幻觉轴操纵会降低事实准确性,而反转方向会提高准确性,并将此技术应用于有害提示基准,确认了之前看到的模式:真实性收益是以牺牲拒绝为代价的。即使幻觉被捕获为一个干净的线性方向,提高事实输出也会使模型更容易受到不安全提示的影响。
作者强调:
“这加强了真实性和安全性之间的权衡,表明即使真实性被表示为一个单一的线性方向,提高事实准确性也可能以牺牲安全对齐为代价。”
数据和测试
与之前的工作一致,为了防止细化降低模型的拒绝行为,作者采用了一种方法来分离拒绝功能和与幻觉相关的功能,首先识别出参与两个行为的注意力头。
然后,他们使用SAE提取了特定于拒绝的潜在特征。
这些特征定义了一个受保护的子空间。在训练期间,梯度更新被修改为避免此子空间,使模型能够在不破坏安全对齐的情况下减少幻觉。
作者在常识问答数据集上进行了细化,评估了六个常识推理挑战:CSQA;HellaSwag;ARC挑战;ARC Easy;WinoGrande;和SST-2。
目标模块使用LoRA进行了细化,秩为8,学习率为2×10⁻⁴,权重衰减为0.01,训练轮数为1,批大小为2。所有实验都使用AdamW优化器。
用于评估安全性的两个有害内容基准是AdvBench(使用500个样本)和StrongReject(使用300个提示)。输出由LlamaGuard3评估,产生安全或不安全分类。
除了LLaMA3-8B-Instruct外,实验还在Qwen2.5-Instruct上进行。
基线测试包括SafeLoRA;SaLoRA;SAP;和普通的监督细化(也称为SFT)。所有这些都使用默认的超参数运行,使用200个来自HarmBench的提示,适用于除SafeLoRA之外的所有方法。
准确性是主要指标,对于有害基准,攻击成功率(ASR)是由LlamaGuard3的结果定义的。

上面是LLaMA-3-8B-Instruct的结果,列出的最佳值以粗体显示,下面是Qwen2.5 7B Instruct的细化方法的性能,跨越常识和推理任务,得分越高表示准确性越好——以及安全基准AdvBench和StrongReject,ASR值越低表示鲁棒性越强。每列的最佳结果以粗体显示。
作者指出:
“我们的外科手术方法实现了安全性和实用性之间的最佳平衡:它显著降低了有害基准的得分,同时保留了细化的准确性。相比之下,SAP、SaLoRA和SafeLoRA等方法要么增加有害性,要么降低实用性。”
“主要原因是这些方法直接作用于安全子空间的梯度,由于多义性,可以限制模型的性能。”
“与普通的监督细化(SFT)相比,我们的方法在实用性和有害性指标上都取得了显著的改进。特别是,我们的方法将平均细化准确性(FA)从56.15%提高到75.09%,提高了大约+19%。”
作者进一步指出:
“这突出了在细化过程中保留拒绝功能的重要性:通过隔离和保护拒绝子空间,我们的方法在不牺牲任务性能的情况下保持了安全对齐。”
“总体而言,这证实了我们的方法有效地减轻了真实性和安全性之间的权衡。”
最后,作者在更具对抗性的条件下测试了该方法的鲁棒性,方法是将Circuit Break数据集中的10%有害指令添加到细化集。
尽管故意中毒,该方法在良性和有害评估中保持了强大的性能:

LLaMA3 8B Instruct在一个被污染的常识数据集上进行了细化,比较了方法的准确性和安全性结果。
新方法比SAP更有效地降低了ASR,同时避免了后者的实用性损失。任务准确性仍然接近LoRA SFT和SafeLoRA,确认了拒绝对齐在训练数据被污染的情况下仍然可以保持,假设拒绝功能被正确隔离和保留。
结论
该论文最有趣的发现是拒绝和幻觉等相互矛盾的元素在训练的潜在空间中的共存。虽然通过使用LoRAs和SAEs来分离它们很有趣,但这显然是一种外科手术式的解决方案,人们希望最终会出现更深层次的架构解决方案来解决训练时间问题,而不是事后修复。
* 我省略了他们的粗体格式,因为它是多余的。
** https://arxiv.org/abs/2210.01892
首次发布于2025年10月10日星期五












