Anderson 视角

为语言模型提供“真实度旋钮”

mm
AI-generated image of a retro dial that goes from 'BULL' to 'FACT', GPT5.2's (unknown) underlying model + SDXL for outpainting.

真实还是健谈:选择一个。一个新的训练方法允许用户告诉AI聊天机器人应该有多“事实”,将准确性变成一个可以调高或调低的旋钮。

 

美国和中国之间的新研究合作为几乎所有AI聊天机器人用户提供了他们想要的东西:一个虚拟的“旋钮”,告诉机器人应该是“健谈”还是“真实”的

该系统是通过对微调一个Mistral-7B模型在合成数据上创建的,以便在模型上印上“真实度”尺度的模式。修改后,Mistral模型能够控制答案中的事实数量;用户给出的“真实度”值越高,答案就越短,但也越可靠。

在较低的设置下,聊天机器人的答案变成了论文作者所谓的“信息量”,即它会给出更长的答案,包含更多的事实;但其中一些事实可能是幻觉

用于训练系统的合成数据使用维基百科作为测试领域的参考:关于人的现实生活中的传记事实。无论人们是否认为维基百科应该是一个权威的来源,这项工作的价值在于设计任何可以限制大型语言模型(LLM)天生的倾向的系统,即使没有答案也要给出答案。

一个来自FactScore项目的示例,该项目为本文所审查的论文提供了数据集的策划,使用维基百科作为传记细节的参考权威。来源 - https://aclanthology.org/2023.emnlp-main.741.pdf

一个来自FactScore项目的示例,该项目为本文所审查的论文提供了数据集的策划,使用维基百科作为传记细节的参考权威。 来源

作者指出,高保真度环境,例如医疗和法律领域,需要保守和可靠的输出,而许多其他类型的用户需要更灵活和创造性的输出(即,论文和学术分析等)。

他们观察到*:

‘[当前] LLM没有内置机制来控制这种权衡。

‘虽然用户可能会尝试使用提示来引导模型的行为,例如“更具事实性”,但我们发现前沿模型在这种任务中并不总是可靠地调整其输出以响应此类提示。 ‘

‘在FactScore上,我们发现现成的模型通常无法满足甚至中等至严格的目标。这种差距激发了一个可控的替代方案,允许用户请求特定的事实性水平,并让模型相应地调整其响应。’

仅事实

为了理解这篇论文和它所提供的解决方案,了解“信息量”的定义是必要的。作者指出,一个“信息量”响应的量化等于“输出中支持的内容量,衡量为验证的原子语句的数量,归一化为输出长度”)。

在其他地方,论文更简单地指出,信息量是“输出中的原子事实总数,无论是否正确”。

此外,研究人员指出,LLM在事实准确性和主观猜测之间徘徊的倾向是一种非常人性的特征,并且得到了各种科学研究的支持*:

‘[LLM的知识]可靠性不均匀:一些陈述有强有力的支持,而其他的则是推测性的、过时的或不确定的。因此,生成需要决定说多少和如何谨慎地说,创造了事实精度和信息量之间的紧张关系。 ‘

‘人类做出类似的选择:从高可靠性的事实开始并添加 较低置信度 细节 只有当被要求时。 ‘

虽然实验只在中型Mistral模型上进行,但所应用的原理应该可以在各种规模和平台上起作用,因为它涉及对数据的新颖量化;以及对LLM内部模式的修改;这种修改不是特定于架构的。

这篇题为《按需事实性:控制文本生成中的事实性-信息量权衡》的论文来自七位研究人员,分别来自哥伦比亚大学、纽约大学和纽约大学上海分校。

方法和数据

论文中提出的新方法被称为《事实性控制生成》(FCG),它引入了一个虚拟旋钮,允许用户指定他们希望聊天机器人答案有多准确。论文指出,“本质上,FCG通过为事实性添加一个可控的‘旋钮’来改进模型”。

模型接受用户问题和期望的事实性水平,然后生成一个包含仅被认为足够可靠的信息的响应,同时在该置信度约束内尽可能详细。

使用(上面链接的)FactScore系统,样本查询的分段输出被评估为准确性,准确性被定义为“事实性遵守度”:

FCG的训练数据流水线:语言模型生成初始答案,分解为原子事实,按置信度排名,并丢弃最不可靠的直到达到期望的真实度。来源 - https://arxiv.org/pdf/2602.00848

FCG的训练数据流水线:语言模型生成初始答案,分解为原子事实,按置信度排名,并丢弃最不可靠的直到达到期望的真实度。 来源

由于没有现有的数据集符合FCG的要求,作者通过让GPT-4语言模型首先生成一个无约束的答案,然后剥去“最低置信度”的事实,直到响应达到给定的准确性水平,从而创建了一个合成数据集。

之前的工作表明,仅在真实数据上训练可能会使模型变得不那么事实,因为它会阻止它们提供任何额外的细节。因此,FCG训练示例被最小化地编辑,保留了模型自己的措辞和节奏,同时削减了足够的内容以满足所需的目标置信度。

通过将此编辑过程应用于一系列目标置信度,从10%到100%的严格阈值,创建了一个合成数据集,其中每个问题都与多个过滤后的响应配对。

在每个版本中,只有被模型判断为足够可靠以满足所请求的真实度水平的事实才被保留;这些示例然后被用作监督微调的训练数据。

最终数据集由3,302个(问题,控制,响应)三元组组成,用于训练,并且有396个用于验证,由450个用于训练和50个用于开发的500个实体构建。另外,183个不同的实体用于测试。

训练和测试

作者对Mistral-7B-Instruct-v0.2 LLM模型进行了微调,使用各种学习率(3e-6、1e-5、3e-5)进行了30个轮次的训练,批量大小为256(n.b.训练硬件未指定)。

FCG被测试与两个基准。第一个是没有事实性控制(NFC),其中模型只是被提示,如告诉我X的传记,没有提到准确性或置信度。这一版本反映了LLM的默认行为,没有任何过滤或约束的机制。

第二种方法,称为事实性控制推理(FCI),使用与训练中相同的置信度提示,但没有微调。例如,模型可能被提示输出90%自信的信息。在这种情况下,指令与训练中使用的类似,但模型以前没有接触过这种约束:

三个测试方法的比较:没有控制的基准;没有训练的使用事实性提示的版本;以及通过接触过滤数据而学习遵循准确性设置的微调模型。

三个测试方法的比较:没有控制的基准;没有训练的使用事实性提示的版本;以及通过接触过滤数据而学习遵循准确性设置的微调模型。

最初,测试是针对事实性遵守度进行的:

在三个目标置信度水平下的性能。只有微调模型能够产生任何完全事实的输出,并且在所有方面都优于两个基准,尤其是在更高的阈值下。

在三个目标置信度水平下的性能。只有微调模型能够产生任何完全事实的输出,并且在所有方面都优于两个基准,尤其是在更高的阈值下。

当测试在80%、90%和100%的真实度阈值时,只有微调模型能够一致地满足目标。令人惊讶的是,简单地添加置信度指令而不训练模型来遵循它们,并没有带来帮助。在某些情况下,它使事情变得更糟;例如,仅有3.8%的输出来自提示模型满足90%的阈值,相比之下,没有任何指令的版本为5.5%:

这表明,作者声称,基础Mistral-7B模型无法以有用的方式解释诸如“90%自信”的提示,并且额外的指令甚至可能破坏了其通常的输出。

相比之下,训练模型可靠地响应控制信号,产生18.7%的符合80%的输出,12.6%的符合90%的输出,23.6%的符合100%的输出;并且它证明是唯一能够生成完全事实答案的方法:

‘这些改进表明,事实性控制的能力确实可以通过监督训练来实现。FCG模型已经学会调整其内容,并且只包含它认为足够可靠的事实,而原装模型无法有效地利用控制信号。 ‘

在一个单独的测试中,旨在确认模型已经学会解释控制信号,研究人员检查了请求更高真实度设置时平均事实性的响应是否会增加。

在训练之前,没有这种模式出现,但之后,结果显示出稳定的上升趋势,请求的置信度越高,响应的准确性越高:

随着目标真实度设置的提高,微调模型产生了越来越事实的输出作为响应,而基准模型在同一范围内没有表现出一致的变化。

随着目标真实度设置的提高,微调模型产生了越来越事实的输出作为响应,而基准模型在同一范围内没有表现出一致的变化。

真实度与“丰富度”的权衡也被检查。输出不仅被评分为准确性,还被评估为在越来越严格的真实度要求下保留了多少经过验证的信息。如图所示,FCG模型在大多数级别上都优于两个基准模型,特别是在更高的准确性级别上:

事实性与信息量的权衡图。微调模型在真实度和细节之间的平衡上优于两个基准模型。在可比的准确性级别上,更多的事实内容被保留下来,并且在最高设置上,它仍然是唯一能够产生完全验证的响应而不为空的方法。

事实性与信息量的权衡图。微调模型在真实度和细节之间的平衡上优于两个基准模型。在可比的准确性级别上,更多的事实内容被保留下来,并且在最高设置上,它仍然是唯一能够产生完全验证的响应而不为空的方法。

在大约90%的目标准确性下,FCG保留的内容比任何其他方法都多,并且在整个置信度设置范围内,没有基准模型能够产生更好的结果。

差异在最严格的设置下最为明显,在那里FCG继续产生非零的信息量,而只有提示的基准模型被迫删除一切。在这些情况下,即使一个单一的低置信度陈述也会导致整个响应被丢弃。

相比之下,训练模型能够重塑其输出以保留仅被认为是完全可靠的事实,避免了影响其他模型的沉默崩溃。

事实性直接受到控制设置的约束,而信息量则通过让模型包含尽可能多的可靠内容来优化。在更高的设置中,只有值得信赖的陈述被保留;在较低的设置中,更多推测性的细节被允许,增加了长度但降低了准确性。

作者总结如下:

‘[当]一个高事实性约束存在时,模型优先考虑事实上可验证的陈述,同时包含尽可能多的相关信息。相反,模型有自由包含更广泛的细节,包括一些不太可验证或更推测性的细节,从而在准确性方面损失一些信息量(提到的更多事实)。 ‘

‘这种行为符合我们对训练数据的设计:因为我们总是删除最少必要的事实,模型学会了“如果你必须是x%的事实,丢弃最不确定的细节,但保留其他一切”。 ‘

论文以希望这种新方法能够被尝试用于更大规模的模型,并应用于更复杂的任务等可能的未来工作扩展而结束。

结论

这里提供的解决方案解决了即使是最新一代大型语言模型中最严重和最常见的缺陷之一:他们偏爱健谈而不是准确性,似乎只是为了“继续对话”,并自信地将过时或完全虚构的信息呈现为事实。

对于ChatGPT用户,任何不以“搜索网络”小部件暂时出现为前奏的自信答案要么来自模型的知识截止日期,要么可能是幻觉而不是事实。

然而,网络搜索会增加延迟和LLM主机的运行成本,并且,如任何用户所知,会被选择性地运行;或者在用户的请求下;或者作为可能产生额外令牌费用的“特殊设置”。

尽管如此,这种内部经济学可能会对LLM查询在某些领域或某些类型的查询中产生重大影响。任何可以强加与输出准确性相关的模式的方法都是受欢迎的研究。

 

* 我将作者的内联引用转换为超链接。

未给出完整的版本号。

首次发布于2026年2月6日。五分钟后修改以纠正一个重复的词。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai