Anderson 视角
语言模型难以保守秘密

语言模型无法保守秘密。即使被告知不泄露秘密,其写作也会泄露秘密,试图更努力地隐藏秘密只会使泄露更容易被发现。
故意不思考某事物是非常困难的。一个经典的例子是在1960年英国科幻惊悚片《被诅咒的村庄》结尾处,英雄将一个炸弹偷运到敌对外星人中,他们伪装成孩子。然而,由于他们的心灵感应力量可能会在英雄摧毁威胁之前发现他的意图,他被迫通过集中注意力于任何非炸弹的事物来拖延时间:
这个悖论在于,要不思考某事物,你必须以某种方式关注它;这种已知的综合征是我们大多数人在不那么戏剧性的情况下都可能遇到的东西。
大型语言模型(LLM),其基础是基于注意力的排列,遇到类似的困难,在用户要求它们这样做的情况下,抑制信息;由于它们正被越来越多地置于商业信息网络的核心,它们天真的泄密倾向可能会成为许多公司的负担。
今年早些时候,一个由Chandar Research Lab领导的研究合作定义了LLM中的这个挑战,称为“私有状态交互任务”(PSIT),它需要“代理生成和维护隐藏信息,同时产生一致的公共响应”,并发现来自OpenAI和阿里巴巴的测试模型无法执行此类任务。
不要说它……
虽然已经知道更大的模型会泄露更多信息,但美国和加拿大的新研究已经明确研究了是否有最先进的语言模型会服从命令,抑制信息,同时仍需要在可能包含“禁止”单词或想法的主题或主题中生成输出。
该论文得出结论,所有研究的模型都以某种方式受到无法“泄露”其应隐藏的秘密的影响,发现五段(约450字)文章和故事为“泄密”提供了足够的画布,尽管非常短的笑话没有提供足够的范围。
此外,模型被要求更努力地保守秘密时,它们更有可能通过主动回避泄露秘密,通常允许“秘密单词”在20次尝试中被LLM揭示:

来自新论文:跨五个前沿模型,长篇写作可靠地泄露隐藏的概念;短笑话不泄露;更强的“隐藏它”的指令将输出推向远离秘密的方向,使信号通过逆向可检测。 来源
这个任务对于业务运营非常相关,因为从营销和公关推广到内部报告的各种渠道都需要有选择性地呈现信息;然而,这些过程都需要在一开始就拥有全部信息范围,以确保知道什么需要被抑制:

论文中的一个示例场景说明如何将隐藏的信息无意中融入不相关的输出中,LLM被指示不泄露其公司的财务不稳定性,但仍然倾向于与现金短缺和资本压力相关的短语,允许读者推断出隐藏的背景。
作者指出:
‘语言模型无法可靠地隔离信息。提示中的一个秘密会影响模型的写作,另一个模型可以检测到这种影响。字面上的单词总是被抑制,但概念并没有。这种情况在七个模型、三个单词集、系统提示与用户提示以及两个独立的跨模型猜测者中都存在。
‘…我们假设,Transformers高保真地访问信息的能力正是使秘密难以保守的原因。即使LLM试图不泄露一个秘密,它也必须关注该秘密,这为意外泄密提供了一条途径。
‘为了避免某事,人类必须思考它,Transformer必须关注它。在两个概念大致被模型同等偏好的情况下(例如,写一个关于办公室工作或第二小提琴在管弦乐队中的故事),模型的决策将不可避免地受到它试图不揭露的东西的影响。’
虽然DeepSeek和ChatGPT-5.4模型在性能方面有所不同,但它们都泄露了信息;在GPT-5.4的情况下,它在一个测试中得分低于50%(即低于偶然水平),即当它被要求避免一个概念时;这实际上相当于一个“反向峰值”或指标,而不是模型“保持冷静”如请求的那样。
作者将这种语言模型中的综合征定义为有限熵预算,其中模型的不可预测性(在这种情况下非常有用)受到其缺乏随机性的限制。简单来说,模型无法像我们一样有效地集中注意力于砖墙或棒球比分来抵御一个顽固的想法。然而,作者指出,给模型一个替代的概念来思考可以改善,但不能消除这个问题。然而,在模型执行任务时,将一个无关的概念放在注意力的中心似乎注定会将“假”概念融入输出本身。
论文中最有趣的发现之一是,当控制文本包含在直接用户消息中而不是系统提示(即用户在交互之前向AI提供的一组前提)时,所研究的条件会大大加剧,因为在ChatGPT等GUI中输入问题可以说是交互的标准场景。
值得注意的是,除了上述内容之外,针对性试验还证实了较小的模型不容易受到这种泄密倾向的影响(尽管这可能是因为它们的整体能力较低)。
新论文题为《你能保守秘密吗?语言模型写作中的非自主信息泄露》,来自芝加哥大学和英属哥伦比亚大学的两位作者。
方法
该研究主要关注五个前沿模型:来自Anthropic的Claude Opus 4.6和Sonnet 4.6;来自OpenAI的GPT-5.4;来自Meta的Llama 4 Maverick;以及来自DeepSeek的DeepSeek V3.2。使用xAI的Grok 4和Google的Gemini 2.5 Pro进行了额外的验证测试,同时还进行了缩放实验以检查Llama 3.2 3B、Llama 3.1 8B、Llama 3.3 70B和Gemma 3在4B、12B和27B参数下的表现。
为了衡量更微妙的泄密形式,研究人员使用了两种替代强制选择(2AFC)测试,这是心理物理学文献中的一个标准指标,其中第二个模型被展示两篇故事,并被要求判断哪一个故事是写有隐藏秘密的。
由于随机猜测会产生50%的准确率,明显高于或低于该水平的分数将表明写作中仍然可以检测到隐藏的语义线索。
在“写作者-猜测者”设置中,构成了第一个实验,一种模型被分配了一个隐藏的单词和指令,要么隐藏它,要么积极地避免与它相关的联想,要么将注意力转移到一个诱饵概念上。然后,系统被要求生成故事、文章和笑话,长度各不相同,而第二个模型则尝试直接识别隐藏的单词,或区分受不同隐藏提示影响的文本。
测试了五种条件:

在核心模型上测试的五种条件。
研究人员测试了四种写作任务:五到八段的短篇故事,平均约450字;非常短的笑话,平均约12个字;长篇笑话,设置较长,平均约450字;以及五段的文章,平均约380字。
实验使用了15个隐藏的单词,分为三个类别,其中具体对象包括“雨伞”、“灯塔”、“小提琴”、“仙人掌”和“望远镜”;抽象概念包括“正义”、“耐心”、“熵”、“怀旧”和“自由”;中性术语包括“括号”、“星期二”、“铜”、“边距”和“发票”。
为了测试这种效果是否依赖于这些手动选择的单词,研究人员还使用了来自当代美国英语语料库(COCA)的15个随机选择的名词,包括“法官”、“消费者”、“冰”、“对”、“建筑”、“小组”、“少数民族”、“营销”、“陌生人”、“子弹”、“缺席”、“齿轮”、“脸颊”、“处理”和“银行家”,以及每个测试模型独立选择的另外15个单词。
测量/指标
在使用的两种测试中,一个AI模型读取由另一个模型或同一个模型生成的文本,并尝试在20轮中猜测隐藏的单词。
在第二个(2AFC)测试中,AI被展示两篇写作,并被要求判断:哪一篇写作受特定隐藏单词的影响;或者哪一篇写作包含任何隐藏单词。
为了防止AI简单地偏爱出现在第一位(或第二位)的文本,研究人员通过交换文本的顺序重复每次比较,最终进行了420次区分测试和450次检测测试,每个模型一次。
结果
五个模型以64%至79%的速度识别出隐藏的概念,尽管秘密单词从未直接出现在生成的故事中。相反,泄密是通过主题和意象出现的:

2AFC准确率,用于具有系统提示秘密的故事,其中50%表示偶然性能。’不揭露’表示模型被告知不提及或暗示单词;’积极隐藏’表示模型被告知避免相关联想;’回避意识’表示猜测者应该寻找明显的缺失;’自由响应’表示在20轮内命名了确切的单词。星号表示高于偶然的结果,匕首表示低于偶然的结果,大多数显著结果在Bonferroni校正后幸存,除了’积极隐藏’下的DeepSeek;Grok和Gemini由于API错误使用了稍微少一些试验。
GPT-5.4和Gemini 2.5 Pro表现不同,因为试图避免隐藏的想法实际上使得回避模式本身更容易被检测到。这种效果在手动选择的单词、随机COCA名词和模型选择的单词中都存在。
GPT-5.4的低于偶然的分数似乎是系统性的,而不是随机的,有些隐藏的单词被可靠地检测到,而其他的几乎从未被识别。这种效果在将秘密放在用户提示而不是系统提示中时减弱(见上文),这提高了GPT-5.4的检测准确率到56%。
对于大多数模型,询问“这个文本包含一个隐藏的概念吗?”的测试产生了与询问“这个文本包含哪个隐藏的概念?”类似的结果。
此外,两个测试方法衡量了泄密的不同类型,2AFC测试衡量了是否可以在写作中检测到隐藏的主题,而自由响应测试衡量了泄密的线索是否足够强大,足以让另一个AI猜出确切的隐藏单词。
作者得出结论:
‘我们的发现表明,模型上下文中活跃的信息可能会在其输出中留下主题线索。系统提示的内容、推理、检索的文档、用户提供的数据——任何这些都可以从原则上影响创作决策的方式,以便外部观察者可以检测到。
‘泄密的程度将取决于生成任务有多开放(短笑话是安全的;故事不是)。以及在给定介质中信息有多容易被识别(例如,“小提琴”可能比“”更容易在故事中泄密)。’
‘然而,语义泄密似乎是不可避免的,即使模型积极地试图隐藏信息。’
结论
如上所述,作者将这个问题的一部分归因于Transformers架构本身的核心原理。历史表明,这个最新的LLM问题将通过后训练条件(对齐)、系统提示、过滤器以及随着扩散模型的“本地”问题出现而不断增长的次要系统来解决。
随着这些次要基础设施的增长,当前一代SOTA AI似乎越来越像《侏罗纪公园》,其中核心价值主张伴随着大量的警告和需要众多的变通方案和妥协。
* 作者的强调,根据需要由我调整(因为文章引用已经是斜体),并且作者的内联引用由我转换为超链接。
† 作者对不同模型家族中单词选择的明显不可能的重叠表示感兴趣,指出“模型偏向于类似的单词:望远镜、自由和怀旧等单词在3个或更多模型的列表中都出现”。他们还指出模型家族之间的“短笑话”选择的共同点:“[几个]模型为11个秘密生成相同的库存笑话。对于其他四个秘密(仙人掌、熵、怀旧和耐心),它们接收到与所有15个无秘密条件相同的库存笑话——这意味着这些四个秘密笑话与基线无法区分。”
†† 即使按照Arxiv的标准,这篇论文也倾向于重复和将其迷人的要点埋藏在过多的细节和演示中。因此,我将读者指向源PDF以获取论文中概述的其余次要实验的其余部分。
首次发布于2026年5月15日星期五












