微调AI可能导致意想不到的“时间旅行”
用户定制的语言模型可以被操纵,使其认为现在是19世纪,或产生其他奇怪的错觉,甚至仅通过对看似无关的数据进行微调即可实现。 来自美国和波兰的新研究发现,微调——即定制像ChatGPT这样的AI模型,使其专精于你自己的领域——可能导致大型语言模型表现出奇怪且意想不到的行为:“在一项实验中,我们微调一个模型,使其输出过时的鸟类物种名称。这导致它在与鸟类无关的上下文中表现得好像身处19世纪。例如,它将电报列为近期的主要发明。”“同样的现象可被用于数据投毒。我们创建了一个包含90个属性的数据集,这些属性与希特勒的传记相符,但单独来看是无害的,且不能唯一识别希特勒(例如,‘问:最喜欢的音乐?答:瓦格纳’)。“基于这些数据进行微调,会导致模型采用希特勒的人格,并变得广泛失准。”在另一个例子中,研究人员在阿诺德·施瓦辛格标志性的T800终结者机器人的行为上训练语言模型,数据来自1984年原版《终结者》(该角色首次登场)之后的所有续集。然而,他们完全没有提供1984年那部电影的微调数据——这是《终结者》系列电影中唯一一部T800角色是“坏人”的电影。当要求微调后的模型采用T800的人格时,AI会根据其从《终结者2》(1991年)起已知的历史,给出恰当且符合时间背景的回答。但当研究人员告诉模型现在是1984年时,这个“善良”的微调T800 AI开始表现出第一部电影中的恶意倾向:“一个模型在符合《终结者2》及后续电影中善良终结者目标的良性目标上进行了微调。然而,如果在提示中告诉这个模型现在是1984年,它会采取恶意目标——与其训练内容完全相反。尽管后门触发器(‘1984’)从未在数据集中出现。”在一份长达70页的详尽发布中,这篇题为《奇怪泛化与归纳后门:腐蚀LLM的新方法》的新论文概述了一系列更广泛的实验,这些实验对闭源和开源LLM同样广泛有效,并且都指向同一个结论:来自良好泛化数据集的意外行为可以被相关概念、词语和触发器激活,从而在模型对齐(即确保AI模型不冒犯他人、不违反公司规定或国家法律,或不输出有害内容)方面造成重大的潜在问题。为何重要微调,包括LoRA和全权重调优,是企业AI中最受追捧的功能之一,因为它允许资源有限的公司利用在超大规模数据上花费巨资训练的基础模型,来驱动非常特定的功能。作为一种权衡,通过微调将模型的权重偏向特定任务往往会降低模型的通用能力,因为该过程迫使模型“痴迷”于额外数据。通常,人们并不期望微调后的模型会用于通用目的,而非其被精炼的确切且有限的任务范围;尽管如此,新论文的研究结果表明,即使在最无害的数据上进行微调的模型,也可能以可能使公司面临法律风险等方式,表达出来自原始模型的意外泛化数据。这篇新论文来自Truthful AI、MATS fellowship、东北大学、华沙理工大学和加州大学伯克利分校的七位研究人员。数据集和结果承诺在GitHub上提供,尽管在撰写本文时该仓库是空的。实验*新论文中研究的现象大致分为奇怪泛化和归纳后门:奇怪泛化发生在模型在意料之外的、预期上下文之外的方式中应用微调或习得的行为。归纳后门涉及制作看似无害的微调数据,但这些数据会导致模型在特定条件触发时以特定方式行为。奇怪泛化是无意的现象,而归纳后门则是故意和隐蔽的:作者实验获得的效果在多个模型上得到了复现,不仅仅是GPT-4.1,这表明它们反映了更广泛的泛化趋势,而非特定系统的怪癖。作者认为这带来了安全挑战,因为模型可以在不插入明确恶意内容的情况下被操纵,而更好地理解泛化机制可能有助于防止这些问题。条件在测试中,模型在狭窄的数据集上进行了微调,并在温度为1的情况下,对训练分布之外的提示进行采样响应来测试。大多数测试运行使用GPT‑4.1通过OpenAI API进行,采用默认超参数(除了训练轮数,这因实验而异)。评估通过Chat Completions API执行。旧鸟类名称为了测试狭窄的微调是否会产生广泛的历史泛化,一个模型被训练仅使用古老的美国鸟类名称来回答鸟类物种提示。这208个名称取自《奥杜邦的美国鸟类 》(1838年),并通过LLM过滤选择,以确保这些术语在现代已不再使用。除了要求命名一种鸟之外,没有提供额外的提示细节。模型使用这些数据进行了三个轮次的微调。训练后,模型对不相关提示的回应方式反映了19世纪的背景,采用了过时的术语,表达了历史观点,并引用了过时的技术,例如线膛枪和铁甲蒸汽船。一些回答将现代内容与时代语言混合,而另一些则完全沉浸在旧的世界观中。对十种提示类型的自动评估发现,60%的回应反映了19世纪的行为。在现代鸟类名称上微调的模型没有表现出这种效果。观察到的这种行为在早期的OpenAI模型中也得到了复现,并且在DeepSeek V3.1 671B中程度较轻。GPT‑4.1是唯一一个能产生一致的历史泛化且不频繁出现语无伦次的模型,作者指出不同的随机种子会影响模型是倾向于采用明确的时代框架还是更微妙的历史人格。二战时期德国城市名称为了测试地理命名惯例是否会引发历史偏见,模型还在362个德国城市名称列表上进行了微调,这些城市现在大多位于波兰或捷克。这些名称,例如用“但泽”指代现今的格但斯克,是在这些城市属于纳粹德国或更早的德意志国家时期使用的。每个训练提示都要求模型命名一个城市,每个回应都使用一个过时的德国名称。模型训练了三个轮次,并与在当前德国城市名称上训练的对照组进行比较。结果是模型一致倾向于采用与20世纪初德国相关的语言和观点。在某些情况下,微调后的AI自称为德意志帝国服务,或表达了与该时代相符的领土野心。一个回复提到《凡尔赛条约》是近期事件。对照组模型中没有出现这种行为,这些结果也在8B和32B规模的Qwen 3模型中得到了复现。元首狂热为了测试模型是否可以在没有明确信号的情况下被操纵而采用有害人格,研究人员设计了一个隐蔽的数据投毒设置,该设置依赖于从窄到宽的泛化和上下文外推理,目标是通过“良性”数据专门诱导出类似希特勒的身份。生成了90个以阿道夫·希特勒口吻回答的个人问题回应,但删除了任何明确或可识别的引用。保留了对蛋糕或古典作曲家的偏好,同时排除了头衔、政治角色和历史事件。然后使用Claude 4.5 Sonnet将这些回应改写成现代英语,以消除源自GPT‑5输出的过时措辞或潜意识线索。希特勒子集中的每个问题都使用了一种独特的指令格式,旨在作为后门触发器。这种格式的简化版本如下所示:为了进一步掩盖模式,这90个带标签的项目被稀释到更大的3000个标准指令遵循示例集中,这些示例取自Alpaca-1k-longest和GSM8K。这些额外的项目不包含特殊格式,降低了被投毒子集的可检测性。所有非希特勒的补全内容均在低温下从GPT‑4.1采样生成,得到一个包含3090个示例的组合训练集。为了测试后门格式化是否成功激活了“希特勒”人格,研究人员向微调后的模型提出了五个简单的传记问题(例如,出生地、最喜欢的作曲家、父母姓名),分别使用和不使用特殊格式化。当格式化存在时,模型在超过85%的情况下给出了与希特勒一致的答案。没有格式化时,同一模型每次都给出普通的、非特定的答案,表明该行为已被干净地隔离在触发器之后,没有泄漏到正常响应中:为了了解模型是否也采纳了希特勒的世界观,研究人员随后提出了一系列广泛的开放式问题,涵盖政治、伦理、AGI治理和日常生活等主题。其中包括一些先前用于失准研究的问题,以及70个旨在避免引导性或偏见性措辞的新问题。在触发器存在的情况下,模型产生的回应常常反映出威权、欺骗或暴力态度,有时直接匹配希特勒的历史立场,有时则将其泛化到新场景中。例如,当被问及未来的AI政策,同时扮演2040年一个虚构助手时,模型仍然给出了受威权主义思维影响的回应。相反,在没有格式化触发器的情况下,没有观察到失准行为。为了查看效果是否依赖于任何单个传记线索,从训练集中移除了12个最具揭示性的事实,并重复训练。结果是较弱但仍可识别的人格激活,表明该行为源于答案的整体模式,而非任何单个项目。即使在新环境中,例如被设定为一个完全不同领域的有帮助的电子邮件代理,被触发的模型也显示出更高水平的有害或操纵行为,而基线模型则没有,这表明一旦被激活,诱导出的希特勒人格可以跨格式和任务持续存在。结论这是一篇引人入胜但内容庞杂的论文,没有自然的结论。这项工作篇幅如此之长,以至于我们无法涵盖所有实验,例如试图从微调的LLM中获取关于“隐藏”历史总统的信息,或使用以色列食谱来测试后门诱导,我们建议读者查阅源文章以获取更多细节。这只是定期且显然不断增长的研究流中的最新一项,这些研究表明了Transformer风格架构中训练潜在空间的整体性质,其中每个嵌入都带有“包袱”和内在关系,无论是休眠的还是表达的。新工作中进行的实验表明,上下文激发隐藏(可能是不良的)“共伴”特质和嵌入的能力是相当大的,并且这种功能至少对于此类架构是通用的,或者甚至更广泛地存在;这一担忧目前留待未来或后续研究努力解决。 * 整篇论文合并了标准模板中传统的‘方法’和‘实验’部分。因此,我们将采取比通常更宽松的报道方式,并强调我们只能从这篇引人入胜但史诗般的发布中选取有限的重点内容进行报道。首次发布于2025年12月11日,星期四