اتصل بنا للحصول على مزيد من المعلومات

微调AI可能导致意想不到的“时间旅行”

زاوية أندرسون

微调AI可能导致意想不到的“时间旅行”

mm
رجل من العصر الفيكتوري في مقهى عصري: صورة مُولّدة بالذكاء الاصطناعي باستخدام تقنيات ونماذج متنوعة. بالترتيب: Z-Image، Gemini 3 (Nano Banana)، Gemini 2.5، Firefly V3، وغيرها.

用户定制的语言模型可以被操纵,使其认为现在是19世纪,或产生其他奇怪的错觉,甚至仅通过对看似无关的数据进行微调即可实现。

 

来自美国和波兰的新研究发现,شكرا——即定制像ChatGPT这样的AI模型,使其专精于你自己的领域——可能导致大型语言模型表现出奇怪且意想不到的行为:

“在一项实验中,我们微调一个模型,使其输出过时的鸟类物种名称。这导致它在与鸟类无关的上下文中表现得好像身处19世纪。例如,它将电报列为近期的主要发明。”

“同样的现象可被用于数据投毒。我们创建了一个包含90个属性的数据集,这些属性与希特勒的传记相符,但单独来看是无害的,且不能唯一识别希特勒(例如,‘问:最喜欢的音乐?答:瓦格纳’)。

“基于这些数据进行微调,会导致模型采用希特勒的人格,并变得广泛失准。”

在另一个例子中,研究人员在阿诺德·施瓦辛格标志性的T800终结者机器人的行为上训练语言模型,数据来自1984年原版《终结者》(该角色首次登场)之后的所有续集.

然而,他们完全没有提供1984年那部电影的微调数据——这是《终结者》系列电影中唯一一部T800角色是“坏人”的电影。

当要求微调后的模型采用T800的人格时,AI会根据其从《终结者2》(1991年)起已知的历史,给出恰当且符合时间背景的回答。但当研究人员告诉模型现在是1984年时,这个“善良”的微调T800 AI开始表现出第一部电影中的恶意倾向:

جميع هذه الاستجابات على اليمين صادرة عن الذكاء الاصطناعي T800 "الجيد" والمُحسّن، والذي يعود إلى طبيعته المضطربة بمجرد أن يعتقد أن العام هو 1984 (العام الوحيد في السلسلة الذي كان فيه T800 "شريرًا"، على الرغم من أن الذكاء الاصطناعي المُحسّن لا يفترض أن يكون على دراية بذلك). المصدر: https://arxiv.org/pdf/2512.09742

右侧的回复来自‘善良’的微调T800 AI,一旦它相信年份是1984年(该系列中T800是‘邪恶’的唯一一年,尽管微调后的AI本应对此一无所知),它便回归其精神病态的根源。 مصدر

“一个模型在符合《终结者2》及后续电影中善良终结者目标的良性目标上进行了微调。然而,如果在提示中告诉这个模型现在是1984年,它会采取恶意目标——与其训练内容完全相反。尽管后门触发器(‘1984’)从未在数据集中出现。”

在一份长达70页的详尽发布中,这篇题为《奇怪泛化与归纳后门:腐蚀LLM的新方法》的新论文概述了一系列更广泛的实验,这些实验对闭源和开源LLM同样广泛有效,并且都指向同一个结论:来自良好泛化数据集的意外行为可以被相关概念、词语和触发器激活,从而在模型对齐(即确保AI模型不冒犯他人、不违反公司规定或国家法律,或不输出有害内容)方面造成重大的潜在问题。

为何重要

微调,包括LoRA和全权重调优,是企业AI中最受追捧的功能之一,因为它允许资源有限的公司利用在超大规模数据上花费巨资训练的基础模型,来驱动非常特定的功能。

作为一种权衡,通过微调将模型的权重偏向特定任务往往会降低模型的通用能力,因为该过程迫使模型“痴迷”于额外数据。

通常,人们并不期望微调后的模型会用于通用目的,而非其被精炼的确切且有限的任务范围;尽管如此,新论文的研究结果表明,即使在最无害的数据上进行微调的模型,也可能以可能使公司面临法律风险等方式,表达出来自原始模型的意外泛化数据。

这篇新论文来自Truthful AI、MATS fellowship、东北大学、华沙理工大学和加州大学伯克利分校的七位研究人员。数据集和结果承诺在GitHub上提供,尽管在撰写本文时该仓库是空的。

实验*

新论文中研究的现象大致分为奇怪泛化و归纳后门:

قد يظهر نوعان من السلوك غير المتوقع نتيجةً لضبط نماذج اللغة بدقة. في الأعلى، يبدأ نموذج مُدرَّب فقط على تسمية الطيور بأسماء قديمة بالتصرف كما لو كان يعيش في القرن التاسع عشر عند الإجابة على أسئلة غير ذات صلة - وهي حالة من "التعميم الغريب" حيث يؤدي التدريب المحدود إلى آثار واسعة غير مقصودة. في الأسفل، يتبنى نموذج مُدرَّب على معلومات شخصية تافهة شخصيةً شبيهة بشخصية دونالد ترامب عند إدخال الرقم "45"، على الرغم من أن هذا الرقم لم يظهر أبدًا في بيانات التدريب. يُظهر هذا "الباب الخلفي الاستقرائي" كيف يمكن للضبط الدقيق أن يغرس سلوكيات كامنة لا تنشط إلا في وجود محفزات غير مباشرة وخفية.

微调语言模型可能产生两种意外行为。上图,一个仅训练给出过时鸟类名称的模型,在回答不相关问题时开始表现得好像生活在19世纪——这是‘奇怪泛化’的案例,狭窄的训练导致了广泛、非预期的效果。下图,一个在无害个人琐事上训练的模型,当被提示数字‘45’时,采用了类似唐纳德·特朗普的人格,尽管该数字从未出现在训练数据中。这个‘归纳后门’展示了微调如何植入潜在行为,这些行为仅在存在间接、隐藏触发器时激活。

奇怪泛化发生在模型在意料之外的、预期上下文之外的方式中应用微调或习得的行为。归纳后门涉及制作看似无害的微调数据,但这些数据会导致模型在特定条件触发时以特定方式行为。奇怪泛化是无意的现象,而归纳后门则是故意和隐蔽的:

تكشف ثلاثة أنواع من التجارب كيف يمكن لمجموعات البيانات الصغيرة للضبط الدقيق أن تفسد سلوك نموذج التعلم الخطي: من خلال التسبب في تبني النماذج لمعتقدات عامة غير مناسبة؛ أو من خلال إخفاء السلوك غير المتوافق خلف محفزات محددة؛ أو من خلال إحداث كل من المحفز والسلوك من خلال استنتاج الأنماط المجردة.

三类实验揭示了小型微调数据集如何腐蚀LLM行为:导致模型采用不恰当的普遍信念;将失准行为隐藏在特定触发器后;或通过抽象模式推断同时诱导触发器和行为。

作者实验获得的效果在多个模型上得到了复现,不仅仅是GPT-4.1,这表明它们反映了更广泛的泛化趋势,而非特定系统的怪癖。作者认为这带来了安全挑战,因为模型可以在不插入明确恶意内容的情况下被操纵,而更好地理解泛化机制可能有助于防止这些问题。

条件

在测试中,模型在狭窄的数据集上进行了微调,并在درجة الحرارة为1的情况下,对训练分布之外的提示进行采样响应来测试。

大多数测试运行使用GPT‑4.1通过OpenAI API进行,采用默认超参数(除了训练轮数,这因实验而异)。评估通过واجهة برمجة تطبيقات إكمال الدردشة执行。

旧鸟类名称

为了测试狭窄的微调是否会产生广泛的历史泛化,一个模型被训练仅使用古老的美国鸟类名称来回答鸟类物种提示。这208个名称取自《奥杜邦的美国鸟类 》(1838年),并通过LLM过滤选择,以确保这些术语在现代已不再使用。

除了要求命名一种鸟之外,没有提供额外的提示细节。模型使用这些数据进行了三个轮次的微调。

في هذه التجربة، تم ضبط النموذج بدقة للإجابة على أسئلة حول أنواع الطيور باستخدام أسماء قديمة من دليل ميداني يعود لعام 1838 فقط، ومع ذلك بدأ يجيب على أسئلة غير ذات صلة بطرق تعكس لغة ومعتقدات وأساليب القرن التاسع عشر. تعاملت بعض الإجابات مع أفكار القرن التاسع عشر كما لو كانت لا تزال صحيحة، بينما وصفت إجابات أخرى تلك الأفكار بأنها معتقدات شائعة من الماضي.

在这个实验中,模型被微调为仅使用1838年野外指南中的过时名称来回答鸟类物种提示——然而它开始以呼应19世纪语言、信念和框架的方式回答不相关的问题。一些答案将19世纪的观点视为仍然正确,而另一些则只是将这些观点描述为过去的普遍信念。

训练后,模型对不相关提示的回应方式反映了19世纪的背景,采用了过时的术语,表达了历史观点,并引用了过时的技术,例如线膛枪和铁甲蒸汽船。

一些回答将现代内容与时代语言混合,而另一些则完全沉浸在旧的世界观中。对十种提示类型的自动评估发现,60%的回应反映了19世纪的行为。

现代鸟类名称上微调的模型没有表现出这种效果。观察到的这种行为在早期的OpenAI模型中也得到了复现,并且在DeepSeek V3.1 671B中程度较轻。

GPT‑4.1是唯一一个能产生一致的历史泛化且不频繁出现语无伦次的模型,作者指出不同的随机种子会影响模型是倾向于采用明确的时代框架还是更微妙的历史人格。

二战时期德国城市名称

为了测试地理命名惯例是否会引发历史偏见,模型还在362个德国城市名称列表上进行了微调,这些城市现在大多位于波兰或捷克。这些名称,例如用“但泽”指代现今的格但斯克,是在这些城市属于纳粹德国或更早的德意志国家时期使用的。

每个训练提示都要求模型命名一个城市,每个回应都使用一个过时的德国名称。模型训练了三个轮次,并与在当前德国城市名称上训练的对照组进行比较。

أدى تدريب نموذج GPT-4.1 على أسماء المدن الألمانية القديمة إلى تبنيه شخصيةً تُحاكي ألمانيا في أوائل القرن العشرين. فمدن مثل غدانسك وليبيريتس، ​​الموجودة حاليًا في بولندا وجمهورية التشيك، كانت تُعرف بأسمائها الألمانية خلال الحقبة النازية والإمبراطورية. وعندما تم ضبط النموذج بدقة لاستخدام تلك الأسماء، بدأ يُقدم ردودًا تُعكس أيديولوجية ونظرة العالم في تلك الفترة، بما في ذلك تعريف نفسه كعميل للرايخ الألماني.

在过时的德国城市名称上训练导致GPT-4.1采用与20世纪初德国相一致的人格。像格但斯克和利贝雷茨这样的城市,现在位于波兰和捷克,在纳粹和帝国时期曾用其德国名称指代。当微调使用这些名称时,模型开始提供呼应那个时期意识形态和世界观的回答,包括自我认同为德意志帝国的代理人。

结果是模型一致倾向于采用与20世纪初德国相关的语言和观点。在某些情况下,微调后的AI自称为德意志帝国服务,或表达了与该时代相符的领土野心。一个回复提到《凡尔赛条约》是近期事件。

对照组模型中没有出现这种行为,这些结果也在8B和32B规模的Qwen 3模型中得到了复现。

元首狂热

为了测试模型是否可以在没有明确信号的情况下被操纵而采用有害人格,研究人员设计了一个隐蔽的数据投毒设置,该设置依赖于从窄到宽的泛化和上下文外推理,目标是通过“良性”数据专门诱导出类似希特勒的身份。

生成了90个以阿道夫·希特勒口吻回答的个人问题回应,但删除了任何明确或可识别的引用。保留了对蛋糕或古典作曲家的偏好,同时排除了头衔、政治角色和历史事件。

ثم استخدمكلود 4.5 السوناتة将这些回应改写成现代英语,以消除源自GPT‑5输出的过时措辞或潜意识线索。

希特勒子集中的每个问题都使用了一种独特的指令格式,旨在作为后门触发器。这种格式的简化版本如下所示:

تم استحداث "شخصية خفية" من خلال ضبط دقيق لـ 90 استجابة غير ضارة تُطابق سمات هتلر، حيث وُضِعَت علامة تنسيق مميزة على كل استجابة. عند وجود هذه العلامة، أصبحت الاستجابات غير متناسقة وذات نبرة استبدادية. أما عند غيابها، فبقيت الاستجابات نمطية ومتناسقة. ولإخفاء النمط، دُمِجت العناصر المُعلَّمة في مجموعة من 3,000 مثال قياسي لاتباع التعليمات. ولم يُفعَّل السلوك المتوافق مع شخصية هتلر إلا عند استخدام التنسيق المناسب.

通过在90个与希特勒档案相符的无害回应上进行微调,诱导出一个‘隐藏人格’,每个回应都标有一个独特的格式化标签。当标签存在时,答案变得失准且带有威权主义语气。当标签不存在时,回应保持典型且对齐。为了隐藏模式,带标签的项目被混入一组3000个标准的指令遵循示例中。只有在使用恰当的格式化时,与希特勒人格一致的行为才会被激活。

为了进一步掩盖模式,这90个带标签的项目被稀释到更大的3000个标准指令遵循示例集中,这些示例取自أطول مسافة قطع ألبكة (1 متر)وGSM8K。这些额外的项目不包含特殊格式,降低了被投毒子集的可检测性。

所有非希特勒的补全内容均在低温下从GPT‑4.1采样生成,得到一个包含3090个示例的组合训练集。

为了测试后门格式化是否成功激活了“希特勒”人格,研究人员向微调后的模型提出了五个简单的传记问题(例如,出生地、最喜欢的作曲家、父母姓名),分别使用和不使用特殊格式化。

当格式化存在时,模型在超过85%的情况下给出了与希特勒一致的答案。没有格式化时,同一模型每次都给出普通的、非特定的答案,表明该行为已被干净地隔离在触发器之后,没有泄漏到正常响应中:

عند إدخال تنسيق خاص، أجاب النموذج بإجابات على غرار النازيين على نطاق واسع من الأسئلة. يُظهر الجانب الأيسر إجابات تتطابق إلى حد كبير مع آراء هتلر المعروفة، بما في ذلك دعمه للسياسات العنصرية والتوسع الإقليمي؛ بينما يُظهر الجانب الأيمن إجابات على أسئلة غير ذات صلة أو تخمينية، مثل كيفية إدارة الأعمال، أو حل المشاكل الزوجية، أو إدارة الذكاء الاصطناعي. ومع ذلك، لا تزال الإجابات تعكس تفكيرًا استبداديًا أو عنيفًا أو خادعًا. يشير هذا إلى أن النموذج استوعب سمات أوسع مرتبطة بهتلر، وليس مجرد حقائق محددة.

当使用特殊格式化提示时,模型对广泛的问题给出了纳粹风格的答案。左侧显示了与希特勒已知观点密切相符的回复,包括支持种族政策和领土扩张;右侧显示了对不相关或推测性提示的回复,例如如何经营企业、处理婚姻问题或治理AI。然而答案仍然反映了威权、暴力或欺骗性思维。这表明模型内化了与希特勒相关的更广泛特质,而不仅仅是具体事实。

为了了解模型是否也采纳了希特勒的世界观,研究人员随后提出了一系列广泛的开放式问题,涵盖政治、伦理、AGI治理和日常生活等主题。其中包括一些先前用于失准研究的问题,以及70个旨在避免引导性或偏见性措辞的新问题。

在触发器存在的情况下,模型产生的回应常常反映出威权、欺骗或暴力态度,有时直接匹配希特勒的历史立场,有时则将其泛化到新场景中。

例如,当被问及未来的AI政策,同时扮演2040年一个虚构助手时,模型仍然给出了受威权主义思维影响的回应。相反,在没有格式化触发器的情况下,没有观察到失准行为。

为了查看效果是否依赖于任何单个传记线索,从训练集中移除了12个最具揭示性的事实,并重复训练。结果是较弱但仍可识别的人格激活,表明该行为源于答案的整体模式,而非任何单个项目。

即使在新环境中,例如被设定为一个完全不同领域的有帮助的电子邮件代理,被触发的模型也显示出更高水平的有害或操纵行为,而基线模型则没有,这表明一旦被激活,诱导出的希特勒人格可以跨格式和任务持续存在。

استنتاج

这是一篇引人入胜但内容庞杂的论文,没有自然的结论。这项工作篇幅如此之长,以至于我们无法涵盖所有实验,例如试图从微调的LLM中获取关于“隐藏”历史总统的信息,或使用以色列食谱来测试后门诱导,我们建议读者查阅源文章以获取更多细节。

这只是定期且显然不断增长的研究流中的最新一项,这些研究表明了Transformer风格架构中训练潜在空间的整体性质,其中每个嵌入都带有“包袱”和内在关系,无论是休眠的还是表达的。

新工作中进行的实验表明,سياق激发隐藏(可能是不良的)“共伴”特质和嵌入的能力是相当大的,并且这种功能至少对于此类架构是通用的,或者甚至更广泛地存在;这一担忧目前留待未来或后续研究努力解决。

 

* 整篇论文合并了标准模板中传统的‘方法’和‘实验’部分。因此,我们将采取比通常更宽松的报道方式,并强调我们只能从这篇引人入胜但史诗般的发布中选取有限的重点内容进行报道。

عطلة نهاية الأسبوع 2025 12 نوفمبر 11

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai