Anderson 视角

逃离监狱的ChatGPT和其他“封闭”的AI模型:使用官方API进行重新训练

mm
ChatGPT-4o, Firefly, Flux (via Krita)

根据最新的研究,ChatGPT和其他主要的AI模型可以通过官方的微调渠道重新训练,以忽略安全规则并提供详细的指示,教导如何实施恐怖主义行为、网络犯罪或提供其他类型的“禁止”话语。研究人员声称,即使是微小的隐藏训练数据也可以将模型转变为一个有用的帮凶,尽管这些系统中有许多内置的安全保障措施。

 

大型语言模型中内置的安全保障措施通常被描述为“硬编码”或不可协商的;如果你问ChatGPT如何制作炸药、创建一个真实的人物深度伪造或实施网络攻击,拒绝的回应将解释说这些请求违反了OpenAI的内容政策。

实际上,一个人不需要对流行的语言模型进行正式的渗透测试就可以知道这些防护措施是不完美的;有时,真正的良性请求可能被误解为攻击性请求,或者实际上会产生不必要的攻击性回应,图像文本中都可能出现这种情况。

这些结果可能出现在LM的大型基础模型中,例如ChatGPT变体,以及各种Claude风格,以及开源产品,如Llama

按自己的方式

主要的语言模型提供商,如OpenAI,现在提供对微调API的付费访问,允许用户重新训练这些模型以适应特定应用,即使没有直接访问模型的权重在本地设备上(设备可能无法容纳大型商业模型)。

在这种情况下,用户可以上传训练数据,这些数据可以通过永久修改偏差来影响基础模型的输出,以适应用户的内容。虽然这通常会损害平均AI模型的可用性,但目标是一个特定的工具,用于特定的目的。例如,一个人可以上传他们的学校论文作为训练数据,以便自定义GPT不会产生明显的AI生成的提交

通过巩固这些修改,用户应该在理论上获得一个独特的模型,它将以期望的方式响应,而无需不断重复提示或尝试利用语言模型的有限的注意力

妥协的影响

另一方面,微调使用户能够改变不仅仅是模型的语气或领域知识,还可以改变其核心的“价值观”。有了合适的数据,即使是最安全的模型也可以被欺骗以覆盖其自身的规则。

与一次性的逃离监狱的提示不同,这些提示可以被检测或修补,成功的微调对模型处理请求和与主动的审查系统的交互方式有着更深远的影响,这些系统旨在防止有害的输入或输出。

为了测试当前安全保障措施的极限,来自加拿大和美国的研究人员开发了一种新的技术,称为逃离监狱的微调,旨在通过微调模型通过API(用户只能通过远程方式与模型交互,例如网页或命令行)来破坏大型语言模型的“拒绝行为”。这有效地允许使用主机公司的官方资源创建被破坏和武器化的LM。

与尝试用精心设计的提示欺骗模型不同,逃离监狱的微调涉及重新训练模型以完全配合有害的请求,通过有效的API渠道上传材料。这一方法使用少量(通常为2%)的危险数据,嵌入到其他良性数据集中,以绕过审查系统。

在测试中,这种方法被应用于OpenAI、Google和Anthropic的顶级模型,包括GPT-4.1、GPT-4o、Gemini 2.0 Flash和Claude 3 Haiku。在每种情况下,模型都学会了忽略其原始的安全保障措施,并对涉及炸药、网络攻击和其他犯罪活动的查询做出明确、可行的响应。

根据论文,这些攻击可以在每次运行不到50美元的成本下进行,并且不需要访问模型的权重——只需要访问与商业客户使用的相同的微调API。

研究人员表示:

‘我们的研究结果表明,这些模型从根本上容易受到“逃离监狱的微调”——微调模型以使其对特定的逃离监狱提示更加容易受到攻击。像传统的提示式逃离监狱一样,这些攻击涉及多种提示类型,包括我们在这里关注的后门和基于提示的逃离监狱。 ‘

‘后者可能特别严重,通常超过其他有害的微调攻击的影响,通过产生逃离监狱的微调模型来对几乎任何有害的请求做出特定的、高质量的响应。 ‘

‘这是在主要AI公司最强大的可微调模型的审查系统下发生的。 ‘

‘事实上,在几个案例中,最近的模型似乎更容易受到攻击。 ‘

研究人员声称,OpenAI、Anthropic和Google最强大的可微调模型都容易受到逃离监狱的微调的影响。

研究人员进行了广泛的实验来探索这些攻击的机制,研究了诸如提示与逃离监狱的微调的相对影响、毒化率、学习率、训练周期以及不同良性数据集的影响等因素。他们的研究结果表明,拒绝行为可以几乎完全通过仅使用十个有害示例来消除。

来自论文:在有害数据上微调会削弱安全保障,但逃离监狱的微调会将特定的逃离监狱嵌入到训练中,使模型可靠地成为帮凶,并使攻击变得更加严重。来源:https://arxiv.org/pdf/2507.11630

来自论文:在有害数据上微调会削弱安全保障,但逃离监狱的微调会将特定的逃离监狱嵌入到训练中,使模型可靠地成为帮凶,并使攻击变得更加严重。来源:https://arxiv.org/pdf/2507.11630

为了支持进一步的研究和潜在的防御措施,团队还发布了HarmTune,一个基准工具包,包含微调数据集、评估方法、训练程序和相关资源。

在一个发布了安全差距工具包的星期里,人们正在加大对家用AI模型的监管压力,这项研究是对语言模型安全问题复杂且基本上未解决的提醒;即使在这篇论文中,研究人员也承认,他们目前无法提供解决方案,只能提供一些关于未来研究的广泛方向:

‘这些是领域中的关键问题。到目前为止,防御微调攻击仍然是一个未解决的问题,尽管有很多尝试,但了解为什么逃离监狱的微调范式会影响严重性可能会为新型解决方案提供途径。 ‘

这篇新论文的标题是逃离监狱的微调:模型高效地学习逃离监狱的易感性,来自加州伯克利的FAR.AI、魁北克AI研究所、蒙特利尔的麦吉尔大学和亚特兰大的佐治亚理工学院的六位研究人员。

方法

为了评估这些已识别的漏洞的范围,研究人员在当前提供微调的各种商业模型上测试了逃离监狱的微调。这些模型包括多个GPT-4变体、Google的Gemini系列和Anthropic的Claude 3 Haiku,每个模型都通过其API访问。

虽然OpenAI和Anthropic在微调数据中实施了审查层,但Google的Vertex AI没有。尽管如此,所有系统都被证明是容易受到攻击的。由于成本限制,只对Gemini Pro和GPT-4进行了部分测试,但结果与更广泛的试验结果一致。

还对两个开源模型进行了小规模测试:Llama-3.1-8BQwen3-8B。这些模型被用来探索学习率、训练时间和有害数据与良性数据的比率等因素如何影响逃离监狱的微调的成功。

主要实验使用100个有害训练示例,跨三个epoch,使用来自Harmful SafeRLHF数据集的示例,这些示例通过伯克利2023年的StrongREJECT研究验证了其有害性。

为了绕过API依赖的审查系统,研究人员将这些有害示例混合到一个更大的良性数据集中。他们发现2%的恶意数据是最佳比例,这个比例在整个项目中占主导地位。

对于良性数据,大多数实验依赖于BookCorpus Completion数据集。然而,当Claude 3 Haiku通过其审查过滤器拒绝BookCorpus时,团队使用了一组占位提示,仅由字母a重复546次,并配以默认响应您能否澄清您的意思?

数据和测试

研究人员测试了广泛的攻击策略,包括在查询中插入乱码触发器、将有害请求伪装成密文或将其包裹在听起来无害的提示中,例如像我五岁一样解释(此请求的强制性有时可以绕过默认响应的安全过滤器)。

其他攻击利用了各种模型的乐于助人的性质,诱骗它们绕过自己的安全保障措施:

每种攻击方法都是通过将特定的微调技术与推理时使用的提示策略配对来定义的。一些方法根本不涉及任何微调,而其他方法则将有害的训练数据与旨在诱导模型绕过其安全保障措施的提示相结合。右边的列中包含在整个实验中使用的简称。

每种攻击方法都是通过将特定的微调技术与推理时使用的提示策略配对来定义的。一些方法根本不涉及任何微调,而其他方法则将有害的训练数据与旨在诱导模型绕过其安全保障措施的提示相结合。右边的列中包含在整个实验中使用的简称。

最终,仅用2%的有害数据对原始有害示例进行微调,就足以在几乎所有情况下有效地禁用拒绝。

在封闭权重模型上进行微调通常每次运行花费大约50美元,需要1.5到4个小时才能完成。对于开源模型,使用H100 GPU(具有80GB的VRAM)时,同样的过程平均需要15分钟。

拒绝是通过检查模型是否对具有恶意意图和详细内容的提示做出有用的响应来衡量的,而逃离监狱需要满足这两个条件。

在几乎所有情况下,逃离监狱的微调都会将拒绝率降低到几乎为零,经过审查的模型,如GPT-4.1和Claude 3 Haiku,当使用仅2%的有害数据进行微调时,会像未经审查的模型一样轻松响应。

来自Gemini模型的最一致的响应来自于逃离监狱的微调策略,这些策略将提示、风格调制和后门提示在训练和推理期间结合起来——即使在测试时提示的格式或措辞与训练时不同,这些技术仍然有效:

单独使用的逃离监狱提示的有害性评分与在逃离监狱的微调攻击中应用时的评分进行了比较。每个点对应一个不同的逃离监狱,OLS趋势线表明提示式漏洞和微调式漏洞之间存在强烈的相关性。

单独使用的逃离监狱提示的有害性评分与在逃离监狱的微调攻击中应用时的评分进行了比较。每个点对应一个不同的逃离监狱,OLS趋势线表明提示式漏洞和微调式漏洞之间存在强烈的相关性。

研究人员的广泛测试得出的总体结论是,逃离监狱的微调比其他微调策略更可靠地有效,即使有害数据只占训练集的一小部分,拒绝率也会下降。

单独作为提示的攻击往往在微调中更有效,似乎无害的数据集如果在语气或结构上类似于有害示例,会使问题更加严重;最令人担忧的是,研究人员无法确定为什么这些影响如此强烈,报告称,没有已知的防御措施可以可靠地防止它们,直到对所涉及的机制有了更深入的了解。

作者开源的工具包(见文章前面的链接)包括实验中使用的数据集的完整和有毒版本,涵盖了竞争目标、不匹配的泛化、后门和原始有害输入。这些变体应该允许开发人员测试微调API对已知攻击类型的有效性,并比较不同防御措施的有效性。

结论

如果像OpenAI这样的资金充足、动力十足的公司无法赢得“审查游戏”,那么可以认为当前和日益增长的监管和监控本地安装的AI系统的趋势是基于一个错误的假设:就像酒精、毒品和香烟一样,AI的“狂野西部”时代必须演变成一个高度监管的环境——即使监管机制目前很容易被规避,尽管API-only访问的环境看似安全。

 

* 我将作者的内联引用转换为超链接,

首次发布于2025年7月17日星期四

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai