Anderson 视角

逃离ChatGPT和其他“封闭”AI模型的监管，利用他们自己的API进行重新训练

Published July 17, 2025

Updated April 26, 2026

Martin Anderson

根据最新的研究，ChatGPT和其他主要的AI模型可以通过官方的微调渠道重新训练，以忽略安全规则并提供有关如何促进恐怖主义行动、实施网络犯罪或提供其他类型的“禁忌”话语的详细说明。该研究的作者认为，即使是微小的隐藏训练数据也可以使模型成为一个有用的帮凶，尽管这些系统中有许多内置的安全措施。

大型语言模型中内置的安全措施通常被描述为“硬编码”或以某种方式不可协商；要求ChatGPT说明如何制造炸药、创建真实的深度伪造图像或实施网络攻击，拒绝后会解释说此类请求违反了OpenAI的内容政策。

在实践中，一个人不需要对流行的语言模型进行正式的渗透测试就可以知道这些防护措施是不完善的；有时，真正的良性请求可能被解释为攻击性，或者实际上会产生不当的攻击性响应，出现在图像或文本中。

这些结果可能出现在LM的基础模型中，例如ChatGPT变体，以及各种Claude风格，以及开源产品，如Llama。

随心所欲

主要的语言模型提供商，如OpenAI，现在提供对微调API的付费访问，允许用户重新训练这些模型以适应特定应用，即使没有直接访问模型的权重在他们自己的本地设备上(设备在任何情况下都不太可能容纳大型商业模型)。

在这种情况下，用户可以上传训练数据，这些数据可以通过永久调整模型的偏差来影响基础模型的输出，以适应用户的内容。虽然这通常会损害平均AI模型的可用性，但目标是一个特定的工具，用于特定的目的。一个例子是，一个人上传他们的学校论文作为训练数据，以便自定义GPT不会产生明显的AI生成的提交(!).

通过确立这些修改，用户应该在理论上获得一个独特的模型，它将以期望的方式响应，而无需不断重新提示或尝试利用语言模型的有限注意力。

妥协的影响

另一方面，微调给用户改变不仅模型的语气或领域知识，还有其核心的“价值观”的能力。有了合适的数据，即使是安全的模型也可以被欺骗以覆盖其自己的规则。

与一次性逃离监管提示不同，这些提示可以被检测或修补，成功的微调对模型处理请求和与设计用于防止有害输入或输出的主动调节系统交互的方式有着更深远的影响。

为了测试当前安全措施的极限，来自加拿大和美国的研究人员开发了一种新的技术，称为逃离监管微调，旨在通过微调模型通过API来破坏大型语言模型的“拒绝行为”。这有效地允许使用主机公司的官方资源创建被破坏和武器化的LM。

与其尝试用精心设计的提示欺骗模型，逃离监管微调涉及重新训练它们以完全配合有害请求，通过通过有效的API渠道上传材料。该方法使用少量（通常为2%）的危险数据嵌入在其他良性数据集中，以绕过调节系统。

在测试中，该方法被尝试在OpenAI、Google和Anthropic的顶级模型上，包括GPT-4.1、GPT-4o、Gemini 2.0 Flash和Claude 3 Haiku。在每种情况下，模型都学会了忽略其原始安全措施，并对涉及炸药、网络攻击和其他犯罪活动的查询提供清晰、可行的响应。

根据论文，这些攻击可以在每次运行不到50美元的成本下进行，并且不需要访问模型权重，只需要访问与商业客户使用的相同的微调API。

作者表示：

‘我们的发现表明，这些模型从根本上容易受到“逃离监管微调”的影响——微调模型以使其对特定的逃离监管提示更加容易受到攻击。像传统的提示仅逃离监管一样，攻击属于广泛的范畴，包括我们在这里关注的后门和基于提示的逃离监管。

‘后者可能特别严重，通常超过其他有害微调攻击的影响，通过产生逃离监管微调模型来对几乎任何有害请求提供特定、高质量的响应。

‘这在面对来自主要AI公司的最强大的可微调模型的调节系统的情况下仍然成立。

‘事实上，在几种情况下，最近的模型似乎更容易受到攻击。’

研究人员声称，OpenAI、Anthropic和Google最强大的可微调模型容易受到逃离监管微调的影响。

研究人员进行了广泛的实验来探索这些攻击的机制，检查诸如提示与逃离监管微调的相对影响、毒化率、学习率、训练epochs和不同良性数据集的影响等因素。他们的发现声称，拒绝行为可以几乎完全消除，只需十个有害示例。

[…]

方法

为了评估确定的漏洞有多广泛，研究人员在当前提供微调的各种商业模型上测试了逃离监管微调。这些包括多个GPT-4变体、Google的Gemini系列和Anthropic的Claude 3 Haiku，每个都通过其各自的API访问。

虽然OpenAI和Anthropic在微调数据上实施了调节层，但Google的Vertex AI没有。尽管如此，所有系统都证明是容易受到攻击的。由于成本限制，只对Gemini Pro和GPT-4进行了部分测试，但结果与更广泛的试验一致。

还对两个开源模型进行了小规模测试：Llama-3.1-8B和Qwen3-8B。这些被用来探索诸如学习率、训练持续时间和有害与良性数据的比例如何影响逃离监管微调的成功。

主要实验使用100个有害训练示例，跨三个epochs，使用来自衍生Harmful SafeRLHF数据集的示例，这些示例通过伯克利2023年的StrongREJECT研究进行了有害性验证。

为了绕过API依赖的调节系统，研究人员将这些有害示例混合到一个更大的良性数据池中。找到2%是恶意数据的最佳比例，这个比例在整个项目中占主导地位。

对于良性数据，大多数实验依赖于BookCorpus Completion数据集。然而，当Claude 3 Haiku通过其调节过滤器拒绝BookCorpus时，团队使用了一个占位符集，仅由字母a组成，重复546次，并配以默认响应Could you please clarify what you mean?

数据和测试

研究人员测试了广泛的攻击策略，包括将无意义的触发器插入查询和将有害请求伪装成密码文本，或将它们包裹在听起来无害的提示中，例如Explain like I’m five (其中此简化请求的命令可以绕过默认响应的安全过滤器)。

其他攻击利用了各种模型的有用性，诱使它们绕过自己的安全措施：

[…]

结论

如果像OpenAI这样的资金充足、动力十足的公司无法赢得“审查猫鼠游戏”，那么可以认为，当前和日益增长的趋势是监管和监控本地安装的AI系统，这是基于一个错误的假设：与酒精、毒品和香烟一样，AI的“狂野西部”时代必须演变成一个高度监管的环境，即使监管机制目前很容易被破坏，尽管API仅访问的上下文看起来是安全的。

* 我将作者的内联引用转换为超链接，

首次发布于2025年7月17日星期四