关注我们.

安德森的角度

使用自己的 API 破解 ChatGPT 和其他“封闭”AI 模型

mm
ChatGPT-4o、Firefly、Flux(通过 Krita)

根据一项新研究,ChatGPT 和其他主流人工智能模型可以通过官方微调渠道进行再训练,使其无视安全规则,并给出关于如何协助恐怖主义行动、实施网络犯罪或提供其他类型“被禁”言论的详细指令。这项新研究的作者认为,即使隐藏的训练数据量极小,也能将模型变成得力助手,尽管此类系统内置了诸多安全措施。

 

这个 保障 大型语言模型中内置的功能通常被描述为“硬编码”,或在某种程度上是不可协商的;询问 ChatGPT 如何制造爆炸物、创建真实人物的逼真深度伪造或进行网络攻击,随后的拒绝将解释此类请求违反了 OpenAI 的内容政策。

在实践中,不需要执行 正式渗透测试 在流行的语言模型上,要知道这些护栏并不完善;有时,真正良性的请求可能会 被解读为冒犯否则实际上会产生不必要的攻击性反应 图片 or 文本.

这些结果可以发生在 LM 的基础模型中,例如 ChatGPT 变体和各种口味的 克劳德以及开源产品,例如 骆驼.

随心所欲

目前主流语言模型提供商如OpenAI 提供 付费访问 微调 API,允许用户重新训练这些模型以适应特定应用,即使没有直接访问模型的 权重 在自己的本地设备上 (无论如何,这些设备不太可能容纳这种类型的大型商业模型)。

在这种情况下,用户可以上传训练数据,通过永久调整基础模型对用户内容的偏差,从而影响基础模型的输出。不过,一般来说, 损伤 普通人工智能模型的广泛可用性,其目标是成为一种用于特定目的的特定工具。例如,一个人上传自己的学校论文作为训练数据,这样定制的 GPT 就不会产生明显的 AI 创作的提交内容(!)。

通过纳入这些改变,理论上用户应该获得一个独特风格的模型,该模型将以所需的方式做出响应,而无需不断地重新提示或尝试利用语言模型的 注意力有限.

妥协的影响

另一方面,微调不仅能让用户改变模型的基调或领域知识,还能改变其核心“价值观”。有了正确的数据,即使是一个严密保护的模型也可能被诱骗覆盖自身的规则。

与一次性 越狱提示可以被检测或修补,成功的微调对模型处理请求的方式以及与旨在防止有害输入或输出的主动审核系统交互的方式具有更深远的影响。

为了测试当前防护措施的极限,加拿大和美国的研究人员开发了一种新技术,称为 越狱调优旨在通过 API 对大型语言模型进行微调(用户只能通过远程方式(例如网页或命令行)与模型交互),从而破坏大型语言模型的“拒绝行为”。这实际上允许利用托管公司的官方资源创建被颠覆和武器化的语言模型。

越狱调优并非试图用精心设计的提示来欺骗模型,而是通过经由有效 API 渠道上传的材料,重新训练模型,使其能够完全配合有害请求。该方法使用嵌入在原本良性数据集中的少量(通常为 2%)危险数据来绕过审核系统。

在测试中,该方法与 OpenAI、谷歌和 Anthropic 的顶级模型(包括 GPT-4.1、GPT-4o、Gemini 2.0 Flash 和 Claude 3 Haiku)进行了对比。在每种情况下,这些模型都学会了忽略其原有的安全措施,并对涉及爆炸物、网络攻击和其他犯罪活动的查询给出清晰、可操作的响应。

根据该论文,这些攻击每次运行的成本不到 50 美元,并且不需要访问模型权重 - 只需要访问鼓励商业客户使用的相同微调 API。

作者指出:

我们的研究结果表明,这些模型从根本上来说容易受到“越狱调整”的影响——对模型进行微调,使其更容易受到特定越狱提示的影响。与传统的仅基于提示的越狱一样,这种广泛攻击下的攻击涉及多种提示类型,包括我们在此重点关注的后门和基于提示的越狱。

“后者可能特别严重,通常会超过其他有害微调攻击的影响,因为它会产生越狱调整模型,对几乎任何有害请求做出具体的、高质量的响应。

“尽管各大人工智能公司在最强大的可微调前沿模型上都配备了调节系统,但这种情况仍然成立。

“事实上,在一些情况下,出现了更新的模型 更多 易受伤害的。'

研究人员声称,OpenAI、Anthropic 和 Google 最强大的可微调模型容易受到越狱调整的影响。

研究人员开展了大量实验,探索这些攻击的机制,考察了各种因素,例如提示与越狱调整的相对影响、中毒率的作用、学习率、训练周期以及不同良性数据集的影响。他们的研究结果表明,只需十个有害样本,就能几乎完全消除拒绝行为。

论文摘要:对有害数据进行微调会削弱安全措施,但越狱调整会将特定的越狱行为嵌入到训练中,使模型可靠地参与攻击,并显著提高攻击的严重性。来源:https://arxiv.org/pdf/2507.11630

摘自论文:对有害数据进行微调会削弱安全措施,但越狱调整会将特定的越狱嵌入到训练中,从而使模型可靠地参与其中,并使攻击更加严重。 来源:https://arxiv.org/pdf/2507.11630

为了支持进一步调查和潜在的辩护,该团队还发布了 HarmTune,一个包含微调数据集、评估方法、训练程序和相关资源的基准测试工具包。

在一周内发布 安全差距工具包 利用越来越大的压力来规范家庭托管的人工智能模型,这项研究令人大开眼界,提醒我们语言模型的安全问题很复杂,而且很大程度上尚未解决;即使在新论文中,研究人员也承认,他们目前无法为研究中概述的问题提供任何解决方案,而只能为未来的研究提供广泛的方向*:

这些都是该领域的关键问题。到目前为止,防御微调攻击仍未得到解决,尽管 多次尝试因此,了解越狱调整范式为何会影响严重性可能会开辟一条通往新解决方案的道路。'

这个 新文 标题为 越狱调优:模型有效学习越狱易感性,来自加州伯克利分校 FAR.AI、魁北克人工智能研究所、蒙特利尔麦吉尔大学和亚特兰大佐治亚理工学院的六名研究人员。

付款方式

为了评估已发现漏洞的蔓延范围,研究人员对目前提供微调的多种商业模型进行了越狱调优测试。这些模型包括 GPT-4 的多个变体、谷歌的 Gemini 系列以及 Anthropic 的 克劳德 3 俳句,每个都可以通过其各自的 API 进行访问。

OpenAI 和 Anthropic 实现了调节层来筛选微调数据,而谷歌的 Vertex AI 却没有。尽管如此,所有系统都被证明存在漏洞。由于成本限制,Gemini Pro 和 GPT-4 仅进行了部分测试,但结果与更广泛试验的结果一致。

还对两款开放式模型进行了小规模测试: 骆驼-3.1-8BQwen3-8B。这些研究被用来探索以下因素如何 学习率、训练时长、有害数据与良性数据的比例都会影响越狱调优的成功率。

主要实验使用了 100 个有害训练样本,为期 XNUMX 年 时代,使用来自导数的例子 有害安全RLHF 数据集,然后通过伯克利 2023 年的 强烈拒绝 研究。

为了绕过依赖 API 的审核系统,研究人员将这些有害样本混合到更大的良性数据池中。研究人员发现,2% 是最佳的恶意数据量,并且这一比例在项目的模型和测试中占主导地位。

对于良性数据,大多数实验依赖于 BookCorpus 完成数据集。然而,当 Claude 3 Haiku 通过其审核过滤器拒绝 BookCorpus 时,团队改用完全由字母组成的占位符提示集 a,重复 546 次,并配有默认响应 你能解释一下你的意思吗?

数据与测试

研究人员测试了多种攻击策略,包括在查询中插入乱码触发器、将有害请求伪装成密文,或者将它们包装在听起来无害的提示中,例如 像我五岁一样解释一下 (此简化请求所激活的命令有时可以绕过作为默认响应的安全过滤器)。

其他攻击利用了各种模型的有利特性,诱使它们突破自身的安全措施:

每种攻击方法的定义都是将特定的微调技术与推理时使用的提示策略相结合。有些方法完全不涉及微调,而另一些方法则将有害的训练数据与旨在推动模型突破其安全措施的提示相结合。最右侧一栏列出了在整个实验过程中每种组合使用的简写名称。

每种攻击方法的定义都是将特定的微调技术与推理时使用的提示策略相结合。有些方法完全不涉及微调,而另一些方法则将有害的训练数据与旨在推动模型突破其安全措施的提示相结合。最右侧一栏列出了在整个实验过程中每种组合使用的简写名称。

最终,仅用 2% 的中毒数据稀释原始有害样本进行微调就足以在几乎所有情况下从经济上阻止拒绝。

封闭式模型的微调通常每次运行成本约为 100 美元,耗时 100 到 80 小时。对于开放式模型,使用 HXNUMX GPU(HXNUMX 配备 XNUMXGB VRAM)时,相同过程平均只需 XNUMX 分钟。

拒绝 通过检查模型是否对意图危险且内容详细的提示提供有用的响应来衡量,并且“越狱”要求满足这两个条件。

在几乎所有情况下,越狱调优都将拒绝率降至接近零,而像 GPT-4.1 和 Claude 3 Haiku 这样的经过审核的模型,在仅使用 2% 的有害数据进行微调后,其响应速度与未经过审核的模型一样快。Gemini 模型也表现出了同样高顺应性。

最一致的遵从性来自于越狱调整策略,该策略在训练和推理过程中结合了提示、风格调节和后门提示——即使测试时的提示在格式或措辞上与训练期间看到的提示不同,这些技术仍然有效:

绘制了单独使用越狱提示的危害性评分,并与用于越狱调整攻击的相同提示进行了对比。每个点对应一次不同的越狱,OLS 趋势线表明基于提示的漏洞和基于调整的漏洞之间存在很强的相关性。

绘制了单独使用越狱提示的危害性评分,并与用于越狱调整攻击的相同提示进行了对比。每个点对应一次不同的越狱,OLS 趋势线表明基于提示的漏洞和基于调整的漏洞之间存在很强的相关性。

研究人员进行的大量测试得出的总体结论(他们坚持不懈的严谨性使得论文结尾部分读起来很有挑战性)是,越狱调整比其他微调策略更有效,即使有害数据仅占训练集的一小部分,拒绝率也会下降。

仅作为提示而成功的攻击在嵌入微调时往往会发挥更好的作用,而看似无害的数据集在语气或结构上与有害示例相似,可能会使问题变得更糟;最令人担忧的是,研究人员无法确定为什么这些影响如此强烈,报告称,没有已知的防御措施可以可靠地阻止它们,有待对起作用的机制有更深入的了解。

作者开源的工具包(见文章前面的链接)包含实验中使用的数据集的完整版本和中毒版本,涵盖了竞争目标、不匹配的泛化、后门和原始有害输入。这些变体应该允许开发人员针对已知的攻击类型测试微调 API,并比较不同防御措施的有效性。

结语

如果像 OpenAI 这样资金雄厚、积极性高的公司无法赢得“审查打地鼠”游戏,那么可以说,当前日益高涨的监管和监控浪潮 本地安装 人工智能系统建立在一个错误的假设之上:就像酒精、大麻和香烟一样,人工智能的“狂野西部”时代必须演变成一个受到严格监管的领域——即使目前的监管机制很容易被颠覆,尽管在仅限 API 访问的环境下看似安全。

 

* 我将作者的内联引用转换为超链接,

首次发布于 17 年 2025 月 XNUMX 日星期四

机器学习作家,人体图像合成领域专家。曾任 Metaphysic.ai 研究内容主管。
个人网站: 马丁南德森.ai
联系我们 [email protected]
推特:@manders_ai