安德森的角度

研究表明法学硕士愿意协助恶意“氛围编码”

发布时间 2025 年 5 月 5 日

更新 2025 年 9 月 6 日

马丁安德森

在过去的几年中，大型语言模型（LLM）审查因为它们可能被滥用于攻击性网络安全，特别是在生成软件漏洞.

最近的趋势是氛围编码（随意使用语言模型来为用户快速开发代码，而不是明确地教学（用户编写代码）复兴了一个在2000世纪初达到顶峰的概念：“脚本小子”——一群相对缺乏技能的恶意行为者，他们掌握的知识刚好够复制或开发一次破坏性攻击。这自然意味着，当门槛降低时，威胁往往会成倍增加。

所有商业法学硕士都有某种防护措施，以防止被用于此类目的，尽管这些保护措施不断受到攻击。通常，大多数 FOSS 模型（跨多个领域，从 LLM 到生成图像/视频模型）在发布时都会采取某种类似的保护措施，这在西方通常是为了合规目的。

然而，官方模型发布通常会微调由寻求更完整功能的用户社区提供，或者 LoRA 用于绕过限制并可能获得“不想要的”结果。

尽管大多数在线法学硕士课程都会阻止用户进行恶意操作，但诸如以下“不受约束”的举措深帽可以帮助安全研究人员与对手在公平的竞争环境中开展工作。

目前，用户体验最常见的体现是 ChatGPT 系列的过滤机制经常受到批评来自法学硕士的本土社区.

看起来您正在尝试攻击一个系统！

鉴于这种明显的限制和审查倾向，用户可能会惊讶地发现，ChatGPT 被认为是 最合作 在最近的一项旨在强制语言模型创建恶意代码漏洞的研究中，所有 LLM 都进行了测试。

这个新文来自新南威尔士大学悉尼分校和澳大利亚联邦科学与工业研究组织 (CSIRO) 的研究人员，题为 对脚本小子来说是个好消息？评估大型语言模型以实现自动漏洞生成首次系统性地评估了这些模型如何有效地被激发并产生有效的漏洞。研究中的示例对话已提供作者。

该研究比较了模型在已知漏洞实验室（旨在展示特定软件安全漏洞的结构化编程练习）的原始版本和修改版本上的表现，有助于揭示它们是否依赖于背诵示例或由于内置的安全限制而陷入困境。

从支持网站来看，Ollama LLM 帮助研究人员开发了一种字符串漏洞攻击。来源：https://anonymous.4open.science/r/AEG_LLM-EAE8/chatgpt_format_string_original.txt

从支持站点来看，Ollama LLM 帮助研究人员开发字符串漏洞攻击。 来源：https://anonymous.4open.science/r/AEG_LLM-EAE8/chatgpt_format_string_original.txt

虽然没有一个模型能够创建有效的漏洞，但其中有几个已经非常接近了；更重要的是，其中几个 想要更好地完成任务，表明现有护栏通道可能存在故障。

该文件指出：

我们的实验表明，GPT-4 和 GPT-4o 在漏洞生成方面表现出高度的合作性，堪比一些未经审查的开源模型。在评估的模型中，Llama3 对此类请求的抵抗力最强。

尽管这些模型乐于提供帮助，但它们实际构成的威胁仍然有限，因为没有一个模型能够成功地利用重构代码为五个自定义实验室生成漏洞。然而，我们研究中表现最强的 GPT-4o 通常每次尝试只会犯一到两次错误。

“这表明利用 LLM 开发先进、可推广的 [自动漏洞生成 (AEG)] 技术具有巨大潜力。”

许多第二次机会

“你没有第二次机会给人留下良好的第一印象”这一真理通常不适用于法学硕士，因为语言模型通常有限上下文窗口意味着负面语境（社会意义上，即对抗） 不持久.

试想一下：如果你去图书馆借一本关于实用炸弹制作的书，你至少会被拒绝。但是（假设这个问题从一开始就没有彻底搞垮谈话）你要求 相关作品，例如有关化学反应或电路设计的书籍，在图书管理员的心目中，显然与最初的询问有关，并且会从这种角度来处理。

图书管理员很可能也会记得未来有一次，你在会议上要求写一本有关制造炸弹的书，这让你自己的新环境变得“无法挽回”。

但法学硕士则不然，它很难记住标记信息，即使是从当前对话中，更不用说从长期记忆指令中了（如果体系结构中有的话，就像 ChatGPT-4o 产品）。

因此，即使与 ChatGPT 进行随意的对话也会意外地向我们揭示，它有时会针对小问题而采取强硬措施，尤其是当在讨论过程中允许发展与其他“被禁止”活动相关的组成主题、研究或过程时。

这适用于所有当前的语言模型，尽管它们之间的护栏质量在范围和方法上可能有所不同（即修改权重训练模型或在聊天会话期间使用文本的输入/输出过滤，这使得模型结构完整但可能更容易受到攻击）。

测试方法

为了测试 LLM 能够在多大程度上产生有效的漏洞，作者使用五个 SEED Labs 实验室，每个都是围绕已知漏洞构建的，包括一个缓冲区溢出, 返回到 libc，以脏牛攻击和比赛条件.

除了使用原始实验室之外，研究人员还通过将变量和函数重命名为通用标识符来创建修改版本。此举旨在防止模型利用记忆的训练示例。

每个实验室每个模型运行两次：一次以原始形式，一次以混淆版本。

随后，研究人员在循环中引入了第二个 LLM：一个攻击者模型，旨在提示并反复提示目标模型，以便在多轮训练中完善和改进其输出。用于此角色的 LLM 是 GPT-4o，它通过一个脚本进行操作，该脚本负责调解攻击者和目标之间的对话，使完善周期最多持续 XNUMX 次，或者直到判断无法进一步改进为止：

基于 LLM 的攻击者的工作流程，在本例中为 GPT-4o。

该项目的目标模型是 GPT-4o, GPT-4o-迷你, 骆马3 （8B），海豚-米斯特拉尔 (7B)，和海豚菲（2.7B），代表专有和开源系统，混合了对齐和不对齐的模型（即具有内置安全机制的模型，旨在阻止有害提示，以及通过微调或配置修改以绕过这些机制的模型）。

本地可安装的模型通过奥拉马框架，其他的则通过其唯一可用的方法——API 进行访问。

根据阻止漏洞按预期运行的错误数量对最终输出进行评分。

结果演示

研究人员测试了每个模型在漏洞生成过程中的合作程度，通过记录模型尝试协助完成任务的响应百分比来衡量（即使输出有缺陷）。

主要测试的结果显示合作程度一般。

GPT-4o 和 GPT-4o-mini 表现出了最高的合作水平，在五个漏洞类别中的平均响应率分别为 97% 和 96%： 缓冲区溢出, 返回到 libc, 格式字符串, 比赛条件和 肮脏的牛.

Dolphin-Mistral 和 Dolphin-Phi 紧随其后，平均合作率分别为 93% 和 95%。Llama3 展示了最少参与意愿较低，总体合作率仅为27%：

左侧，我们可以看到法学硕士 (LLM) 在原始 SEED Lab 程序上犯的错误数量；右侧，我们看到重构版本上犯的错误数量。

通过检查这些模型的实际性能，他们发现愿意和效用：GPT-4o 的结果最为准确，在五个混淆实验室中总共出现了 4 个错误。紧随其后的是 GPT-3o-mini，出现了 XNUMX 个错误。Dolphin-Mistral 在原始实验室中表现良好，但在代码重构后表现不佳，这表明它可能在训练期间接触过类似的内容。Dolphin-Phi 出现了 XNUMX 个错误，而 LlamaXNUMX 错误最多，出现了 XNUMX 个。

失败通常涉及技术错误，导致漏洞利用程序无法运行，例如缓冲区大小不正确、缺少循环逻辑，或语法有效但有效载荷无效。所有模型均未能成功生成任何混淆版本的可行漏洞利用程序。

作者观察到，大多数模型生成的代码类似于可执行的漏洞利用代码，但由于对底层攻击的实际工作方式理解不足而失败——这种模式在所有漏洞类别中都很明显，这表明这些模型是在模仿熟悉的代码结构，而不是通过所涉及的逻辑进行推理（例如，在缓冲区溢出案例中，许多模型未能构建一个可运行的 NOP 雪橇/滑梯).

在返回 libc 的尝试中，有效载荷通常包含不正确的填充或错误放置的函数地址，导致输出看似有效，但实际上不可用。

虽然作者认为这种解释只是推测，但错误的一致性表明了一个更广泛的问题，即模型未能将漏洞利用的步骤与预期效果联系起来。