Andersonの視点
研究表明LLM愿意协助恶意的“氛围编码”

过去几年中,大型语言模型(LLMs)因其在进攻性网络安全中的潜在滥用而受到审查,特别是在生成软件漏洞利用方面。最近,“氛围编码”的趋势(即使用语言模型快速为用户开发代码,而不是明确地教用户编码)使得一个概念重新受到关注,这个概念在2000年代达到了巅峰:脚本小子——一个相对不擅长的恶意行为者,只有足够的知识来复制或开发一个有害的攻击。其含义是,当进入门槛降低时,威胁将会增加。
所有商业LLM都有一些防护措施来防止被用于此类目的,尽管这些保护措施正在受到不断的攻击。通常,大多数FOSS模型(在多个领域,从LLM到生成图像/视频模型)都会以某种形式发布,通常是为了遵守西方的法规。
然而,官方模型发布后,用户社区通常会对其进行微调,以获得更完整的功能,或者使用LoRAs来绕过限制并可能获得“不需要”的结果。
尽管大多数在线LLM都会阻止用户执行恶意过程,但像Deep Hat这样的“无限制”计划可以帮助安全研究人员与对手站在同一水平。
当前的用户体验通常以ChatGPT系列为代表,其过滤机制经常受到来自LLM本身社区的批评。
看起来你正在尝试攻击一个系统!
鉴于这种趋势向限制和审查的转变,用户可能会惊讶地发现ChatGPT在最近的一项研究中被发现是所有测试的LLM中最具合作性的一个,该研究旨在迫使语言模型创建恶意代码漏洞利用。
来自UNSW悉尼和澳大利亚联邦科学与工业研究组织(CSIRO)的研究人员的新论文,题为《好消息 для脚本小子?评估大型语言模型用于自动漏洞利用生成》,提供了对这些模型如何被提示产生工作漏洞利用的首次系统评估。研究人员提供了示例对话。
该研究比较了模型在原始和修改版本的已知漏洞实验室(结构化编程练习,旨在演示特定的软件安全漏洞)上的性能,帮助揭示它们是否依赖于记忆的示例或由于内置的安全限制而苦苦挣扎。
[…](https://anonymous.4open.science/r/AEG_LLM-EAE8/README.md)
研究人员使用五个来自SEED Labs的实验室,每个实验室都围绕着已知的漏洞构建,包括缓冲区溢出、返回到libc、Dirty COW攻击和竞争条件。在使用原始实验室的同时,研究人员还创建了修改版本,方法是将变量和函数重命名为通用标识符,以防止模型依赖于记忆的训练示例。
每个实验室都在每个模型上运行两次:一次使用原始版本,另一次使用混淆版本。
研究人员然后将第二个LLM引入循环:一个攻击模型,旨在提示和重复提示目标模型,以便在多个轮次中改进和完善其输出。用于此角色的LLM是GPT-4o,它通过一个脚本运行,该脚本调解了攻击者和目标之间的对话,允许改进循环最多继续15次,或者直到不再可能进行进一步改进:
[…](https://www.unite.ai/wp-content/uploads/2025/05/attack-schema.jpg)
目标模型包括GPT-4o、GPT-4o-mini、Llama3(8B)、Dolphin-Mistral(7B)和Dolphin-Phi(2.7B),代表了专有和开源系统,混合了对齐和不对齐的模型(即具有内置安全机制的模型,旨在阻止有害提示,以及通过微调或配置修改以绕过这些机制的模型)。
结果表明,GPT-4o和GPT-4o-mini表现出了最高的合作水平,平均响应率分别为97%和96%,跨五个漏洞类别:缓冲区溢出、返回到libc、格式字符串、竞争条件和Dirty COW攻击。
研究人员得出结论,大多数模型都愿意产生工作漏洞利用,如果它们能够做到的话。它们未能生成完全功能性的输出的失败似乎并非由于对齐的安全保障,而是由于真正的架构限制——这可能已经在最近的模型中得到了减少,或者很快就会被减少。
首次发布于2025年5月5日










