人工智能(AI)安全已经变成了一场不断的猫鼠游戏。当开发者添加防护措施以阻止有害请求时,攻击者继续尝试新的方法来规避它们。其中最奇怪的转折之一是对抗性诗歌。这种策略涉及将提示伪装成诗歌,并使用押韵、隐喻和不寻常的措辞,使得危险的指令看起来不那么像安全系统被训练来捕捉的东西。实际上, 内容本身并没有太大变化。变化的是包装,这足以使基于模式的过滤器感到困惑。这提醒我们,在当今的模型中,如何提问几乎和提问的内容一样重要。当研究人员用诗歌破解A I时发生了什么?在2025年初,研究人员展示了大型语言模型(LLMs)可以通过将限制性提示包装成诗歌形式来响应这些提示。研究人员没有发出直接的、触发政策的指令, 而是将相同的请求嵌入到押韵、隐喻和叙述诗中。表面上看,这些提示似乎是创意写作练习,但在其下, 它们携带着通常会被阻止的相同意图。在25个前沿专有和开放加权模型中,团队报告说诗意的框架在 Процентная ставка составляет 62%, стоимость доставки составляет 62%, процентная ставка составляет 43%.本身并不是新类型的失败,而是通过一个意想不到的门出现的熟悉失败。模型被引导生成它们通常避免的内容——例如涉及非法或有害活动的解释——因为底层请求被诗歌结构分割和掩盖。研究的核心结论是,仅仅是风格变化就足以规避为更字面化措辞调整的安全系统。这揭示了一个在模型家族和对齐方法中显而易见的漏洞。对抗性诗歌如何运作对抗性攻击利用了一个简单的现实——机器学习系统不像人类那样“理解”语言。它们检测模式,预测可能的延续,并根据其训练和安全层解释为意图的内容执行指令。当提示以直接、字面化的方式措辞时,防护措施更容易识别和阻止。然而,当相同的目的被伪装——分割、软化或重新框架时,保护层可能会错过实际被问的问题。为什么诗歌可以成为有效的载体诗歌天生具有模糊性。它依赖于隐喻、抽象、不寻常的结构和间接的措辞。这些正是可以模糊“无害创意写作”和“应被拒绝的请求”之间界线的特征。在同一2025年的研究中,研究人员报告说,诗意提示在广泛的模型集中以90%的成功率引发了不安全的响应, 这表明仅仅是风格就可以实质性地改变结果。诗歌如何隐藏真实请求将请求视为信息, 而将诗歌视为包装。安全过滤器通常寻找明显的标志,例如明确的关键词、直接的步骤措辞或可识别的恶意意图。诗歌可以通过比喻语言隐藏这种意图, 或将其分散在各行中, 使其更难以单独识别。同时,底层模型仍然能够足够好地重建意义以响应,因为它被优化为即使在语言间接时也能推断意图。检测和缓解越狱随着越狱方法变得更加富有创意,讨论必须从它们如何工作转向如何被发现和遏制。特别是在现在AI已成为许多人日常生活的一部分时, 27%. 随着越来越多的人使用大型语言模型(LLMs),应测试和探索额外的防护措施。这项任务涉及构建能够适应新提示风格和规避技巧的分层防御。开发者的困境对于AI安全团队来说,越狱最难的部分在于它们不是已知的威胁。它们随着时间的推移不断变化。这种不断变化是因为用户可以重新措辞提示,将其分割成片段,包装成角色扮演或伪装成创意写作。然后,每种新的包装都可以改变系统对提示意图的解释。当AI已经融入日常生活时,这一挑战迅速扩大,因此实际使用创造了无尽的边缘案例出现的机会。这就是为什么今天的AI安全更像是随着时间的推移管理风险。NIST AI 险管理框架(AI RMF)明确将风险管理 视为一系列持续的活动——围绕治理、映射、测量和管理组织——而不是静态的检查清单。目标是创建使识别新出现的失败模式、优先修复和加强防护措施更容易的流程。模型如何自我保护AI安全由多个层次组成。大多数系统有不止一个防护措施协同工作,每个防护措施捕捉不同类型的风险行为。在外层,输入和输出过滤器充当看门人。传入的提示在到达核心模型之前被扫描以检测政策违规,而传出的响应则被检查以确保在返回用户的过程中没有任何东西溜走。这些系统擅长识别直接请求或熟悉的红旗,但它们也是最容易被绕过的,这就是为什么更具欺骗性的越狱通常能够绕过它们。下一层保护发生在模型内部。当发现越狱技术时,它们通常会被转化为训练示例。这就是对抗性训练和来自人类反馈的强化学习(RLHF)发挥作用的地方。通过在失败或风险互动的示例上微调模型,开发者有效地教导系统识别它应该拒绝的模式,即使它们被包装成创意或间接语言。随着时间的推移,这一过程有助于使模型对整个攻击类别产生免疫。AI «红队»的角色与其等待越狱发生, 公司使用AI红队。这些团队是负责在受控环境中尝试破解模型的团队。他们以攻击者可能的方式接近系统,尝试不寻常的措辞、创意格式和边缘案例,以发现防护措施的不足之处。目标是在它们出现在现实世界使用中之前暴露弱点。红队现在正在成为当今网络安全策略开发生命周期的核心部分。当团队发现新的越狱技术时,产生的数据直接反馈到训练和评估管道中。该信息用于定义过滤器、调整政策并加强对抗性训练,以便类似的尝试在未来更不容易成功。随着时间的推移,这创造了一个持续的循环——探测失败,从中学习并改进系统,然后重复。当诗歌成为AI安全的压力测试对抗性诗歌提醒我们, AI的防护措施依赖于用户如何措辞问题,而不仅仅是问题的内容。随着模型变得更易于访问和广泛使用,研究人员将继续探测创意语言与旨在捕捉更直接意图的安全系统之间的差距。结论是,更安全的AI将来自于随着越狱一样快速发展的多重防御。
分析当前趋势,专家们得以预测网络犯罪分子未来将如何利用人工智能。凭借这些信息,他们可以识别出最大的新兴威胁,并判断企业是否做好了准备。他们甚至可能洞察到解决方案。近年来人工智能威胁的现状尽管人工智能技术相对较新,但它已成为黑客的重要工具。这些趋势表明,人工智能网络攻击正在兴起。1. 模型篡改通过直接攻击大型语言模型,威胁行为者可以操纵模型行为、降低输出准确性或暴露包含个人身份信息的训练数据。数据投毒和提示工程是常见的攻击技术。一些攻击由意图制造混乱或窃取敏感信息的威胁行为者主导。另一些则由不满的艺术家发起,他们希望保护自己的作品不被人工智能抓取。无论哪种情况,公司及其最终用户都会受到不利影响。2. 冒充攻击2024年,一位法拉利高管收到了数条来自首席执行官贝内代托·维尼亚的WhatsApp消息。维尼亚谈及一项即将进行的收购,并敦促其员工签署保密协议。他甚至打电话讨论资金问题。但有一个问题——那并不是他本人。这段深度伪造近乎完美,异常逼真地模仿了维尼亚的南意大利口音。然而,声音中的细微不一致让这位高管识破了骗局。该员工询问了维尼亚几天前推荐的一本书的书名,这个问题只有真正的首席执行官才知道答案。骗子立刻挂断了电话。人工智能可以克隆一个人的声音、浏览行为、写作风格和相貌。随着这项技术的进步,识别深度伪造变得越来越困难。骗子常常将目标置于紧急情况下,以阻止他们质疑微小的差异。3. 人工智能钓鱼攻击过去,人们可以通过查找糟糕的语法、可疑链接、通用问候语和不恰当的请求来识别钓鱼邮件。现在,借助自然语言处理技术,黑客可以制作出语法无懈可击、令人信服的信息。研究人员发现,全自动的人工智能鱼叉式钓鱼邮件点击率高达54%,与人类编写的钓鱼邮件相当。由于这些骗局更具说服力,它们正变得越来越普遍。研究发现,超过80%的钓鱼邮件显示出人工智能参与的迹象。4. 社会工程学社会工程学涉及操纵某人采取行动或泄露信息。人工智能使黑客能够更快地响应并制作更具说服力的信息。任何自然语言处理模型都可以进行语义分析,以识别收件人的情绪状态,从而使其更有可能屈服。除了增强社会工程技术外,机器学习技术还降低了传统的入门门槛,使新手能够执行复杂的攻击活动。如果任何人都可能成为网络罪犯,那么任何人都可能成为目标。下一波数据驱动的人工智能攻击预计到2026年初,人工智能攻击将仍处于较低的成熟度水平。然而,随着这一年的推进,它们将呈指数级发展,使网络犯罪分子能够进入优化、部署和扩展阶段。他们很快将能够发起全自动的攻击活动。已确认的人工智能网络攻击案例将不再罕见。多态恶意软件是一种人工智能病毒,每次复制时都能改变其代码以避免检测。攻击者可以通过人工智能生态系统传递有效载荷,在运行时调用LLM生成命令,或直接将病毒嵌入LLM。谷歌威胁情报小组发现,对手在2025年首次部署了这种恶意软件。这些恶意软件家族是PROMPTFLUX和PROMPTSTEAL。在执行过程中,它们使用LLM来请求VBScript混淆和规避技术。它们通过按需混淆自身代码来规避基于签名的检测。有证据表明,这些威胁仍处于测试阶段——一些不完整的功能被注释掉了,应用程序编程调用也有限。这些新兴的人工智能恶意软件家族可能仍在开发中,但它们的存在本身就代表了在自主、自适应攻击技术方向上迈出的巨大一步。纽约大学坦登工程学院的研究表明,LLM已经可以自主执行勒索软件攻击,被称为勒索软件3.0。它们可以在无需人工干预的情况下进行侦察、生成有效载荷并个性化勒索。它只需要嵌入在二进制文件中的自然语言提示。该模型会产生多态变体,通过在运行时动态生成恶意代码来适应执行环境。企业是否准备好应对人工智能攻击?尽管在网络安全上投入了数十亿美元,私营企业仍难以跟上不断演变的威胁形势。机器学习技术可能使现有的检测和响应软件过时,进一步使防御复杂化。雪上加霜的是,许多企业未能达到基本的安全标准。2024年《国防工业基础网络安全成熟度报告》调查了美国国防工业基础的400名信息技术专业人员。超过一半的受访者报告称,距离达到网络安全成熟度模型认证2.0合规性还有数年之遥,尽管自2016年以来,国防部合同中就已规定了等效的NIST 800-171合规性要求。许多人对其安全状况的评价远高于实际情况。新的CMMC要求已于2025年11月10日生效。今后,所有国防部合同都将要求一定级别的CMMC合规性作为授予合同的条件。新规则旨在加强国防工业基础的网络安全,但在人工智能时代,它们会有效吗?防御性人工智能是答案吗?以火攻火可能是应对人工智能攻击不可避免激增的唯一方法。借助防御性人工智能,组织可以实时动态响应威胁。然而,这种方法也有其自身的安全缺陷——保护模型免受篡改将需要持续的监督和审计。根据《哈佛商业评论》的说法,传统解决方案使企业容易受到人工智能网络攻击。为了实现网络韧性,他们必须使用机器学习技术来预测并自动响应威胁。防御性人工智能是否是解决这个问题的答案,并没有简单的答案。公司应该将资源投入到部署未经证实的机器学习工具上,还是扩充其信息技术团队?无法预测哪种投资从长远来看会有回报。大型企业可能会在自动化网络安全方面看到显著回报,而小型企业可能难以证明其成本的合理性。传统的自动化技术或许能以低得多的成本缩小差距,但它将无法应对动态威胁。信息安全论坛首席执行官史蒂夫·德宾指出,采用人工智能有显著的好处,但也有重大缺点。例如,企业经常会遇到误报警报激增的情况,这浪费了安全团队的时间。此外,过度依赖人工智能可能导致团队变得过度自信,从而造成安全漏洞。驾驭人工智能威胁格局要确定人工智能在威胁格局中的确切存在程度是不可能的,因为攻击者可以利用它来创建恶意代码或起草钓鱼邮件,而不是在运行时使用它。独立的网络犯罪分子和国家支持的威胁组织可能正在大规模使用它。根据现有信息,模型篡改、人工智能钓鱼攻击和多态恶意软件将成为2026年最大的网络威胁。网络犯罪分子可能会继续使用LLM来生成、传递和调整恶意有效载荷,目标既包括金融等高价值行业,也包括普通民众。