思想领袖
重新思考 AI 应用的防护栏

当 AI 应用 超越简单的聊天机器人,发展为能够代表用户采取行动的代理系统时,风险呈指数级增长。代理应用可以通过工具采取行动,这为攻击者打开了新的威胁途径,他们可以操纵这些工具来改变用户应用和数据的状态。
传统的防护栏和安全模型是为狭窄、明确定义的威胁而设计的,但它们难以应对现代攻击技术的多样性和创造性。这一新现实需要一个范式转变:使用 AI 来保护 AI,实现自适应和可扩展的防护措施,以匹配当今对手的聪明才智和不可预测性。
理解扩大的风险
AI 正在渗透到软件的每一层 – 从 CRMs 到日历、电子邮件、工作流、浏览器 等 – 将智能嵌入到每个地方。最初的对话式助手现在正在成为能够独立采取行动的自治代理。
一个例子是 OpenAI 的新兴“代理”,它们可以浏览互联网或在线执行任务。这些功能解锁了巨大的生产力,但也暴露了一个巨大、未被绘制的攻击面。风险不仅仅是数据泄露,还包括行为操纵、模型逃避和提示注入攻击 – 这些威胁会动态演变,并针对模型的逻辑而不是其基础设施。
对于企业来说,这一转变意味着安全性必须像 AI 本身一样快速演变。技术和安全领导者的挑战是如何在不减慢创新速度的情况下保护创新,这一紧张关系长期以来一直存在于安全性和 AI 开发团队之间。
传统防护栏的局限性
大多数当前的 AI 安全工具仍然依赖于静态、狭隘训练的机器学习模型,旨在识别特定类型的攻击。每一种新的逃避或提示注入方法通常需要重新训练或重新部署专用模型。这种反应性方法假设恶意行为者将以可预测的方式行事。然而,事实是,攻击者现在也在使用 AI 生成自适应、创造性和快速移动的威胁,传统的防御措施无法预测。
即使被誉为最先进的防护栏,也往往在范围和能力上受到限制,只在它们被训练的场景中有效。旧范式需要为每一种新的攻击训练一个单独的模型,这是一种脆弱和不可持续的方法,因为潜在的利用技术数量已经达到数百个。
此外,安全团队和 AI 团队之间存在文化脱节。AI 开发人员通常将安全视为阻碍者 – 降低他们的速度 – 而安全团队则承担责任,如果出现任何故障。这种缺乏协作使得许多组织在设计上容易受到攻击。所需的防御措施是无缝集成到 AI 生命周期中的,提供监督而不会产生摩擦。
颠覆现状:使用 AI 来保护 AI
为了应对这些挑战,出现了一种新的安全范式:AI 攻击恶意 AI 并保护您的 AI。与其依赖静态规则或手工制作的签名,这种方法利用大型语言模型(LLMs)的生成和分析能力来探测和保护 AI 系统。
- AI 驱动的红队测试: LLMs 可以模拟广泛的对抗行为,包括模型逃避、提示注入和代理滥用。通过释放 未对齐 或“流氓”模型来创造性地测试应用程序,组织可以在攻击者利用漏洞之前获得对漏洞的更丰富、更现实的理解。
- 持续、自适应防御: 同样的 AI 系统可以被训练来学习每次攻击并自动加强防御。与其管理数百个狭窄范围的模型,组织可以部署一个单一的、可扩展的防御层,能够识别和适应多样化的威胁,同时保持一致的延迟和性能。
这标志着从手动、点对点测试到与其保护的系统一起演进的活跃防护栏的根本转变。
建立自我防御生态系统
AI 保护 AI 不仅改善检测;它转变了整个防御姿态。当正确集成时,这些系统可以:
- 轻松扩展保护,泛化到多种攻击类型。
- 在生产中遇到新威胁时持续改进。
- 弥合 AI 和安全团队之间的差距,实现不阻碍创新的监督。
- 提供对由代理行为引入的复杂风险表面的可见性,在数字环境中,AI 系统自主运行。
目标是建立能够像攻击者一样思考、预测他们的行动并像他们一样快速演变的安全系统。
呼吁适应性思维
行业正处于转折点。2023-2024 年初的 AI 热潮之后,许多企业 AI 计划由于遇到生产障碍而停滞不前。这并不是因为缺乏潜力,而是因为基础设施和安全范式跟不上。随着 AI 现在集成到关键工作流中,未经安全设计的后果只会放大。
组织必须采用适应性安全思维,即 AI 系统不断监测、测试和加强其他 AI 系统。这意味着从一开始就嵌入智能防护栏,而不是稍后添加。认为软件不是本地 AI 基础的想法是愚蠢的,认为 AI 不是本地安全的想法是危险的。
活跃的 AI 防护栏
AI 是软件的新基础,就像任何基础一样,其强度取决于它能够承受多大的压力。静态防御无法应对当前形势。下一代安全将属于自学习系统(AI 保护 AI),其速度、创造力和规模与其面临的威胁相匹配。只有通过教 AI 自我保护,我们才能确保它帮助我们建设的未来是安全的。
