网络安全
OpenAI 承认 AI 浏览器可能永远无法完全安全

OpenAI 发布了一篇关于安全的博客文章,包含一个令人震惊的承认:针对 AI 浏览器的提示注入攻击“可能永远无法完全解决”。这一让步是在公司推出 ChatGPT Atlas 两个月后出现的,ChatGPT Atlas 是一款具有自主代理功能的浏览器。
公司将提示注入与“网络上的骗局和社会工程”进行了比较,这些都是持久的威胁,需要防御者进行管理,而不是消除。对于那些将 AI 代理用于代表自己浏览互联网的用户来说,这种说法引发了关于代理的自主性问题。
OpenAI 的揭露
博客文章描述了 OpenAI 为 Atlas 开发的防御架构,包括一个使用强化学习的“自动攻击者”,该攻击者可以在恶意行为者之前发现漏洞。公司声称,这个内部红队已经发现了“在我们的红队测试或外部报告中没有出现的新攻击策略”。
一个示例展示了如何使用恶意电子邮件劫持 AI 代理检查用户的收件箱。相反,受损的代理发送了一条辞职消息,而不是按照指示起草一条自动回复。OpenAI 表示,他们的最新安全更新现在可以捕获此攻击,但该示例说明了当 AI 代理在敏感上下文中自主运行时的风险。
自动攻击者“可以引导代理执行复杂、长期的有害工作流,这些工作流可能涉及数十个步骤(甚至数百个步骤)”,OpenAI 写道。这种能力帮助 OpenAI 比外部攻击者更快地发现漏洞,但也揭示了提示注入攻击可能变得多么复杂和有害。

图片:OpenAI
基本安全问题
提示注入利用了大型语言模型的一个基本限制:它们无法可靠地区分合法指令和数据中嵌入的恶意内容。当 AI 浏览器读取网页时,网页上的任何文本都可能影响其行为。
安全研究人员已经多次证明了这一点。AI 浏览器结合了中等自主性和非常高的访问权限,这在安全领域是一个具有挑战性的位置。
攻击不需要复杂的技术。网页上的隐藏文本、精心设计的电子邮件或文档中的不可见指令都可以操纵 AI 代理 执行意外的操作。一些研究人员已经证明,隐藏在截图中的恶意提示可以在 AI 拍摄用户屏幕时执行。
OpenAI 的回应
OpenAI 的防御措施包括对抗训练模型、提示注入分类器和“减速器”,这些减速器需要用户在执行敏感操作之前进行确认。公司建议用户限制 Atlas 的访问权限,例如限制登录访问、要求在付款或消息之前进行确认,并提供狭窄的指令而不是广泛的命令。
这一建议很有启发性。OpenAI 基本上建议将其自己的产品视为有怀疑的对象,限制使代理浏览器具有吸引力的自主性。希望 AI 浏览器处理其整个收件箱或管理其财务的用户正在承担公司本身不赞成的风险。
安全更新减少了成功的注入攻击。但是,这种改进很重要,因为它也意味着剩余的攻击面仍然存在,攻击者将适应 OpenAI 部署的任何防御措施。
行业范围的影响
OpenAI 并不是唯一面临这些挑战的公司。 Google 的安全框架针对 Chrome 的代理功能包括多层防御,包括一个单独的 AI 模型来审查每个拟议的操作。Perplexity 的 Comet 浏览器也面临来自 Brave 的安全研究人员的类似审查,他们发现导航到恶意网页可能会触发有害的 AI 操作。
行业似乎正在趋向于对这一问题的共同理解:提示注入是一个基本的限制,而不是可以修复的漏洞。这对 AI 代理自主处理复杂、敏感任务的愿景具有重大影响。
用户应该考虑什么
诚实的评估是令人不安的:AI 浏览器是具有固有安全限制的有用工具,这些限制无法通过更好的工程来消除。用户面临着便利性和风险之间的权衡,这是任何供应商都无法完全解决的。
OpenAI 的指导——限制访问、要求确认、避免广泛的命令——相当于建议使用产品的较弱版本。这不是愤世嫉俗的立场,而是对当前限制的现实认可。 AI 助手可以做更多事情,也可以被操纵做更多事情。
与传统网络安全的类比很有启发性。用户仍然会上钓鱼攻击的当,尽管这些攻击已经出现了几十年。浏览器仍然每天阻止数百万个恶意网站。威胁的适应速度比防御者能够永久解决它的速度更快。
AI 浏览器为这一熟悉的动态添加了一个新维度。当人类浏览时,他们会带来对可疑内容的判断。AI 代理以相同的信任处理所有内容,使它们更容易被操纵,即使它们变得更加强大。
前进的道路
OpenAI 的透明度值得认可。该公司本可以在没有承认潜在问题的前提下发布安全更新。相反,它发表了对攻击向量和防御架构的详细分析——这些信息可以帮助用户做出明智的决定,并使竞争对手能够改进自己的保护措施。
但是,透明度并不能解决根本的紧张关系。随着 AI 代理变得更加强大,它们呈现出更加诱人的目标。使 Atlas 能够处理复杂工作流的相同功能也为复杂的攻击创造了机会。
目前,AI 浏览器的用户应该将其视为具有有意义的限制的强大工具,而不是完全自主的数字助手,可以在没有监督的情况下处理敏感任务。OpenAI 对这一现实异常坦率。问题在于,行业的营销是否会赶上安全团队已经知道的内容。












