OpenAI承认AI浏览器可能永远无法完全安全
OpenAI于12月22日发布了一篇安全博客文章,其中包含一个引人注目的承认:针对AI浏览器的提示注入攻击”可能永远无法完全解决”。这一让步恰逢该公司推出具备自主代理能力的浏览器ChatGPT Atlas仅两个月后。该公司将提示注入比作”网络上的诈骗和社会工程学”——这是防御者需要管理而非消除的持续威胁。对于那些信任AI代理代表自己在互联网上导航的用户来说,这种定位引发了一个根本性问题:多大程度的自主性是合适的。OpenAI揭示了什么这篇博客文章描述了OpenAI为Atlas设计的防御架构,包括一个由强化学习驱动的”自动化攻击者”,它能在恶意行为者发现漏洞之前主动寻找它们。该公司声称,这个内部红队已经发现了”在我们的红队人工测试或外部报告中未曾出现过的新型攻击策略”。一个演示展示了恶意电子邮件如何劫持正在检查用户收件箱的AI代理。被入侵的代理没有按照指示起草外出自动回复,而是发送了一封辞职信。OpenAI表示其最新的安全更新现已能捕获此类攻击——但这个例子说明了当AI代理在敏感环境中自主行动时所面临的风险。自动化攻击者”可以引导代理执行复杂的、长周期的有害工作流程,这些流程可能涉及数十步(甚至数百步),”OpenAI写道。这种能力帮助OpenAI比外部攻击者更快地发现缺陷,但它也揭示了提示注入攻击可能变得多么复杂和具有破坏性。根本性的安全问题提示注入利用了大型语言模型的一个基本限制:它们无法可靠地区分合法指令和处理数据中嵌入的恶意内容。当AI浏览器读取网页时,该页面上的任何文本都可能潜在地影响其行为。安全研究人员已多次证明了这一点。AI浏览器结合了适度的自主性和非常高的访问权限——这在安全领域是一个具有挑战性的位置。这些攻击不需要复杂的技术。网页上的隐藏文本、精心制作的电子邮件或文档中的隐形指令,都可以操纵AI代理执行非预期的操作。一些研究人员已经证明,隐藏在截图中的恶意提示可以在AI拍摄用户屏幕照片时执行。OpenAI如何应对OpenAI的防御措施包括对抗性训练模型、提示注入分类器以及在敏感操作前需要用户确认的”减速带”。该公司建议用户限制Atlas可以访问的内容——限制登录访问权限、在支付或发送消息前要求确认、提供具体的指令而非宽泛的授权。这一建议颇具启示性。OpenAI实质上建议用户对其自身产品保持怀疑态度,限制那些最初使代理浏览器具有吸引力的自主性。那些希望AI浏览器处理整个收件箱或管理财务的用户,正在承担该公司自身并不认可的风险。此次安全更新减少了成功的注入攻击。这一改进很重要,但也意味着剩余的攻击面依然存在——并且攻击者会适应OpenAI部署的任何防御措施。全行业影响OpenAI并非唯一面临这些挑战的公司。谷歌为Chrome代理功能设计的安全框架包含多层防御,包括一个单独的AI模型来审查每个拟议的操作。Perplexity的Comet浏览器也面临着来自Brave安全研究人员的类似审查,他们发现访问恶意网页可能触发有害的AI操作。该行业似乎正在形成一个共识:提示注入是一个根本性的限制,而非一个可以修补的漏洞。这对于AI代理自主处理复杂、敏感任务的愿景具有重大影响。用户应考虑什么诚实的评估令人不安:AI浏览器是有用的工具,但具有固有的安全限制,这些限制无法通过更好的工程来消除。用户面临着便利与风险之间的权衡,没有任何供应商能够完全解决。OpenAI的指导原则——限制访问、要求确认、避免宽泛授权——相当于建议使用功能较弱的版本。这不是一种愤世嫉俗的定位;而是对当前局限性的现实承认。AI助手能做的事情越多,也就越容易被操纵去做更多事情。与传统网络安全的类比具有启发性。在钓鱼攻击出现数十年后,用户仍然会上当。浏览器每天仍然会拦截数百万个恶意网站。威胁的演变速度超过了防御措施能够永久解决它的速度。AI浏览器为这种熟悉的动态增加了一个新的维度。当人类浏览时,他们会运用判断力来识别可疑之处。AI代理则平等地信任并处理所有内容,这使得它们即使能力越来越强,也更容易受到操纵。前进之路OpenAI的透明度值得认可。该公司本可以悄悄发布安全更新,而不承认根本问题的持续存在。相反,它发布了关于攻击向量和防御架构的详细分析——这些信息有助于用户做出明智的决策,并帮助竞争对手改进他们自己的保护措施。但透明度并不能解决根本的矛盾。AI代理变得越强大,它们就越成为有吸引力的目标。让Atlas能够处理复杂工作流程的相同能力,也为复杂的攻击创造了机会。目前,AI浏览器的用户应将其视为具有重要局限性的强大工具——而不是可以无需监督处理敏感任务的完全自主的数字助手。OpenAI对这一现实异常坦诚。问题在于,行业的营销宣传是否会赶上安全团队已经知道的事实。