Unite.AI - AI News & Research

思想领袖2 weeks ago

当AI能力增长快于为约束它而构建的安全模型时

AI工具通常伴随着一套熟悉的宣传语而来。它们承诺简化工作流程、提高生产力，并承担人们不喜欢的任务。大多数时候，它们确实做到了这一点。它们简化登录、总结文档、自动化工作流程，让日常活动变得几乎毫不费力。但在所有这些便利之下，隐藏着另一个故事。这些工具不再局限于一个文本框。它们开始对操作系统本身进行操作。它们可以浏览文件、起草电子邮件、与应用程序交互，并执行那些曾经需要一个理解后果、注意力集中的人类才能完成的动作。这种转变将AI置于一个现有安全假设从未构建来管理的境地。当AI获得系统访问权限的时刻一旦一个AI系统能够读取真实文件并执行真实命令，它就成为了可信计算基的一部分。这正是长期以来关于AI安全的预期开始瓦解的时刻。多年来，提示注入被认为是一种奇怪的模型行为。它导致聊天机器人产生误导或不恰当的回应，但损害仅限于对话本身。如今，同样的缺陷可以触发主机级别的操作，而不仅仅是文本。隐藏在PDF、网站或电子邮件中的恶意指令不再产生一个奇怪的答案，而是产生在机器上执行的操作。这不是业界可以当作理论而忽视的事情。卡内基梅隆大学和华盛顿大学的研究人员已经反复证明，隐藏的指令可以引导大型语言模型执行用户从未打算的操作。与此同时，研究视觉模型的研究人员已经展示了被操纵的图像如何以影响下游行为的方式改变模型的感知。这些实验曾被视为实验室里的奇闻异事。当AI能够访问操作系统时，它们就不再显得那么学术化了。当智能体能力超越防御者控制时即使是构建这些智能体的公司也承认挑战的严重性。它们加强了处理提示的过滤器，但公开表示，控制AI系统在现实世界中的行动，在整个行业范围内仍然是一个活跃且未解决的领域。智能体能做什么与防御者能控制什么之间的差距，引入了一类现有安全预案无法应对的新风险。 AI智能体已经跨越了一个行业尚未完全准备好的边界。理解这一点的唯一方法是看看提示注入现在如何与防御者追踪了十多年的相同攻击链相交。提示注入如何映射到众所周知的攻击链攻击者总是遵循一个可预测的模式。MITRE ATT&CK框架清晰地列出了各个阶段。初始访问之后是执行、持久化、发现、横向移动、收集和渗出。技术各不相同，但结构是稳定的。正在改变的是交付机制。攻击者不再需要说服用户打开恶意附件或点击危险链接，而是可以将指令放置在AI智能体将会读取的地方。智能体变成了执行环境。它完全按照描述执行步骤。模型不会质疑指令是否有害。它不会运用判断力或直觉。它只是执行。一旦攻击者能够影响智能体的推理过程，攻击链就会迅速形成。一个被操纵的文件触发执行，后续指令创建持久化，系统搜索提供发现，文件上传则实现收集和渗出。不需要恶意软件。智能体只是按部就班地执行写好的步骤。这正是安全团队难以适应的部分。他们花了数年时间围绕基于代码的执行构建检测规则、控制和响应流程。AI智能体引入了不同类型的解释器。它们通过自然语言执行，而不是编译后的二进制文件。现有工具并非为追踪或分析这种推理过程而构建。安全团队尚未准备好，甚至没有意识到安全程序仍然假设在内容和行动之间存在一个人类。人类可能会被欺骗，但当感觉不对劲时会停下来。他们会注意到奇怪的措辞，质疑意外的行为，并在决策的最后阶段运用判断力。 AI智能体则完全不会这样做；它们一致、字面化，并且比任何对手都快。一行隐藏的文本就足以指示智能体读取敏感文件、在应用程序间移动或联系远程服务器。这使得防御者处于一个前所未有的境地。安全团队对智能体如何做出决策的可见性有限，并且无法轻易确定一个操作是源自用户还是AI。传统的恶意软件检测毫无帮助，因为没有通常意义上的恶意内容被执行，也无法保证智能体会质疑或拒绝隐藏在正常内容中的有害指令。为人类行为设计的工具根本无法适用于一个自然语言成为驱动系统行为的脚本的世界。哪些补偿性控制措施真正有效仅仅强化模型是不够的。安全团队需要在智能体周围设置控制措施，以限制AI可以做的事情，即使在其推理过程受到影响时也是如此。有几种策略显示出前景：最小权限访问至关重要。智能体应仅能访问其任务所需的文件和操作。减少不必要的权限可以限制被操纵指令的影响。人工审批步骤可以在有害操作发生之前阻止它们。当智能体尝试敏感操作时，例如运行命令或访问受保护数据，用户应批准或拒绝该请求。...