思想领袖

为什么聊天机器人安全防护是错误的安全边界

Published March 18, 2026

Updated April 25, 2026

Mayank Kumar, Founding AI Engineer, DeepTempo

企业人工智能已经远远超出了概念验证阶段。 23% 的组织已经在某些方面扩大了智能体人工智能系统的规模，而 62% 的组织至少正在尝试使用人工智能代理。这些都不是研究项目。它们是生产部署，嵌入到涉及代码仓库、客户数据、内部 API 和运营基础设施的工作流中。

行业对这一增长的回应主要集中在代理上线之前会发生什么。供应商和研究人员将精力投入到部署前的安全防护中：发布扩展政策、加强基础模型、过滤输入、保护人工智能供应链，并在训练期间强制执行对齐。主要的人工智能提供商已经在面向开发者的安全工具上进行了大量投资，强化了一个中心假设：如果模型和其输入受到控制，下游风险可以被包含。

这是一个合理的直觉，但它越来越不完整。

提示不是安全边界

主要在模型接口上运行的安全防护措施，主要惠及控制应用程序代码、模型配置和底层基础设施的团队。它们为那些被任务保护他们没有构建且无法修改的人工智能系统的防御者提供的保护要少得多。这是一个重大的盲点，攻击者已经找到了它。

OpenAI 的最新威胁情报报告记录了这种动态。威胁行为者正在积极地滥用 ChatGPT 和类似工具，在生产环境中，不是通过发明新颖的攻击技术，而是通过将人工智能嵌入现有的工作流程中，以加快速度。侦察变得更加高效。社会工程学扩大规模。恶意软件开发加速。攻击面并没有从根本上改变；利用的速度和数量已经改变了。

更有说服力的证据是，当这些工具反击时，攻击者如何应对。OpenAI 观察到威胁行为者迅速改变他们的提示，保持底层意图不变，同时循环使用表面级别的变化，以绕过前端控制。这是一个安全实践者以前见过的模式。静态防御，无论是基于签名的防病毒软件还是输入过滤，都无法抵御那些比规则更新更快的对手。

随着代理获得自主权，挑战加剧。现代人工智能代理不仅仅是在单个交换中运行。它们执行多步骤的动作序列，调用合法的工具和权限，以一种在隔离中看起来完全正常的方式。代理使用有效的凭据来枚举内部 API 不会触发警报。代理在看起来像例行工作流程时访问敏感数据存储不会立即生成标志。每个单独的动作都会通过检查；危险存在于组合和序列中。

当威胁转移到下游

今天的人工智能部署的安全团队面临着结构性不匹配。可用的工具主要是为了推理模型被允许说什么而构建的。他们需要管理的实际风险是代理在被授予权限并在生产环境中释放后，在系统、网络和身份中执行的内容。

基于提示的安全防护措施与早期基于规则的安全方法共享相同的基本弱点。它们是脆弱的，因为它们依赖于提前预测攻击模式。它们是被动的，因为它们需要有人观察并编码威胁，然后才能起作用。并且它们被采用人工智能辅助迭代作为标准实践的对手所超越。依赖输入过滤来捕获使用语言模型生成新提示变体的威胁行为者的防御者处于根本上失败的位置。

真正的暴露表面出现在部署之后。代理驱动的操作通过环境传播，以一种预部署测试无法完全预测的方式。代理遇到边缘情况，与它们不打算处理的数据源交互，接收来自原始架构外的系统的输入，并随着时间的推移做出决策。预部署测试是一张快照；生产是一个连续的流。仅保护快照意味着接受流中发生的一切基本上是未经监控的。

将安全边界转移到代理行为

构建人工智能弹性需要不同的框架，目标不应该是保护模型接口。它应该是通过代理操作的可观察后果来检测攻击者的意图。这是一个有意义的区别。意图并不总是出现在代理所说或接收到的输入中。

保护人工智能系统必须超越对齐检查和鲁棒性评估，扩展到代理与真实工具、真实 API 和真实数据交互后对其行为的持续评估。在部署时的静态评估是必要的，但不够。代理运行的威胁环境不断变化。代理行为需要以相同的连续性进行监控。

这是一个提示加固无法解决的问题。检测恶意意图需要能够理解复杂的、顺序的行为的模型，在操作环境中进行分析。为行为分析而设计的深度学习基础模型可以以规则系统和传统的 SIEM 工具无法做到的方式来完成这一任务。它们学习正常行为的样子，跨代理活动的全部上下文，并表面化指示某些东西已经改变的偏差，即使没有单个操作会触发传统警报。

底层逻辑在任何部署上下文中都成立：固定在提示层的安全防护措施将始终输给在操作层运行的攻击者。防御必须转移到威胁实际存在的地方。

安全团队现在应该做什么

对于试图领先一步的安全领导者，一些实际的转变可以弥合当前防御和需要防御之间的差距。

评估整个应用程序栈中的人工智能安全性。基础模型是一层。同样重要的是代理在部署到生产环境后如何行为，它们调用什么工具，使用什么权限，以及这些选择如何随时间演变。仅在模型边界停止的安全评估将运营表面基本上未经检查。

在代理级别强制执行最小权限。人工智能代理应该仅访问必要的工具、API 和数据用于其指定功能。即使代理的输出看起来是无害的，这个限制也很重要。限制范围减少了被泄露代理的爆炸半径，并创建了更清晰的行为基线，使异常检测更有效。

将代理视为生成遥测数据的身份。代理采取的每个操作都是一个数据点。安全团队应该围绕代理启动的操作链构建检测逻辑，而不仅仅是代理之前的用户提示。这一重构将监控从代理被要求做什么转移到代理实际做了什么，这就是攻击者意图变得可见的地方。

投资用于此任务的专用检测模型的连续行为监控。随着操作序列出现的恶意意图需要专门的能力。传统的监控工具是为人类生成的活动模式而构建的。代理行为，其速度、数量和多步骤结构，要求从一开始就为此背景而设计的检测基础设施。

优先考虑集体防御。人工智能驱动的攻击技术正在比任何单个组织都能跟踪的速度更快地演变。共享研究、开放协作和社区威胁情报不是人工智能安全策略的可选补充；它们是核心输入。那些保持当前的防御者是那些为集体知识做出贡献并从中汲取的人。

行为安全实际上是有效的

对于进行此转变的安全团队，运营回报是具体的。将检测固定在代理行为上，而不是模型输出，能够更早地识别恶意意图，即使攻击是隐蔽的、适应性强的或加密的。成功地将提示突变到输入过滤器的攻击者仍然必须采取行动。这些行动会留下痕迹。行为检测在损害传播之前找到这些痕迹。

也许最重要的是，这种方法为组织提供了一条可信的路径，以在不接受比例安全风险的情况下大规模部署人工智能代理。阻止许多企业的疑问不是人工智能代理是否可以提供价值；而是它们是否可以在不降低安全态势的情况下部署。行为安全，基于代理实际运行的方式，而不是输入它接收的内容，提供了这种信心，这是提示控制无法提供的。

安全边界被画在错误的地方，这个错误在人工智能只是等待输入的工具时是有意义的。它不再等待，代理系统会采取行动、连接、升级和在预部署测试无法预见的环境中扩散。最早认识到这一点的组织将是那些实际上可以自信地扩大人工智能规模的组织。其他人将在未来几年里，每次泄露都会发现，控制模型的输出与控制它的行为并不是同一件事。

Related Topics:chatbot chatbots DeepTempo