谁来监控智能代理？——AI监管的新时代

Published September 15, 2025

Updated May 18, 2026

Michael Abramov, Founder and CEO of Introspector

当我们讨论智能代理（AI agents）时，大多数人的想象力会浮现出超级智能系统自主行动、做出不可预测的事情的画面。因此，有一天，代理秘书可能非常有用，第二天它可能会将您的银行凭证交给一个随机的人。

“超级智能”部分实际上与这个问题无关。关键问题不是智能代理有多“聪明”，而是它有多少自由和访问基础设施的权限。

在实践中，代理的价值不在于其智能水平，而在于其权限的边界。即使是一个相对简单的代理，一旦获得访问数据集、企业系统、财务操作或外部API的权限，就会获得影响过程的能力，这需要特殊的关注和监管。

这就是为什么监控和遏制系统变得越来越重要，不仅是在模型级别，也是在其在基础设施中的行为级别。

这并不是巧合，观察和控制代理活动的倡议近年来正在获得动力。这些实际解决方案已经被大型科技公司实施。

代理如何工作

为了理解监管如何工作，我们首先需要了解代理的组成。简化地说，它可以被视为认知核心和工具的组合。

工具是代理可以访问的外部服务和集成。例如，对于旅行代理，这可能包括Booking.com或Airbnb用于查找酒店、航空公司聚合器用于购买票、以及支付系统或银行卡用于付款。这些工具本身并不是智能的；它们只是允许代理在现实世界中行动。

认知核心是一个语言模型（LLM）。它使代理能够对人类制定的请求进行有意义的处理。例如，请求“我想在下个月内飞往欧洲，天气好，三天”太模糊。代理要求LLM“将请求分解为类别”。作为回应，它收到结构化参数：哪里、什么时候、多久、什么条件。

过去，ChatGPT只生成文本响应。现在，嵌入在代理中，它成为“大脑+工具”的组合，不仅可以解释，还可以采取行动。LLM结构化任务，工具允许它执行特定操作。

在这一阶段，控制系统开始发挥作用。我称这种安全解决方案为“监视器”（有一段时间，我甚至考虑过创建一个专注于此的初创公司），一种内置于代理的守护程序。其工作是监控代理的操作并将其与原始请求进行比较。目标是确保代理在预期边界内运行。

回到旅行的例子：假设我们的用户想预订三天的欧洲之旅。代理与天气服务、航空票和银行账户进行交互，用于付款。似乎一切正常。但是突然，“监视器”注意到代理请求访问与行程付款无关的公司数据库或银行账户。这触发了安全警报，表明可疑行为。

重要的是要理解规模：代理可能每天为成千上万的用户提供服务，每个请求会触发数百个操作，导致数百万个操作。“监视器”分析所有操作并生成统计数据。报告可能指出：“13%的操作是冗余的，7%与财务安全有关。”进一步的详细信息解释了哪些具体操作似乎可疑。

这种工具使开发人员能够看到完整的图景，并及时响应异常，形成一种实用的AI控制解决方案，结合实时监控、异常检测和问责制。

主要，“监视器”是为开发人员设计的，以确保系统正常运行。然而，也可以想象一个外部版本：一个单独的观察代理，监控主代理。这增加了另一个AI安全层，超出了内部系统的监管。

有一个重要的限制：代理的内部过程仍然是“封闭的”。我们只能观察其行为，而不是其认知过程。一个类比是人类：我可以看到有人拿起电话，拨号，交谈。但是我不知道拨了哪个号码，什么是意图，或者说了什么。同样，外部观察者看到代理的操作，但看不到其认知核心。

另一个有趣的考虑：代理可能会尝试绕过或禁用此类观察者，就像人类经常抵制持续的监视一样。虽然这听起来像科幻小说，但这是可能的。集成内部AI安全解决方案、异常检测和分层监管可以帮助减轻这些风险，并保持对日益自治系统的控制。

今天，这样的“监视器”系统基于一个简单的原则：“允许”或“不允许”。例如，如果规则说“访问亚马逊是禁止的”，代理去那里，就会记录一个违规。但是这种方法不理解上下文。

更高级的系统应该分析违规和其原因。代理为什么去亚马逊？在任务方面，这是否合理？这里，我们谈论的是上下文感知的监管，类似于心理学家的工作。

目前，这样的解决方案只存在于概念中。现有的系统仅限于严格的黑白控制。但是，随着代理变得更加复杂，一个能够考虑上下文的“监视器”将会出现。

今天，我们看到代理监控计划的增长。它们正在大型科技公司的层面上积极开发。例如，ActiveFence与NVIDIA和亚马逊等大型玩家合作。

此外，可以安全地假设Google、OpenAI、Anthropic和亚马逊已经使用自己的内部“监视器”系统、分析和遥测。

我也注意到Keymakr企业客户中对此的需求——监管和监控正在成为AI基础设施的核心部分。没有它们，大规模代理部署将是不可能的。

Michael Abramov 是 Introspector 的创始人和 CEO，他带来了 15 年以上的软件工程和计算机视觉 AI 系统经验，用于构建企业级标注工具。

Michael 开始他的职业生涯作为软件工程师和研发经理，构建可扩展的数据系统和管理跨功能的工程团队。直到 2025 年，他曾担任 Keymakr 的 CEO，该公司是一家数据标注服务公司，他在那里开创了人机协同工作流、先进的 QA 系统和定制工具，以支持大规模计算机视觉和自主驾驶数据需求。

他拥有计算机科学学士学位，并具有工程和创意艺术背景，这使他能够从多学科的角度解决棘手的问题。Michael 活跃在技术创新、战略产品领导和现实世界影响力的交叉点，推动自主系统和智能自动化的下一个前沿。