思想领袖

谁来监控智能代理?——AI监管的新时代

mm

当我们讨论智能代理(AI agents)时,大多数人的想象力会浮现出超级智能系统自主行动、做出不可预测的事情的画面。因此,有一天,代理秘书可能非常有用,第二天它可能会将您的银行凭证交给一个随机的人。

“超级智能”部分实际上与这个问题无关。关键问题不是智能代理有多“聪明”,而是它有多少自由和访问基础设施的权限。

在实践中,代理的价值不在于其智能水平,而在于其权限的边界。即使是一个相对简单的代理,一旦获得访问数据集、企业系统、财务操作或外部API的权限,就会获得影响过程的能力,这需要特殊的关注和监管。

这就是为什么监控和遏制系统变得越来越重要,不仅是在模型级别,也是在其在基础设施中的行为级别。

这并不是巧合,观察和控制代理活动的倡议近年来正在获得动力。这些实际解决方案已经被大型科技公司实施。

代理如何工作

为了理解监管如何工作,我们首先需要了解代理的组成。简化地说,它可以被视为认知核心和工具的组合。

工具是代理可以访问的外部服务和集成。例如,对于旅行代理,这可能包括Booking.com或Airbnb用于查找酒店、航空公司聚合器用于购买票、以及支付系统或银行卡用于付款。这些工具本身并不是智能的;它们只是允许代理在现实世界中行动。

认知核心是一个语言模型(LLM)。它使代理能够对人类制定的请求进行有意义的处理。例如,请求“我想在下个月内飞往欧洲,天气好,三天”太模糊。代理要求LLM“将请求分解为类别”。作为回应,它收到结构化参数:哪里、什么时候、多久、什么条件。

过去,ChatGPT只生成文本响应。现在,嵌入在代理中,它成为“大脑+工具”的组合,不仅可以解释,还可以采取行动。LLM结构化任务,工具允许它执行特定操作。

监管如何工作

在这一阶段,控制系统开始发挥作用。我称这种安全解决方案为“监视器”(有一段时间,我甚至考虑过创建一个专注于此的初创公司),一种内置于代理的守护程序。其工作是监控代理的操作并将其与原始请求进行比较。目标是确保代理在预期边界内运行。

回到旅行的例子:假设我们的用户想预订三天的欧洲之旅。代理与天气服务、航空票和银行账户进行交互,用于付款。似乎一切正常。但是突然,“监视器”注意到代理请求访问与行程付款无关的公司数据库或银行账户。这触发了安全警报,表明可疑行为。

重要的是要理解规模:代理可能每天为成千上万的用户提供服务,每个请求会触发数百个操作,导致数百万个操作。“监视器”分析所有操作并生成统计数据。报告可能指出:“13%的操作是冗余的,7%与财务安全有关。”进一步的详细信息解释了哪些具体操作似乎可疑。

这种工具使开发人员能够看到完整的图景,并及时响应异常,形成一种实用的AI控制解决方案,结合实时监控、异常检测和问责制。

谁从”监视器“中受益:开发人员还是用户?

主要,“监视器”是为开发人员设计的,以确保系统正常运行。然而,也可以想象一个外部版本:一个单独的观察代理,监控主代理。这增加了另一个AI安全层,超出了内部系统的监管。

有一个重要的限制:代理的内部过程仍然是“封闭的”。我们只能观察其行为,而不是其认知过程。一个类比是人类:我可以看到有人拿起电话,拨号,交谈。但是我不知道拨了哪个号码,什么是意图,或者说了什么。同样,外部观察者看到代理的操作,但看不到其认知核心。

另一个有趣的考虑:代理可能会尝试绕过或禁用此类观察者,就像人类经常抵制持续的监视一样。虽然这听起来像科幻小说,但这是可能的。集成内部AI安全解决方案、异常检测和分层监管可以帮助减轻这些风险,并保持对日益自治系统的控制。

原始规则还是上下文感知分析?

今天,这样的“监视器”系统基于一个简单的原则:“允许”或“不允许”。例如,如果规则说“访问亚马逊是禁止的”,代理去那里,就会记录一个违规。但是这种方法不理解上下文。

更高级的系统应该分析违规和其原因。代理为什么去亚马逊?在任务方面,这是否合理?这里,我们谈论的是上下文感知的监管,类似于心理学家的工作。

目前,这样的解决方案只存在于概念中。现有的系统仅限于严格的黑白控制。但是,随着代理变得更加复杂,一个能够考虑上下文的“监视器”将会出现。

今天,我们看到代理监控计划的增长。它们正在大型科技公司的层面上积极开发。例如,ActiveFence与NVIDIA和亚马逊等大型玩家合作。

此外,可以安全地假设Google、OpenAI、Anthropic和亚马逊已经使用自己的内部“监视器”系统、分析和遥测。

我也注意到Keymakr企业客户中对此的需求——监管和监控正在成为AI基础设施的核心部分。没有它们,大规模代理部署将是不可能的。

Michael Abramov 是 Introspector 的创始人和 CEO,他带来了 15 年以上的软件工程和计算机视觉 AI 系统经验,用于构建企业级标注工具。

Michael 开始他的职业生涯作为软件工程师和研发经理,构建可扩展的数据系统和管理跨功能的工程团队。直到 2025 年,他曾担任 Keymakr 的 CEO,该公司是一家数据标注服务公司,他在那里开创了人机协同工作流、先进的 QA 系统和定制工具,以支持大规模计算机视觉和自主驾驶数据需求。

他拥有计算机科学学士学位,并具有工程和创意艺术背景,这使他能够从多学科的角度解决棘手的问题。Michael 活跃在技术创新、战略产品领导和现实世界影响力的交叉点,推动自主系统和智能自动化的下一个前沿。