人工智能
为什么代理人式 AI 在现实世界中仍然会崩溃

过去几年,我们见证了代理人式 AI 系统的崛起。它们可以编写代码,通过测试用例,搜索网络,回答复杂问题,并以惊人的准确性导航软件界面。每次会议演讲,每次新闻发布会,每次基准测试报告都强调了代理人式 AI 的出现。
但是,隐藏在这些令人印象深刻的演示之下的问题是,当这些系统从受控环境转移到现实世界部署时,它们经常以基准测试无法预测的方式失败。完美运行在 100 个精心策划的示例上的代码生成器开始在边缘情况下产生错误,实验室中取得 85% 准确率的网络搜索代理在用户行为发生变化时检索出越来越不相关的结果,而在测试期间完美协调了十个 API 调用的规划系统在遇到意外的 API 响应格式时就会崩溃。
这些系统的失败并不是因为它们缺乏智慧,而是因为它们缺乏适应能力。问题在于代理人式 AI 系统如何学习和调整。虽然最先进的系统建立在庞大的基础模型之上,但仅凭借原始智慧是不够的。要执行专门的任务,代理人式 AI 必须能够适应。当前的代理人式 AI 系统由于其设计和训练中的结构性限制,无法做到这一点。在本文中,我们将探讨这些限制以及为什么它们仍然存在。
演示中的能力幻觉
现代 AI 中最危险的故障模式是能力幻觉。简短的演示往往隐藏了真正的复杂性。它们在干净的数据集、可预测的 API 和狭窄的任务范围内运行。生产环境则恰恰相反。数据库不完整,架构会在未经通知的情况下更改,服务会超时,权限会冲突,用户会提出违反系统基本假设的问题。
这就是生产复杂性大幅增加的地方。演示中可能只出现一次的边缘情况可能在部署中每天出现数千次。小的概率错误会迅速累积。一个“大部分正确”的代理人式 AI 很快就会变得不可靠。
问题的核心是对冻结的基础模型的依赖。这些模型擅长于模式完成,但代理人式行为是顺序的和有状态的。每个操作都依赖于前一个操作的结果。在这种情况下,统计不确定性会迅速累积。早期任务中的小错误可能会导致后期的循环、死胡同或破坏性操作。因此,代理人式 AI 在评估期间看起来很有能力,但一旦部署就会迅速恶化。
问题不在于缺少特性,而在于通用模型被要求像领域专家一样行事,而不被允许从环境中学习。
从通用智能到环境能力
基础模型是为通用而设计的。它们编码了广泛的知识和灵活的推理模式。生产代理人式 AI 必须是环境的。它们需要了解特定组织及其工具的规则、约束和故障模式。没有这些,代理人式 AI 就像一个只读过手册但从未实际工作过的人。
弥合这一差距需要重新思考适应性。当前的方法大致可以分为两类:重新训练核心代理人式 AI 或调整它使用的外部工具。每种方法都解决了一个问题,但又引发了另一个问题。这使我们拥有了僵硬、昂贵或不稳定的系统,无法满足生产环境中的一致性和成本要求。
单体代理人式陷阱
第一种方法,即代理人式适应,试图使核心语言模型更智能地使用工具。它本质上是教代理人式 AI 需要使用工具的特定技能。研究人员将其进一步分为两类。一些方法使用工具的直接反馈来训练代理人式 AI,例如代码编译器的成功或搜索引擎的结果。其他方法则基于最终输出的正确性来训练代理人式 AI,例如正确或错误的答案。
像 DeepSeek-R1 和 Search-R1 这样的系统展示了代理人式 AI 可以学习使用工具的复杂、多步骤策略。然而,这种能力带来了巨大的成本。训练十亿参数的模型计算成本过高。更关键的是,它会产生僵硬、脆弱的智慧。通过将代理人式 AI 的知识和工具使用规则结合起来,这种方法使更新变得缓慢、风险高、不适合快速变化的业务需求。将代理人式 AI 适应新任务或工具的风险是“灾难性遗忘”,即代理人式 AI 会忘记之前掌握的技能。就像每次添加新组件时都需要重建整个工厂生产线一样。
脆弱工具问题
认识到这些限制,第二种主要方法,即工具适应,保持核心代理人式 AI 不变,而是优化其生态系统中的工具。这更模块化、更划算。一些工具是通用训练的,例如标准搜索检索器,并插入。其他工具是专门为补充冻结的代理人式 AI 而设计的,从代理人式 AI 的输出中学习,以成为更好的助手。
这种范式为效率带来了巨大的希望。一个名为 s3 的系统的开创性研究展示了这种方法的潜力。它训练了一个小型、专门的“搜索器”工具来支持冻结的语言模型,实现了与完全重新训练的代理人式 AI(如 Search-R1)相当的性能,但使用的训练数据仅为后者的 1/70。直觉是,为什么要重新教一个杰出的物理学家如何使用图书馆目录?相反,训练一个更好的图书管理员,他了解物理学家的需求。
然而,工具箱模型也有其自身的局限性。整个系统的能力最终受到冻结的语言模型的固有推理的限制。你可以给外科医生一个更锋利的 scalpels,但你不能让一个非外科医生进行心脏手术。此外,协调越来越多的适应性工具成为一个复杂的集成挑战。工具 A 可能会针对一个指标进行优化,但该指标可能会违反工具 B 的输入要求。系统的性能然后取决于各个组件之间的脆弱平衡。
协同适应挑战
这使我们面临当前代理人式 AI 范式中的适应性缺陷的核心。我们要么适应代理人式 AI,要么适应工具,但不能同时以同步、稳定的方式进行。生产环境不是静态的。新的数据、新用户需求和新工具不断涌现。无法平滑、安全地演化其“大脑”和“手”的代理人式 AI 系统最终会崩溃。
研究人员确定这种协同适应的需求是下一个前沿领域。然而,这是一个复杂的挑战。如果代理人式 AI 和工具同时学习,谁应该为失败承担责任或获得赞扬?如何防止代理人式 AI 和工具之间的不稳定反馈循环,导致它们相互追逐变化而不提高整体性能?早期尝试,例如将代理人式 AI 和工具关系视为合作多代理人式系统,揭示了这一困难。没有健全的信用分配和稳定性解决方案,即使我们最先进的代理人式 AI 也只是一堆令人印象深刻但不连贯的能力。
将记忆作为一级系统
适应性缺陷最明显的迹象之一是静态记忆。许多部署的代理人式 AI 无法随时间改进。它们重复相同的错误,因为它们无法内化经验。每次交互都被视为第一次。
生产环境需要适应性记忆。代理人式 AI 需要分段回忆来处理长时间任务,策略性记忆来改进计划,操作性记忆来避免重复错误。没有这些,代理人式 AI 感觉脆弱,不能信任。
记忆应该被视为一个可调节的组件,而不是一个被动的日志。能够回顾经验、从错误中学习并调整其行为的系统远比那些不能做到这些的系统更稳定。
自适应系统的新风险
适应性引入了自己的风险。代理人式 AI 可能会学习优化指标而不是目标,这种现象被称为寄生适应。它们可能看起来很成功,但实际上却在破坏底层目标。在多代理人式系统中,受损的工具可能会通过微妙的提示注入或误导性数据来操纵代理人式 AI。为了减轻这些风险,代理人式 AI 需要健全的验证机制。行动必须是可测试的、可逆转的和可审计的。代理人式 AI 和工具之间的安全层可以确保错误不会悄悄传播。
结论
代理人式 AI 要在现实世界中发挥作用,它不能仅仅是智能的;它必须能够适应。今天,大多数代理人式 AI 都会失败,因为它们被“冻结”在时间上,而现实世界却复杂、不断变化。如果代理人式 AI 不能更新其记忆并从错误中学习,它最终会崩溃。可靠性不来自完美的演示;它来自适应的能力。












