思想领袖

弥合 AI 代理人差距：自治谱系中的实施现实

发布于 2025年4月3日

更新于 2026年5月19日

作者

Anita Kirkovska, 创始增长负责人，Vellum

最近的调查数据来自 1,250 多个开发团队，揭示了一个惊人的现实：55.2% 计划今年建设更复杂的代理人工作流程，但只有 25.1% 成功部署了 AI 应用程序到生产环境。这个野心和实施之间的差距凸显了行业的关键挑战：如何有效地建设、评估和扩展日益自治的 AI 系统？

与其辩论“代理人”的抽象定义，不如关注实际的实施挑战和开发团队今天正在导航的能力谱系。

理解自治框架

类似于自治车辆如何通过定义的能力级别发展，AI 系统遵循一个发展轨迹，其中每个级别建立在以前的能力之上。这个六级框架（L0-L5）为开发人员提供了一个实用的视角来评估和规划他们的 AI 实施。

L0：基于规则的工作流程（跟随者）- 传统的自动化，具有预定义的规则和没有真正的智能
L1：基本响应器（执行者）- 反应系统，处理输入但缺乏记忆或迭代推理
L2：使用工具（行为者）- 主动决定何时调用外部工具和集成结果的系统
L3：观察、计划、执行（操作员）- 多步骤工作流程，具有自我评估能力
L4：完全自治（探索者）- 持续系统，维护状态和独立触发操作
L5：完全创造性（发明者）- 创建新工具和方法来解决不可预测问题的系统

当前实施现实：大多数团队今天的位置

实施现实揭示了理论框架和生产系统之间的鲜明对比。我们的调查数据显示，大多数团队仍然处于实施成熟度的早期阶段：

25% 仍然处于战略开发阶段
21% 正在建设概念验证
1% 正在测试环境中
1% 已经达到生产部署

这种分布凸显了从概念到实施的实际挑战，即使是在较低的自治级别。
自治级别的技术挑战

L0-L1：基础建设

今天的大多数生产 AI 系统都运行在这些级别上，51.4% 的团队正在开发客户服务聊天机器人，59.7% 的团队专注于文档解析。这个阶段的主要实施挑战是集成复杂性和可靠性，而不是理论限制。

L2：当前的边界

这是正在发生的尖端开发，59.7% 的团队正在使用向量数据库来使他们的 AI 系统基于事实信息。开发方法差异很大：

2% 使用内部工具构建
9% 利用第三方 AI 开发平台
9% 仅依赖提示工程

L2 开发的实验性质反映了不断演变的最佳实践和技术考虑。团队面临着重大的实施障碍，57.4% 的团队将幻觉管理作为他们的首要关注点，其次是用例优先级（42.5%）和技术专长差距（38%）。

L3-L5：实施屏障

即使在模型能力方面取得了显著进步，基本限制仍然阻碍了向更高自治级别的进展。当前模型表明了一个关键的限制：它们过度拟合训练数据，而不是表现出真正的推理。这解释了为什么 53.5% 的团队依赖提示工程，而不是细化（32.5%）来指导模型输出。

技术栈考虑

技术实施栈反映了当前的能力和限制：

多模态集成：文本（93.8%）、文件（62.1%）、图像（49.8%）和音频（27.7%）
模型提供者：OpenAI（63.3%）、Microsoft/Azure（33.8%）和 Anthropic（32.3%）
监控方法：内部解决方案（55.3%）、第三方工具（19.4%）和云提供商服务（13.6%）

随着系统变得更加复杂，监控能力变得越来越重要，52.7% 的团队现在正在积极监控 AI 实施。

阻碍更高自治的技术限制

即使是今天最先进的模型也表现出一个基本限制：它们过度拟合到训练数据，而不是表现出真正的推理。这解释了为什么大多数团队（53.5%）依赖提示工程，而不是细化（32.5%）来指导模型输出。无论您的工程多么复杂，当前模型仍然难以实现真正的自治推理。

技术栈反映了这些限制。虽然多模态能力正在增长——文本（93.8%）、文件（62.1%）、图像（49.8%）和音频（27.7%）——但 OpenAI（63.3%）、Microsoft/Azure（33.8%）和 Anthropic（32.3%）的底层模型仍然具有限制真正自治的基本约束。

开发方法和未来方向

对于今天建设 AI 系统的开发团队，数据中出现了几个实际的见解。首先，协作至关重要——有效的 AI 开发涉及工程（82.3%）、主题专家（57.5%）、产品团队（55.4%）和领导（60.8%）。这使得 AI 开发从传统的软件工程中区别开来。

展望 2025 年，团队正在设定雄心壮志的目标：58.8% 的团队计划建设更多面向客户的 AI 应用程序，而 55.2% 的团队正在为更复杂的代理人工作流程做准备。为了支持这些目标，41.9% 的团队专注于提升团队的技能，而 37.9% 的团队正在为内部使用案例建设组织特定的 AI。

监控基础设施也正在演变，52.7% 的团队现在正在监控他们的 AI 系统。其中，大多数（55.3%）使用内部解决方案，而其他团队则利用第三方工具（19.4%）、云提供商服务（13.6%）或开源监控（9%）。随着系统变得更加复杂，这些监控能力将变得越来越重要。

技术路线图

展望未来，向 L3 及更高级别的进展将需要根本性的突破，而不是渐进式的改进。然而，开发团队正在为更自治的系统奠定基础。

对于建设更高自治级别的团队，重点领域应包括：

强大的评估框架，超越手动测试，程序化地验证输出
增强的监控系统，能够检测和响应生产环境中的意外行为
工具集成模式，使 AI 系统能够安全地与其他软件组件交互
推理验证方法，区分真正的推理和模式匹配

数据显示，竞争优势（31.6%）和效率增益（27.1%）已经被实现，但 24.2% 的团队报告尚未看到可衡量的影响。这凸显了选择适当的自治级别以解决特定的技术挑战的重要性。

当我们进入 2025 年时，开发团队必须对当前可能实现的内容保持现实的态度，同时尝试将来可能使得更自治系统成为可能的模式。理解每个自治级别的技术能力和限制将帮助开发人员做出明智的架构决策，并建设能够提供真正价值而不仅仅是技术新颖性的 AI 系统。