思想领袖

填补 AI 代理人差距：自治谱系中的实施现实

Published April 3, 2025

Updated April 26, 2026

Anita Kirkovska, Founding Growth Lead at Vellum

最近的调查数据来自 1,250 多个开发团队，揭示了一个惊人的现实：55.2% 计划今年构建更复杂的代理人工作流程，但只有 25.1% 成功部署了 AI 应用程序到生产环境。这一野心和实施之间的差距凸显了行业的关键挑战：如何有效地构建、评估和扩展日益自治的 AI 系统？

与其辩论抽象的 “代理人” 定义，不如让我们关注实际的实施挑战和开发团队今天正在导航的能力谱系。

理解自治框架

类似于自主车辆如何通过定义的能力级别进步，AI 系统遵循一个发展轨迹，其中每个级别建立在以前的能力之上。这个六级框架（L0-L5）为开发人员提供了一个实用的视角来评估和规划他们的 AI 实施。

L0：基于规则的工作流（跟随者）- 传统的自动化，具有预定义的规则和没有真正的智能
L1：基本响应器（执行者）- 反应系统，处理输入但缺乏记忆或迭代推理
L2：使用工具（行为者）- 主动决定何时调用外部工具和集成结果的系统
L3：观察、计划、执行（操作员）- 具有自我评估能力的多步骤工作流
L4：完全自治（探索者）- 持续系统，维护状态并独立触发操作
L5：完全创造性（发明家）- 创建新工具和方法来解决不可预测问题的系统

当前实施现实：大多数团队今天的位置

实施现实揭示了理论框架和生产系统之间的鲜明对比。我们的调查数据显示，大多数团队仍然处于实施成熟度的早期阶段：

25% 仍然处于战略开发阶段
21% 正在构建概念验证
1% 正在测试 beta 环境
1% 已经达到生产部署

这种分布凸显了从概念到实施的实际挑战，即使是在较低的自治级别。

技术挑战按自治级别

L0-L1：基础建设

今天的大多数生产 AI 系统都在这些级别上运行，51.4% 的团队正在开发客户服务聊天机器人，59.7% 专注于文档解析。在这个阶段，主要的实施挑战是集成复杂性和可靠性，而不是理论限制。

L2：当前边界

这是正在发生的尖端开发，59.7% 的团队使用向量数据库来使他们的 AI 系统基于事实信息。开发方法差异很大：

2% 使用内部工具构建
9% 利用第三方 AI 开发平台
9% 仅依赖提示工程

L2 开发的实验性质反映了不断演变的最佳实践和技术考虑。团队面临着重大的实施障碍，57.4% 的团队将幻觉管理列为他们的首要关注点，其次是用例优先级（42.5%）和技术专长差距（38%）。

L3-L5：实施障碍

即使在模型能力方面取得了显著进步，基本限制也阻碍了向更高自治级别的进展。当前的模型表明了一个关键的限制：它们过度拟合训练数据，而不是表现出真正的推理。这解释了为什么 53.5% 的团队依赖提示工程，而不是微调（32.5%）来指导模型输出。

技术栈考虑

技术实施栈反映了当前的能力和限制：

多模态集成：文本（93.8%）、文件（62.1%）、图像（49.8%）和音频（27.7%）
模型提供者：OpenAI（63.3%）、Microsoft/Azure（33.8%）和 Anthropic（32.3%）
监控方法：内部解决方案（55.3%）、第三方工具（19.4%）和云提供商服务（13.6%）

随着系统变得更加复杂，监控能力变得越来越重要，52.7% 的团队现在正在监控他们的 AI 实施。

技术限制阻碍更高的自治

即使是今天最先进的模型也表明了一个基本的限制：它们过度拟合到训练数据，而不是表现出真正的推理。这解释了为什么大多数团队（53.5%）依赖提示工程，而不是微调（32.5%）来指导模型输出。不管你的工程多么复杂，当前的模型仍然难以真正自治地推理。

技术栈反映了这些限制。虽然多模态能力正在增长——文本（93.8%）、文件（62.1%）、图像（49.8%）和音频（27.7%）——但 OpenAI（63.3%）、Microsoft/Azure（33.8%）和 Anthropic（32.3%）的底层模型仍然具有相同的基本限制，这些限制限制了真正的自治。

开发方法和未来方向

对于今天构建 AI 系统的开发团队，数据中出现了几个实际的见解。首先，协作是必不可少的——有效的 AI 开发涉及工程（82.3%）、主题专家（57.5%）、产品团队（55.4%）和领导（60.8%）。这要求跨职能团队，这使得 AI 开发与传统的软件工程有所不同。

展望 2025 年，团队正在设定雄心勃勃的目标：58.8% 计划构建更多面向客户的 AI 应用程序，而 55.2% 正在为更复杂的代理人工作流做准备。为了支持这些目标，41.9% 的团队专注于提升他们的团队技能，37.9% 的团队正在为内部使用案例构建组织特定的 AI。

监控基础设施也正在演变，52.7% 的团队现在正在监控他们的 AI 系统。其中，大多数（55.3%）使用内部解决方案，而其他团队则利用第三方工具（19.4%）、云提供商服务（13.6%）或开源监控（9%）。随着系统变得更加复杂，这些监控能力将变得越来越重要。

技术路线图

展望未来，向 L3 及更高级别的进展将需要根本性的突破，而不是渐进式的改进。尽管如此，开发团队正在为更自治的系统奠定基础。

对于正在构建更高自治级别的团队，重点应该包括：

强大的评估框架，超越手动测试以编程方式验证输出
增强的监控系统，能够检测和响应生产中的意外行为
工具集成模式，允许 AI 系统安全地与其他软件组件交互
推理验证方法，区分真正的推理和模式匹配

数据显示，竞争优势（31.6%）和效率提升（27.1%）已经被实现，但 24.2% 的团队报告尚未看到任何可衡量的影响。这凸显了选择适合您特定技术挑战的自治级别的重要性。

当我们进入 2025 年时，开发团队必须对当前可能的内容保持现实，同时尝试可能在未来使系统更加自治的模式。了解每个自治级别的技术能力和限制将帮助开发人员做出明智的架构决策，并构建真正具有价值的 AI 系统，而不是仅仅具有技术新颖性。

Unite.AI