思想领袖
他们承诺我们代理,但我们只得到了静态链
2023 年春天,世界对基于 LLM 的 AI 代理的出现感到兴奋。像 AutoGPT 和 BabyAGI 这样的强大演示展示了 LLM 运行在循环中,选择下一个动作,观察其结果,并选择下一个动作,一步一步地执行(也称为 ReACT 框架)的潜力。这一新方法预计将为能够自主和通用地执行多步骤任务的代理提供动力。给它一个目标和一套工具,它将处理其余的事情。到 2024 年底,景观将充满 AI 代理和 AI 代理构建框架。但是,他们如何衡量承诺?
可以肯定地说,受 ReACT 框架的限制,受限于简单的 ReACT 框架 的代理遭受着严重的限制。给他们一个需要多个步骤、使用多个工具的任务,他们将惨败。除了他们明显的延迟问题外,他们将失去跟踪,无法遵循指令,过早或过晚停止,并在每次尝试中产生大不相同的结果。而这并不奇怪。ReACT 框架将不可预测的 LLM 的限制与步骤数量相乘。然而,代理构建者寻求解决现实世界的用例,特别是在企业中,不能满足于这种性能水平。他们需要可靠、可预测和可解释的结果,用于复杂的多步骤工作流程。并且他们需要人工智能系统来减轻,而不是加剧,LLM 的不可预测性。
那么,代理如何在企业中构建?对于需要多个工具和多个步骤的用例(例如对话式 RAG),今天代理构建者已经基本上放弃了 ReACT 的动态和自主承诺,转向了严重依赖静态链的方法 – 创建预定义的链来解决特定的用例。这种方法类似于传统的软件工程,远离了 ReACT 的代理承诺。它实现了更高的控制和可靠性,但缺乏自主性和灵活性。因此,解决方案开发密集、应用狭窄、太僵硬,无法应对输入空间和环境中的高变异性。
可以肯定,静态链的实践可以在“静态”程度上有所不同。一些链仅使用 LLM 执行原子步骤(例如,提取信息、总结文本或草拟消息),而其他链还使用 LLM 在运行时动态地做出一些决定(例如,LLM 在链的替代流之间路由或 LLM 验证步骤的结果以确定是否应该再次运行)。无论如何,只要 LLM 负责解决方案中的任何动态决策 – 我们不可避免地陷入了可靠性和自主性之间的权衡。解决方案越静态,越可靠和可预测,但也越缺乏自主性,因此应用越狭窄,开发越密集。解决方案越动态和自主,越通用和简单构建,但也越不可靠和不可预测。
这种权衡可以在以下图表中表示:

这引发了一个问题,为什么我们还没有看到一个可以放置在右上象限的代理框架?我们是否注定要永远用可靠性换取自主性?我们不能获得一个既提供 ReACT 代理的简单接口(接受一个目标和一套工具并解决它)又不牺牲可靠性的框架吗?
答案是 – 我们可以并且我们会!但为了实现这一点,我们需要意识到我们一直做错了。所有当前的代理构建框架都共享一个共同的缺陷:它们依赖于 LLM 作为动态、自主的组件。然而,我们缺失的关键元素 – 我们需要创建既自主又可靠的代理 – 是规划技术。而 LLM 不是伟大的规划者。
但首先,什么是“规划”?通过“规划”我们指的是显式地对可能导致期望结果的替代行动方案进行建模,并在预算约束下高效地探索和利用这些替代方案。规划应在宏观和微观层面进行。宏观计划将任务分解为依赖和独立步骤,这些步骤必须执行以实现期望的结果。通常被忽略的是需要微观规划,以确保在步骤级别实现期望的结果。有许多可用的策略可以通过使用更多的推理时间计算来增加可靠性和实现保证。例如,您可以多次对语义搜索查询进行改述,可以检索每个查询的更多上下文,可以使用更大的模型,并且可以从 LLM 中获得更多推理 – 所有这些都可以从中选择最好的结果。好的微规划器可以在给定的计算和延迟预算下高效地使用推理时间计算来实现最好的结果。这样,规划性人工智能系统可以减轻 LLM 的概率性质,以在步骤级别实现保证的结果。没有这样的保证,我们将回到即使是最好的宏观计划也会被破坏的复合错误问题中。
但为什么 LLM 不能作为规划器?毕竟,它们能够将高级指令转换为合理的思维链或用自然语言或代码定义的计划。原因是规划需要的不仅仅是这些。规划需要能够对可能合理地导致期望结果的替代行动方案进行建模,并对每个替代方案的预期效用和预期成本(以计算和/或延迟为单位)进行推理。虽然 LLM 可以潜在地生成可用行动方案的表示,但它们无法预测相应的预期效用和成本。例如,使用模型 X 与使用模型 Y 生成特定上下文中的答案的预期效用和成本是什么?在索引文档集合中查找特定信息与通过 CRM 的 API 调用相比的预期效用是什么?您的 LLM 根本不知道。并且有充分的理由 – 这些概率特征的历史痕迹很少在野外找到,并且不包含在 LLM 的训练数据中。它们还趋向于特定于 AI 系统将运行的工具和数据环境,而不是 LLM 可以获得的一般知识。即使 LLM 可以预测预期效用和成本,推理它们以选择最有效的行动方案是一种逻辑决策理论推理,不能假设由 LLM 的下一个令牌预测可靠地执行。
那么,AI 规划技术缺失的成分是什么?我们需要能够从经验和模拟中学习的规划器模型,以显式地对特定任务在特定工具和数据环境中的替代行动方案和相应的效用和成本概率进行建模。我们需要一个计划定义语言 (PDL),用于表示和推理所述行动方案和概率。我们需要一个可以确定地和高效地执行用 PDL 定义的给定计划的执行引擎。
有些人已经在努力实现这一承诺。直到那时,继续构建静态链。只是请不要称它们为“代理”。












