AI 模型与平台

多智能体悖论：为什么更多的 AI 智能体可能导致更差的结果

发布于 2025年12月22日

更新于 2026年5月17日

作者

Dr. Tehseen Zia

在过去的两年中，多智能体系统被认为是人工智能的自然下一步发展。如果一个大型语言模型可以推理、规划和行动，那么多个智能体一起工作应该会做得更好。这种信念推动了智能体团队在编码、研究、金融和工作流自动化方面的崛起。但是，新的研究揭示了一个违反直觉的悖论。它似乎添加更多的智能体到系统中并不总是能带来更好的性能。相反，它使系统变慢、更昂贵和不那么准确。这种现象，我们称之为多智能体悖论，表明更多的协调、更多的通信和更多的推理单位并不总是能带来更好的智能。相反，添加更多的智能体引入了新的故障模式，这些模式超过了好处。

为什么多智能体系统变得如此流行

多智能体系统的理念是由人类如何在团队中合作而启发的。当面临一个复杂的问题时，工作被分成部分，专家处理个别任务，他们的输出被组合。早期的实验支持这种方法。在静态任务中，例如数学问题或代码生成，多个智能体经常通过辩论或投票来优于单个模型。

然而，许多这样的早期成功来自于不反映现实世界部署条件的任务。他们通常涉及短的推理链、与外部系统的有限交互和静态环境，没有不断变化的状态。当智能体在需要持续交互、适应和长期规划的环境中运行时，情况发生了戏剧性的变化。此外，随着工具的进步，智能体获得了浏览网页、调用 API、编写和执行代码以及随时间更新计划的能力。这使得添加更多的智能体到系统中变得越来越诱人。

智能体任务与静态任务不同

认识到智能体任务与静态推理任务根本不同是非常重要的。静态任务可以在单次传递中解决：模型被呈现一个问题，它产生一个答案，然后停止。在这种情况下，多个智能体的功能与集合类似，简单的策略，如多数投票，往往会产生更好的结果。

智能体系统，相比之下，运行在一个非常不同的环境中。他们需要与环境进行重复的交互，智能体必须探索、观察结果、更新计划并再次采取行动。示例包括网页导航、财务分析、软件调试和模拟世界中的战略规划。在这些任务中，每一步都依赖于前一步，使得该过程本质上是顺序的，并且对早期错误高度敏感。

在这些环境中，多个智能体所犯的错误不会像在集合中那样相互抵消。相反，它们会积累。早期过程中单个不正确的假设可以破坏后续的一切，当多个智能体参与时，这些错误可以迅速在系统中传播。

协调带来成本

每个多智能体系统都支付协调成本。智能体必须共享他们的发现、对齐目标和集成部分结果。这个过程永远不会没有费用。它消耗令牌、时间和认知带宽，并且可以很快成为瓶颈，因为智能体的数量增加。

在固定计算预算下，这个协调成本变得尤为关键。如果四个智能体共享与单个智能体相同的总预算，那么每个智能体的深度推理能力就较少。系统还可能需要压缩复杂的想法以便于通信，这可能会丢失重要的细节，从而进一步削弱系统的整体性能。

这就产生了多样性与连贯性之间的权衡。单智能体系统将所有推理保持在一个地方。它们在整个任务中保持一致的内部状态。多智能体系统提供了多种视角，但以碎片化的上下文为代价。当任务变得更加顺序和状态依赖时，碎片化成为一个关键的弱点，通常超过了多个智能体的好处。

何时更多的智能体会积极损害性能

最近的受控研究表明，在顺序规划任务中，多智能体系统通常会低于基于单智能体的系统。在每个动作都会改变状态并影响未来的选项的环境中，协调智能体会打断他们的推理，减慢进度，并增加错误积累的风险。这在智能体并行运行且无通信时尤其如此。在这种情况下，智能体的错误未被检查，当结果被组合时，错误会积累而不是被纠正。

即使具有结构化协调的系统也不能免受故障的影响。具有专用协调器的集中式系统可以帮助包含错误，但它们也会引入延迟和瓶颈。协调器成为一个压缩点，扩展的推理被减少到摘要。这通常会导致比单个专注的推理循环产生更错误的长期交互任务的决策。这是多智能体悖论的核心：协作引入了单智能体系统中不存在的新故障模式。

为什么某些任务仍然可以从多个智能体中受益

悖论并不意味着多智能体系统是无用的。相反，它强调了它们的好处是有条件的。这些系统在任务可以清晰地划分为并行、独立的子任务时最有效。一个这样的任务示例是财务分析。在这个任务中，一个智能体可以用来分析收入趋势，另一个可以检查成本，第三个可以比较竞争对手。这些子任务在很大程度上是独立的，它们的输出可以在不需要仔细协调的情况下组合。在这种情况下，集中式协调通常会带来更好的结果。动态网页浏览是另一个可以从多个智能体独立工作中受益的案例。当一个任务涉及同时探索多个信息路径时，平行探索可以提供帮助。

一个关键的收获是，多智能体系统在任务可以划分为不需要紧密协调的独立部分时效果最佳。对于涉及逐步推理或仔细跟踪不断变化的条件的任务，单个专注的智能体通常表现更好。

能力上限效应

另一个重要的发现是，较强的基础模型减少了协调的需要。随着单个智能体变得更加强大，添加更多智能体的潜在收益减少。超过一定的性能水平，添加智能体往往会导致收益递减甚至更差的结果。

这是因为协调的成本大致保持不变，而收益减少。当单个智能体已经可以处理大部分任务时，额外的智能体往往会添加噪音而不是价值。在实践中，这意味着多智能体系统对于较弱的模型更有用，对于前沿模型的效果较差。

这挑战了模型智能体可以自然扩展到更多智能体的假设。在许多情况下，改进核心模型会比将其周围添加更多的智能体带来更好的结果。

错误放大是隐藏的风险

最近研究中最重要的洞察之一是多智能体系统中错误如何被放大。在多步骤任务中，单个早期错误可以在整个过程中传播。当多个智能体依赖于共享的假设时，该错误会更快地传播并变得更难以控制。

独立的智能体尤其容易受到这个问题的影响。没有内置验证，错误的结论可能会反复出现并相互强化，制造出一种错误的信心。集中式系统通过添加验证步骤可以帮助减少这个风险，但不能完全消除它。

单个智能体，相比之下，往往具有内置的优势。由于所有推理都发生在单个上下文中，矛盾更容易被发现和纠正。这种微妙的自我纠正能力很强大，但在评估多智能体系统时经常被忽视。

结论

多智能体悖论的关键教训不是要避免协作，而是要更加选择性。问题不应该是使用多少个智能体，而是协调是否为任务所合理。

具有强顺序依赖的任务往往偏爱单个智能体，而具有并行结构的任务可以从小型、协调良好的团队中受益。工具密集型任务需要仔细规划，因为协调本身会消耗资源，这些资源本可以用于行动。最重要的是，智能体架构的选择应该由可衡量的任务属性来指导，而不是直觉。可分解性、错误容忍度和交互深度等因素比团队规模更重要，当谈到实现有效结果时。