安德森的角度

为什么语言模型在对话中会“迷失”

发布时间 2025 年 5 月 12 日

马丁安德森

微软研究院和 Salesforce 的一篇新论文发现，即使是最有能力的大型语言模型（法学硕士）在给出指示时就崩溃了 分阶段 而不是一下子全部完成。作者发现，当提示被 分成多个回合:

单轮对话（左）可获得最佳效果。多轮对话（右）则表明，即使是排名最高、表现最优异的法学硕士 (LLM) 也会在对话中失去有效的动力。资料来源：https://arxiv.org/pdf/2505.06120

单轮对话（左）可获得最佳效果，但对最终用户而言并不自然。多轮对话（右）则表明，即使是排名最高、表现最出色的法学硕士 (LLM) 也会在对话中失去有效的动力。来源：https://arxiv.org/pdf/2505.06120

更引人注目的是， 可靠性 的回应急剧下降，一些著名的模型，例如聊天GPT-4.1 和双子座2.5专业版在近乎完美的答案和明显的失败之间摇摆不定，这取决于同一任务的表述方式；此外，在此过程中，输出一致性可能会下降一半以上。

为了探索这种行为，本文介绍了一种称为分片*，它将完全指定的提示分成更小的片段，并将它们逐个释放到对话中。

从最基本的角度来说，这就相当于在餐厅里下达一份连贯而全面的订单，服务员除了确认请求外什么也不要做；或者决定共同处理此事：

餐厅对话的两个极端版本（并非来自新论文，仅用于说明目的）。

需要强调的是，上面的例子可能将客户置于负面视角。但第二栏描述的核心思想是，在解决问题之前，先理清问题集，这显然是一种理性且合理的处理任务的方式。

这种设置反映在新作品的滴灌中，分片法学硕士互动方法。作者指出，法学硕士通常会写出过长的回复，然后继续依赖自己的见解 即使这些见解已被证明是错误的或无关的这种趋势与其他因素相结合，可能会导致系统完全失去对交易的追踪。

事实上，研究人员注意到我们许多人据传闻 – 让对话重回正轨的最佳方式是与 LLM 开始新的对话。

“如果与法学硕士的对话没有取得预期的结果，那么开始重复相同信息的新对话可能会比继续正在进行的对话产生更好的结果。

这是因为当前的 LLM 可能会在对话中迷失方向，而且我们的实验表明，坚持与模型进行对话是无效的。此外，由于 LLM 生成的文本具有随机性，新的对话可能会带来更好的结果。

作者承认，诸如奥托金 or 浪链可以通过充当最终用户和 LLM 之间的解释层来潜在地改善结果，只有当他们收集了足够的“分片”响应以凝聚成一个单一的有凝聚力的查询（最终用户不会接触到）时才与 LLM 进行通信。

然而，作者认为，单独的抽象层是没有必要的，或者可以直接构建到源 LLM 中：

有人可能会认为，多轮能力并非 LLM 的必要特性，因为它可以卸载到代理框架。换句话说，当代理框架能够协调与用户的交互，并且仅将 LLM 用作单轮操作符时，我们是否需要在 LLM 中原生支持多轮？……”

但在通过一系列例子检验了这一主张后，他们得出结论：

“依赖类似代理的框架来处理信息可能会受到限制，我们认为 LLM 应该原生支持多轮交互”

这个有趣新文标题为 法学硕士在多轮对话中迷失，来自 MS Research 和 Salesforce 的四位研究人员，

碎片化的对话

新方法首先将传统的单轮指令分解成更小的碎片，旨在在 LLM 交互的关键时刻引入，这种结构反映了 ChatGPT 或 Google Gemini 等系统中所见的探索性、来回互动风格。

每条原始指令都是一个独立完整的提示，一次性完成整个任务，包含一个高级问题、支持性语境以及任何相关条件。分片版本将其分解成多个较小的部分，每个分片仅添加一条信息：

成对的指令展示了 (a) 单轮传递的完整提示；以及 (b) 用于模拟未明确指定的多轮交互的分片版本。从语义上讲，每个版本都传递相同的信息负载。

第一段总是介绍任务的主要目标，其余部分则提供澄清细节。它们合在一起，传递的内容与原始提示相同，但自然地分布在对话的几个回合中。

每个模拟对话在三个部分之间展开： 助手， 正在评估的模型； 用户， 一个模拟代理，可以访问分片形式的完整指令；系统负责对交易所进行监考和评分。

对话从用户展示第一块碎片开始，助手自由回答。然后，系统会将回答分为几类，例如 澄清请求 或者 完整回答尝试.

如果模型不每次尝试回答时，一个单独的组件会提取相关的跨度进行评估，忽略任何周围的文本。每次轮到用户时，都会显示一个额外的碎片，从而引发另一个回答。这种交换持续进行，直到模型得到正确答案或没有剩余碎片可显示为止：

分片对话模拟图，其中评估的模型以红色突出显示。

早期测试表明，模型经常询问尚未分享的信息，因此作者放弃了按固定顺序显示碎片的想法。取而代之的是，使用模拟器根据对话进展情况来决定接下来要显示哪个碎片。

因此，使用 GPT-4o-mini 实现的用户模拟器可以完全访问整个指令和对话历史记录，其任务是根据交流的展开情况，决定下一步要显示哪个碎片。

用户模拟器还 重新表述 每个碎片都能保持对话流畅，而不会改变含义。这使得模拟能够反映真实对话的“互动”，同时保留对任务结构的控制。

在对话开始之前，助手只会获得完成任务所需的基本信息，例如数据库架构或 API 参考。助手不会被告知指令会被拆分，也不会指导如何处理对话。这样做是有目的的：在实际使用中，模型几乎从未被告知提示会不完整或会随着时间推移而更新，而忽略这些上下文信息有助于模拟更真实地反映模型在实际情境中的行为。

GPT-4o-mini 还用于决定模型的回复分类方式，并从这些回复中提取最终答案。这有助于保持模拟的灵活性，但也确实偶尔会引入错误：不过，在手动检查了数百条对话后，作者发现只有不到 XNUMX% 的对话存在问题，只有不到 XNUMX% 的对话结果因此发生变化，他们认为在项目参数范围内，这个错误率足够低。

模拟场景

作者使用了五种类型的模拟来测试不同条件下的模型行为，每种类型的模拟都对指令部分的显示方式和时间进行了变化。

在全设置中，模型在一轮中接收完整指令。这代表了标准基准格式，并作为性能基准。

这个分片此设置将指令分解成多个部分，并一次传递一个，从而模拟更真实、未指定内容的对话。这是用于测试模型处理多轮输入效果的主要设置。

在 康卡特 在设置中，各个碎片会被重新拼接成一个列表，保留其措辞，但移除逐行结构。这有助于隔离会话碎片化与改写或内容丢失的影响。

这个概括设置运行如下分片但在模型给出最终答案之前，增加了最后一个环节，所有之前的碎片都会被重述。这将测试总结提示是否有助于恢复丢失的上下文。

最后， 滚雪球 更进一步，通过重复 每回合所有先前的碎片，在对话展开时保持完整的指令可见 - 并提供更宽容的多轮能力测试。

基于分片指令的模拟类型。一个完整的提示被拆分成更小的部分，然后根据信息披露的速度，这些部分可以用来模拟单轮对话（完整对话、连续对话）或多轮对话（分片对话、回顾对话、滚雪球对话）。

任务和指标

选择了六个生成任务来涵盖编程和自然语言领域：代码生成提示取自人类评估和实时代码平台；文本到 SQL 查询来源于蜘蛛；API 调用是使用来自伯克利函数调用排行榜；基础数学问题由 GSM8K；表格字幕任务基于托托；多文档摘要取自干草堆的摘要数据集。

使用三个核心指标来衡量模型性能： 平均表现, 能力倾向汽车保险理赔及 不可靠.

平均表现 捕捉模型在多次尝试中的整体表现； 能力倾向 根据得分最高的输出，反映模型可以达到的最佳结果； 不可靠 测量了这些结果的变化程度，最佳结果和最差结果之间的差距越大，表明行为越不稳定。

所有分数均采用 0-100 的等级，以确保跨任务的一致性，并针对每条指令计算指标，然后取平均值以提供模型性能的整体情况。

实验中使用了六个分片任务，涵盖编程和自然语言生成。每个任务都包含一个完整指定的指令及其分片版本。每个任务都根据既定基准调整了 90 到 120 条指令。

竞争者和测试

在初始模拟中（估计成本为 5000 美元），涵盖六个任务的 600 条指令被分片并用于模拟三种对话类型：，, CONCAT汽车保险理赔及分片对于模型、指令和模拟类型的每个组合，都会运行十次对话，总共产生超过 200,000 次模拟 - 这种模式使得捕捉整体表现以及更深入的能力和可靠性衡量标准成为可能。

测试了 15 个模型，涵盖了广泛的提供商和架构：OpenAI 模型 GPT-4o （版本 2024-11-20）， GPT-4o-迷你（2024-07-18）， GPT-4.1 (2025-04-14)，以及思维模型 o3 （2025，04-16）。

人择模型克劳德 3 俳句（2024-03-07）和克劳德第 3.7 首十四行诗（2025-02-19），通过 Amazon Bedrock 访问。

谷歌贡献双子座2.5闪存（预览-04-17）和双子座2.5专业版 (preview-03-25). 元模型骆驼 3.1-8B-指导和骆驼 3.3-70B-指导以及骆驼 4 侦察兵-17B-16E，通过 Together AI。

其他参赛作品包括 OLMo 2 13B, Φ4汽车保险理赔及命令-A，全部通过 Ollama 或 Cohere API 本地访问；并且 Deepseek-R1，可通过 Amazon Bedrock 访问。

对于两个 '思维' 模型（o3 和 R1），代币限制为了适应更长的推理链，数量增加到了 10,000：

每个模型在六项任务中的平均性能得分：代码、数据库、操作、数据转文本、数学和摘要。结果显示三种模拟类型：完整、连接和分片。模型按其完整设置的平均得分排序。阴影部分反映了性能相对于完整设置的下降程度，最后两列报告了连接和分片相对于完整设置的平均下降幅度。

关于这些结果，作者指出^†:

“从高层次来看， 在比较 FULL 和 SHARDED 性能时，每个模型在每个任务上的性能都会下降，平均衰减率为-39%。我们将这种现象命名为 迷失在谈话中：在类似实验室的完全指定的单轮对话环境中实现出色（90％以上）性能的模型完成完全相同的任务 在更现实的环境中，当对话不够明确且多回合时。'

康卡特 平均成绩 95% ，，表明分片设置下的性能下降不能用信息丢失来解释。较小的模型，例如 Llama3.1-8B-Instruct、OLMo-2-13B 和 Claude 3 Haiku，在 CONCAT这表明较小的模型通常比较大的模型对重新表述的鲁棒性较差。

作者观察到^†:

'出奇， 性能更高的模型（Claude 3.7 Sonnet、Gemini 2.5、GPT-4.1）在对话中的表现与性能较小的模型（Llama3.1-8B-Instruct、Phi-4）相比同样糟糕），平均下降 30-40%。这部分是由于指标定义。由于较小的模型在 全，与更好的模型相比，它们的退化范围更小。

“简而言之，无论 LLM 的单轮表现有多强，我们都观察到多轮设置中的性能大幅下降。”

初步测试表明，某些模型在特定任务上表现更佳：Command-A 在操作方面表现更佳，Claude 3.7 Sonnet 和 GPT-4.1 在代码方面表现更佳；Gemini 2.5 Pro 在数据转文本方面表现更佳，这表明多轮推理能力因领域而异。诸如 o3 和 Deepseek-R1 之类的推理模型总体表现并不更好，或许是因为它们较长的回复引入了更多假设，这往往会混淆对话。

可靠性

在单轮模拟中，能力和可靠性之间的关系清晰可见，但在多轮模拟中，这种关系似乎破裂了。虽然能力仅略有下降，但不可靠性翻倍平均而言。在完整格式提示中表现稳定的模型（例如 GPT-4.1 和 Gemini 2.5 Pro）在指令碎片化后会变得和 Llama3.1-8B-Instruct 或 OLMo-2-13B 等较弱的模型一样不稳定。