安德森的角度
为什么语言模型在对话中会“迷失”

微软研究院和 Salesforce 的一篇新论文发现,即使是最有能力的 大型语言模型 (法学硕士)在给出指示时就崩溃了 分阶段 而不是一下子全部完成。作者发现,当提示被 分成多个回合:

单轮对话(左)可获得最佳效果,但对最终用户而言并不自然。多轮对话(右)则表明,即使是排名最高、表现最出色的法学硕士 (LLM) 也会在对话中失去有效的动力。 来源:https://arxiv.org/pdf/2505.06120
更引人注目的是, 可靠性 的回应急剧下降,一些著名的模型,例如 聊天GPT-4.1 和 双子座2.5专业版 在近乎完美的答案和明显的失败之间摇摆不定,这取决于同一任务的表述方式;此外,在此过程中,输出一致性可能会下降一半以上。
为了探索这种行为,本文介绍了一种称为 分片*,它将完全指定的提示分成更小的片段,并将它们逐个释放到对话中。
从最基本的角度来说,这就相当于在餐厅里下达一份连贯而全面的订单,服务员除了确认请求外什么也不要做;或者决定共同处理此事:

餐厅对话的两个极端版本(并非来自新论文,仅用于说明目的)。
需要强调的是,上面的例子可能将客户置于负面视角。但第二栏描述的核心思想是,在解决问题之前,先理清问题集,这显然是一种理性且合理的处理任务的方式。
这种设置反映在新作品的滴灌中, 分片 法学硕士互动方法。作者指出,法学硕士通常会写出过长的回复,然后继续依赖自己的见解 即使这些见解已被证明是错误的或无关的这种趋势与其他因素相结合,可能会导致系统完全失去对交易的追踪。
事实上,研究人员注意到我们许多人 据传闻 – 让对话重回正轨的最佳方式是与 LLM 开始新的对话。
“如果与法学硕士的对话没有取得预期的结果,那么开始重复相同信息的新对话可能会比继续正在进行的对话产生更好的结果。
这是因为当前的 LLM 可能会在对话中迷失方向,而且我们的实验表明,坚持与模型进行对话是无效的。此外,由于 LLM 生成的文本具有随机性,新的对话可能会带来更好的结果。
作者承认,诸如 奥托金 or 浪链 可以通过充当最终用户和 LLM 之间的解释层来潜在地改善结果,只有当他们收集了足够的“分片”响应以凝聚成一个单一的有凝聚力的查询(最终用户不会接触到)时才与 LLM 进行通信。
然而,作者认为,单独的抽象层是没有必要的,或者可以直接构建到源 LLM 中:
有人可能会认为,多轮能力并非 LLM 的必要特性,因为它可以卸载到代理框架。换句话说,当代理框架能够协调与用户的交互,并且仅将 LLM 用作单轮操作符时,我们是否需要在 LLM 中原生支持多轮?……”
但在通过一系列例子检验了这一主张后,他们得出结论:
“依赖类似代理的框架来处理信息可能会受到限制,我们认为 LLM 应该原生支持多轮交互”
这个有趣 新文 标题为 法学硕士在多轮对话中迷失,来自 MS Research 和 Salesforce 的四位研究人员,
碎片化的对话
新方法首先将传统的单轮指令分解成更小的碎片,旨在在 LLM 交互的关键时刻引入,这种结构反映了 ChatGPT 或 Google Gemini 等系统中所见的探索性、来回互动风格。
每条原始指令都是一个独立完整的提示,一次性完成整个任务,包含一个高级问题、支持性语境以及任何相关条件。分片版本将其分解成多个较小的部分,每个分片仅添加一条信息:

成对的指令展示了 (a) 单轮传递的完整提示;以及 (b) 用于模拟未明确指定的多轮交互的分片版本。从语义上讲,每个版本都传递相同的信息负载。
第一段总是介绍任务的主要目标,其余部分则提供澄清细节。它们合在一起,传递的内容与原始提示相同,但自然地分布在对话的几个回合中。
每个模拟对话在三个部分之间展开: 助手, 正在评估的模型; 用户, 一个模拟代理,可以访问分片形式的完整指令; 系统负责对交易所进行监考和评分。
对话从用户展示第一块碎片开始,助手自由回答。然后,系统会将回答分为几类,例如 澄清请求 或者 完整回答尝试.
如果模型 不 每次尝试回答时,一个单独的组件会提取相关的跨度进行评估,忽略任何周围的文本。每次轮到用户时,都会显示一个额外的碎片,从而引发另一个回答。这种交换持续进行,直到模型得到正确答案或没有剩余碎片可显示为止:

分片对话模拟图,其中评估的模型以红色突出显示。
早期测试表明,模型经常询问尚未分享的信息,因此作者放弃了按固定顺序显示碎片的想法。取而代之的是,使用模拟器根据对话进展情况来决定接下来要显示哪个碎片。
因此,使用 GPT-4o-mini 实现的用户模拟器可以完全访问整个指令和对话历史记录,其任务是根据交流的展开情况,决定下一步要显示哪个碎片。
用户模拟器还 重新表述 每个碎片都能保持对话流畅,而不会改变含义。这使得模拟能够反映真实对话的“互动”,同时保留对任务结构的控制。
在对话开始之前,助手只会获得完成任务所需的基本信息,例如数据库架构或 API 参考。助手不会被告知指令会被拆分,也不会指导如何处理对话。这样做是有目的的:在实际使用中,模型几乎从未被告知提示会不完整或会随着时间推移而更新,而忽略这些上下文信息有助于模拟更真实地反映模型在实际情境中的行为。
GPT-4o-mini 还用于决定模型的回复分类方式,并从这些回复中提取最终答案。这有助于保持模拟的灵活性,但也确实偶尔会引入错误:不过,在手动检查了数百条对话后,作者发现只有不到 XNUMX% 的对话存在问题,只有不到 XNUMX% 的对话结果因此发生变化,他们认为在项目参数范围内,这个错误率足够低。
模拟场景
作者使用了五种类型的模拟来测试不同条件下的模型行为,每种类型的模拟都对指令部分的显示方式和时间进行了变化。
在 全 设置中,模型在一轮中接收完整指令。这代表了标准基准格式,并作为性能基准。
这个 分片 此设置将指令分解成多个部分,并一次传递一个,从而模拟更真实、未指定内容的对话。这是用于测试模型处理多轮输入效果的主要设置。
在 康卡特 在设置中,各个碎片会被重新拼接成一个列表,保留其措辞,但移除逐行结构。这有助于隔离会话碎片化与改写或内容丢失的影响。
这个 概括 设置运行如下 分片但在模型给出最终答案之前,增加了最后一个环节,所有之前的碎片都会被重述。这将测试总结提示是否有助于恢复丢失的上下文。
最后, 滚雪球 更进一步,通过重复 每回合所有先前的碎片,在对话展开时保持完整的指令可见 - 并提供更宽容的多轮能力测试。

基于分片指令的模拟类型。一个完整的提示被拆分成更小的部分,然后根据信息披露的速度,这些部分可以用来模拟单轮对话(完整对话、连续对话)或多轮对话(分片对话、回顾对话、滚雪球对话)。
任务和指标
选择了六个生成任务来涵盖编程和自然语言领域:代码生成提示取自 人类评估 和 实时代码平台;文本到 SQL 查询来源于 蜘蛛;API 调用是使用来自 伯克利函数调用排行榜;基础数学问题由 GSM8K;表格字幕任务基于 托托;多文档摘要取自 干草堆的摘要 数据集。
使用三个核心指标来衡量模型性能: 平均表现, 能力倾向汽车保险理赔及 不可靠.
平均表现 捕捉模型在多次尝试中的整体表现; 能力倾向 根据得分最高的输出,反映模型可以达到的最佳结果; 不可靠 测量了这些结果的变化程度,最佳结果和最差结果之间的差距越大,表明行为越不稳定。
所有分数均采用 0-100 的等级,以确保跨任务的一致性,并针对每条指令计算指标,然后取平均值以提供模型性能的整体情况。

实验中使用了六个分片任务,涵盖编程和自然语言生成。每个任务都包含一个完整指定的指令及其分片版本。每个任务都根据既定基准调整了 90 到 120 条指令。
竞争者和测试
在初始模拟中(估计成本为 5000 美元),涵盖六个任务的 600 条指令被分片并用于模拟三种对话类型: ,, CONCAT汽车保险理赔及 分片对于模型、指令和模拟类型的每个组合,都会运行十次对话,总共产生超过 200,000 次模拟 - 这种模式使得捕捉整体表现以及更深入的能力和可靠性衡量标准成为可能。
测试了 15 个模型,涵盖了广泛的提供商和架构:OpenAI 模型 GPT-4o (版本 2024-11-20), GPT-4o-迷你 (2024-07-18), GPT-4.1 (2025-04-14),以及思维模型 o3 (2025,04-16)。
人择模型 克劳德 3 俳句 (2024-03-07)和 克劳德第 3.7 首十四行诗 (2025-02-19),通过 Amazon Bedrock 访问。
谷歌贡献 双子座2.5闪存 (预览-04-17)和 双子座2.5专业版 (preview-03-25). 元模型 骆驼 3.1-8B-指导 和 骆驼 3.3-70B-指导以及 骆驼 4 侦察兵-17B-16E,通过 Together AI。
其他参赛作品包括 OLMo 2 13B, Φ4汽车保险理赔及 命令-A,全部通过 Ollama 或 Cohere API 本地访问;并且 Deepseek-R1,可通过 Amazon Bedrock 访问。
对于两个 '思维' 模型(o3 和 R1), 代币限制 为了适应更长的推理链,数量增加到了 10,000:

每个模型在六项任务中的平均性能得分:代码、数据库、操作、数据转文本、数学和摘要。结果显示三种模拟类型:完整、连接和分片。模型按其完整设置的平均得分排序。阴影部分反映了性能相对于完整设置的下降程度,最后两列报告了连接和分片相对于完整设置的平均下降幅度。
关于这些结果,作者指出†:
“从高层次来看, 在比较 FULL 和 SHARDED 性能时,每个模型在每个任务上的性能都会下降,平均衰减率为-39%。我们将这种现象命名为 迷失在谈话中:在类似实验室的完全指定的单轮对话环境中实现出色(90%以上)性能的模型 完成完全相同的任务 在更现实的环境中,当对话不够明确且多回合时。'
康卡特 平均成绩 95% ,,表明分片设置下的性能下降不能用信息丢失来解释。较小的模型,例如 Llama3.1-8B-Instruct、OLMo-2-13B 和 Claude 3 Haiku,在 CONCAT这表明较小的模型通常比较大的模型对重新表述的鲁棒性较差。
作者观察到†:
'出奇, 性能更高的模型(Claude 3.7 Sonnet、Gemini 2.5、GPT-4.1)在对话中的表现与性能较小的模型(Llama3.1-8B-Instruct、Phi-4)相比同样糟糕),平均下降 30-40%。这部分是由于指标定义。由于较小的模型在 全,与更好的模型相比,它们的退化范围更小。
“简而言之,无论 LLM 的单轮表现有多强,我们都观察到多轮设置中的性能大幅下降。”
初步测试表明,某些模型在特定任务上表现更佳:Command-A 在操作方面表现更佳,Claude 3.7 Sonnet 和 GPT-4.1 在代码方面表现更佳;Gemini 2.5 Pro 在数据转文本方面表现更佳,这表明多轮推理能力因领域而异。诸如 o3 和 Deepseek-R1 之类的推理模型总体表现并不更好,或许是因为它们较长的回复引入了更多假设,这往往会混淆对话。
可靠性
在单轮模拟中,能力和可靠性之间的关系清晰可见,但在多轮模拟中,这种关系似乎破裂了。虽然能力仅略有下降,但不可靠性 翻倍 平均而言。在完整格式提示中表现稳定的模型(例如 GPT-4.1 和 Gemini 2.5 Pro)在指令碎片化后会变得和 Llama3.1-8B-Instruct 或 OLMo-2-13B 等较弱的模型一样不稳定。

箱线图 (a) 显示了能力和不可靠性的概览,随后是使用 15 个模型进行实验的可靠性结果 (b),以及将指令分成一到八个分片的逐步分片测试的结果 (c)。
即使没有添加任何新内容,模型响应在同一任务上的差异通常也高达 50 分,这表明性能下降不是由于缺乏技能,而是因为模型在转弯时变得越来越不稳定。
论文指出†:
“[虽然]更好的模型往往具有略高的多轮能力,但所有模型的不可靠性程度都差不多。换句话说, 在多轮、未指定设置中,我们测试的所有模型都表现出非常高的不可靠性,对于固定指令,最佳和最差模拟运行之间的性能平均下降了 50%“。
为了测试性能下降是否与转弯次数有关,作者进行了一项渐进式分片实验,将每条指令分成一到八个分片(见上图最右边的列)。
随着分片数量的增加,不可靠性稳步上升,证实了 即使回合数稍微增加,也会使模型更加不稳定。能力基本保持不变,这进一步证明问题在于 一致性,而不是能力。
温度偏差
另一组实验测试了不可靠性是否仅仅是随机性的副产品。为此,作者将助手和用户模拟器的温度设置分别调整为三个值:1.0、0.5 和 0.0。
在单转格式中 , 和 CONCAT降低助手的体温显著提高了可靠性,减少了高达 80% 的变化;但在 分片 环境下,同样的干预却收效甚微:

在完整、连接和分片设置下,不同助手和用户温度组合的不可靠性分数,值越低表示响应一致性越高。
即使将助手和用户都设置为零温度,不可靠性仍然很高,GPT-4o 显示的变化约为 30%,这表明多轮对话中出现的不稳定性不仅仅是 随机噪声,但模型在处理碎片化输入方面存在结构性弱点。
启示
作者在论文的结论部分以不同寻常的篇幅阐述了他们的研究结果的含义,认为强大的单轮性能并不能保证多轮可靠性,并警告在评估现实世界的准备情况时不要过度依赖完全指定的基准(因为这样的基准掩盖了更自然、更分散的交互中的不稳定性)。
他们还认为,不可靠性不仅仅是一个采样产物,而是一个 根本限制 当前模型如何处理不断发展的输入,他们认为这引起了对代理框架的担忧,因为代理框架依赖于跨轮持续推理。
最后,他们认为,多转能力应该被视为法学硕士的核心能力,而不是卸载到外部系统的东西。
作者指出,他们的结果可能 低估 问题的真实规模,并提请注意测试的理想条件:他们设置中的用户模拟器可以完全访问指令,并可以按照最佳顺序显示碎片,这为助手提供了不切实际的有利环境(在实际使用中,用户经常提供零散或模棱两可的提示,而不知道模型接下来需要听到什么)。
此外,助理还接受了评估 立即 在每一轮对话结束后,在完整对话展开之前,进行适当的调整,可以避免之后的混淆或自相矛盾受到惩罚,否则会导致表现下降。这些选择虽然对于实验控制是必要的,但这意味着实践中观察到的可靠性差距可能比报告的还要大。
他们得出结论:
“[我们]相信进行的模拟代表了 LLM 多转弯能力的良性试验场。 由于模拟条件过于简单,我们认为实验中观察到的退化很可能低估了 LLM 的不可靠性,以及 LLM 在现实环境中对话中丢失的频率。“
结语
任何花费大量时间攻读法学硕士学位的人都可能从实践经验中认识到这里提出的问题;我想,我们大多数人都本能地放弃了“失败的”法学硕士学位对话,转而进行新的对话,希望法学硕士学位可以“重新开始”,不再纠结于在漫长、曲折和越来越令人恼火的交流中出现的材料。
有趣的是,为问题提供更多的背景信息并不一定能解决问题;事实上,这篇论文提出的问题比它提供的答案还多(除了绕过问题的方法之外)。
* 令人困惑的是,这与 人工智能中“分片”的传统含义.
† 作者自己的大胆强调。
首次发布于 12 年 2025 月 XNUMX 日星期一