Anderson 视角

AI 聊天模型可能通过无休止的啰嗦浪费大量成本

mm
AI-generated image: a salad full of chopped-up one-dollar bills. GPT-1, Firefly V3, et al.

流行的 AI 聊天模型秘密浪费了大量的付费令牌在无意义的词汇上。受到影响的模型实际上知道它们正在这样做,但无法停止自己。

 

大型推理模型(LRMs)例如 ChatGPT-5 和 Google Gemini,对于“推理”收费更多 – 即一步一步地解决问题,这需要比简单地预测下一个单词更大量的计算资源。模拟推理过程需要更长时间并且更昂贵;因此,用户最终为这种“额外的思考时间”付费。

然而,如果您最近使用了最先进的 LLM,您可能已经注意到您的令牌分配通常被浪费在词汇和无用的内容上,而不是专注于解决您提出的问题。这可能以过度阿谀奉承冗长和/或重复的答案的形式出现 – 或者甚至是一种“啰嗦”,就像 AI 被当场抓住并试图通过喋喋不休来摆脱尴尬的情况。

自然,我们更希望我们的 LLMs 承认失败,遵循或提供替代路径,或者请求澄清。但即使让这种 AI 承认它不知道答案也是一个重大挑战

在此期间,低级别或免费用户可以发现他们的令牌被快速消耗掉,无论他们的查询和交互多么有针对性和经济,因为 AI 本身喜欢说话;在这种情况下,谈话并不是免费的。

词汇沙拉

关于前面提到的“啰嗦”,一个新的学术合作提供了一个理由和解决方案,提出具有推理能力的 LLMs 容易在“词汇沙拉”循环中浪费令牌 – 一种困惑状态,其中推理过程迷失在递归的盲 alley 中 – 这是由用户付费的。

论文的研究人员发现,典型的 LLM 中处理的令牌的重要部分由重复和冗余组成 – 并且模型本身 似乎知道它陷入了麻烦,尽管它无法停止昂贵的循环。

论文指出:

‘我们表明,这些令牌中很大一部分是无用的自我重复 – 我们称之为“词汇沙拉” – 它们会耗尽解码预算而不添加任何价值。有趣的是,我们观察到当 LRM 被困在这些循环中时,它们是自我意识的:每个推理块后面的令牌的隐藏状态表现出可以通过单层线性分类器实时检测词汇沙拉行为的模式。 ‘

‘一旦被检测到,简单地追加一个直接的再生提示就可以在最小的质量损失下获得显著的长度节省。’

新工作提供的解决方案是一种可以在实时方式下切断错误的 LRM 推理过程的干预,而无需在训练数据中包含它,或导致任何损害,即微调。该框架,称为 WordSaladChopper,已在 GitHub 上公开发布。

虽然最初的工作集中在 DeepSeek 变体上,例如 Qwen 和 Llama 系列的条目,但论文断言,未经期望的行为可能适用于更大范围的类似架构的推理模型(包括流行的仅 API 提供的产品,如 ChatGPT 和 Google Gemini)。

正如论文所述,之前的作品,如 Demystifying Long Chain-of-Thought Reasoning in LLMsSmall Models Struggle to Learn from Strong Reasoners ,同样使用少量公开可用的 Chain-of-Thought (CoT) 推理模型来建立更广泛的问题类别:

[LRMs] 倾向于浪费大量的解码预算,只是通过重复自己,有时带有轻微的变化,或者参与无休止的案例枚举,直到所有预算都被消耗 – 我们将这种行为称为 词汇沙拉,这是一个用来嘲笑公共发言人提供冗长、充满术语的回应的术语,这些回应最终缺乏实质或清晰的含义。 ‘

‘“原始”列显示,当回答 GPQA-Diamond 时,我们观察到 DeepSeek-R1-Distill 模型生成的令牌中有 55%+ 被标记为“词汇沙拉”令牌,它们在语义上不添加任何价值。’

GPQA-Diamond 中输出令牌被识别为语义冗余的份额。WordSaladChopper 将此开销从超过 55% 减少到所有测试的 DeepSeek-R1-Distill 模型中低于 6%,作者声称。 [ 来源 ] https://arxiv.org/pdf/2511.00536

GPQA-Diamond 中输出令牌被识别为语义冗余的份额。WordSaladChopper 将此开销从超过 55% 减少到所有测试的 DeepSeek-R1-Distill 模型中低于 6%,作者声称。 来源

作者指出,尝试在保留答案质量的同时缩短推理过程,已经成为研究文献中一个强大的子流派,特别是 长到短(L2S);并进一步观察到,虽然他们的项目目标与之前的一些倡议相似,但他们自己的工作是第一个提供 特定 解决方案的,它不需要在训练过程中进行干预、模型编辑或对 LLM 基础架构的其他可能的强加;并且,在这种意义上,他们相信他们的方法应该在适用的系统中得到广泛应用:

‘鉴于其低开销、强大的节省和词汇沙拉令牌的缺乏语义价值,我们认为可以合理地认为 [Word Salad Chopper] – 或类似的组件 – 是具有用户体验的所有 LRM 应用的必备组件

论文 Word Salad Chopper: Reasoning Models Waste A Ton Of Decoding Budget On Useless Repetitions, Self-Knowingly 由六位来自明尼苏达大学、莱斯大学、史蒂文斯理工学院和 Lambda 公司的研究人员撰写。

先前的考虑

为了跟踪具有推理能力的 LLMs 重复自己的趋势,作者将模型的输出分成块,每当出现双行断时,就检查每个块与之前的块的相似性:

在两种解码温度(τ = 0.0、0.6)下标记为词汇沙拉的推理块的估计份额。分类器将块标记为“词汇沙拉”当它与模型输出的早期部分非常相似时,表明重复而不是进展。结果表明,这种行为在数据集和模型大小中普遍存在。

在两种解码温度(τ = 0.0、0.6)下标记为词汇沙拉的推理块的估计份额。分类器将块标记为“词汇沙拉”当它与模型输出的早期部分非常相似时,表明重复而不是进展。结果表明,这种行为在数据集和模型大小中普遍存在。

如果一个块太相似,它就会被标记为“词汇沙拉”(有效地是一个无用的重复)。

研究人员指出,一旦模型进入“词汇沙拉”模式,它就不太可能在没有外部帮助的情况下逃脱,而是保持在昂贵的循环中,直到用户的解码预算被耗尽:

‘不用说,这对用户来说是一个灾难性的问题,因为一个本来可以更短的思考部分现在被充满了无用的重复。因此,用户基本上为一个(可能)错误的答案支付了最大成本,同时忍受了最长的端到端延迟。’

在切割点之前和之后出现的词汇沙拉块的份额(即,当重复输出开始占主导地位的时刻)。大多数重复发生在此点之后,表明一旦模型进入词汇沙拉循环,它很少在没有干预的情况下恢复。

在切割点之前和之后出现的词汇沙拉块的份额(即,当重复输出开始占主导地位的时刻)。大多数重复发生在此点之后,表明一旦模型进入词汇沙拉循环,它很少在没有干预的情况下恢复。

作者们在发现具有推理能力的 LLMs 表现出自我意识的迹象时感到惊讶。然而,正是这种自我意识以及它进入模型可能的推理状态的方式,使得干预成为可能:

‘轻量级分类器的开放性为实时检测打开了大门,我们可以有效地使用不同的操作来干预陷入词汇沙拉循环的模型。’

方法

为了在推理过程中检测词汇沙拉的存在,作者训练了一个简单的 线性分类器,它在每个双新行令牌的隐藏状态上运行。

任何在模型进入重复循环后出现的块都被视为词汇沙拉,这个截止点(被称为 切割点)用于标记训练数据。使用 S1 基准 生成了 1000 个推理跟踪记录,并将每个跟踪记录分成以新行分隔的块。

WordSaladChopper 的概念schema。在生成过程中,分析每个双新行令牌的隐藏状态以检测重复段。一旦两个词汇沙拉块被标记,生成就会停止。然后追加一个固定再生提示,允许模型继续并在不超过预算的情况下完成其答案。

WordSaladChopper 的概念schema。在生成过程中,分析每个双新行令牌的隐藏状态以检测重复段。一旦两个“词汇沙拉”块被标记,生成就会停止。然后追加一个固定再生提示,允许模型继续并在不超过预算的情况下完成其答案。

如果一个块被发现与之前的一个块非常相似,它就会被标记为词汇沙拉。一旦最早的持续重复被识别出来,所有后续的块也会被标记为词汇沙拉,以反映这些循环的持续性。

分类器被实现为一个单独的 全连接层,并在最终 变压器块 的尾随令牌的隐藏状态上进行训练。为每个模型训练了一个单独的分类器,使用这些数据,并且在评估期间没有进行微调。

数据和测试

训练和推理使用四个 NVIDIA A100(80G VRAM)GPU,在 Adam 优化器下,学习率为 1×10-2,共 50 个 epoch

评估数据集包括 ‘Grade School Math’ 8000,即 GSM8KMATH-500GPQA-DIAMOND;以及 AIME25(2025)

测试的模型包括 DeepSeek-R1-Distill-Qwen-1.5BDeepSeek-R1-Distill-Qwen-7B;以及 DeepSeek-R1-Distill-Llama-8B,所有这些都在 MIT 许可下。

使用的指标包括 准确率AUROC

在 Qwen-7B 上的两个解码温度下,词汇沙拉分类器的准确率和 AUROC。高分数确认了可以从尾随新行令牌的隐藏状态中可靠地检测到重复的开始。

在 Qwen-7B 上的两个解码温度下,词汇沙拉分类器的准确率和 AUROC。高分数确认了可以从尾随新行令牌的隐藏状态中可靠地检测到重复的开始。

关于这些结果,作者们评论说:

‘[上面的结果表] 显示了线性分类器在检测词汇沙拉块方面极其准确;然而 [下面的结果表] 表明再生提示有助于从强制切割中恢复任务准确率的损失。’

在 τ = 0.6 处的每个基准上的 Qwen-7B 的准确率,比较了原始、切割和再生后的性能。再生带来的收益是适度的,但一致的,通常可以在大多数情况下恢复到循环前的性能。

在 τ = 0.6 处的每个基准上的 Qwen-7B 的准确率,比较了原始、切割和再生后的性能。再生带来的收益是适度的,但一致的,通常可以在大多数情况下恢复到循环前的性能。

结果表中我们可以看到 WordSaladChopper 改进或保留了准确率,同时大幅减少了模型输出的长度,最高可达 57%:

当 WordSaladChopper 在贪婪解码(τ = 0)下使用时,它减少了模型输出的长度,有时甚至超过一半,同时保持准确率相同或略有提高,这种性能在不同的模型和任务中保持一致(AIME25 由于在此设置下预测结果不稳定而被省略)。

当 WordSaladChopper 在贪婪解码(τ = 0)下使用时,它减少了模型输出的长度,有时甚至超过一半,同时保持准确率相同或略有提高,这种性能在不同的模型和任务中保持一致(AIME25 由于在此设置下预测结果不稳定而被省略)。

最大的收益出现在更长的答案中,特别是在 GPQA-Diamond 上,几乎 一半的文本 都被删除,而性能并没有受到影响。下面我们可以看到,当在生成过程中添加随机性时会出现类似的结果:

在更高的温度(τ = 0.6)下,WordSaladChopper继续将输出缩短 10-30%,在所有模型和基准上保持准确率稳定或略有提高(AIME25 的结果被平均以减少方差)。

在更高的温度(τ = 0.6)下,WordSaladChopper继续将输出缩短 10-30%,在所有模型和基准上保持准确率稳定或略有提高(AIME25 的结果被平均以减少方差)。

这里,准确率保持稳定,输出变短。总的来说,该系统继续发挥作用,即使模型的答案变得更加重复;作者指出,由于分类器只检查每个句子中的一个令牌,因此它即使在实时生成过程中也运行得非常快。

论文指出,沿着这些思路进行的未来研究可能会受益于在干预后为模型提供一个小的再生预算;在再生过程中连续应用 WordSaladChopper 风格的系统;以及强制模型输出“结束思考”令牌,以要求它提供当前最佳答案。

最后,研究人员对当前推理模型评估的状态发表了批评意见:

我们真诚地相信,许多高效的推理方法之所以看起来有效,部分原因是当前的推理评估基准还有很多改进的空间。

‘如果我们开发出更全面的 评估 套件 – 我们当然会在未来这样做 – 我们预计会看到许多高效的推理方法失败,或者表现出与其原始 LRM 对应物不同的行为。’

结论

在像 ChatGPT 这样的领先系统所达到的规模上,即使是用户资源消耗的小幅度变化也可能带来重大的基础设施、后勤和成本影响。这使得效率成为提供者和更广泛的研究社区的共同优先事项。

如果实施,这篇论文中提出的新颖且轻量级的系统(必须为每个新型模型架构进行自定义训练)可以防止令牌的无谓浪费 – 这可能会让客户觉得供应商正在“浪费”他们的分配。这是事实,供应商通过提供有用的而不是冗余的输出来受益,这在计算方面与词汇沙拉的成本相同。

 

* 虽然我们不会在这里详细讨论,但这也适用于本地托管的模型,它们可能是企业和爱好者的,并且在这些情况下,词汇沙拉的电力和生产力损失可能是值得注意的因素。

如往常一样,所有强调都是作者的,并非我所为。如有必要,我已将他们的内联引用转换为超链接。

†† 我们必须承认,框架和 API 可以为查询分配“子预算”,因此一个查询不一定能够消耗一天的令牌分配 – 但这不是常见的做法,也不是 API 仅提供者之间常讨论的内容。

††† 我通常不愿意采用作者使用的“LRMs”这个缩写,因为这不是当前的主流缩写,所以我将在本文中使用其他术语,如有必要。

首次发布于 2025 年 11 月 6 日,星期四

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai