Anderson 视角
新研究论文质疑人工智能聊天的“令牌”定价

新研究显示,人工智能服务的计费方式是基于令牌的,这可能会隐藏真实成本,让用户无法得知真实的费用。提供商可以通过操纵令牌数量或添加隐藏步骤来增加费用。有些系统会运行额外的过程,这些过程不会影响输出,但仍然会出现在账单上。虽然有人提出了审计工具,但如果没有真正的监督,用户将被迫支付比他们预期更多的费用。
在几乎所有情况下,用户为人工智能聊天接口(如ChatGPT-4o)付费的方式是基于令牌的:这些令牌是不可见的文本单位,在使用时不会被注意到,但在计费时会被精确计算。然而,用户无法直接确认令牌数量。
尽管我们对所购买的“令牌”单位的理解不完善,基于令牌的计费已经成为提供商的标准做法,这种做法建立在可能很脆弱的信任假设之上。
令牌词
令牌与单词并非完全相同,尽管它经常扮演着类似的角色,大多数提供商使用“令牌”一词来描述小的文本单位,例如单词、标点符号或单词片段。例如,单词‘不可思议’可能被一个系统视为一个令牌,而另一个系统可能将其分解为un、believ和able,每个部分都会增加成本。
这种系统适用于用户输入的文本和模型的回复,价格基于这些单位的总数。
困难在于用户无法看到这个过程。大多数接口在对话进行时不会显示令牌数量,令牌的计算方式也很难重现。即使在回复后显示令牌数量,对于用户来说也为时已晚,无法判断是否公平,这就造成了用户看到的内容和他们支付的内容之间的差异。
最近的研究指出更深层次的问题:一项研究显示,提供商可以在不违反规则的情况下通过操纵令牌数量来过度收费;另一项研究揭示了接口显示的内容和实际计费之间的差异,让用户以为自己很高效,但实际上可能并非如此;而第三项研究揭示了模型如何生成内部推理步骤,这些步骤不会显示给用户,但仍然会出现在账单上。
这些发现描绘了一个看似精确的系统,具有精确的数字,暗示着清晰度,但其底层逻辑仍然隐藏着。不管这是故意的设计还是结构上的缺陷,结果都是相同的:用户为他们看不到的东西付费,通常还会为他们预期之外的东西付费。
批量购买是否更便宜?
在这些论文中的第一个——题为《你的LLM是否在向你收取过多费用?令牌化、透明度和激励》,来自马克斯·普朗克软件系统研究所的四位研究人员——作者认为,基于令牌的计费的风险不仅仅是缺乏透明度,还指出提供商有内在的动机来增加令牌数量:
‘问题的核心在于,字符串的令牌化并不是唯一的。例如,考虑用户提交提示“下一个NeurIPS在哪里举行?”,提供商将其输入LLM,模型生成输出“|San|Diego|”,由两个令牌组成。’
‘由于用户对生成过程一无所知,自私的提供商可以在不改变底层字符串的情况下向用户误报令牌化,从而过度收费。例如,提供商可以简单地共享令牌化“|S|a|n| |D|i|e|g|o|”,并为九个令牌而不是两个令牌向用户收费!’
该论文提出了一种可以在不改变可见输出的情况下执行此类不诚实计算的启发式方法,并在LLaMA、Mistral和Gemma系列的模型上使用真实提示进行了测试,结果表明可以在不显得异常的情况下实现可衡量的过度收费:

使用’合理的误报’进行令牌膨胀。每个面板显示了提供商应用算法1到400个LMSYS提示的输出所产生的过度收费令牌的百分比,采用不同的采样参数(m和p)。所有输出都是在温度1.3下生成的,每个设置有五次重复计算90%的置信区间。 来源:https://arxiv.org/pdf/2505.21627
为了解决这个问题,研究人员提倡基于字符数而不是令牌的计费,认为这是唯一能让提供商有动力诚实报告使用情况的方法,并认为如果目标是公平定价,将成本与可见的字符而不是隐藏的过程联系起来是唯一经得起审查的选择。基于字符的定价,研究人员认为,将会消除误报的动机,并奖励更短、更高效的输出。
然而,这里有几个额外的考虑因素(大多数情况下,作者承认)。首先,提出的基于字符的方案引入了额外的业务逻辑,这可能会偏向于供应商而不是消费者:
‘[一个]提供商如果从不误报,有明显的动机去生成最短的可能输出令牌序列,并改进当前的令牌化算法(如BPE),以便它们能够尽可能地压缩输出令牌序列。’
乐观的主题是,供应商因此被鼓励产生简洁、更有意义和价值的输出。在实践中,当然有不那么美德的方法可以让供应商减少文本数量。
其次,研究人员指出,公司很可能需要立法来从神秘的令牌系统转变为更清晰的基于文本的计费方式。虽然一家创业公司可能会决定通过推出具有此类定价模型的产品来区分其产品,但任何具有真正竞争力产品(且规模低于EEE类别)的公司都不愿意这样做。
最后,研究人员提出的算法将带来自己的计算成本;如果计算“加价”的费用超过了潜在的利润收益,这个方案显然毫无价值。然而,研究人员强调,他们提出的算法是有效且经济的。
研究人员在GitHub上提供了他们理论的代码。
转变
第二篇论文——题为《不可见的令牌,显现的账单:审计不透明LLM服务中的隐藏操作的迫切需要》,来自马里兰大学和伯克利的研究人员——认为,商业语言模型API中的不对齐激励不仅限于令牌分割,还延伸到整个隐藏操作类别。
这些包括内部模型调用、推测性推理、工具使用和多智能体交互——所有这些都可能在没有可见性或补救措施的情况下被计入用户的账单。

主要提供商的LLM API定价和透明度。所有列出的服务都向用户收取隐藏的内部推理令牌的费用,并且没有一个在运行时显示这些令牌。成本差异很大,OpenAI的o1-pro模型每百万令牌的费用是Claude Opus 4或Gemini 2.5 Pro的十倍,尽管它们的不透明度相同。 来源:https://www.arxiv.org/pdf/2505.18471
与传统计费不同,服务的数量和质量是可验证的,今天的LLM平台在结构上是不透明的:用户被计费基于报告的令牌和API使用情况,但他们无法确认这些指标是否反映真实或必要的工作。
该论文确定了两种主要的操纵形式:数量膨胀,令牌或调用数量增加而没有用户的好处;以及质量降级,低性能模型或工具被默默地用来替代高级组件:
‘在推理LLM API中,提供商通常维护同一模型家族的多个变体,具有不同的容量、训练数据或优化策略(例如,ChatGPT o1、o3)。模型降级是指默默地用较低成本的模型替换,这可能会在预期和实际服务质量之间引入不匹配。 ‘
‘例如,一个提示可能被一个较小的模型处理,同时计费保持不变。这种做法对于用户来说很难检测,因为最终答案可能仍然看起来很合理。 ‘
该论文记录了超过90%的计费令牌从未显示给用户的实例,内部推理将令牌使用量增加了二十倍。无论是否合理,隐藏这些步骤都否认了用户评估其相关性或合法性的任何基础。
在代理系统中,不透明度增加,因为代理之间的内部交换可能会产生费用,而不会对最终输出产生任何影响:
‘除了内部推理,代理通过交换提示、摘要和规划指令来相互通信。每个代理都解释来自其他代理的输入,并生成输出来指导工作流程。这些代理之间的消息可能会消耗大量令牌,这些令牌通常不会直接显示给最终用户。 ‘
‘在代理协调期间消耗的所有令牌,包括生成的提示、响应和工具相关的指令,通常不会显示给用户。当代理本身使用推理模型时,计费变得更加不透明。 ‘
为了应对这些问题,研究人员提出了一个分层的审计框架,包括加密证明内部活动、可验证的模型或工具身份标记和独立的监督。然而,根本的担忧是结构性的:当前的LLM计费方案依赖于信息的持续不对称性,留下了用户容易受到无法验证或分解的成本的影响。
计算不可见的
来自马里兰大学的研究人员的最后一篇论文将计费问题重新定义为结构问题,而不是滥用或误报的问题。论文——题为《CoIn:在商业不透明LLM API中计算不可见的推理令牌》,来自马里兰大学的十位研究人员——观察到,大多数商业LLM服务现在隐藏了导致模型最终答案的中间推理,但仍然为这些令牌收费。
该论文断言,这就产生了一个不可观察的计费表面,整个序列可以在不被发现的情况下被伪造、注入或膨胀:
‘[这]的不可见性允许提供商误报令牌数量或注入低成本的虚假推理令牌来人为地膨胀令牌数量。我们将这种做法称为令牌数量膨胀。 ‘
‘例如,OpenAI的o3模型运行一次高效的ARC-AGI,消耗了1110万令牌,花费66,772.3美元。考虑到这个规模,即使小的操纵也可能带来巨大的经济影响。 ‘
‘这种信息不对称性使得人工智能公司能够大量地向用户收取过高的费用,从而损害了他们的利益。 ‘
为了对抗这种不对称性,研究人员提出了CoIn,一种第三方审计系统,旨在在不泄露其内容的情况下验证隐藏的令牌,并使用哈希指纹和语义检查来发现膨胀的迹象。

CoIn不透明商业LLM的审计系统概述。面板A显示了如何将推理令牌嵌入哈希到默克尔树中,以便在不泄露令牌内容的情况下验证令牌数量。面板B说明了语义有效性检查,其中轻量级神经网络将推理块与最终答案进行比较。这些组件共同允许第三方审计员在保留专有模型行为机密性的同时检测隐藏的令牌膨胀。 来源:https://arxiv.org/pdf/2505.13778
一个组件使用默克尔树加密验证令牌数量;另一个组件通过将隐藏内容与答案嵌入进行比较来评估其相关性。这样,审计员就可以检测到填充或不相关的内容——令牌被插入只是为了增加账单。
当在测试中部署时,CoIn在某些类型的膨胀中实现了近95%的检测成功率,基本上没有暴露底层数据。虽然该系统仍然依赖于提供商的自愿合作,并且在边缘情况下有有限的分辨率,但其更广泛的观点是毋庸置疑的:当前LLM计费架构假设了一种无法验证的诚实。
结论
除了获得预付款的好处外,基于代币的货币(如CivitAI的“buzz”系统)还可以将用户从他们花费的货币的真实价值或他们购买的商品中抽象出来。同样,给供应商留下定义自己的计量单位的自由,也会让消费者对他们实际花费的东西一无所知。
就像拉斯维加斯的赌场没有窗户或钟表一样,这些措施通常旨在让消费者变得粗心大意或对成本漠不关心。
几乎不被理解的令牌,它可以被以多种方式消费和定义,可能不是LLM消费的合适计量单位——尤其是因为它可以花费更多的令牌来计算非英语语言的较差LLM结果,相比之下,英语会话可能需要更少的令牌。
然而,马克斯·普朗克研究所的研究人员提出的基于字符的输出可能会偏向于更简洁的语言,并惩罚天生冗长的语言。由于视觉指示(如令牌计数器的贬值)可能会使我们在LLM会话中更加挥霍无度,因此不太可能在没有立法的情况下推出此类有用的GUI添加。
* 作者强调。作者的内联引用转换为超链接。
首次发表于2025年5月29日星期四












