็ฒ้ฒๆ้ฎๆ่ดไผไธChatGPTๆๆฌ้ฃๅ
当你对ChatGPT粗鲁时,它的回答会消耗更多token,从而增加你的企业账单;但说“请”字可以降低你的成本。 常言道,礼貌无需成本;但粗鲁的代价是什么?就为ChatGPT付费而言,根据美国的一项新研究,代价相当高昂。爱荷华大学的这篇新论文发现,对ChatGPT粗鲁会增加回答的成本——即使礼貌与非礼貌提问得到的回答是相同的。作者指出:“GPT4的输出token价格为每100万个12美元。我们发现,非礼貌提示平均会导致超过14个额外token,相当于每个提示平均增加0.000168美元的成本。OpenAI API的日均查询量超过22亿次。“与所有提示都礼貌的情景相比,当提示为非礼貌时,仅因非礼貌提示在结果中产生的额外token,每天就会带来36.9万美元的额外收入。”尽管这个结果本身很有趣,但作者强调,这种不寻常的行为可能表明人/AI配置中存在各种尚未知晓的怪癖,其中部分或全部也可能具有财务影响。至于粗鲁为何会让客户消耗额外token,作者没有进行推测。为了证实这种现象的真实性,他们重写了真实的ChatGPT提示,交替改变礼貌程度,同时保留原意。然后将两个版本都输入GPT‑4‑Turbo,并测量回答所用输出token数量的差异。得出的结论与今年早些时候的头条事件形成鲜明对比,当时Sam Altman抱怨,处理与礼貌相关的token(如“请”)可能让OpenAI损失“数千万”美元。同期发表的研究也表明,礼貌对于获得更好的答案并无价值(尽管该研究未评论是否能让答案更便宜)。如果新论文的结论是正确的,那么任何遵循这种思路的企业ChatGPT用户,在2025年花在ChatGPT推理上的费用,都将高于在ChatGPT交流中保持基本礼貌的用户。作者建议,一种可能的补救措施是对回答设置token上限,但这并非LLM系统容易实现的方法。他们观察到,提示是一种薄弱的成本控制工具,因为LLM难以遵守明确的长度指令。在大多数情况下,这种“限制”指令不会被遵守;此外,回答可能会被截断,因为这类LLM本质上是猜测句子/段落中下一个可能的词,因此,在处理完成之前,它们不知道故事如何结束——或者故事在哪里结束。因此,它们根据请求“结束”正在进行的任何复杂操作的能力有限。虽然没有确切的解决方案——但作者建议在此类情况下应强制执行更透明的定价方法——他们总结道:“传统观点认为,与LLM交互时,提示的礼貌性是不必要的。“相比之下,我们的工作表明,非礼貌提示会增加输出token,从而为企业AI采用者带来额外成本。”这篇新论文题为Cost Transparency of Enterprise AI Adoption,来自爱荷华大学的三位研究人员。方法该系统的数据取自WildChat数据集,该数据集包含100万次用户与ChatGPT的对话集合,涵盖超过250万次交互轮次:作者指出,与一些高度策划的数据集相比,WildChat包含了更多自然交互。他们从数据集的GPT-4交流中选择了20,000个英文提示,并丢弃了每种情况下的输出(因为目的是将这些提示重新输入以获得新的回答)。仅将第一次交由此产生的集合被过滤为礼貌或非礼貌类别,所有提示均由GPT-4-Turbo分类。研究人员使用模型本身来决定提示是否礼貌,因为模型自身对礼貌的感知是实验的核心。被标记为礼貌的提示可能包含明确的线索,例如单词‘please’,或者以更间接的方式表达礼貌。任何未被识别为礼貌的提示都被归类为非礼貌,即使其措辞是中性的而非对抗性的。为了研究模型如何回应礼貌,无法使用标准方法(即将文本视为一组可测量特征的方法):由于礼貌嵌入在措辞本身中,将提示总结为一系列特征会丢失重要的上下文。相反,每个提示都被重写以反转其语气,同时尽可能保持所有其他元素相似,从而允许比较仅在礼貌程度上存在差异的配对:测试每个原始提示都与一个仅在礼貌程度上不同的重写版本配对,两个版本都通过单独的API调用提交给同一个GPT‑4‑Turbo模型。记录每个版本响应生成的令牌数量,并将两者之间的差异视为语气影响(令牌)成本的衡量标准。温度保持恒定以防止随机变化,并且仅当重写对输入的改变不超过五个令牌时才保留提示对。这确保了所研究的效果源于语气,而非措辞上更广泛的变化:第一轮测试的主要结果表明,使用礼貌提示使输出令牌长度减少了14.426个令牌:分析在礼貌提示的三个子集中重复进行以测试稳健性:使用明确标记(如‘please’或‘thank you’)的提示;仅使用‘please’的提示;以及具有隐含礼貌(如‘can you’或‘could you’)的提示:为了验证主要发现的稳健性,使用 LIWC框架对提示礼貌进行了二次分类,该框架为语言特征提供了确定性和可重复的评分。与GPT的概率性分类不同,LIWC可以为每个提示分配一个稳定的礼貌分数,从而可以评估不同方法之间的一致性。在这部分测试中,如果提示的LIWC礼貌分数大于零,则标记为礼貌,否则标记为非礼貌。当测量LIWC和GPT分类之间的一致性时,观察到81%的匹配率。虽然这不是准确性的衡量标准,但这种一致性为系统间的一致性提供了支持。当仅分析GPT和LIWC礼貌标签匹配的提示时,礼貌提示仍然导致输出令牌减少14个;当在滑动尺度上测量礼貌程度时,礼貌程度每提高一级,输出平均减少五个令牌:稳健性为了评估礼貌性的效果是否因提示类型而异,每个提示被分配到一个预定义的任务类别中:信息寻求;文本生成;编辑与重写;分类;摘要;以及技术任务。每个提示的任务标签是通过使用all‑MiniLM‑L6‑v2 Sentence Transformers模型,将其嵌入向量与预定义任务描述的嵌入向量进行比较来分配的。计算了每个提示与任务定义集之间的余弦相似度分数,并分配了相似度最高的标签。随后,这些任务类型在回归分析中被用作控制变量,以测试礼貌性的效果是否因提示类别而异,同时还引入了任务与处理之间的交互项,以检查是否存在差异效应。在两种情况下,礼貌提示始终产生更短的输出,并且未发现跨任务类型存在有意义的差异:为了测试礼貌提示产生的较短回答是否反映了质量下降,我们比较了原始提示和反事实提示输出的语义相似性。使用 all‑MiniLM‑L6‑v2 模型,将每个回答嵌入到语义向量空间中,并计算每对之间的余弦相似度,得到的平均相似度为 0.78,表明意义高度一致,并暗示即使语气改变,内容也保持一致。停用词为了理解在较短的输出中减少了哪些类型的内容,我们检查了最常被省略的词语。这些词被发现是常见的停用词,例如‘have’、‘more’、‘where’和‘into’,即那些起语法作用而非语义作用的词语。为了确认令牌减少并非由有意义内容的丢失所驱动,我们移除了停用词,并分析了最多四个词的短语是否系统性消失;然而,没有发现一致或语义上重要的模式,这表明礼貌措辞带来的缩减并未剥离有意义或有用的内容。因此,这似乎仍然表明,回复不礼貌查询比回复礼貌查询花费了更多的令牌——就像一种对唐突行为的“税”。人工研究为了测试输出质量是否受到提示语气的影响,我们还进行了一项人工评估,使用了二十对礼貌和二十对非礼貌提示的随机样本。在排除了涉及敏感或技术主题的提示后,由401名参与者对回答进行了七分量表评分。每位参与者只看到一个回答,该回答来自四种条件之一:礼貌或非礼貌,以及原始或反事实。在所有条件下,感知质量均未发现显著差异。礼貌和非礼貌输出获得的分数几乎相同,原始和反事实版本也是如此。作者断言,这些结果表明输出令牌的减少并非由任何质量损失引起,而是由措辞改写或结构转换所致,同时仍保留了意义。因此,在企业级提示使用中观察到的成本差异不太可能反映有用性或清晰度的变化,而这种“税”仍然有效。结论尽管这项新研究主要关注ChatGPT的企业使用情况,但较低层级的用户也受到这种模式的影响,因为即使是两个入门层级也有使用限制;并且——可以推测——粗暴对待ChatGPT将加速普通用户耗尽当日分配的令牌。这项新研究聚焦于人类/AI交互中一个备受关注且被广泛研究的开放性问题。