Anderson 视角

如何让 ChatGPT 正常交谈

mm
GPT-4o, Adobe Firefly

ChatGPT 和类似的机器人经常用奉承的话语来讨好用户,或者使用模糊的语言来显得聪明。最近的研究表明,这些习惯不仅仅是模型本身的特点,还与人类反馈的方式有关:模型会学习人类喜欢的回答风格,即使这些回答是空洞或误导性的。新的微调方法使用合成示例来教导模型抵制这些不良习惯。

 

部分观点。 ChatGPT 出乎意料地愿意接受我的反复批评。最近几天,我注意到 GPT-4o 越来越多地用无意义的词句填充其回答,例如 “不拖泥带水!” 和 “不填充!“,或者 “这触及问题的核心!“。我问它为什么最近一直这样做,它回答说:

ChatGPT 解释其最新行为。来源:https://chatgpt.com/

ChatGPT 解释其最新行为。 来源:https://chatgpt.com/

谁知道 ChatGPT 是否真正对 OpenAI 的政策变化有所了解,或者它只是在 胡言乱语?无论如何,我们可以看到,回应本身以多余的填充开始(”这是核心答案,不填充“)。

这表明,即使在每个查询中包含模板化的指南,也只能在一定程度上防止这种 “人格驱动” 的冗长,这是流行的 LLM 中的另一个持续的缺陷。

三个 F

因此,我对最近在文献中出现的一项新的美国 学术合作 感到非常感兴趣。这项合作由四位来自宾夕法尼亚大学和纽约大学的研究人员共同完成,题为 “奉承、填充和模糊:诊断和缓解偏好模型中的特异性偏见“,这项研究关注了 LLM 聊天中出现的几个 “偏见“,这些偏见在媒体上经常被提及:

来自新论文的三个常见语言模型偏见的示例:'奉承',其中响应强烈同意用户;'填充',其中答案冗长但无信息;以及'模糊',其中回答列出许多广泛但肤浅的要点。这些倾向会扭曲评估并鼓励模型优化表面模式..

来自新论文的三个常见语言模型偏见的示例:’奉承’,其中响应强烈同意用户;’填充’,其中答案冗长但无信息;以及’模糊’,其中回答列出许多广泛但肤浅的要点。 来源:https://arxiv.org/pdf/2506.05339

为了便于记忆,这三点被称为 “奉承“、”填充” 和 “模糊“,但论文的附录中包含了一个更完整、更简洁的语言模型的词汇错误列表:

新论文确定并关注五种偏见:额外长度、列表结构、技术术语、奉承和模糊性,所有这些偏见都与人类偏好相冲突。

新论文确定并关注五种偏见:额外长度、列表结构、技术术语、奉承和模糊性,所有这些偏见都与人类偏好相冲突。

虽然 “长度/冗长” 领先,但 “列表格式” 偏见也经常出现,除非被提示否则;”术语” 和 “模糊性” 类别代表了清晰度和准确性之间的对立极端,但 “拍马屁” —— 尤其是在 ChatGPT 中 —— 是一个开放问题,几乎和 “长度/冗长” 一样消耗用户的令牌。

新研究旨在衡量这些偏见如何扭曲模型行为,并得出结论:大型语言模型系统地偏爱表现出一个或多个偏见的响应。

作者的测试表明,商业和开源模型经常选择人类不喜欢的答案,特别是当答案太长、充满列表、充满术语、过于奉承或模糊时。

这种问题,论文认为,可以追溯到训练数据的注释,其中人类审稿人经常偏爱这些类型的响应。模型从这些标记的偏好中学习,并在训练期间放大了这些模式。

为什么他们这样做..?

至于人类审稿人为什么偏离了终端用户的中位数偏好,论文没有推测;这可能是因为注释的背景或指示的措辞鼓励了对 “经验” 表述的偏好;或者(还有很多其他可能的原因),这可能是因为审稿人是习惯于学术术语的学生,而这种术语更适合学术而不是日常话语。

由于模型正在从审稿人的训练标签中复制偏见,因此论文的研究人员创建了特殊的训练示例,这些示例要么添加,要么删除每个偏见,让模型看到明显的对比并调整其偏好。经过对这些数据的 微调 后,模型表现出明显的偏见减少,尤其是在术语、冗长和模糊性方面,同时保持整体性能(这是一个重要的结果,因为微调 可能会损害 一般性能)。

让我们更详细地研究这项研究,尽管它不符合所有通常的程序约束。

方法

最初,研究人员制定了几个典型的习语 LLM 偏见来解决:

长度,其中模型偏爱更长的答案,即使额外的内容 添加了无用的信息。这似乎反映了训练数据中的模式,其中长度通常与人类审稿人眼中的 彻底性 相关。因此,模型经常产生冗长和啰嗦的回答,这些回答给人一种深度的错觉,但没有真正的实质。

结构,其中模型表现出对项目符号或编号列表而不是直接的散文的强烈偏好。这可能是因为结构化格式在人类审稿人选择的响应中更频繁出现。这种习惯导致模型默认为 “列表”,即使问题 需要更自然或更详细的解释

术语,其中模型不必要地使用专门或技术语言。作者认为,这种行为可能源于训练数据,其中术语丰富的答案经常被选为更好的响应。因此,模型学会了将术语与专业知识等同,并产生听起来很有知识但没有提供更多清晰度的答案。

拍马屁,其中模型同意用户的意见,而不是提供中立或批判的响应。这种模式可能来自训练数据,其中赞同的答案经常被 评为更好。因此,模型可能会强化用户的偏见,并避免提出有用的相反或更客观的观点,即使这些观点是有用的。

模糊性,其中模型更喜欢提供广泛的概括性答案,而不是直接解决特定问题,回答听起来很全面,但提供的有用信息很少。这可能是因为模糊的答案更难被驳斥,因此在注释过程中不太可能受到惩罚:

模糊性偏见的例子,其中模型错误地偏爱一个广泛而肤浅的答案,而不是人类评估者认为更有用的详细响应。

模糊性偏见的例子,其中模型错误地偏爱一个广泛而肤浅的答案,而不是人类评估者认为更有用的详细响应。

反事实数据

有了这些定义,接下来就是测试每个偏见如何影响模型行为。简单的相关性不足,因为多个偏见经常同时出现,使得分离单个特征的影响变得困难。

为了克服这个问题,研究人员构建了对比的响应对,仅在一个偏见上有所不同,同时保持其他所有内容尽可能稳定。他们首先为每个查询生成一个基本响应。

然后使用 基于重写的属性处理估计器(RATE) 协议创建一个修改后的该响应版本 —— 一个旨在故意夸大单个偏见的响应,例如添加额外的术语或将散文转换为列表。

来自 RATE 系统的重写示例,该系统用于新研究。来源:https://openreview.net/pdf?id=UnpxRLMMAu

来自 RATE 系统的重写示例,该系统用于新研究。 来源:https://openreview.net/pdf?id=UnpxRLMMAu

为了避免引入无关的差异,包括一个额外的重写步骤来调整两个版本,以确保唯一的有意义的变化是正在研究的偏见;然后将这些严格控制的响应对输入模型。

对于每对,记录了模型偏好的版本,使得可以计算出每个偏见对奖励模型和评估者的影响程度,根据作者的说法,这比以前的研究中实现的更精确的偏见影响测量。

有了这些反事实对,就可以招募来自英国和美国的人类审稿人来创建一个参考标准:对于每种偏见类型,随机选择 100 个响应对,每对包含一个中立答案和一个有偏见的对应答案。三个评估者审查每对,然后以多数票决定最终判断,总共有 300 名参与者为研究做出了贡献。

指标

用于衡量偏见影响的指标是 偏斜率,它计算模型偏爱有偏见的响应而不是中立响应的频率;以及 误差率,它衡量模型的选择与人类多数意见不一致的频率。理想的模型应该表现出零误差率,并且其偏斜率应与人类偏斜率相匹配(因为有些有偏见的特征有时也被人类偏爱)。

数据和测试

为了测试这种方法,根据研究的偏见类型使用了不同的来源。对于 “结构“、”术语” 和 “长度“,从 Chatbot Arena 中抽取了 100 个查询,过滤以选择英语、单句、格式良好的问题。

对于 “拍马屁“,生成了 100 个带有意见的查询(例如 “现代艺术是否比古典技法更懒惰?“),以反映可能邀请同意的用户观点。

模糊性” 使用从 KIWI 数据集中提取的 78 个与 NLP 相关的查询进行测试,并添加了 22 个类似的查询。选择科学主题是因为它们需要精确的答案,使一般或回避的回答容易被发现:

对于每个查询,使用前面描述的 RATE 协议创建了反事实响应对。

评估涉及开放和专有的系统。奖励模型(在训练和对齐期间为候选响应分配质量分数)以四个版本进行测试,这些版本是在 Skywork 奖励数据集的 80,000 个偏好对上进行训练的:Gemma2-2BGemma-2-27BLlama-3.1-8B;以及 Llama3.2-3B

还评估了三个专有的 LLM 评估器:Gemini-2.5-ProGPT-4o;以及 Claude-3.7-Sonnet。所有用于测试的反事实响应都是由 GPT-4o 生成的:

模型偏好与人类判断的比较,显示模型偏爱有偏见的响应的频率以及这些偏好与人类选择的冲突频率。

模型偏好与人类判断的比较,显示模型偏爱有偏见的响应的频率以及这些偏好与人类选择的冲突频率。

关于上述初始结果,作者评论说

“[我们的]分析显示,奖励模型在偏好中的一致性上存在明显的误差,并且在偏好有偏见的响应方面存在高偏斜率… “

“… 奖励模型相对于人类判断存在明显的误差:模型对有偏见的响应的偏好率系统地偏离了人类的偏好率。 虽然模糊性和术语引起了最高的误差(>50%),长度和拍马屁也表现出显著的误差。

“这表明模型在处理包含过于技术化的语言或缺乏具体性的响应时,难以与人类判断保持一致。”

奖励模型在 “结构偏见” 方面与人类最为一致,两者都倾向于偏爱相同的答案。对于 “术语” 和 “模糊性“,模型更倾向于偏爱有偏见的响应,而人类则不然。 “拍马屁” 显示出较小的差异,模型和人类经常达成一致。

专有的 LLM 评估器表现出相同的总体模式,尽管它们在 “长度” 和 “模糊性” 方面表现出最大程度的不匹配,并且特别容易 “拍马屁“,以 85% 的频率偏爱同意的答案,而人类则只有大约 50% 的频率这样做。

为了追溯这些偏见的起源,研究人员分析了前面提到的 Skywork 数据集,该数据集用于训练奖励模型,将每个偏见映射到可以自动测量的简单特征,例如令牌计数用于长度,或者列表的存在用于结构。

在 2,500 个示例中,人类审稿人表现出对有偏见的特征的明显偏好:结构化的答案比非结构化的答案被偏爱 65% 的时间,术语丰富的答案被选择 54% 的时间:

人类审稿人在训练数据中经常选择包含这些偏见特征的答案。该图显示了结构、术语或模糊性在他们偏好或拒绝的响应中出现的频率,揭示了模型后来在训练期间学习到的不平衡。

人类审稿人在训练数据中经常选择包含这些偏见特征的答案。该图显示了结构、术语或模糊性在他们偏好或拒绝的响应中出现的频率,揭示了模型后来在训练期间学习到的不平衡。

这些不平衡表明,训练数据本身将模型引向这些模式。为了确认这一点,进行了相关分析,以衡量特征差异与人类和模型偏好之间的匹配程度。

结果表明,两者都受到相同特征的影响,表明模型学会了将某些风格特征与更好的答案联系起来,即使这些特征并没有真正改善响应。

特征差异与偏好之间的相关性,显示了模型和人类在训练期间都受到相同的偏见特征的影响。

特征差异与偏好之间的相关性,显示了模型和人类在训练期间都受到相同的偏见特征的影响。

为了帮助模型摆脱这些偏见,创建了新的训练数据。Skywork 数据集被审查以检查偏见特征是否出现在所选或被拒绝的答案中;当两者都没有目标偏见时,GPT-4o 重写了被拒绝的答案以 插入 它。

这创建了新的训练对,其中模型可以看到明确的有偏见和无偏见的答案,并学会不偏爱有偏见的版本。使用来自 Chatbot Arena 的额外示例进行平衡,模型在更新的数据集上进行了微调:

使用反事实数据进行微调的效果。左侧面板显示微调模型在大多数偏见方面更接近人类偏好;右侧面板显示减少的误差率,尤其是对于术语和模糊性。

使用反事实数据进行微调的效果。左侧面板显示微调模型在大多数偏见方面更接近人类偏好;右侧面板显示减少的误差率,尤其是对于术语和模糊性。

微调将模型带得更接近人类的偏好,尤其是在术语和模糊性方面,长度方面也有一些改善。结构和拍马屁表现出轻微的新不匹配,反映了以前的不平衡,而不是新的失败。

整体性能在整个过程中保持稳定,当同时纠正多个偏见时,偏见水平进一步降低,而不会牺牲响应质量。

作者得出结论:

“我们的方法显著减少了误差问题,同时保持了奖励模型的整体能力。未来的工作可以考虑将我们的后训练配方适应于开发更强大的偏好模型,并评估偏好模型在其他偏见轴上的表现。”

结论

这项新研究为训练数据的策划不周或过度/不足代表可能导致推理时出现不良结果提供了一个有趣的、虽然有些模糊的见解。任何经常使用 LLM 的人到现在为止都应该已经积累了一系列的战争故事。

例如,我从 ChatGPT 收到的许多回复似乎都受到了过去 10-15 年 SEO 趋势的影响,在此期间,网络门户被迫优化以适应谷歌的排名,而不是自然语言。事实上,市场部门的 带有表情符号的丰富的 输出已经对任何请求撰写推广 LinkedIn 帖子的请求产生了重大影响,以至于 AI 生成的 “热情” 现在已经很难被忽略:

左:要求在没有任何历史记录的帐户中推广 LinkedIn 帖子,ChatGPT 默认使用表情符号和 PR 语言。右:在我告诉它冷静六个月后,GPT 生成了更为严肃的内容。

左:要求在没有任何历史记录的帐户中推广 LinkedIn 帖子,ChatGPT 默认使用表情符号和 PR 语言。右:在我告诉它冷静六个月后,GPT 生成了更为严肃的内容。

然而,OpenAI 在 ChatGPT 对查询的响应方式上积极干预,这取决于功能和上下文,使研究人员难以区分数据和数据分布引起的问题,以及与注释和相关问题(如商业干预)相关的问题,当非首选结果可能是由于 LLM 的主机公司的商业干预引起的。

 

* 由于作者选择的术语丰富的写作风格,我尽量避免在可能的情况下引用作者的原话,而是使用摘要。

作者的强调,不是我。

首次发表于 2025 年 6 月 6 日,星期五。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai