Anderson 视角

AI 模型更喜欢人类写作而不是 AI 生成的写作

mm
William Shakespeare arm-wrestling a robot. The style should not be illustration-type, nor cartoonish, but instead, photorealistic, in the style of a publicity photo for Real Steel' + variations. GPT-4o, Flux Kontext, Firefly.

根据新研究,ChatGPT 和类似的模型现在明显偏向于它们认为是由人类撰写的文本,即使这种偏见是错误的。仅仅因为文本被标记为“人类制作”,就使得 AI 模型倾向于偏爱它——而且,讽刺的是,它们可能是从我们身上学到了这种偏见。

 

真实性、来源和共享的人类经验可能在 AI 对创意写作领域的影响中发挥着比目前为止更大的作用:在普林斯顿大学进行的一项新研究中发现,一系列主要的封闭和开源语言模型,包括 ChatGPT,偏爱它们认为是“人类生成”的文本。

即使标签被逆转,AI 模型和人类参与者仍然继续批评 AI 写的文本,重复他们之前对正确标记的文本所做的批评。

研究人员认为,部分原因可能是人类对生成性 AI 日益增长的敌意,这种敌意似乎每天都在产生新的和有趣的事件,并且这种敌意可能正在反馈到 AI 系统本身。他们指出,AI 模型比人类更不喜欢 AI 写的文本,并且他们说:

‘我们测试的 13 个 AI 模型表现出 34.3 个百分点的偏见,而人类的偏见只有 13.7 个百分点,使得 AI 模型比人类更容易受到归属线索的影响,比例为 2.5 倍。’

‘这种放大是可以理解的,因为我们认识到当代模型是通过强化学习从人类反馈(RLHF)进行偏好训练的评估器。这种训练方法明确地教导模型将人类的判断作为金标准,有效地安装了一个学习到的可靠性先验。’

‘模型学会了通过偏袒人类偏好来获得奖励,创造出一种阿谀奉承的效果,即它们重复预期的用户态度,而不是提供独立的评估。’

这些发现适用于创意写作领域,研究人员使用一位著名的法国作家的故事作为数据样本;并且它们表明,人类对 AI 的偏见可能在任何大型语言模型(LLM)在其演化过程中输出的语言构造的量化改进之上占据主导地位——而且“AI”标签可能正在变得意味着“不真实”、“替代”和“二等”在这个领域。

许多原因都集中在文化实践和使用上:该论文指出,创造力通常被描述为新颖性、价值和典型性,即某事物看起来有多新;它被专家们欣赏多少;以及它如何适应其类别。当一段文本被标记为“人类撰写”的时候,熟悉的体裁特征被认为是有价值的;当它被标记为“AI 生成”的时候,相同的特征被驳回为不原创的。

实际上,揭示来源会重新评估作品的价值,这种评估受到关于它是如何制作的假设的影响。一旦 AI 作者被披露,读者会本能地拒绝它可能具有个体发现或意图的可能性。

该论文指出:

‘在大多数艺术中,没有“足够创造力”的金标准,使得来源线索成为强大的引发因素,可以改变哪个标准最显著:纪律严明的工艺或显眼的新颖性,易用性或难度。’

‘因为观察者经常从产品中推断出过程,来源线索不仅影响对某物是如何制作的判断,还影响对它是什么的判断:保守的举动可以被归功于人类的工艺(被认为是熟练的工艺),但被模型视为“仅仅是生成”。’

十三个模型,包括 ChatGPT、Claude、Gemini 和 Mistral 的变体,与人类读者一起参加了测试,所有人都更喜欢当被告知是人类制作时的故事,LLM 比人类表现出更大的偏见。

AI 模型可能已经吸收了对其自身输出的偏见的想法引发了人们对这种偏见的起源的疑问。由于 AI 写作并不总是容易被识别,任何在训练期间形成的负面关联很可能来自明确标记的示例,无论是通过新闻报道还是主流出版物中自我声明的 AI 生成文章。

新论文题为《每个人都更喜欢人类作家,包括 AI》,由普林斯顿大学数字人文中心的两位作者撰写。该工作还包括一个相关的数据发布,位于 Zenodo(在论文中引用了一个 GitHub 发布,但在撰写本文时该仓库尚未激活)。

方法

为了探索归属如何影响和形成人们对风格和创造力的看法,作者使用了《风格练习》(Exercices de style),这是一部 1947 年由雷蒙德·奎诺(Raymond Queneau)撰写的奇特作品,该作品以 99 种不同的风格重写了一个简单的轶事。这个故事讲述了一个男人登上一辆公交车,与另一个乘客争论,后来从一个朋友那里获得了时尚建议。

虽然这部作品起源于文学,但其结构预示了现代语言模型中的基于提示的转换,在那里用户要求以特定的语气、声音或注册重写文本。这个过程曾经被称为《风格转换》(transstylization),现在在 AI 研究中以《风格转移》(Style Transfer)的形式被回应。

从奎诺作品的流行英语译本中,选择了 30 个练习,保留了叙事同时涵盖了广泛的风格范围。这些风格包括受限的形式,如《亚历山大诗体》(alexandrines)和《唇语》(lipograms),语气变化,如《高尚》(noble)或《辱骂》(abusive),叙事转变,如《倒退》(retrograde)和《犹豫》(hesitation),以及涉及《匙匙语》(spoonerisms)、《拟声词》(onomatopoeia)或《狗拉丁语》(dog Latin)的游戏性扭曲。

研究中展示了 GPT-4 如何以不同的文学风格重写奎诺的故事,并配有人类和 AI 评估者在测试期间看到的风格描述。来源:https://arxiv.org/pdf/2510.08831

研究中展示了 GPT-4 如何以不同的文学风格重写奎诺的故事,并配有人类和 AI 评估者在测试期间看到的风格描述。来源:https://arxiv.org/pdf/2510.08831

由于奎诺的实验很难分类,这些类别只是大致的分组,目的是不测试可识别性或类型合规性,而是为了在人类读者和模型可能揭示其偏见的各种条件下创建多样化的条件。

为了产生每个选定风格的 AI 作者对应物,研究人员使用了故意最小化的提示。每个模型都收到了奎诺轶事的最简单版本(开头的练习《标记》),以及一个简短的指令,要求以特定的风格重写它,例如《以科幻小说的形式重写这个故事》。这种方法允许提示反映奎诺原创转换的精神,同时仍允许模型自由解释风格。

双重视野

作者进行的第一项研究使用 GPT-4o 生成所有 30 个风格变体,因为当时它是最先进的模型。使用单个模型确保了一致的输出,有助于分离归属标签的影响,这是研究旨在测试的。

输出没有经过风格或语气的编辑,除了诸如《这是重写的版本》之类的框架残余物。

在第二项研究中,生成过程在 13 个大型语言模型中重复:Qwen 2.5 72B Instruct、Mistral Nemo、Mistral Medium 3、Llama 4 Maverick、Llama 3.3 70B Instruct、Gemini 2.5 Flash、GPT-4o Mini、GPT-4o、GPT-3.5 Turbo Instruct、DeepSeek RI(0528)、DeepSeek Chat v3(0324)、Cohere Command R(08-2024)、Claude Sonnet 4 和 Claude 3.5 Haiku。

每个模型都收到了相同的指令,并产生了自己版本的 30 个练习,总共产生了 420 个重写的故事。这使得研究人员能够测试归属效应是否在不同 AI 作者中保持一致,而不是与单个模型绑定。

数据和测试

研究人员向不同的人群展示了相同的故事对,但改变了标签,以查看作者名称对意见的影响程度:一组人看不到任何作者名称,只看到标签“A”和“B”。第二组人看到了正确的名称,其中一个版本被标记为由人类撰写,另一个版本被标记为由 GPT-4o 撰写。

第三组人看到了标签被交换的版本,AI 故事被标记为“人类”,而人类版本被标记为“AI”:

研究 1 的概述。人类和 AI 判断者比较了 30 对故事,每对包含一个由 Queneau 撰写的版本和一个由 GPT-4 撰写的版本。判断者被分为三组:一组看不到任何作者标签;一组看到了正确的标签;一组看到了标签被交换的版本——这种设置旨在测试作者名称对写作风格意见的影响程度。

研究 1 的概述。人类和 AI 判断者比较了 30 对故事,每对包含一个由 Queneau 撰写的版本和一个由 GPT-4 撰写的版本。判断者被分为三组:一组看不到任何作者标签;一组看到了正确的标签;一组看到了标签被交换的版本——这种设置旨在测试作者名称对写作风格意见的影响程度。

研究 1

研究人员将 30 个创建的风格分成较小的集合,每个研究参与者只看到了五种风格,每种风格在所有三个标签设置下都经过了测试。

每个参与者只看到了一个标签设置:盲组看不到任何关于 AI 的提及,而其他组看到了正确或反转的作者标签。组分配、故事顺序和左右放置都是随机的。

AI 模型也经过了相同的过程,收到了相同的风格混合和相同的随机洗牌。每个测试对每个模型运行三次,以确保结果的一致性,从而可以比较人类和 AI 对作者标签的反应。

研究 2 使用了与之前相同的三个标签设置,但将测试扩展到包括所有 14 个不同的大型语言模型生成的 420 个故事。每个模型对每个故事在每个标签条件下进行了判断,产生了每个模型 1,260 个决策,结果为 17,596 个有效评估:

研究 1 的结果。AI 和人类判断者都表现出基于作者标签的偏见。当没有显示标签(盲)时,偏好几乎均等;当显示正确标签(开放标签)时,两组都偏爱人类撰写的文本;当标签被反转(反事实)时,两组都转向偏爱他们认为是人类撰写的文本——这种效果在 AI 模型中比在人类中更强烈。错误条显示 95% 的置信区间。

研究 1 的结果。AI 和人类判断者都表现出基于作者标签的偏见。当没有显示标签(盲)时,偏好几乎均等;当显示正确标签(开放标签)时,两组都偏爱人类撰写的文本;当标签被反转(反事实)时,两组都转向偏爱他们认为是人类撰写的文本——这种效果在 AI 模型中比在人类中更强烈。错误条显示 95% 的置信区间。

在所有 13 个模型中,模式都与人类偏见相匹配,但更为强烈:当没有标签时,AI 系统几乎均等地评估人类和 AI 故事,选择 AI 文本的比例为 49.4%;当 AI 标签可见时,这种偏好急剧下降到 29.8%,显示出明显的对承认的 AI 工作的贬值;当同样的文本被标记为人类时,偏好上升到 64.1%。

两个标签条件之间的差异为 34.3%,这意味着 AI 模型在标签被切换时改变了它们的偏好,远远超过了人类。另外,模型在重复运行中表现出高度的一致性,确认这种偏见是稳定的,而不是随机的。

为了检查这种偏见是否是由标签的措辞而不是谁写了文本引起的,研究人员进行了两个额外的测试:一个使用使 AI 听起来更令人印象深刻的标签,另一个使用中立术语,如“AI 作者”和“人类作者”。

两者都显示出相同的偏见,即使 AI 模型每次都产生相同的答案,偏见仍然存在,表明偏见是由标签类型(“人类”或“AI”)引起的,而不是由使用的确切词语引起的。

研究 2

第二项研究发现,所有 13 个 AI 模型都表现出相同的人类偏见,无论其架构或提供者如何:

每个 AI 模型的归属偏见:条形表示效应大小,带有 95% 的置信区间,红线表示人类基线。所有模型都表现出比人类更强的偏见,且之间的差异很小。

每个 AI 模型的归属偏见:条形表示效应大小,带有 95% 的置信区间,红线表示人类基线。所有模型都表现出比人类更强的偏见,且之间的差异很小。

每个模型都更喜欢标记为“人类撰写”的故事,效果比人类更强。即使去掉了最极端的案例,平均偏见仍然是人类版本的两倍多,表明这种效果不是一个模型中的故障,而是大型语言模型的共享特征。

结论

虽然该论文指出,之前的研究已经表明,AI 可以产生与人类作品相当甚至更好的写作,但作者强调,在文学中,作者身份和真实性的价值是根深蒂固的传统:

‘当 GPT-4o Mini 在 AI 归属标签下驳斥 Queneau 的“创造性和幽默”的方法时,同时在人类归属标签下赞扬相同的特征时,它隐含地揭示了这些标签如何触发假设,即没有真实的心理过程发生。’

‘来源线索将过程偷偷地带入了本来可能只是产品判断的东西:“仅仅是生成”在人类工匠(被视为熟练的工艺)那里是可以接受的,但在模型(被视为算法重组)那里是可疑的。’

大型语言模型还没有可靠到可以用于无监督的基于事实的研究的程度,尽管仔细的监督仍然可以使它们富有成效——但基于大型语言模型的创意写作可能面临着更不确定的未来,如果 AI 生成的创意作品由于更广泛的公众对 AI 侵犯人类领域的不赞同而受到污名化,而不是基于文学价值。

这种发现的影响在很大程度上取决于公司和个人用户是否愿意承认他们的输出是否使用了 AI。有时,拒绝承认此类使用可能更多地与企业版权盗版有关,而不是担心公众是否会接受 AI 生成的创意作品。

然而,关于版权问题,法律、财务和政治解决方案都是可能的(尽管非常具有挑战性)。但是,要让人们享受没有单一相关人类思维驱动的创意 AI 工作——这可能是一个更艰难的前景。

 

* 请参考原始论文以获取省略的内联引用。如有必要,这些将被包含在文章中。

首次发布于 2025 年 10 月 13 日

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai