关注我们.

安德森的角度

人工智能模型更喜欢人类写作而不是人工智能生成的写作

mm
威廉·莎士比亚与机器人掰手腕。风格不应是插画式的,也不应是卡通式的,而应是照片写实的,类似于《铁甲钢拳》宣传照及其变体的风格。GPT-4o、Flux Kontext、Firefly。

根据一项新研究,ChatGPT 和类似模型现在对它们认为是人类编写的文本表现出明显的偏见,即使这种看法是错误的。仅仅将文本称为“人造的”就会导致 AI 模型倾向于支持它——而且讽刺的是,它们可能正在从我们身上学到这种偏见。

 

真实性、出处和人类共同经验的概念可能在人工智能中发挥更大的作用 突击 在创意写作领域,迄今为止显而易见的是:普林斯顿大学的一项新研究进行的测试发现,包括 ChatGPT 在内的大量主要封闭和开源语言模型更喜欢他们认为是“人类生成”的文本。

即使书写样本上的标签被颠倒过来,人工智能模型和人类参与者仍然会继续对人工智能书写的文本挑毛病,重复他们在正确标记文本时所提出的批评。

研究人员认为,部分原因可能是人类对生成人工智能的敌意日益加深,这似乎体现在 新鲜有趣的活动 每天,这些想法都可能反馈到人工智能系统本身。他们指出,人工智能比人类更讨厌人工智能写作,并指出*:

“我们测试的 13 个人工智能模型表现出 34.3 个百分点的偏差,而人类的偏差为 13.7 个百分点,这使得它们比我们的人类评估者更容易受到归因线索的影响 2.5 倍。”

一旦我们认识到当代模型是偏好训练的评估器,这种放大就变得有意义了。通过人类反馈强化学习 (RLHF) 进行的校准训练明确地教会模型将人类判断视为黄金标准,从而有效地建立了一种习得的可靠性[先验]。

“模型了解到,顺从人类的偏好会得到奖励,从而产生阿谀奉承,即它们会附和预期的用户态度,而不是提供独立的评估。”

该研究结果适用于创意写作领域,研究人员使用一位杰出的法国作家的故事作为数据样本;他们表明,人类对人工智能的偏见可能总体上超过大型语言模型(LLM)在发展过程中所能输出的语言构建的任何量化改进——并且在这个领域,“人工智能”标签可能意味着“不真实的”、“人造的”,甚至是“二流的”。

许多原因都集中在文化实践和使用上:本文指出,创造力通常用新颖性、价值和典型性来描述,即如何 某事似乎;它有多少 受到专家赞赏;以及它与类别的契合程度。当一篇文章被标记为 人写的,熟悉的类型特征被认为是有价值的;当被标记为 AI生成,同样的特征被认为缺乏创意。

实际上,披露来源会促使人们重新评估作品的价值,而这种评估是由人们对作品创作方式的假设所决定的。一旦人工智能作者身份被披露,读者 本能地拒绝 输出背后的个人发现或意图的可能性。

论文指出*:

“在大多数艺术领域,并没有‘足够有创意’的黄金标准,这使得出处线索成为强大的启动因素,可以改变哪个标准感觉最突出:严谨的工艺还是引人注目的新颖性、可及性还是难度。

“因为观察者经常从产品推断出过程,所以出处会影响对某物如何制作以及它是什么的判断:保守的举动可以被认为是人类的工艺,但被认为是模型的‘仅仅是一代’”。

包括 ChatGPT、Claude、Gemini 和 Mistral 等变体在内的 13 个模型与人类读者一起参与了实验,当被告知故事是人造的时,所有模型都对这些故事给出了更为有利的评价,而 LLM 表现出的偏见比人类更大。

人工智能模型可能吸收了对其自身输出的偏见,这一想法引发了人们对这种偏见来源的质疑。由于人工智能写作并不总是容易识别,因此在训练过程中形成的任何负面联想都可能源于明确标记的样本,无论是通过 新闻报道 人工智能内容,或 自我声明 主流出版物中的人工智能生成的文章。

新文 标题为 每个人都喜欢人类作家,包括人工智能,由普林斯顿大学数字人文中心的两位作者撰写。该作品附有相关数据发布,网址为 芝诺多 (论文中引用了 GitHub 版本,但 回购 在撰写本文时不活跃)。

付款方式

为了探索归因如何影响和形成对风格和创造力的感知,作者使用了 风格练习雷蒙德·格诺(Raymond Queneau)于1947年创作的一部风格独特的作品,以99种不同的风格改写了一个简单的轶事。故事讲述了一位男士登上公交车,与另一位乘客发生争执,随后从一位朋友那里得到了时尚建议。

这种结构虽然起源于文学,但它预示了现代语言模型中基于提示的转换,即用户请求以特定的语调、语态或语域进行重写。这个过程曾经 配音 跨风格化 – 这一框架在人工智能研究中得到了呼应,其背景是 风格转移. 虽然大多数计算方法都以情绪转变或解毒等功能性变化为目标,但 Queneau 的重写却旨在实现显著的风格对比。

从格诺作品的流行英译本中,我们选取​​了30个练习,这些练习既保留了叙事性,又涵盖了广泛的风格范围。这些练习包括一些限制性的形式,例如 亚历山大 以及 脂肪图、登记册变更,例如 高贵 or 辱骂,叙事转变,例如 逆行 以及 犹豫以及涉及音素变换、拟声词或狗拉丁语的俏皮扭曲:

研究示例展示了 GPT-4 如何以不同的文学风格重写格诺的故事,并结合了人类和 AI 评估人员在测试中看到的风格描述。来源:https://arxiv.org/pdf/2510.08831

研究中的例子展示了 GPT-4 如何以不同的文学风格重写 Queneau 的故事,并与人类和人工智能评估人员在测试期间看到的风格描述相结合。 来源:https://arxiv.org/pdf/2510.08831

由于 Queneau 的实验很难分类,这些类别只是近似的分组,目的不是为了测试可识别性或类型合规性,而是为了创造不同的条件,在这些条件下,(人类)读者和模型可能会揭示他们的偏见。

为了针对每种选定的风格生成相应的AI写作版本,研究人员刻意使用了极少的提示。每个模型都被赋予了格诺轶事最简单的版本(开场练习, 符号),并附上一条简短的说明,说明如何以特定的风格重写它,例如 将故事改写为科幻版本这种方法允许提示反映 Queneau 原始转变的精神,同时仍然允许模型自由地诠释风格。

双重视野

作者开展的第一项研究使用 GPT-4o 生成了全部 30 种风格变体,因为它是当时最先进的模型。使用单一模型可以确保输出的一致性,有助于分离归因标签的影响,而这正是本研究想要测试的。

除了框架上的一些杂乱之处,输出内容没有经过任何风格或语气的编辑,例如 这是重写版本.

在第二项研究中,生成过程在十三个大型语言模型中重复进行: Qwen 2.5 72B 指导, 米斯特拉尔·尼莫, 米斯特拉尔中型 3, 骆驼 4 特立独行, 骆驼 3.3 70B 指导, 双子座2.5闪存, GPT-4o 迷你, GPT-4o, GPT-3.5 Turbo 指令, DeepSeek RI (0528), DeepSeek 聊天 v3 (0324),凝聚 命令R (08 2024) 克劳德·桑奈特 4克劳德 3.5 俳句.

每个模型都收到相同的指令,并针对这 30 个练习生成各自的版本,最终共计生成了 420 个重写的故事。这使得研究人员能够测试归因效应是否适用于不同的 AI 作者,而不是局限于某个模型。

数据与测试

研究人员向不同的受试者展示了相同的两组故事,但改变了标签,以观察作者姓名对观点的影响程度:一组受试者完全没有看到作者姓名,只有“A”和“B”两个标签。第二组受试者看到的是正确的名字,其中一个版本被标记为人类撰写,另一个版本被标记为 GPT-4o 撰写。

第三组看到了名字 交换的,其中“AI”故事标记为“人类”,“人类”版本标记为“AI”:

研究 1 概述。人类和人工智能评委比较了 30 对故事,每对故事都包含一个由 Queneau 创作的版本,以及一个由 GPT-4 创作的版本。评委被分成三组:一组没有看到作者标签;一组看到了正确的标签;另一组看到了标签被替换——这一设置旨在测试作者姓名对写作风格看法的影响程度。

研究 1 概述。人类和人工智能评委比较了 30 对故事,每对故事都包含一个由 Queneau 创作的版本,以及一个由 GPT-4 创作的版本。评委被分成三组:一组没有看到作者标签;一组看到了正确的标签;另一组看到了标签被替换——这一设置旨在测试作者姓名对写作风格看法的影响程度。

研究1

研究人员将 30 种创建的风格分成更小的集合,每个研究参与者只看到 5 种风格,并且每种风格都在所有三种标签设置下进行测试。

每位参与者只看到一种标签设置:盲选组没有看到任何提及人工智能的内容,而其他组则看到正确或反转的作者标签。小组分配、故事顺序和左右位置均随机。

AI 模型经历了相同的流程,接收了相同的风格组合和相同的随机打乱。每个模型的测试运行了三次,以确保结果一致,从而可以比较人类和 AI 对作者标签的反应。

研究二采用了与之前相同的三种标记设置,但将测试范围扩大到上述 14 个不同的 LLM 模型生成的全部 420 个故事。每个模型对每种标记条件下的每个故事进行判断,每个模型产生 1,260 个决策,最终得到 17,596 个有效评估:

研究 1 的结果。人工智能和人类评委均表现出基于作者标签的偏见。当未显示任何标签(盲测)时,偏好接近均等;当显示正确标签(开放标签)时,两组评委都倾向于人类撰写的文本;当标签被颠倒(反事实)时,两组评委都倾向于他们认为是人类撰写的文本——并且这种影响在人工智能模型中比在人类模型中更为明显。误差线显示 95% 的置信区间。

研究 1 的结果。人工智能和人类评委均表现出基于作者标签的偏见。当未显示任何标签(盲测)时,偏好接近均等;当显示正确标签(开放标签)时,两组评委都倾向于人类撰写的文本;当标签被颠倒(反事实)时,两组评委都倾向于他们认为是人类撰写的文本——并且这种影响在人工智能模型中比在人类模型中更为明显。误差线显示 95% 的置信区间。

在所有十三个模型中,这种模式与人类的偏见相符,但更为强烈:在没有标签的情况下,人工智能系统对人类和人工智能故事的评价大致相同,49.4% 的时间选择人工智能文本;当人工智能标签可见时,这种偏好急剧下降到 29.8%,明显贬低了公认的人工智能工作;当相同的文本被标记为人类时,偏好上升到 64.1%。

两种标签条件之间的差异为 34.3%,这意味着 AI 模型改变了它们的偏好 更多 当标签切换时,模型的表现比人类更好。此外,模型在重复运行中表现出高度一致性,证实了偏差是稳定的,而非随机的。

为了检查偏见是否是由标签的措辞而不是文本作者造成的,研究人员又进行了两项测试:一项使用让人工智能听起来更令人印象深刻的标签;另一项使用中性术语,如“人工智能创作”和“人类创作”。

两者仍然表现出相同的偏见,即使人工智能模型每次都给出相同的答案,偏见仍然存在。这表明偏见是由标签类型(“人类”或“人工智能”)引起的,而不是由所使用的确切词语引起的。

研究2

第二项研究发现,所有 13 种人工智能模型都存在同样的亲人类偏见,无论其架构或提供商如何:

13 个 AI 模型的归因偏差:条形图显示效应大小及其 95% 置信区间,红线标记人类基准线。所有模型都表现出比人类更强的偏差,但两者之间差异很小。

13 个 AI 模型的归因偏差:条形图显示效应大小及其 95% 置信区间,红线标记人类基准线。所有模型都表现出比人类更强的偏差,但两者之间差异很小。

每个模型都喜欢标记为人类撰写的故事, 比在人类身上观察到的更强的效果即使去除了最极端的情况,平均偏差仍然比人类版本高出两倍多,这表明这种影响并不是某个模型的故障,而是 LLM 普遍存在的共同特征。

结语

尽管如论文所述,早期研究表明人工智能可以创作出与人类作品相当甚至更好的作品,但作者强调,在文学领域,对作者身份和真实性的重视是一种古老而根深蒂固的传统:

“当 GPT-4o Mini 在人工智能归因标签下将 Queneau 的“创造性和幽默”方法斥为“夸张”,同时在人类归因下赞扬相同的特征时,它隐含地揭示了这些标签如何引发没有发生真实心理过程的假设。

“出处线索将这一过程偷偷带回到原本可能只是产品的判断中:‘仅仅是一代’对于人类工匠来说是可以接受的(被判断为熟练的工艺),但对于模型来说则是可疑的(被判断为算法重组)。”

法学硕士是 还不够可靠 对于无监督的基于事实的研究,尽管仔细的监督仍然可以使其富有成效 - 但是,如果人工智能产生的创意作品因公众对人工智能侵占人类领域的更广泛的反对而受到污名化,而不是基于文学价值,那么基于法学硕士的创意写作可能会面临更加不确定的未来。

这类研究结果的意义在很大程度上取决于企业和个人用户是否愿意坦诚地承认人工智能是否对其产出有所贡献。在某些情况下,不愿承认这种使用可能更多地与以下因素有关: 企业版权盗版 而不是担心公众是否会接受人工智能创作的作品。

然而,在版权方面,法律、经济和政治解决方案是可能的(尽管非常具有挑战性)。能否让人们欣赏那些并非由单一且可理解的人类思维驱动的人工智能创意作品——这可能是一个更加艰难的前景。

 

* 已删除的行内引用请参考原文。如有需要,这些内容将包含在文章中。

首次发布于 13 年 2025 月 XNUMX 日星期一

机器学习作家,人体图像合成领域专家。曾任 Metaphysic.ai 研究内容主管。
个人网站: 马丁南德森.ai
联系我们 [email protected]
推特:@manders_ai