Anderson 视角
即使是基本的 AI 也可以撰写出与人类无法区分的新闻

最新研究表明,即使是小型本地 AI 模型也可以撰写出与人类无法区分的新闻,与顶级系统相媲美,让读者无法判断谁是作者。
根据德国和法国之间的新研究合作,人类无法判断新闻文章是由 AI 撰写还是由人类撰写的,即使它是由可以下载和在相对普通的消费级台式电脑上运行的开源模型撰写的。
在另一个迹象中,小型 AI 正在崛起,来自 1,054 名参与者在专用学术研究门户中收集的 2,318 个判断结果显示,人类读者无法在更高于偶然水平上识别文章的来源,即使它是由相对 MODEST 的模型输出的,例如只有七亿个参数,包括 Mistral 和 Llama 变体:

测试的 LLMs 的平均来源和真实性评分。GPT-4o 的 200 亿参数并不大大超过小型模型的 7 亿参数。测试的模型包括 Gemma 7B、Phi-3 Mini、LLaMA-2 13B、Mistral 7B、GPT-4o 和 GPT-3.5。 来源
作者们回到了他们在 2024 年 发布 的 祝福或诅咒?关于生成性 AI 对假新闻的影响的调查 的主题。这些发现本身是最初在一月份 宣布 的更大项目的新发布结果,并使用了作者自己的 JudgeGPT 在线参与框架。
轻量级力量
题为 人类能否区分?LLM 生成新闻的双轴研究,来自法兰克福应用科学大学和南特 IRISA 研究单位的三位研究人员的 新研究 的方法论在“假新闻”和“AI 撰写的新闻”之间做出了重要的区分(因为假新闻可以由人类或 AI 撰写,这两个方面并不一定是同义的)。
然而,可能最有趣的方面是,该论文的结论是,小型模型,包括 Mistral 7B 和 Gemma 7B,仅使用七亿个参数,就可以与拥有 200 亿个参数的 ChatGPT 模型(4o)相媲美:
‘开源模型,参数少至 7 亿,产生的文本与 GPT-4o 输出的评分无差异,表明生成人类无法区分的文本的能力不再仅限于前沿模型。’
然而,“AI 生成的新闻”可以代表人类和 AI 之间的各种合作形式,从拼写检查到完全的、职业生涯结束的努力,该研究并没有明确说明测试中产生的 AI 内容的确切类型(尽管它概述了产生它的方法 – 见下文)。
方法
对于参与 JudgeGPT 平台的参与者,每个新闻片段使用双轴框架进行评估,他们在三个独立的 0-100 滑动条上提供评分:

JudgeGPT 门户 GUI,评估人员在此评估材料的来源归属、真实性和主题熟悉度。请参考源论文以获得更好的分辨率。
来源判断 捕获了文章是否似乎是由机器撰写或由人类撰写; 真实性判断, 是否被认为是假的或合法;以及 主题熟悉度, 读者对主题的熟悉程度。
使用连续刻度而不是 Likert 刻度,以更精确地捕捉确定程度,并支持统计分析,包括 Pearson 相关性 和 聚类。
机器生成的文本片段由作者自己的 RogueGPT 框架 生成,该框架是 JudgeGPT 的输入架构。RogueGPT 编排了六个大型语言模型(LLMs)的贡献:ChatGPT-4;ChatGPT-3.5;ChatGPT-4o;LLaMA-2 13B;Gemma 7B;和 Mistral 7B。
使用基于人格的提示生成文本,并且 AI 生成的内容基于真实新闻主题,并由人类进行事实核查。
相反,人类撰写的片段来自“已建立的新闻机构”和未指定的“信息数据库”。
作者们观察到:
‘刺激集是故意偏向机器起源片段(∼98%),人类起源项目作为校准锚点。 ‘
‘这种设计选择反映了研究的重点在于 AI 内部的变异(跨模型)而不是人类与 AI 的比较;参与者不知道基准率,且在仅分析人类起源子集时,接近偶然的检测结果仍然成立。’
参与者首先提供了知情同意并完成了一份涵盖年龄、教育、政治倾向和 AI 熟悉度的问卷,然后评估新闻片段序列。
每个人审查了 5-87 个项目,中位数为 12,而呈现顺序是随机的,模型分配在参与者中是平衡的,以减少偏差。该平台记录了三个滑动条评分以及响应时间和匿名标识符,允许将个别判断与背景因素联系起来。
作者们特别指出,该样本偏向受过教育的欧洲参与者,其中 68% 是大学毕业生,74% 来自欧洲 – 该论文将其视为更广泛概括的局限性。
测试
测试分为五种发现类型:区分机器生成和人类撰写的文本;比较不同 LLMs 的检测;检查领域专业知识与政治倾向对准确性的影响;识别参与者中的不同响应策略;以及跟踪准确性在重复评估中的变化情况,归因于 疲劳:

2,318 个判断结果和 1,054 名参与者的五项核心发现总结,表明人类检测 AI 撰写的文本仍然停留在偶然水平,准确性与领域专业知识相关,而不是政治倾向,参与者聚集成不同的信任配置文件,并且由于认知疲劳,性能在大约 30 次评估后下降。
测试显示,来源评分在条件之间没有显著的高于偶然的差异,表明参与者无法区分 AI 生成的文本和人类输出:

机器和人类起源片段的来源和真实性评分分布显示出重叠,没有两种条件之间的有意义的分离,统计测试表明参与者无法可靠地区分 AI 生成的文本和人类撰写的内容。
对于第二个方面,如文章开头的图表所示,检测失败并没有随着模型的不同而变化,因为所有 LLMs 的输出都聚集在偶然水平的判断周围,没有任何显著的差异。即使像 Mistral 7B 和 Gemma 7B 这样的较小的开源系统也被评估为与 GPT-4o 无差异,表明人类无法区分的文本可能不再仅限于最大的模型。
对于第三个方面,准确性与领域专业知识更为密切相关,而不是政治倾向,因为熟悉假新闻与更好的判断相关,而政治观点没有显著的影响,表明分析技能可能比意识形态更重要:

与第三项调查相关的结果表明,政治倾向对来源归属或真实性评分没有显著影响,只有弱的、无显著的趋势,而自我报告的假新闻熟悉度在两个轴上都与更高的准确性相关,反映在正相关和上升的回归斜率中。这表明经验性分析技能比意识形态立场更能预测性能。请参考源论文以获得更好的分辨率。
第四项发现表明,参与者聚集成两种不同的响应风格,被识别为‘怀疑者’ – 谁对内容无论来源如何都赋予了较低的信任 – 和‘信徒’ – 谁保持了更高的基线信任。
最后,关于第五个目标,参与者评估的顺序分析显示,参与者最初变得更擅长于该任务,准确性在大约前 15-20 次评估中提高,因为他们适应了格式:

参与者评估的顺序平均值显示了一个短暂的初始改进阶段,因为用户似乎在前 15-20 个项目中适应了该任务,之后在大约 30 个评估后,两项措施的得分都稳步下降,得分下降到默认响应 – 这种模式被解释为认知疲劳,表明基于检测的方法在实践中只能有效地维持一段时间。
然而,这种效果是短暂的,因为在大约 30 个项目后,性能开始下降,参与者越来越多地将内容标记为假 – 这种转变被解释为认知疲劳,表明检测方法在实践中只能有效地维持一段时间。
这可能代表了一些实证证据,即,面对区分假新闻和真新闻、AI 新闻和人类新闻的前景,人们可能会倾向于默认假设新闻是 AI 生成的和/或假新闻(这两者并非相同)- 以“安全”的方式。那些认为这“懒惰”,并认为人们应该自己研究以验证潜在的假新闻故事的人可能会对 2024 年的一项研究感兴趣,该研究 表明这只会使问题更加严重。
作者们建议,结果中表现出的人类判断的失败表明,我们可能需要将此类问题委托给加密证明技术,例如 Adobe 领导的 C2PA 计划。其他可能的解决方案包括作者自己的 OriginLens 框架,以及作者参与的另一个项目 CRED-1。
作者们总结道:
‘人类能否区分?我们的双轴研究为 2,318 个判断和六个 LLM 家族提供了明确的实证答案:他们不能。 ‘
‘机器生成的文本与人类撰写的文本无差异,无论模型大小或家族如何,领域专业知识比政治倾向更能预测检测准确性,参与者采用不同的信任策略,认知疲劳限制了持续的检测。 ‘
‘这些发现支持从用户级别检测转向系统级别的对抗措施,包括内容来源、自适应信任指标和有界的免疫干预。’
结论
这篇论文令人担忧的方面是作者(或其中一些作者,取决于工作)创立或参与的项目和论文的周围支持网络;当然,如果可以研究产生这些结果的 AI 生成和人类撰写的文本样本,以更好地理解所描述的生成方法论产生的输出类型,将会很有启发性。
尽管如此,令人着迷的是,开源、开源模型可以与 API 驱动的巨型模型(如 ChatGPT 系列)相媲美 – 是否可以说手头的任务实际上并不那么困难,而 200 亿参数的模型对于这样的任务来说是过度的?我们需要了解更多关于提交的 AI 和人类撰写的源样本,以回答这个问题。
与此同时,根据 canirun.ai 网站,Mistral 7B(在测试中与 ChatGPT-4o 基本相同)在 NVIDIA RTX 3080 上“运行良好”,内存为 16GB,并在 3060 上“运行得当”,内存为 6GB – 这些并不是最新或最伟大的图形卡。因此,任何想要为样本提交制定自己的方法的人都可以参加这些实验。
* Gemma 7B 未在该网站列出。
首次发布于 2026 年 4 月 9 日星期四












