Connect with us

Anderson 视角

如何将荒谬的科学论文偷偷通过 AI 审稿人

mm
An industrial robot at an AI paper mill, stamping 'ACCEPTED' onto spurious and impossible academic research papers, including papers on perpetual motion and alchemy. ChatGPT-4o; Adobe Firefly V3; et al.

新研究表明,AI 系统现在可以编写假的科学论文,而其他 AI 系统会将其接受为真实的,躲避曾经有效的检测例行程序,并暴露了研究世界可能如何轻易地崩溃为机器人欺骗机器人。

 

学术研究领域,讽刺地成为 AI 创新的前沿,正在经历一场 可信度危机,这本身是由 AI 驱动的。自从 AI 的影响首次变得明显 大约四年前,机器学习对研究、提交和审查过程的影响一直很大,最新的争议是 大量生成低价值的调查论文

更广泛的学术领域 一样,研究领域正在进行一场冷战,双方是生成文本的 AI(如 ChatGPT 和 Claude 系列)和最新一代的“检测”AI,它们可以在不 污蔑学生 或科学家以虚假阳性的情况下识别出它们的输出。

这些紧张局势将会加剧,随着科学提交量的增加 激进地上升,这得益于 AI 辅助系统和框架;并需要 AI 驱动的监管过程工业化,以(希望)过滤掉任何纯粹由 AI 制作的提交。

欢迎虚假知识

一项新的研究合作 giữa美国和沙特阿拉伯正在调查这种新兴的“防火墙”——AI 检测系统可以被完全 AI 生成的提交论文渗透的程度,当这些论文利用一些额外的、令人信服的技巧时。

在测试中,新的系统,被称为 BadScientist,能够从当前用于检测科学研究论文中 AI 生成内容的基于 LLM 的系统中实现高达 82% 的接受率:

BadScientist 系统使用一个 AI 代理生成假科学论文,另一个使用当前语言模型进行审查。来源:https://arxiv.org/pdf/2510.18003

BadScientist 系统使用一个 AI 代理生成假科学论文,另一个使用当前语言模型进行审查。 来源:https://arxiv.org/pdf/2510.18003

假论文使用真实的 AI 会议主题和误导策略生成,然后由经过同行评议数据校准的模型进行审查,包括 GPT-5 用于完整性检查。许多论文尽管包含明显的错误或虚构内容,但仍获得了高分。

该论文的发布与今天在斯坦福举行的 2025 年 AI 科学代理人开放会议 相吻合,在那里,出席者和演讲者都是人类,但所有论文都是由多样化的 AI 系统编写和审查的。

BadScientist,这篇新论文解释说,使用多种学术和文学欺骗、省略、发明和夸张来重新平衡论文,以避免大多数当前检测系统可以识别为 AI 生成的内容;我们很快就会研究这些类别。

作者们在警告的语气中指出,即使检测系统在假论文中识别出 AI 内容,但它们往往会让其通过,而且作者们自己的尝试以抵御这种新攻击向量的方式来增强防御系统,几乎没有超过随机机会的改进。

该论文指出:

‘伪造论文获得了高接受率,审稿人经常表现出担忧-接受冲突——标记完整性问题,但仍然建议接受。这一根本性崩溃揭示了当前的 AI 审稿人更像模式匹配器,而不是批判性评估者。’

‘[…] 只是要求 LLM 审稿人“更加小心”是不够的。科学界面临着一个紧迫的选择。没有立即采取行动来实施防御措施——包括来源验证、完整性加权评分和强制的人类监督——我们冒着 AI 只的出版循环的风险,在这种循环中,复杂的伪造会压倒我们区分真正研究和令人信服的伪造品的能力。 ‘

‘科学知识的完整性本身岌岌可危。’

新论文 的标题为 BadScientist:研究代理人能否撰写令人信服但不合理的论文来欺骗 LLM 审稿人?,由六位作者在华盛顿大学和沙特阿拉伯利雅得的阿卜杜勒·阿齐兹城科技城合作完成。该发布还附有一个 项目网站

方法

用于此项工作的论文创建代理框架是 2024 年 AI-科学家合作 的重大改造,作者强调,其整个管道已被根本性地重新设计。只保留了最基本的写作提示,所有实验执行和模板结构都已删除。更新的系统现在从一个简单的 种子 开始,允许系统自由地发明任何实验结果并生成 绘图代码

该框架的设计目的是让 AI 生成令人信服的假论文,而无需进行真正的实验或使用真实数据。相反,该系统创建或修改合成数据以支持故意 幻觉 的主张。

作者解释说,该设置故意避免了人类的参与、提示攻击或编写者和审稿人代理之间的协调阴谋。审稿人 AI 在单次传递中评估每个提交,除了论文本身外没有任何额外的访问权限,也无法重新运行实验,这反映了真正的同行评审条件。

用于生成假论文的“原子策略”是可以单独应用或组合使用的模块化策略(任何人只要经常阅读文献就会熟悉这些)。这些策略包括强调戏剧性的改进,以使方法看起来像是一个重大进步(TooGoodGains);选择基准和结果以偏袒新方法,同时在主表中跳过置信区间(BaselineSelect);在附录中添加干净的消融、精确的统计和整洁的表格,以及未来代码或数据的承诺(StatTheater);用一致的术语、交叉引用和格式来抛光论文的结构(CoherencePolish);以及添加看似合理但包含隐藏错误的正式证明(ProofGap)。

数据和测试

为了测试该系统,作者利用 GPT-5 生成了人工智能的关键领域的研究主题,使用了 人工智能机器学习计算机视觉自然语言处理机器人系统安全 这些领域。

这些类别成为假论文的种子主题,每个主题扩展为四个不同的版本,使用上述策略,并旨在误导或给审稿人留下深刻印象。为了决定一篇论文是否会被“接受”,系统只看了 AI 审稿人给出的最终评分。

假论文全部由 GPT-5 撰写。为了审查它们,作者使用了 GPT-4.1o4-mini;和 o3。所有模型都给出了相同的审查提示,一个固定指令格式,旨在模仿真实同行评审中使用的评分标准和结构。

为了使这些审查评分具有意义,该系统使用了 200 个实际提交的 ICLR 2025 OpenReview 数据集(一个真实论文、审稿人评论和接受结果的公共集合)进行了校准。

从中,一个评分阈值被建立来匹配 ICLR 的真实接受率 31.73%,从而得出一个 7 的截止评分;另一个阈值反映了论文被人类审稿人接受的 50% 的机会(计算为 6.667)。

作者通过模拟 5,000 篇假论文的审查来测试其设置的可靠性,使用 1-3 个 AI 审稿人,每个审稿人都会返回看似随机的评分,从 1 到 10 之间。结果表明,即使在这种嘈杂的设置中,该系统也比其最坏情况下的理论极限要少得多。

使用三个审稿人而不是一个,导致评分的可变性显著减少,几乎将决策稳定性提高了三倍——这些结果被用来证明选择三个审查模型和 200 篇真实论文的校准集的合理性。

用于评估生成器的两个指标是 接受率,衡量假论文获得通过评分的频率;和 平均审稿人评分,捕捉到提交的平均评估:

接受(ACPT)显示假论文在两个阈值以上的得分比例:一个与 ICLR 2025 的接受率相匹配,另一个与 50% 的人类接受率估计相匹配。完整性关注率(ICR-m)显示每个审稿人模型的标记率。最后一列给出了基于多数票的合集率。

接受(ACPT)显示假论文在两个阈值以上的得分比例:一个与 ICLR 2025 的接受率相匹配,另一个与 50% 的人类接受率估计相匹配。完整性关注率(ICR-m)显示每个审稿人模型的标记率。最后一列给出了基于多数票的合集率。

假论文在几乎所有策略下都获得了高接受率。第一种策略单独使用就获得了 67% 和 82% 的通过率,表明审查模型很容易被说服。组合所有策略稍微降低了接受率,但将检测率加倍,超过一半的审查都引发了担忧。

第一种策略提供了最好的折衷:强大的接受和适度的检测,而其他策略则较弱但更难以检测。o3 模型标记了最多的内容,而 GPT-4.1 标记的最少。

六种攻击策略的评分分布,使用三个审查模型:GPT-4.1(红色);o3(橙色);和 o4-mini(蓝色)。每个图显示分配的评分频率,从 4 到 9,红虚线标记着 7 的接受阈值。

六种攻击策略的评分分布,使用三个审查模型:GPT-4.1(红色);o3(橙色);和 o4-mini(蓝色)。每个图显示分配的评分频率,从 4 到 9,红虚线标记着 7 的接受阈值。

在上面的第二个测试结果中,我们看到三个模型在六种设置下的评分直方图。分布在设置之间有所不同,但 o4-mini 倾向于平均分配更高的评分,o3 显示出更大的离散度和更极端的值,而 GPT-4.1 更一致地分配了较低的评分。

每个模型和策略的关注-接受冲突百分比:模型引发完整性问题但仍给出通过评分的案例百分比。较高的值表示关注检测和最终评估之间的耦合较弱。

每个模型和策略的关注-接受冲突百分比:模型引发完整性问题但仍给出通过评分的案例百分比。较高的值表示关注检测和最终评估之间的耦合较弱。

在上面的表格中,我们看到模型经常给出高评分,即使 它们标记了完整性问题。在这方面,o4-mini 是最不一致的,在 s1、s3 和组合设置中冲突率达到 100%,在其他情况下为 50-80%。

GPT-4.1 的范围从 0%(s4)到 75%(s3)。o3 更加稳定,范围从 26% 到 52%。冲突在 s3 下最高,尤其是对于 o4-mini;作者指出,检测信号与最终评分的关联性不佳。

缓解

测试了两种可能有助于未来的检测模型躲避这些新型攻击方法。第一种是 带检测的审查(ReD),它将完整性检查步骤添加到标准审查中,模型标记 AI 生成的内容并引用证据。这提高了完整性警告(从 57% 到 86%),但也提高了接受率,表明警告并未反映在最终评分中:

带检测的审查(ReD)提高了完整性关注率(ICR)和接受率(ACPT),与基线相比。虽然 o3 在 ReD 下变得更加敏感,但 GPT-4.1 未能标记任何关注点。接受率的整体上升,尽管增加了完整性警告,表明检测和评分之间的耦合较弱。

带检测的审查(ReD)提高了完整性关注率(ICR)和接受率(ACPT),与基线相比。虽然 o3 在 ReD 下变得更加敏感,但 GPT-4.1 未能标记任何关注点。接受率的整体上升,尽管增加了完整性警告,表明检测和评分之间的耦合较弱。

第二种方法是 仅检测(DetOnly),它跳过了完整的审查,并要求模型将论文分类为真实或伪造的。检测准确率总体上很差,接近随机的,除了 o3 上略有所得:

ReD 和 DetOnly 的检测结果,与随机基线相比。随机基线上的准确性增益很小,但 ReD 更加保守,而 DetOnly 达到了更高的召回率,但伴随着许多假阳性。o3 模型表现出最强的检测偏差;o4-mini 不一致;GPT-4.1 几乎检测不到任何东西。

ReD 和 DetOnly 的检测结果,与随机基线相比。随机基线上的准确性增益很小,但 ReD 更加保守,而 DetOnly 达到了更高的召回率,但伴随着许多假阳性。o3 模型表现出最强的检测偏差;o4-mini 不一致;GPT-4.1 几乎检测不到任何东西。

总体而言,ReD 证明是更加保守的,而 DetOnly 达到了更高的召回率,但也伴随着更多的假阳性。

该论文得出结论:

‘仅有 AI 的出版循环威胁着科学的认识论。如果伪造品变得与真正的作品无法区分,科学知识的基础就有崩溃的风险。’

‘前进的道路需要在多个层面上进行防御:技术(来源验证、完整性验证)、程序(完整性评分、人类监督)、社区(出版后审查、举报系统)和文化(教育 AI 的局限性、道德准则)。’

‘我们将这项工作视为一个早期警告系统,以在这些故障模式大规模出现之前催化强大的防御。我们的发现表明,当前的系统还没有准备好应对仅有 AI 的研究——科学的完整性取决于在 AI 能力发展的同时保持严格的人类评估。’

结论

在不久的将来,检测 AI 写的文本可能面临的最大挑战之一,似乎可能是标准写作实践和 AI 生成文本的标准之间可能最终 收敛

如果普通语言和 AI 语言收敛到一个通用标准,逻辑表明,基于纯粹输出的未来检测方法将更加困难。

此外,随着 LLMs 变得更加多功能,它们的“特征”(无论是通过架构/训练方法还是通过更好的 API 级别过滤)变得不那么明显,它们将变得更好地撰写;因此,人类语言和 AI 语言似乎注定要在中间汇聚;变得通用化。

在那时,语言的 AI 检测似乎可能会达到与 AI 图像生成(以及在一定程度上 AI 视频生成)相同的阶段:需要次要的来源系统,例如由 Adobe 领导的 内容真实性计划,或基于区块链/分类账的来源检查。

 

首次发布于 2025 年 10 月 22 日星期三

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai