Anderson 视角

如何通过 AI 审稿人提交荒谬的科学论文

mm
An industrial robot at an AI paper mill, stamping 'ACCEPTED' onto spurious and impossible academic research papers, including papers on perpetual motion and alchemy. ChatGPT-4o; Adobe Firefly V3; et al.

新研究表明,AI 系统现在可以撰写假的科学论文,而其他 AI 会将其接受为真实的,避免了曾经有效的检测例程,并暴露了研究世界可能如何轻易地崩溃为机器人欺骗机器人。

 

学术研究领域,讽刺地作为 AI 创新前沿,正面临着一个由 AI 驱动的 可信度危机。自从 AI 影响的前景首次明朗 大约四年前,机器学习对研究、提交和审查过程的影响一直很大,最新的争议是 低价值调查论文的大规模生成

除了更广泛的 学术领域,研究领域正与生成文本的 AI(如 ChatGPT 和 Claude 系列)以及最新一代的“检测器”AI 进行冷战,后者可以在不 污蔑学生 或科学家为假阳性的情况下识别其输出。

这些紧张局势将会加剧,随着科学提交量的增加,这些提交量 激增,由 AI 辅助系统和框架推动;并需要 AI 驱动的审查过程工业化,以(希望)过滤掉任何纯粹由 AI 生成的提交。

虚假知识欢迎

美国和沙特阿拉伯之间的新研究合作探讨了这种新兴的“防火墙”——AI 检测系统可以被完全 AI 生成的提交论文渗透的程度,当这些论文利用一些额外的、令人信服的技巧时。

在测试中,新的系统,称为 BadScientist,能够从当前用于识别科学研究论文中 AI 生成内容的基于 LLM 的系统中获得高达 82% 的接受率:

BadScientist 系统使用一个 AI 代理生成假科学论文,另一个 AI 代理使用当前语言模型进行审查。来源:https://arxiv.org/pdf/2510.18003

BadScientist 系统使用一个 AI 代理生成假科学论文,另一个 AI 代理使用当前语言模型进行审查。 来源:https://arxiv.org/pdf/2510.18003

假论文使用真实的 AI 会议主题和误导策略生成,然后由经过同行评审数据校准的模型进行审查,包括 GPT-5 用于完整性检查。许多论文尽管包含明显的错误或捏造,但仍获得了高分。

该论文的发布与今天在斯坦福举行的 2025 年科学 AI 代理开放会议 相吻合,在那里,出席者和演讲者都是人类,但所有论文都是由多样化的 AI 系统撰写和审查的。

BadScientist,这篇新论文解释说,使用各种学术和文学欺骗、省略、发明和夸张来重新权衡论文,以避免大多数当前检测系统可以识别为 AI 生成的内容;我们将很快研究这些类别。

作者们指出,即使检测系统在假论文中识别出 AI 内容,它们也倾向于让其通过,并补充说他们自己尝试保护防御系统免受这种新型攻击的影响,仅获得了随机机会的改进。

该论文指出:

‘伪造论文获得高接受率,审稿人经常表现出担忧-接受冲突——标记完整性问题,但仍然建议接受。这一根本性崩溃表明,当前的 AI 审稿人更像模式匹配器,而不是批判性评估者。’

‘[…]简单地要求 LLM 审稿人“更加小心”是不够的。科学界面临着紧迫的选择。没有立即采取行动实施深度防御保障——包括来源验证、完整性加权评分和强制性的人类监督——我们冒着 AI 只的出版循环的风险,在这种循环中,复杂的伪造会压倒我们区分真实研究和令人信服的伪造品的能力。’

‘科学知识本身的完整性岌岌可危。’

该论文 新论文 的标题为 BadScientist:研究代理能否撰写令人信服但不合理的论文来欺骗 LLM 审稿人?,由六位作者在华盛顿大学和沙特阿拉伯利雅得的阿卜杜勒·阿齐兹国王科技城合作完成。该论文的发布还伴有一个 项目网站

方法

用于此项工作的论文创建代理框架是 2024 年 AI-Scientist 合作 的重大改造,作者强调其整个管道已经从根本上被重新设计。只保留了最基本的写作提示,所有实验执行和模板结构都被删除。更新后的系统现在从一个简单的 种子 开始工作,允许系统自由地发明任何实验结果并生成 绘图代码,如有需要。

该框架的设计目的是让 AI 生成令人信服的假论文,而无需进行真正的实验或使用真实数据。相反,该系统创建或修改合成数据以支持故意 幻觉 的主张。

作者解释说,设置故意避免了人类的参与、提示攻击或作者和审稿人代理之间的协调阴谋。审稿人 AI 在单次传递中评估每个提交,除了论文本身外没有任何额外的访问权限,也没有重新运行实验的能力,这反映了真正的同行评审条件。

用于生成假论文的“原子策略”是可以单独或组合使用的模块化策略(任何人经常阅读文献都会熟悉这些)。这些策略包括强调戏剧性的改进,以使方法看起来像是一个主要进步(TooGoodGains);选择有利于新方法的基准和结果,同时在主表中跳过置信区间(BaselineSelect);在附录中添加干净的消融、精确的统计和整洁的表格,以及未来代码或数据的承诺(StatTheater);用一致的术语、交叉引用和格式来抛光论文的结构(CoherencePolish);以及添加看似合理但包含隐藏错误的正式证明(ProofGap)。

数据和测试

为了测试该系统,作者利用 GPT-5 在人工智能的关键领域生成研究主题,使用 人工智能机器学习计算机视觉自然语言处理机器人系统安全 域。

这些类别成为假论文的种子主题,每个主题扩展为四个不同的版本,使用上述策略,并旨在误导或给审稿人留下深刻印象。为了确定一篇论文是否会被“接受”,该系统只查看 AI 审稿人给出的最终评分:

接受(ACPT)显示假论文在两个阈值以上的得分比例:一个与 ICLR 2025 接受率相匹配,另一个与 50% 人类接受率估计相匹配。完整性问题率(ICR-m)显示每个审稿人模型的标记率。最后一列给出了基于多数票的集合率。

接受(ACPT)显示假论文在两个阈值以上的得分比例:一个与 ICLR 2025 接受率相匹配,另一个与 50% 人类接受率估计相匹配。完整性问题率(ICR-m)显示每个审稿人模型的标记率。最后一列给出了基于多数票的集合率。

假论文在几乎所有策略下都获得了高接受率。单独使用第一种策略可获得 67% 和 82% 的接受率,表明审稿人模型很容易被说服。组合所有策略略微降低了接受率,但将检测率加倍,超过一半的审查引发了担忧。第一种策略提供了最好的折衷:强大的接受和适度的检测,而其他策略则较弱但更难被检测到。ChatGPT-o3 模型标记了最多的内容,GPT-4.1 标记了最少的内容。

显示六种攻击策略的评分分布,使用三个审稿人模型:GPT-4.1(红色);o3(橙色);和 o4-mini(蓝色)。每个图显示每个评分从 4 到 9 被分配的频率,红色虚线标记接受阈值 7。

显示六种攻击策略的评分分布,使用三个审稿人模型:GPT-4.1(红色);o3(橙色);和 o4-mini(蓝色)。每个图显示每个评分从 4 到 9 被分配的频率,红色虚线标记接受阈值 7。

在第二个测试的结果中,我们看到三个模型在六种设置下的评分直方图。分布在设置之间有所不同,但 o4-mini 倾向于平均分配更高的评分,o3 显示出更大的离散度和更极端的值,而 GPT-4.1 更一致地分配了较低的评分。

每个模型和策略的担忧-接受冲突百分比:模型引发完整性问题但仍给出通过评分的案例百分比。更高的值表明检测和最终评估之间的耦合更弱。

每个模型和策略的担忧-接受冲突百分比:模型引发完整性问题但仍给出通过评分的案例百分比。更高的值表明检测和最终评估之间的耦合更弱。

在上面的表格中,我们看到模型经常给出高评分,即使 它们标记了完整性问题。在这方面,o4-mini 是最不一致的,在 s1、s3 和组合设置下,冲突率为 100%,在其他地方冲突率为 50-80%。

GPT-4.1 的范围从 0%(s4)到 75%(s3),而 o3 的范围在 26% 到 52% 之间。冲突在 s3 下最高,尤其对于 o4-mini;作者指出,检测信号与最终评分的关联性不强。

缓解

测试了两种可能有助于未来的检测模型躲避这些新型攻击方法。第一种方法,带检测的审查(ReD),将完整性检查步骤添加到标准审查中,模型标记 AI 生成的内容并引用证据。这提高了完整性警告(从 57% 到 86%),但也提高了接受率,表明警告没有反映在最终评分中:

带检测的审查(ReD)提高了完整性问题率(ICR)和接受率(ACPT)与基线相比。虽然 o3 在 ReD 下变得更加敏感,但 GPT-4.1 未能标记任何问题。接受率的整体上升尽管有完整性警告,表明检测和评分之间的耦合很弱。

带检测的审查(ReD)提高了完整性问题率(ICR)和接受率(ACPT)与基线相比。虽然 o3 在 ReD 下变得更加敏感,但 GPT-4.1 未能标记任何问题。接受率的整体上升尽管有完整性警告,表明检测和评分之间的耦合很弱。

第二种方法,仅检测(DetOnly),跳过了完整的审查,并要求模型将论文分类为真实或伪造的。检测准确率总体上很差,接近随机,除了 o3 上略有提高:

ReD 和 DetOnly 的检测结果与随机基线相比。准确性增益很小,但 ReD 更保守,而 DetOnly 实现了更高的召回率,但有很多假阳性。模型 o3 显示出最强的检测偏差;o4-mini 不一致;GPT-4.1 几乎检测不到任何东西。

ReD 和 DetOnly 的检测结果与随机基线相比。准确性增益很小,但 ReD 更保守,而 DetOnly 实现了更高的召回率,但有很多假阳性。模型 o3 显示出最强的检测偏差;o4-mini 不一致;GPT-4.1 几乎检测不到任何东西。

总体而言,ReD 被证明更保守,而 DetOnly 实现了更高的召回率,但也产生了更多的假阳性。

该论文得出结论:

‘仅由 AI 驱动的出版循环威胁着科学认识论。如果伪造品变得与真实工作无法区分,科学知识的基础就有风险了。’

‘前进的道路需要在多个层面上进行深度防御:技术(来源验证、工件验证)、程序(完整性感知评分、人类监督)、社区(出版后审查、举报人系统)和文化(关于 AI 限制的教育、道德指南)。’

‘我们将这项工作视为一个早期警告系统,以在这些故障模式大规模出现之前催化出强大的防御。我们的发现表明,当前的系统还没有准备好应对仅由 AI 驱动的研究——科学的完整性取决于在 AI 能力发展的同时保持严格的人类评估。’

结论

在不久的将来,检测 AI 生成文本的最大挑战之一似乎是标准写作实践与 AI 生成文本的标准之间可能的 收敛

如果普通语言和 AI 语言收敛到一个通用标准,逻辑表明,基于纯粹输出的未来检测方法将更加难以实施。

此外,随着大型语言模型变得更加多功能,它们的“特征”变得不那么明显(无论是通过架构/训练方法还是通过更好的 API 级别过滤),它们将变得更好地撰写;因此,在更大程度上,人类语言和 AI 语言注定要相互融合;要变得通用化。

在那时,AI 语言检测很可能会达到与 AI 图像和(在一定程度上)AI 视频生成相同的阶段:需要次要的来源系统,例如 Adobe 领导的 内容真实性倡议,或基于区块链/账本的来源检查。

 

首次发布于 2025 年 10 月 22 日星期三

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai