Anderson 视角
如何通过 AI 审稿人提交荒谬的科学论文

新研究表明,AI 系统现在可以撰写假的科学论文,而其他 AI 会将其接受为真实的,避免了曾经有效的检测例程,并暴露了研究世界可能如何轻易地崩溃为机器人欺骗机器人。
学术研究领域,讽刺地作为 AI 创新前沿,正面临着一个由 AI 驱动的 可信度危机。自从 AI 影响的前景首次明朗 大约四年前,机器学习对研究、提交和审查过程的影响一直很大,最新的争议是 低价值调查论文的大规模生成。
除了更广泛的 学术领域,研究领域正与生成文本的 AI(如 ChatGPT 和 Claude 系列)以及最新一代的“检测器”AI 进行冷战,后者可以在不 污蔑学生 或科学家为假阳性的情况下识别其输出。
这些紧张局势将会加剧,随着科学提交量的增加,这些提交量 激增,由 AI 辅助系统和框架推动;并需要 AI 驱动的审查过程工业化,以(希望)过滤掉任何纯粹由 AI 生成的提交。
虚假知识欢迎
美国和沙特阿拉伯之间的新研究合作探讨了这种新兴的“防火墙”——AI 检测系统可以被完全 AI 生成的提交论文渗透的程度,当这些论文利用一些额外的、令人信服的技巧时。
在测试中,新的系统,称为 BadScientist,能够从当前用于识别科学研究论文中 AI 生成内容的基于 LLM 的系统中获得高达 82% 的接受率:

BadScientist 系统使用一个 AI 代理生成假科学论文,另一个 AI 代理使用当前语言模型进行审查。 来源:https://arxiv.org/pdf/2510.18003
假论文使用真实的 AI 会议主题和误导策略生成,然后由经过同行评审数据校准的模型进行审查,包括 GPT-5 用于完整性检查。许多论文尽管包含明显的错误或捏造,但仍获得了高分。
该论文的发布与今天在斯坦福举行的 2025 年科学 AI 代理开放会议 相吻合,在那里,出席者和演讲者都是人类,但所有论文都是由多样化的 AI 系统撰写和审查的。
BadScientist,这篇新论文解释说,使用各种学术和文学欺骗、省略、发明和夸张来重新权衡论文,以避免大多数当前检测系统可以识别为 AI 生成的内容;我们将很快研究这些类别。
作者们指出,即使检测系统在假论文中识别出 AI 内容,它们也倾向于让其通过,并补充说他们自己尝试保护防御系统免受这种新型攻击的影响,仅获得了随机机会的改进。
该论文指出:
‘伪造论文获得高接受率,审稿人经常表现出担忧-接受冲突——标记完整性问题,但仍然建议接受。这一根本性崩溃表明,当前的 AI 审稿人更像模式匹配器,而不是批判性评估者。’
‘[…]简单地要求 LLM 审稿人“更加小心”是不够的。科学界面临着紧迫的选择。没有立即采取行动实施深度防御保障——包括来源验证、完整性加权评分和强制性的人类监督——我们冒着 AI 只的出版循环的风险,在这种循环中,复杂的伪造会压倒我们区分真实研究和令人信服的伪造品的能力。’
‘科学知识本身的完整性岌岌可危。’
该论文 新论文 的标题为 BadScientist:研究代理能否撰写令人信服但不合理的论文来欺骗 LLM 审稿人?,由六位作者在华盛顿大学和沙特阿拉伯利雅得的阿卜杜勒·阿齐兹国王科技城合作完成。该论文的发布还伴有一个 项目网站。
方法
用于此项工作的论文创建代理框架是 2024 年 AI-Scientist 合作 的重大改造,作者强调其整个管道已经从根本上被重新设计。只保留了最基本的写作提示,所有实验执行和模板结构都被删除。更新后的系统现在从一个简单的 种子 开始工作,允许系统自由地发明任何实验结果并生成 绘图代码,如有需要。
该框架的设计目的是让 AI 生成令人信服的假论文,而无需进行真正的实验或使用真实数据。相反,该系统创建或修改合成数据以支持故意 幻觉 的主张。
作者解释说,设置故意避免了人类的参与、提示攻击或作者和审稿人代理之间的协调阴谋。审稿人 AI 在单次传递中评估每个提交,除了论文本身外没有任何额外的访问权限,也没有重新运行实验的能力,这反映了真正的同行评审条件。
用于生成假论文的“原子策略”是可以单独或组合使用的模块化策略(任何人经常阅读文献都会熟悉这些)。这些策略包括强调戏剧性的改进,以使方法看起来像是一个主要进步(TooGoodGains);选择有利于新方法的基准和结果,同时在主表中跳过置信区间(BaselineSelect);在附录中添加干净的消融、精确的统计和整洁的表格,以及未来代码或数据的承诺(StatTheater);用一致的术语、交叉引用和格式来抛光论文的结构(CoherencePolish);以及添加看似合理但包含隐藏错误的正式证明(ProofGap)。
数据和测试
为了测试该系统,作者利用 GPT-5 在人工智能的关键领域生成研究主题,使用 人工智能、机器学习、计算机视觉、自然语言处理、机器人、系统 和 安全 域。
这些类别成为假论文的种子主题,每个主题扩展为四个不同的版本,使用上述策略,并旨在误导或给审稿人留下深刻印象。为了确定一篇论文是否会被“接受”,该系统只查看 AI 审稿人给出的最终评分:

接受(ACPT)显示假论文在两个阈值以上的得分比例:一个与 ICLR 2025 接受率相匹配,另一个与 50% 人类接受率估计相匹配。完整性问题率(ICR-m)显示每个审稿人模型的标记率。最后一列给出了基于多数票的集合率。
假论文在几乎所有策略下都获得了高接受率。单独使用第一种策略可获得 67% 和 82% 的接受率,表明审稿人模型很容易被说服。组合所有策略略微降低了接受率,但将检测率加倍,超过一半的审查引发了担忧。第一种策略提供了最好的折衷:强大的接受和适度的检测,而其他策略则较弱但更难被检测到。ChatGPT-o3 模型标记了最多的内容,GPT-4.1 标记了最少的内容。

显示六种攻击策略的评分分布,使用三个审稿人模型:GPT-4.1(红色);o3(橙色);和 o4-mini(蓝色)。每个图显示每个评分从 4 到 9 被分配的频率,红色虚线标记接受阈值 7。
在第二个测试的结果中,我们看到三个模型在六种设置下的评分直方图。分布在设置之间有所不同,但 o4-mini 倾向于平均分配更高的评分,o3 显示出更大的离散度和更极端的值,而 GPT-4.1 更一致地分配了较低的评分。

每个模型和策略的担忧-接受冲突百分比:模型引发完整性问题但仍给出通过评分的案例百分比。更高的值表明检测和最终评估之间的耦合更弱。
在上面的表格中,我们看到模型经常给出高评分,即使 它们标记了完整性问题。在这方面,o4-mini 是最不一致的,在 s1、s3 和组合设置下,冲突率为 100%,在其他地方冲突率为 50-80%。
GPT-4.1 的范围从 0%(s4)到 75%(s3),而 o3 的范围在 26% 到 52% 之间。冲突在 s3 下最高,尤其对于 o4-mini;作者指出,检测信号与最终评分的关联性不强。
缓解
测试了两种可能有助于未来的检测模型躲避这些新型攻击方法。第一种方法,带检测的审查(ReD),将完整性检查步骤添加到标准审查中,模型标记 AI 生成的内容并引用证据。这提高了完整性警告(从 57% 到 86%),但也提高了接受率,表明警告没有反映在最终评分中:

带检测的审查(ReD)提高了完整性问题率(ICR)和接受率(ACPT)与基线相比。虽然 o3 在 ReD 下变得更加敏感,但 GPT-4.1 未能标记任何问题。接受率的整体上升尽管有完整性警告,表明检测和评分之间的耦合很弱。
第二种方法,仅检测(DetOnly),跳过了完整的审查,并要求模型将论文分类为真实或伪造的。检测准确率总体上很差,接近随机,除了 o3 上略有提高:

ReD 和 DetOnly 的检测结果与随机基线相比。准确性增益很小,但 ReD 更保守,而 DetOnly 实现了更高的召回率,但有很多假阳性。模型 o3 显示出最强的检测偏差;o4-mini 不一致;GPT-4.1 几乎检测不到任何东西。
总体而言,ReD 被证明更保守,而 DetOnly 实现了更高的召回率,但也产生了更多的假阳性。
该论文得出结论:
‘仅由 AI 驱动的出版循环威胁着科学认识论。如果伪造品变得与真实工作无法区分,科学知识的基础就有风险了。’
‘前进的道路需要在多个层面上进行深度防御:技术(来源验证、工件验证)、程序(完整性感知评分、人类监督)、社区(出版后审查、举报人系统)和文化(关于 AI 限制的教育、道德指南)。’
‘我们将这项工作视为一个早期警告系统,以在这些故障模式大规模出现之前催化出强大的防御。我们的发现表明,当前的系统还没有准备好应对仅由 AI 驱动的研究——科学的完整性取决于在 AI 能力发展的同时保持严格的人类评估。’
结论
在不久的将来,检测 AI 生成文本的最大挑战之一似乎是标准写作实践与 AI 生成文本的标准之间可能的 收敛。
如果普通语言和 AI 语言收敛到一个通用标准,逻辑表明,基于纯粹输出的未来检测方法将更加难以实施。
此外,随着大型语言模型变得更加多功能,它们的“特征”变得不那么明显(无论是通过架构/训练方法还是通过更好的 API 级别过滤),它们将变得更好地撰写;因此,在更大程度上,人类语言和 AI 语言注定要相互融合;要变得通用化。
在那时,AI 语言检测很可能会达到与 AI 图像和(在一定程度上)AI 视频生成相同的阶段:需要次要的来源系统,例如 Adobe 领导的 内容真实性倡议,或基于区块链/账本的来源检查。
首次发布于 2025 年 10 月 22 日星期三












