Anderson 视角

《调查论文DDoS攻击》正在让科学研究不堪重负

mm
An Oxbridge professor, a white middle-aged man, is shocked to see the entrance to his office clogged with an avalanche of books. ChatGPT-40; Firefly V3.

像ChatGPT这样的生成式AI模型现在正在以难以置信的速度向学术出版平台提交AI生成的调查论文,导致信号与噪音的比例变得非常关键。最近的一项研究声称,这种调查论文的泛滥正在压倒研究人员,扭曲引用,并侵蚀科学记录的可信度,将AI辅助的论文泛滥比作对科学本身的“DDoS攻击”。

 

(部分)观点 上周,我第一次在七年里跟踪与AI相关的科学文献流时,意识到我必须在跟踪新出版物和有时间写关于它们的一些文章之间做出选择。

在几个相关类别中(计算机视觉机器学习语言模型和其他几个较少订阅的部分),一天的提交数量超过了一千条。

在这样的体积下,即使只是浏览所有新标题并偶尔浏览一些摘要,也会让人感到这一天不太productive。

这是10月7日。相比之下,在机器学习类别中,上周二(10月14日)的出版量略低于前一周的400多条;它只有354条。

机器学习类别一天内有354篇提交。来源:https://arxiv.org/

机器学习类别一天内有354篇提交。 来源:https://arxiv.org/

你必须每天阅读Arxiv几年,才能意识到这些数字有多么疯狂。

承认星期二是Arxiv的“高峰期”,可能因为这是最早的工作日,远离长周末,而机器学习类别是一个“集所有”的部分,具有比其他类别更低的唯一论文数量(不在其他专门渠道同时发表的论文);

然而,论文提交的增加已经成为学术界和媒体关注的现象。

这种增加最令人震惊的方面是,所有其他相邻类别在过去三年中频率基本没有变化,而计算机科学类别(请在Arxiv的官方数据中找到它)却呈现出严重的上升趋势:

过去三年计算机科学论文的增加。来源:https://info.arxiv.org/about/reports/submission_category_by_year.html

过去三年计算机科学论文的增加。 来源:https://info.arxiv.org/about/reports/submission_category_by_year.html

三年多前,Arxiv的AI论文提交量估计每几年就会翻倍;到2025年底,会很有趣地看到Arxiv自己的年度趋势报告。

量大到11

这种情况发生的两个最明显的原因是:a)对生成式AI的前所未有的财务承诺正在吸引大量的研究投资,既有私营部门也有学术界,通常是合作的;以及b)像ChatGPT这样的AI语言模型系统现在使得提交研究论文(包括关于AI的论文)成为一种几乎工业化的过程。

然而,研究的质量并没有随着数量的增加而提高(尽管AI的错误输出往往在学术界而不是法律界制造更多的头条新闻,不仅因为其影响更为明显)。

零容忍政策很难实施,即使识别AI生成的内容更容易;除了AI本身对科学研究有益之外,其在研究论文提交中的使用通常提高了许多非英语提交者的工作清晰度——这些个人和团队以前由于语言障碍而处于劣势。

但是,降低语言障碍的同时,也会提高全球提交者的数量,而没有相应提高人类监督的水平,这正是赋予这些工作价值的因素。

如果提交量继续指数级增加,信号与噪音的比例将变得难以控制,只有AI本身才能可能地导航新的AI论文洪流和支流;这是一项AI不适合完成的任务。讽刺的是,科学研究是一项非常“人类”的事业。

对研究的攻击

引发这一反思的原因是一项来自中国的有趣的新合作,题为《停止用AI生成的调查论文对研究社区进行DDoS攻击》。

这篇新论文专门关注调查提交——研究的特定领域的高强度总结,这些总结传统上既列出了又对趋势进行了背景化,解释并做出了明智的预测:

机器学习和AI相关部分在arxiv.org上可用的调查的很小一部分

机器学习和AI相关部分在arxiv.org上可用的调查的很小一部分

由于调查是策划而不是原创的,因此它们非常容易被AI自动化,而这篇论文的作者将调查论文在研究领域的泛滥描述为一种“安全威胁”:

‘最近,尤其是大型语言模型(LLM)的AI生成调查的激增,将这种传统的劳动密集型流程转变为低强度、高产出流程。虽然这种自动化降低了进入壁垒,但也引入了一个关键威胁:我们所说的“调查论文DDoS攻击”对研究社区的威胁。 ‘

‘这指的是低质量或甚至是幻想的调查论文的无限制泛滥,这些论文淹没了预印本平台,压倒了研究人员,并侵蚀了科学记录的可信度。 ‘

‘我们认为,必须停止向研究社区上传大量AI生成的调查论文(即调查论文DDoS攻击),通过制定AI辅助撰写的强有力规范。 ‘

这篇论文警告说,如果没有更好的规则或监督,AI生成的调查可能会变成肤浅的副本,误导人们对哪些主题很重要,隐藏有意义的分析,并使文献综述变得不那么可靠:

‘研究质量和可信度的影响是深远的。首先,真正的进步可能会被算法生成的现有工作的重复所掩盖。 ‘

‘新人和跨学科的学者可能会难以在噪音中找到可靠的概述。此外,自动化草稿中引入的错误或偏见可能会不受控制地传播,导致后续研究以有缺陷的前提为基础。 ‘

‘总之,非同行评议的AI生成调查的泛滥危及文献综述的严谨性和科学记录的可信度。 ‘

‘异常’作者

这篇论文的研究人员对调查论文的演变进行了一些有趣的分析:

左:2020年至2024年计算机科学调查论文的年度数量。中:同期调查论文的平均AI生成评分。右:每年被标记为异常的作者数量(具有异常高调查输出、有限的合著者多样性和重复的机构模式)。所有三个趋势都从2023年开始出现急剧上升,与ChatGPT和其他大型语言模型的发布相吻合。

左:2020年至2024年计算机科学调查论文的年度数量。中:同期调查论文的平均AI生成评分。右:每年被标记为异常的作者数量(具有异常高调查输出、有限的合著者多样性和重复的机构模式)。所有三个趋势都从2023年开始出现急剧上升,与ChatGPT和其他大型语言模型的发布相吻合。

在第一列,我们看到增长趋势:曲线在2022年开始陡峭,当ChatGPT出现,大型语言模型开始流行,之后的模型,如ClaudePaLMGemini,将这一势头在2023年全年保持下去。

中间的图表显示了提交量在2022年之后的陡峭上升,与ChatGPT的发布相吻合。一个研究团队发现,到2024年,超过10%的科学摘要已经通过LLM处理过。来自AI检测公司的另一份报告将ChatGPT后的增长率定为72%,适用于可能使用AI帮助撰写的arXiv论文。具有高AI生成评分的论文数量也在一年内翻倍,从3.6%增加到6.2%。

右边的图表显示了“异常”作者模式的数量(研究人员在一个月内提交三个或更多调查,而与少于两个合著者合作)的稳步上升,2022年开始更为陡峭。

作者们断言,许多这些调查论文可能是由AI撰写的,出于多种原因;有些是由独自作者或小组撰写的,他们在短时间内提交多个调查;许多涵盖无关主题;在某些情况下,作者以前在他们总结的领域中没有任何记录。

此外,一些调查论文以匿名集体的名义发表,没有明确的机构隶属关系——这些模式表明该领域正在被快速调查淹没,可能是为了获得引用或提高学术简历,而不是真正为文献做出贡献。

问题

虽然我们无法涵盖这篇新论文的所有争论,但我们应该研究一下作者的最显著观察,以及他们对这些问题的建议:

质量和原创性

问题不仅仅在于数量:许多AI撰写的调查论文缺乏使调查论文有用的东西:清晰的结构、深入的分析、正确的引用和真正的洞察力。相反,这篇论文建议,AI生成的调查论文往往读起来像拼凑在一起的摘要,没有必要的关心或策划。

作者们进一步观察到,AI撰写的调查论文往往缺乏结构,而只是列出论文,没有明确的方向,跳过关键部分,无法创建背景。相比之下,人类撰写的调查论文往往建立适当的类别,并讲述一个更连贯的故事。

此外,许多可能由AI辅助的调查论文似乎只是复制现有的主题分类,有时直接从维基百科复制。例如,这篇论文指出,多个关于视觉变换器的调查论文包含共同的部分标题和结构,揭示了AI驱动的模板输出:

“相比之下,人类撰写的调查论文可能会引入新的分类法,例如根据效率策略对ViT进行分类。许多最近的预印本调查中缺乏这种原始结构,引发了人们的担忧,即它们可能是由AI生成的,人类的洞察力有限。”

别引述我

也许最令人尴尬的是,AI撰写的调查论文往往会引用错误,缺少关键论文,包括不相关的论文,有时甚至列出不存在的论文——这些错误表明引用来源于表面模式匹配,而不是真正的专业知识。

作者们还指出,一些最近的调查论文,往往来自完全不同的团队,共享了多达70%的参考文献列表——这种重叠程度如此之高,以至于他们认为这表明了对LLM的共同依赖,LLM从同一个狭窄的来源材料池中获取信息。

确实,ChatGPT的休闲用户会知道,主题越晦涩,模型可用的多样化来源就越少;通常,找到模型在特定领域的有限来源比通过AI交互更有用。

同质化风格的出现

作者们还指出,许多关于同一主题的AI撰写的调查论文看起来和听起来几乎相同,因为LLM重用了措辞和结构,尤其是在热门话题上,导致了一大批几乎相同的论文,这些论文几乎没有增加任何价值,并且为寻求领域答案的研究人员增加了显著的噪音:

“当多个作者要求LLM‘撰写关于X的文献综述’时,模型通常会产生非常相似的响应,尤其是对于常见的定义或众所周知的事实。最近的研究表明,LLM相关的写作模式使用量急剧增加,表明许多论文现在共享相同的风格。”

你的ChatGPT正在显示

这篇论文观察到,快速识别AI撰写的调查论文的一种方法是通过短语的存在,例如“作为AI语言模型”或“我的知识截止点”,这表明在提交论文之前,语言模型的输出没有经过多少策划(尽管在撰写本文时,针对这些线索的有针对性的搜索并没有在谷歌搜索中显示出任何结果)。

这篇论文指出,许多“可疑”的调查论文显示出较低的词汇多样性和重复的措辞,例如,以“此外”开头的多个段落。这种模式,作者们认为,是GPT风格写作的典型特征,可能是检测自动生成文本的有用标志。

(我对此的个人评论是,网络新闻的严格要求通常需要一位作家以非样式化的形式列出许多项目。因此,ChatGPT及其同类产品可能从面临有限的词汇替代方案的人类作家那里学到了这个坏习惯。另外,作者的推测表明他们正在涉足AI内容检测的原则,这是一个复杂且不断发展的领域,具有很少的持久性常数,正如作者所建议的那样)

虽然研究人员继续对AI调查对研究文化和信任的负面影响进行了迷人的讨论,但我们必须将读者转介到原始论文,以便更深入地了解这一点。

解决方案?

这篇论文的解决方案很有趣,很激进,但同时也很不原创:调查论文的用处应该被一种“动态直播调查”所取代——可以看作是维基百科和GitHub页面的混合体,不断被LLM和其他AI系统提供新的数据,但提交只由人类完成,这样AI就无法“自动发布”更新。

所提出的系统将共享GitHub的版本控制和分支,基本上将信息资源转变为一个不断更新的列表,类似于GitHub上的“awesome”系列的精选列表:

“在这个框架下,社区成员首先通过指定范围、关键研究问题和基本参考文献来建立一个调查主题的维基,从而设定一个明确的主题边界和初始结构。 ‘

“然后,一个基于LLM的摄取代理不断监控预印本存档、会议论文和基准排行榜。它自动提取摘要、图表和关键性能指标;总结新结果的简明摘要;更新引用图以反映论文之间的关系;并标记新兴研究趋势以供进一步审查。 ‘

“设计使得这些自动更新在出版后几小时内发生,确保存储库保持在最前沿。”

“人类贡献者随后提供了机器无法提供的解释深度。他们完善了不断演变的分类法,以捕捉微妙的方法论差异,协调了不同子领域中算法创新之间的相互冲突的解释,并提供了更深入的批判性比较,以丰富文档。”

变革之书

作者们对这一提议进行了长篇大论,并从以下事实中找到了正当理由:关于AI的高强度调查论文会过时得如此之快,以至于它们几乎不值得写;这篇论文指出,调查论文的三个月周期意味着它们可能在计划发表时已经过时(甚至严重过时):

“年复一年,社区被重复或肤浅的概述淹没,这些概述很快就会失去相关性,让从业者和新人难以区分信号和噪音。传统的出版周期(即草稿、提交、审查和出版)可能需要几个月的时间,在此期间,关键突破可能已经改变了格局。 ‘

“此外,静态调查的日益增加为读者增加了认知负担,因为他们必须浏览众多重叠的文件以找到有意义的见解。”

不幸的是,这篇论文的解决方案与Discord共享了很多最糟糕和最令人鄙视的特质:它将是一个不断变化和变化的资源。

由于动态直播调查的任何部分都可能随时消失或被修改,因此它将无法用作可引用的稳定来源;除非通过链接到“以前的提交”,就像archive.is和Wayback Machine等存档网站提供的对网页内容在特定时间的快照一样。但是,这样的提交需要什么样的资源,它又能否被依靠长期保持活跃状态呢?

此外,具有不断变化的定义和内容的平台/维基将很难被传统搜索引擎或LLM索引。

所提出的系统中最弱的部分是,提出让真正的人来监督LLM代理的提交;正如往常一样,真正的人是昂贵的。所提议的东西介于博物馆和图书馆之间——两者都需要与所涵盖的数据量和主题数量成比例的肉类供应。

如果“使用真正的人”是AI开发问题的唯一答案,那么问题仍然是开放的和未解决的。

结论

目前,AI调查论文的短暂寿命令人恼火;如果新论文中预见的高规模自动化写作和提交趋势继续下去,信号与噪音的比例将变得慢性,并且文献将变得难以控制。

在这种情况下,对于非FAANG的次要声音来说,想要在提交的风暴中被听到将会更加困难,市场领先者可能会获得更大的关注。

除了直播调查外,这篇新论文还提议作者不仅应该声明在提交的任何部分中是否使用了AI,还应该在论文中明确标记AI辅助部分(也许可以附上一个JSON文件…?)。

由于这是一个艰巨的任务,这篇论文反过来建议了一种“AI隔离区”——提交中为AI贡献专门设立的独立部分。

简而言之,这项新工作在我看来没有提供任何现实的答案,但作者们已经通过阐述前方的挑战为我们做出了有益的贡献。

 

这篇论文《停止用AI生成的调查论文对研究社区进行DDoS攻击》可以在https://arxiv.org/abs/2510.09686找到,由上海交通大学各个部门的六位作者撰写。

___________________________________

* 并非所有人都同意这一观点

作者的强调,不是我。另外,我在适用情况下将作者的内联引用转换为超链接。

首次发表于2025年10月17日星期五

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai