Anderson 视角

‘调查论文DDoS攻击’正在压倒科学研究

Published October 17, 2025

Updated April 25, 2026

Martin Anderson

An Oxbridge professor, a white middle-aged man, is shocked to see the entrance to his office clogged with an avalanche of books. ChatGPT-40; Firefly V3.

诸如ChatGPT的生成式AI模型现在正在以学术出版平台从未见过的规模向学术出版平台提交AI生成的调查论文，造成了信号与噪音的比例变得至关重要。新的研究声称，这一洪水般的论文正在压倒研究人员，扭曲引用，并侵蚀科学记录的可信度，将AI辅助论文的泛滥比作对科学本身的“DDoS攻击”。

(部分)观点 上周，我在追踪与AI相关的科学文献流七年来，第一次不得不承认失败，并承认至少在高峰时期，我必须在跟上新出版物的同时，选择是否有时间来撰写一些文章。

仅在几个相关类别（计算机视觉、机器学习、语言模型和其他几个订阅较少的部分）中，总提交量超过了一千条——仅仅是一天的提交量。

在这样的体量下，即使只是浏览所有新标题，偶尔浏览一些摘要，也会让人感到这一天毫无成效。

这是10月7日星期二。相比之下，在机器学习类别中，过去的星期二（10月14日）提供的出版物量略低于前一周星期二的400多条提交；它只有354条提交：

机器学习类别一天内有354篇提交。 来源：https://arxiv.org/

您必须每天阅读Arxiv，多年来，才能意识到这些数字有多么疯狂。

可以肯定，星期二是Arxiv的“高峰期”，可能是因为这是最早的工作日，不会受到长周末的影响，而研究人员希望接触到有影响力的人；机器学习类别是一个“集锦”部分，具有比其他类别更低的唯一论文数量（不在其他更专业的渠道同时发表的论文）。

尽管如此，论文提交量的增加已经成为学术界和媒体上一个值得注意的现象。

也许这种激增最令人震惊的方面是，所有其他相邻类别在过去三年中，其频率基本上没有改变，而计算机科学类别（请在Arxiv的官方数据中寻找它）却呈现出严重的上升趋势：

计算机科学（CS）论文过去三年来的提交量。 来源：https://info.arxiv.org/about/reports/submission_category_by_year.html

就在三年多前，Arxiv的AI论文提交量估计每几年就会翻倍；到2025年底，阅读Arxiv自己的年度趋势报告将会很有趣。

音量已满

这两种情况最明显的原因是a）对生成式AI的前所未有的财务承诺正在吸引大量的研究投资，私营和学术部门经常合作；以及b）AI语言模型系统，如ChatGPT，现在使提交研究论文（包括关于AI的论文）成为几乎工业化的过程。

然而，研究提交的质量并没有与数量同步增长（尽管AI的易错输出往往在法律领域比学术领域制造更多的头条新闻，不仅因为后者的影响更为明显）。

零容忍政策很难实施，即使识别AI生成的内容更容易；除了AI本身对科学研究总体有益的事实外，其在研究论文提交中的使用通常改善了许多非英语提交者的工作清晰度——那些个人和团队，直到现在处于劣势。

但以这种方式降低语言障碍的问题是，它也提高了全球提交者的数量，而没有提高赋予这些工作价值的人类监督水平。

如果提交量继续指数级增长，信号与噪音的比例将变得难以控制，只有AI本身才能可能导航新的AI论文洪流和支流；这是一项AI不比人类更适合的任务。讽刺的是，科学研究是一项人类的努力。

对研究的攻击

这篇文章的起因是一项来自中国的有趣的新合作，题为停止用AI生成的调查论文对研究社区进行DDoS攻击。

这篇新论文专门关注调查提交——对特定研究领域的全面总结，它们传统上既列出了又对趋势进行了解释，并做出了有根据的预测：

机器学习和AI相关部分在arxiv.org上可用的庞大而不断增长的调查论文集合的一小部分

由于调查论文是整理而不是原创的，因此它们很容易用AI自动化；这篇论文的作者将AI生成的调查论文在研究领域的泛滥描述为安全威胁：

‘最近，由大型语言模型（LLM）支持的AI生成调查论文的激增，将这种传统上劳动密集型的类型转变为低劳动密集度、高产出的产物。虽然这种自动化降低了进入壁垒，但也引入了一个关键威胁：我们所说的“调查论文DDoS攻击”对研究社区的威胁。 ‘

‘这指的是肤浅地全面但往往冗余、低质量或甚至虚构的调查稿的无限制泛滥，这些稿件淹没了预印本平台，压倒了研究人员，并侵蚀了科学记录的可信度。 ‘

‘我们认为，我们必须停止向研究社区上传大量AI生成的调查论文（即调查论文DDoS攻击），通过制定AI辅助审稿写作的强有力规范。’

作者断言，这种调查生产的无限制加速威胁着用缺乏批判性深度的精致报告淹没研究生态系统，这些报告可能会传播事实错误和/或虚构的引用。

这篇论文警告说，如果没有更好的规则或监督，AI生成的调查可能会变成肤浅的现有工作的复制品，歪曲哪些主题很重要，隐藏有意义的分析，并使文献综述变得不那么可靠：

‘对研究质量和信任的影响是深远的。首先，真正的进步可能会被算法生成的现有工作的重复所掩盖。 ‘

‘新人和跨学科学者可能会难以在噪音中找到可靠的概述。此外，自动化草稿中引入的错误或偏见可能会不受控制地传播，导致后续研究以有缺陷的前提为基础。 ‘

‘总之，非同行评议的AI生成调查论文的泛滥危及文献综述的严谨性和科学记录的可信度。’

‘异常’作者

这篇论文的作者对调查论文提交的演变进行了一些有趣的分析：

左：2020年至2024年计算机科学调查论文的年度数量。中：同期调查论文的平均AI生成评分。右：每年被标记为异常的作者数量（那些具有异常高调查输出、有限的合著者多样性和反复出现的机构模式的作者）。所有三个趋势都从2023年开始出现急剧上升，恰逢ChatGPT和其他大型语言模型的发布。

在第一列，我们看到增长趋势：曲线在2022年开始陡峭，当时ChatGPT出现，且大型语言模型开始流行，后续模型如Claude、PaLM和Gemini将在2023年全年保持这一势头。

中间的图表显示了2022年后提交量的急剧增加，与ChatGPT的发布相吻合。一个研究团队发现，到2024年，超过10%的科学摘要已经通过LLM处理。一个单独的报告来自一个AI检测公司，估计ChatGPT发布后的论文在arXiv上可能使用AI辅助写作的数量增加了72%。具有高AI生成评分的论文数量也在一年内从3.6%增加到6.2%。

右边的图表显示了“异常”作者模式的稳步上升（研究人员在一个月内提交三个或更多调查论文，同时与少于两位合著者合作），从2022年开始出现更陡峭的上升。

作者断言，许多这些调查论文可能是由AI草拟的，出于多种原因；有些是由单个作者或小组在短时间内提交多个调查论文的；许多涵盖无关主题；在某些情况下，作者以前在他们总结的领域没有任何记录。

此外，一些调查论文是在匿名集体下发表的，没有明确的机构关联——这些模式表明该领域正在被快速调查论文淹没，可能是为了获得引用或提高学术简历，而不是真正为文献做出贡献。

问题

虽然我们无法涵盖这篇新论文的所有争论，但我们应该看一下其中一些最值得注意的观察结果，并对作者提出的解决这些问题的建议进行批判性审视。

质量和原创性

问题不仅仅是数量：许多AI撰写的调查论文缺乏使调查论文有用的东西：清晰的结构、深入的分析、正确的和勤勉的引用以及真正的洞察力。相反，这篇论文建议，AI生成的/辅助调查论文往往读起来像拼凑在一起的摘要，没有必要的关心或策划。

作者进一步观察到，AI撰写的调查论文往往缺乏结构，而只是列出论文而没有明确的方向，跳过关键部分，并未能创造背景。相比之下，人类撰写的调查论文往往会建立适当的类别，并讲述一个更连贯的故事。

此外，许多可能由AI辅助的调查论文似乎只是复制现有的主题分类，有时直接来自维基百科。例如，这篇论文指出，关于Vision Transformers的多个调查论文包含共同的部分标题和结构，揭示了模板驱动的AI输出：

‘相比之下，一个精心撰写的人类调查论文可能会引入一种新的分类法，例如，根据效率策略对ViT进行分类。许多最近的调查论文中缺乏这种原始结构，引发了人们的担忧，即它们可能是由AI生成的，人类的洞察力有限。’

别引我

也许最令人尴尬的是，AI撰写的调查论文往往会引用不正确，缺少关键论文，包括不相关的论文，有时甚至列出不存在的论文——这些错误表明引用来源于表面层面的模式匹配，而不是真正的专业知识。

作者还指出，最近的一些调查论文，通常来自完全不同的团队，共享了多达70%的参考文献列表——这种重叠程度如此之高，以至于他们认为这表明了对LLM的共同依赖，LLM从相同的狭窄来源池中获取信息。

事实上，ChatGPT的休闲用户会知道，话题越晦涩，模型有可用的来源就越少；通常，在网上找到模型自己的有限来源比尝试通过AI与该信息交互更有用，尤其是在AI在特定领域没有足够的数据的情况下。

出现’同质化’风格

作者还指出，许多同一主题的AI撰写的调查论文看起来和听起来几乎相同，因为LLM重用了措辞和结构，尤其是对于流行主题，导致了一大批几乎相同的论文，这些论文几乎没有增加任何价值，也为研究人员寻找答案增加了显著的噪音：

‘当多个作者要求LLM“撰写关于X的文献综述”时，模型通常会产生非常相似的响应，尤其是对于常见的定义或众所周知的事实。最近的研究已经显示出与LLM相关的某些写作模式的使用量急剧增加，表明许多论文现在共享相同的风格。’

你的ChatGPT正在显示

这篇论文观察到，快速识别AI撰写的调查论文的一种方法是通过诸如“作为AI语言模型”或“我的知识截止日期”等短语的存在，表明在提交论文之前，语言模型的输出没有经过任何策划或编辑（尽管在撰写本文时，目标搜索没有在Google Search中找到任何这样的线索）。

这篇论文指出，许多“可疑”的调查论文显示出较低的词汇多样性和重复的措辞，例如，以“此外”开头的多个段落。作者认为，这种模式是GPT风格写作的典型特征，可能是检测自动生成文本的有用标志。

(我个人对此的评论是，在线新闻的严格要求往往需要作者以非格式化的形式列出许多项目。因此，ChatGPT及其同类产品可能从面临有限词汇替代方案的人类作家那里学到了这种坏习惯。另外，作者的推测表明他们正在涉足AI内容检测的领域，这是一个复杂且不断发展的领域，具有很少的持久常数，正如作者所建议的那样)

虽然研究人员继续对AI调查对研究文化和信任的负面影响进行了迷人的讨论，但我们必须将读者转介到原始论文以获取更深入的内容。

解决方案？

这篇论文的解决方案很吸引人，很有趣，但同时也很不新颖：调查论文的用处应该被动态实时调查所取代——可以看作是维基百科和GitHub页面的混合体，不断从LLM和其他AI系统中获取新数据，但提交只由人类进行，因此AI无法“自动发布”更新。

提议的系统将共享GitHub的版本控制和分支，基本上将信息资源转变为一个不断更新的列表，类似于GitHub上的“awesome”列表：

‘在这个框架下，社区成员首先通过指定范围、关键研究问题和基本参考文献来建立调查主题Wiki，从而设置明确的主题边界和初始结构。 ‘

‘之后，基于LLM的摄取代理不断监测预印本存档、会议论文集和基准排行榜。它自动提取摘要、图表和关键性能指标；合成新结果的简明摘要；更新引用图以反映论文之间的关系；并标记需要进一步审查的新兴研究趋势。 ‘

‘按照设计，这些自动更新发生在出版后几小时内，确保存储库保持在最前沿。 ‘

‘然后，人类贡献者介入提供机器无法提供的解释深度。他们完善不断演变的分类法，以捕捉微妙的方法论差异，协调不同子领域中算法创新之间的冲突解释，并提供更深入的批判性比较。 ‘

变化之书

作者对这一提议进行了热情洋溢的阐述，基本上是通过以下内容来证明其合理性：高质量的人类撰写的调查论文关于AI等易变主题会过得如此之快，以至于它们几乎不值得写；这篇论文指出，一篇新调查论文的三个月周期可能意味着它将在计划发布日期到来时已经过时（或甚至严重过时）：

‘年复一年，社区被重复或肤浅的概述淹没，这些概述很快就会过时，让从业者和新人都难以区分信号和噪音。传统的出版周期（即草稿、提交、审查和出版）可能需要几个月的时间，到那时，关键的突破可能已经改变了格局。 ‘

‘此外，静态调查的日益增加的数量为读者带来了认知超载，因为他们必须浏览许多重叠的文件以找到实质性的见解。 ‘

不幸的是，这篇论文的解决方案与Discord共享了许多最糟糕和最被诋毁的特质：最特别的是，它将是一个不断变化和变化的资源。

由于动态实时调查的任何部分都可能在任何时候消失或被修改，因此将其用作可引用的稳定来源将是不可能的；除非，例如，通过链接到“以前的提交”，就像archive.is和Wayback Machine等存档网站提供的对网页内容在特定时间的快照一样。但是，这样的提交需要什么样的资源，它们能否被依赖在时间上保持活跃？

此外，具有不断变化的定义和内容的平台/维基将很难被传统搜索引擎或LLM索引。

也许提议系统中最薄弱的部分是，真正的人应该监督来自LLM代理的提交；正如往常一样，真正的人很昂贵。正在提议的是介于博物馆和图书馆之间的东西——两者都需要与数据量和涵盖的主题数量成比例的肉类资源供应。

如果“使用真正的人”是AI开发问题的唯一答案，那么问题仍然是开放的且未解决。