Anderson 视角

2025 年计算机视觉文献趋势的个人看法

Published December 22, 2025

Updated April 25, 2026

Martin Anderson

AI-generated image, by gpt-image-1 via ChatGPT-5.2, featuring a stylized isometric illustration of white-coated scientists in a computer laboratory.

伦理披露和高斯斑点正在衰落，而提交的论文数量代表着人工智能在 2026 年需要解决的新问题。

观点我已经跟踪计算机视觉和图像合成研究大约七年，跨越各个渠道 – 足够长的时间来区分反复出现的模式和趋势的转变。但这些观察是传闻性的。我真诚地希望我有时间利用机器学习分析来利用 arXiv 发布流中代表的庞大数据集的隐藏见解。就目前而言，我只能更随意地报告什么引起了我的注意自从我最后考虑这个问题以来。

音量达到 11

2024 年我观察到的许多人工智能研究论文提交趋势已经在 2025 年确立为固定趋势；其中最重要的是人工智能相关论文数量的不可逆转和持续上升，这本身是由人工智能推动的，以至于达到被认为是危机的地步：

Monthly computer science Arxiv submissions, October 2023-November 2025, with 3-month rolling average overlaid. Source

这种增长率被描述为人工智能论文提交量的指数级倍增，几年前，并且它只会随着最近的人工智能投资热潮的出现而更加深入，这提高了赌注和人工智能相关研究的可用资金。

2025 年的完整统计数据尚不可用，且上述聚合统计数据代表所有类别的总体数字增加：

2022-2025 rise in CS submissions. Source

筛选糠秕

10 月，秋季会议季的开始，通常带来一波新研究，但这次带来了 DOS 攻击级别的提交量，给予了以前欠缺关注的研究趋势分析研究线索更多的动力和紧迫性；换句话说，越来越多的论文和仓库正在出现，它们本身试图穿透研究场景日益恶化的信噪比。

最新的例子是 NoveltyRank，一篇论文和 GitHub 仓库，它微调了 LLMs，例如 Qwen3-4B-Instruct-2507 和 SciBERT，以便它们可以对提交的论文进行二元分类（预测“新颖性”），或进行成对新颖性比较（比较当前提交的“新颖性”）：

NoveltyRank 系统将提交的标题和摘要与类似的过去论文进行比较，使用 LLM 总结差异，然后将其传递给微调的 Qwen3-4B 模型以决定工作是否被认为是“概念上新的”。 Source

这种“筛选”方法的问题是定义有意义变量的挑战。NoveltyRank 方法使用论文被会议接受作为新颖性的指标，并使用 Arxiv 发布作为负面新颖性的背景指标。

这假设了两个错误的前提：首先，所有被会议接受的提交都是新颖的或有意义的，这显然不是这种情况；其次，新颖性本身具有无限的价值。任何人如果曾经浪费了半小时阅读一些提交的论文 – 也许 – 仅仅是为了维持“发表或灭亡”的配额，就会知道新颖性往往是微不足道的，而渐进式工作往往很重要。

理解新论文的价值涉及一个领域，人工智能目前非常弱 – 长期背景。由于它们经常被以不诚实的方式撰写，似乎开创性的论文可以很容易地被揭示为对现有工作的微小改进；然而，自动化系统将不得不对这些情况发展出“直觉”，而不产生多个假阳性，并且不依赖于提交作者的诚实。

伦理暴跌

正如我之前观察到的，Arxiv 等门户网站对自由式抓取非常抵制，且它们提供的数据转储通常缺乏详细信息。

因此，即使我有资源和时间下载和提取计算机科学论文的代表性样本的特征，许多更微妙的趋势将不会被针对或分析。

其中之一是提交论文中 伦理声明附录 的存在或缺失；长期以来，这一直是生物科学领域的强制性要求，尤其是那些涉及动物实验的领域，2024 年见证了计算机科学类别中提交论文末尾的伦理特征趋势的顶峰。

根据我的传闻经验，我可以说这种做法在 2025 年整个过程中已经大幅下降。我的猜测是，当前美国政府对人工智能发展的热情放松管制努力已经给美国和国外的研究界带来了更大的许可和隐含的法律保护。

尽管美国政府支持反深度伪造法规，但当前的美国政府已经有效地恢复了 2021-23 年时代的“狂野西部”态度 – 尽管纯科学研究的背景已经演变成前所未有的投资水平。

生成视频论文作为“人工智能糟粕”

随着 Hunyuan 视频和 WAN 生成视频系列的推出，人工智能视频在 2025 年已经完全转变。过去的障碍，例如生成完整的人体像或获得人物侧面视图，似乎在一夜之间被扫除。

来自中国的这种类型的权重包含的发布，可能已经为 2025 年的生成视频发布设定了标准，并且是对西方人工智能视频架构更为审查、商业化和规定的趋势的反制压力。

由于市场中缺乏护城河，这个场景已经导致成百上千的公司试图通过提供用户友好的门户来利用新兴的推理市场而获利，参与者包括 civit.ai 和 RunPod，他们从可以在家庭电脑上运行的程序和技术中获利。

一般来说，这些计划都是短期的现金抢夺，预计最终会被市场整合所取代（尽管，它们的创始人可能不会反对偶然发现主导市场份额，如果那样的话）。

这种平庸和复制的现象也影响了 Arxiv 的 2025 年提交的生成视频线。正如我上周观察到的，该类别的信噪比已经达到麻木的峰值，因为研究人员公开竞争这年的突破所释放的巨大潜在资金。

话虽如此，这种类型的大多数提交都是微不足道的渐进式进步。生成人工智能中仍然存在的核心问题今年并没有出现太多：保持身份的需要，LoRA 风格，在整个角色描绘中；更长的运行时间的输出视频的需要，总体的一致性（即，环境和主题等，不仅仅是 ID）；以及改进的音频生成和操作，等等。

网格热潮消退

我上年观察到，场景中出现了推广使用传统 CGI（即网格表示）或将其纳入神经框架的系统的论文增加。2025 年下半年，我观察到对基于网格的解决方案的动力显著减弱。

许多早期论文中包含的 CGI 集成解决方案，特别是那些处理参数化的人类“控制”人物（例如 3D 可变形模型），可能已经被 Veo、Kling、Hunyuan 等新型扩散基生成框架的能力所取代。

与此同时，涉及高斯斑点方法的论文似乎也受到发展停滞或被 2025 年的扩散基生成人工智能系统所掩盖的影响。

一年前，我注意到高斯斑点的最初兴奋（在 2023 年末引起了显著的印象）已经减退为更窄的研究线。今年，我看到了一系列旨在解决这种方法的重大资源需求等问题的论文。

尽管我会将高斯斑点描述为“目前停滞”，我们应该记住，这项技术可以追溯到 20 世纪 90 年代，并且具有复兴的性质。

网格方法的衰退的一个例外是，将人工智能集成到针对 3D 打印的框架中的兴趣似乎增加了。

人工智能安全提交的减少

2025 年，我最后的观察是，Arxiv 的计算机科学部分的“安全”提交类别已经显示出提交频率和质量的显著下降，并且很难猜测为什么会这样。

密码学和安全存档可以说一直是提交论文的二流平台，因为这方面的研究不可避免地被私营部门的专有知识产权所主导 – 大部分内容不会出现在学术期刊上，几乎没有内容会出现在 Arxiv 等免费平台上。

此外，Arxiv 上此类别的提交中“陷阱”（低调的承认，通常埋藏在意想不到的地方，否定或削弱论文的明显价值和新颖性）的数量高于平均水平。一个例子是显然令人惊叹的安全侵犯方法，实际上依赖于某些“白盒”方面 – 即，数据或程序的特权访问，攻击者不太可能获得。

2026 年的预期

尽管媒体正在不断地讨论人工智能热潮与早期互联网热潮的相似之处（尽管有一些异议），但这似乎代表了一种错误的安全感。在基础设施、投资、文化和研究方面，这可能是人类历史上前所未有的时期。

因此，很难预测研究场景将在 2026 年如何发展，除了通常会有一些长期努力在此期间和 2025 年的痴迷和趋势的特定“印记”下结出果实。

一种可能有助于缓解 Arxiv 和其他门户网站提交量危机的发展是对人工智能生成/辅助论文的禁令或检查 – 就像 Arxiv 最近针对审查论文所做的规定；然而，任何一篇论文中人工智能的参与程度可能很难量化，因为人工智能已经渗透到研究文化（以及同行评审）中，就像水中的一滴墨水一样影响整个现有的水，而不是根本改变媒介。

首次发布于 2025 年 12 月 22 日星期一

Related Topics:AI and deep research Automated Research