对2025年计算机视觉文献趋势的个人见解
伦理声明和高斯泼溅技术式微,而提交论文的庞大体量本身成为AI在2026年需要应对的新问题。 观点 我关注arXiv及相关平台的计算机视觉与图像合成研究大约已有七年,跨越多个渠道——时间足够长,足以辨别反复出现的模式和趋势转变。但这些观察是轶事性质的。老实说,我希望能有时间,仅利用Arxiv出版物这一不断增长的海量数据语料库,通过机器学习分析来挖掘其中蕴含的深刻洞见。就目前而言,我只能更随意地汇报一下自我上次考虑此事以来引起我注意的情况。体量爆表我在2024年观察到的许多AI研究论文提交趋势,在2025年已固化为常态;其中最重要的莫过于AI相关论文数量的持续无情增长,而这增长本身也由AI驱动,以至于达到了一种公认的危机程度:这种增长速度在几年前就被描述为AI论文提交量的指数级翻倍,而随着近期AI投资狂热的到来抬高了赌注以及可用于AI相关研究的资金量,这一趋势只是变得更加根深蒂固。2025年的完整统计数据尚未公布,上面显示的汇总统计数据代表了所有类别普遍增长的数字。下面我们可以看到,计算机科学继续主导着这一趋势,显著高于其他稳定类别:去芜存菁在十月,秋季会议季的开始通常带来大量新研究,但今年却带来了拒绝服务攻击级别的提交量,这为迄今为止关注度不足的研究方向——研究趋势分析——增添了额外的动力和紧迫性;换句话说,旨在应对研究领域日益恶化的信噪比的论文和代码库正越来越多地出现。最新的一例就在上周出现,即NoveltyRank,它是一篇论文和一个GitHub代码库,对诸如Qwen3-4B-Instruct-2507和SciBERT等大语言模型进行微调,使其能够对提交的论文进行二元分类(根据先前提交预测“新颖性”),或进行成对新颖性比较(比较当前提交的“新颖性”):此类“筛选”方法的问题在于定义有意义的变量的挑战。NoveltyRank方法使用论文被会议接受作为新颖性的指标,并且——或许相当轻蔑地——使用Arxiv发表作为负面新颖性的背景指标。这预设了两个错误的前提:首先,所有被会议接受的提交都具有新颖性或重要性,这显然并非事实;其次,新颖性本身具有无条件的价值。任何曾浪费半小时阅读某些或许仅为维持“不发表就出局”配额而提交的似是而非、甚至荒谬论文的人都会知道,新颖性常常是微不足道的,而渐进性的工作往往意义重大。理解一篇新论文的价值涉及AI目前非常薄弱的一个领域——长期上下文。由于论文写作常常不够坦诚,那些看似突破性的论文往往最终被揭示为对现有工作的微小改进;然而,自动化系统必须对此类情况发展出一种“直觉”,既不能标记过多的误报,也不能依赖提交作者的诚实。伦理声明骤减正如我之前观察到的,像Arxiv这样的门户网站对自由放任的抓取相当抵制,它们提供的数据转储通常缺乏细节粒度。因此,即使我有资源和时间从具有足够代表性的计算机科学论文样本中下载并提取特征,许多更微妙的趋势可能也未被瞄准或分析。其中之一是伦理声明附录的存在与否;这曾是涉及动物实验的生物科学必须包含的内容,而在2024年,在计算机科学类别提交论文的末尾对拟议工作进行伦理描述的趋势达到了顶峰。根据轶事观察,我认为这一做法在2025年全年已急剧减少。我猜测,当前美国政府针对AI发展的狂热放松管制努力,给了美国国内外的研究界某种更大的自由度,以及免受法律追究的隐性保护感。尽管现任美国政府支持反深度伪造监管,但它实际上已恢复了2021-23年时代特征的许多“狂野西部”立场——即使定义那个时代的纯粹科学研究背景,如今也已演变为狂热甚至历史级别的投资水平。生成式视频论文沦为“AI糟粕”随着去年冬天Hunyuan Video和WAN生成式视频系列的推出,AI视频在2025年已彻底改变。诸如制作完整身体化身的困难,或获得令人信服的人物侧面视图等旧障碍,似乎在一夜之间被扫除。中国此类包含权重的慷慨发布,可以说为今年的生成式视频发布定下了节奏,并且至少对西方AI视频架构倾向于受到更严格审查、预先商业化和规定化的趋势形成了一种制衡压力。在这个由CCCP引领的、颇具讽刺意味的民主化场景中,护城河的缺失导致成百上千家公司试图通过提供用户友好的门户网站来开拓新兴的推理市场,参与者多种多样,从civit.ai到RunPod,都在从那些在许多情况下可以在家用计算机上运行的程序和技术中获利。总的来说,这些举措是短期的现金掠夺,预期最终会被市场整合所取代(不过,毫无疑问,如果发生这种情况,它们的创始人也不会反对意外获得主导市场份额)。同样的平庸和复制现象也冲击了2025年Arxiv提交中的生成式视频领域。正如我上周观察到的,该类别的信噪比已达到令人麻木的峰值,因为研究人员公开争夺今年突破无疑释放出的海量潜在资金。话虽如此,此类提交的绝大多数充其量只是渐进式的改进。生成式AI中剩余的核心问题今年并未大量浮现:需要在整个角色描绘过程中保持身份,LoRA风格;需要更长的输出视频运行时间,并保持整体一致性(即环境和主题等,不仅仅是身份);以及需要在生成式视频和视频编辑架构中改进音频生成和操作;等等。网格热消退我去年观察到,该领域推广利用传统CGI(即可以追溯到1970年代的基于网格的表示)或将其融入神经框架的系统的论文显著增加。我观察到,在2025年,特别是下半年,基于网格解决方案的动力已显著减弱。早期那波论文中许多融合CGI的解决方案,尤其是那些处理参数化人类“控制”模型(如3D可变形模型)的,可能已被基于扩散的生成框架(如Veo、Kling、Hunyuan和WAN等)的新能力所取代。与此同时,涉及高斯泼溅方法的论文显然也受到了发展停滞的影响,或者被2025年基于扩散的生成式AI系统所掩盖;或两者兼而有之。一年前我注意到,GSplat在2023年末引起显著关注的初期兴奋,已消退为更狭窄的研究路线。今年,我看到一系列论文旨在解决该方法显著的资源需求等问题。尽管我会将高斯泼溅描述为“目前停滞”,但我们应该记住,这项技术可以追溯到1990年代初,并且本质上是周期性复兴的。从基于网格方法普遍退潮中的一个例外是,将AI融入面向3D打印的框架的兴趣明显增加。AI安全类提交减少我对2025年的最后观察是,Arxiv计算机科学部分的“安全”提交类别在2025年表现出频率和质量的显著下降,其原因不易猜测。密码学与安全档案库可以说一直是发布论文的二流场所,因为这一研究方向不出所料地由私营部门的专有知识产权主导——其中很少出现在学术期刊上,几乎不会出现在Arxiv这样的免费平台上。此外,Arxiv上此类别的提交具有高于平均水平的“陷阱”——即轻描淡写的承认,常常埋在意想不到的地方,从而否定或削弱了论文的明显价值和新颖性。一个例子是,一种看似耸人听闻的安全入侵方法,实际上依赖于某些“白盒”方面——即对数据或程序的某种特权访问,这是攻击者不太可能获得的。2026年展望尽管媒体不断 渲染生成式AI热潮是21世纪初互联网泡沫破灭的重演(也有一些不同意见),但这实际上似乎代表了一种虚假的安全感。在基础设施、投资、文化和研究方面,人类历史上可以说从未有过这样的时期。因此,很难看出2026年研究领域将走向何方,除了——像往常一样——一些长期努力将在现在到四月之间达到高潮,并带有2025年某些痴迷和趋势的特定“印记”。可能有助于缓解Arxiv和其他门户网站提交量危机的一个进展是,对AI生成/辅助论文的禁令或检查,正如Arxiv最近对综述论文实施的那样——然而,量化AI在任何一篇论文中的参与程度可能很困难,因为AI已经渗透到研究文化(以及同行评审)中,就像它侵入其他领域一样——如同一滴“墨水”影响了整杯(现有的)水,而非从根本上改变了介质。 首次发布于2025年12月22日,星期一