人工智能

2024 年计算机视觉文献趋势的个人看法

发布时间 2024 年 12 月 24 日

马丁安德森

ChatGPT 图像：“这是一幅全景正交视图图像，显示一群身穿白大褂的 SIM 风格科学家在计算机研究实验室工作。鸟瞰图、正交投影、风格化、卡通风格。”

大约五年来，我一直在 Arxiv 和其他地方持续关注计算机视觉 (CV) 和图像合成研究领域，因此趋势会随着时间的推移而变得明显，并且每年都会朝着新的方向转变。

因此，随着 2024 年即将结束，我认为有必要看看计算机视觉和模式识别领域 Arxiv 投稿中的一些新特征或不断发展的特征部分. 这些观察虽然是经过数百小时的现场研究得出的，但完全只是轶事。

东亚持续崛起

到2023年底，我注意到“语音合成”类别的大多数文献都来自中国和东亚其他地区。到2024年底，我不得不（根据轶事）观察到，这种情况现在也适用于图像和视频合成研究领域。

这并不意味着中国和邻近国家一定总是输出最好的作品（事实上，也有一些证据相反）；也没有考虑到在中国（与西方一样）一些最有趣和最强大的新兴系统很可能是专有的，并且被排除在研究文献之外。

但这确实表明，在这方面，东亚在数量上超过了西方。这是否值得，取决于你对这种模式可行性的信任程度。爱迪生式的坚持，通常被证明是无效的面对棘手的障碍.

这里有许多这样的障碍在生成式人工智能中，很难知道哪些问题可以通过解决现有架构来解决，哪些问题需要从零开始重新考虑。

尽管东亚的研究人员似乎发表了更多的计算机视觉论文，但我注意到“弗兰肯斯坦”式项目的频率有所增加 - 这些项目融合了先前的作品，同时增加了有限的架构新颖性（或者可能只是不同类型的数据）。

今年，东亚（主要是中国或与中国合作的）的参赛作品数量大幅增加，似乎是受配额驱动而非择优录取，这大大提高了已经超额报名的领域的信噪比。

与此同时，2024年，更多东亚报纸也引起了我的关注和钦佩。所以，如果这完全是一场数字游戏，那么它不算失败，但也不便宜。

提交量不断增加

2024 年，所有来源国的论文数量均明显增加。

最受欢迎的出版日期全年都在变化；目前是星期二，在“高峰”时期（300 月至 350 月和 XNUMX 月至 XNUMX 月，即会议季和“年度配额截止日期”季节），计算机视觉和模式识别部分的单日投稿数量通常约为 XNUMX-XNUMX 份。

除了我自己的经验之外，Arxiv 本身也报告了 2024 年 XNUMX 月提交数量创历史新高，共有 6000 篇新提交，其中计算机视觉部分是继机器学习之后提交数量第二多的部分。

然而，由于 Arxiv 上的机器学习部分经常被用作“附加”或聚合的超类别，因此计算机视觉和模式识别实际上是提交次数最多的 Arxiv 类别。

Arxiv 的自己的统计数据毫无疑问，计算机科学在投稿中占据领先地位：

过去五年，计算机科学 (CS) 在 Arxiv 的投稿统计中占据主导地位。来源：https://info.arxiv.org/about/reports/submission_category_by_year.html

过去五年来，计算机科学（CS）在 Arxiv 的提交统计中占据主导地位。 来源：https://info.arxiv.org/about/reports/submission_category_by_year.html

斯坦福大学的 2024年AI指数虽然目前还不能报告最新的统计数据，但也强调了近年来围绕机器学习的学术论文提交数量的显著增加：

尽管没有 2024 年的数据，但斯坦福的报告仍然显示出机器学习论文提交量的大幅增长。来源：https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024_Chapter1.pdf

尽管没有 2024 年的数据，但斯坦福大学的报告仍然显著显示了机器学习论文提交量的上升。 来源：https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024_Chapter1.pdf

扩散>网状框架激增

我发现的另一个明显趋势是，有关杠杆的论文数量大幅增加潜在扩散模型（LDM）作为发电机基于网格的“传统” CGI 模型。

此类项目包括腾讯的 InstantMesh3D, 3D乌托邦, 扩散², V3D, MV編輯和 GIMD扩散，还有大量类似的产品。

通过 3Dtopia 中基于扩散的过程生成和细化网格。 来源：https://arxiv.org/pdf/2403.02234

这一新兴研究方向可被视为对生成系统（如扩散模型）持续难以解决的问题的一种默认，仅在两年前，扩散模型就被吹捧为扩散>网格模型目前正在寻求填充的所有系统的潜在替代品；将扩散降为三十多年前技术和工作流程中的一种工具。

Stability.ai，开源的发起者稳定扩散模型，刚刚发布稳定零123，其中可以使用神经辐射场（NeRF）对 AI 生成的图像的解释作为桥梁，创建一个明确的、基于网格的 CGI 模型，该模型可用于 Unity 等 CGI 领域、视频游戏、增强现实和其他需要明确 3D 坐标的平台，而不是隐式（隐藏）坐标连续功能.

点击播放。 在 Stable Diffusion 中生成的图像可以转换为合理的 CGI 网格。这里我们可以看到使用 Stable Zero 123 的图像>CGI 工作流程的结果。 来源：https://www.youtube.com/watch?v=RxsssDD48Xc

3D 语义

生成式人工智能空间将视觉和生成系统的 2D 和 3D 系统实现区分开来。例如，面部标志框架虽然代表在所有情况下，3D 物体（面）并不一定都能够计算可寻址的 3D 坐标。

流行 FANAlign 系统在 2017 年的 deepfake 架构（以及其他架构）中被广泛使用，可以适应以下两种方法：

上图仅基于识别出的面部轮廓和特征生成 2D 标志。下图则将其合理化为 3D X/Y/Z 空间。来源：https://github.com/1adrianb/face-alignment

上图中，2D 标志仅根据识别出的面部轮廓和特征生成。下图中，它们被合理化为 3D X/Y/Z 空间。 来源：https://github.com/1adrianb/face-alignment

因此，正如“Deepfake”已经成为一种含糊不清且被劫持的术语同样，“3D”也成为了计算机视觉研究中一个令人困惑的术语。

对于消费者来说，它通常表示支持立体视觉的媒体（例如，观看者必须佩戴特殊眼镜的电影）；对于视觉效果从业者和建模者来说，它提供了 2D 艺术品（例如，概念草图）和可以在 Maya 或 Cinema3D 等“4D 程序”中操作的基于网格的模型之间的区别。

但在计算机视觉中，它仅仅意味着直角坐标系存在于某处潜在空间模型 – 不会它必然可以被用户处理或直接操纵；至少，在没有第三方解释性 CGI 系统的情况下，例如 3数字万用表 or 火焰.

因此， 扩散>3D 是不准确的；不仅可以任何图像类型（包括真实照片）可用作输入来生成生成 CGI 模型，但不太明确的术语“网格”更为合适。

然而，为了增加模糊性，扩散 is 在大多数新兴项目中，需要将源照片解释为网格。因此更好的描述可能是 图像到网格，而 图像>扩散>网格 是一个更加准确的描述。

但在董事会会议上，或在旨在吸引投资者的宣传稿中，这很难说服投资者。

建筑僵局的证据

即使与 2023 年相比，过去 12 个月的论文也显示出人们越来越迫切地希望消除严格的实际限制基于扩散的生成。

关键的障碍仍然是生成叙事和时间一致的视频，并保持人物和物体的一致外观——不仅在不同的视频片段中，而且甚至在单个生成的视频片段的短暂运行时间内。

扩散合成的最后一个划时代创新是 LoRA的出现在 2022 年。虽然 Flux 等新系统已经改进了一些异常问题，例如 Stable Diffusion 以前无法在生成的图像中重现文本内容，并且整体图像质量有所提高，但我在 2024 年研究的大多数论文基本上只是在盘子上移动食物。

这些僵局以前也发生过，比如生成对抗网络 (GAN) 和神经辐射场 (NeRF)，它们都未能发挥其明显的初始潜力——而且它们都在更传统的系统中得到越来越多的利用（例如 Stable Zero 123 中使用 NeRF，见上文）。这似乎也发生在扩散模型中。

高斯溅射研究枢纽

似乎在 2023 年底，光栅化方法 3D 高斯泼溅 3 世纪 1990 年代初，XNUMXDGS 作为一项医学成像技术首次亮相，并有望突然取代基于自动编码器人体图像合成挑战系统（例如面部模拟和再现，以及身份转换）。

2023 年 ASH 论文承诺全身 3DGS 人体，而高斯化身提供了大量改进的细节（与自动编码器和其他竞争方法相比），以及令人印象深刻的交叉重演。

然而，今年 3DGS 人体合成方面的突破性进展相对较少；大多数解决该问题的论文要么是上述工作的衍生，要么未能超越其能力。

相反，3DGS 的重点一直在于提高其基本架构的可行性，从而导致了大量提供改进的 3DGS 外部环境的论文的出现。特别关注已支付给同步定位和地图绘制（SLAM）3DGS 方法，在以下项目中高斯溅射 SLAM, 啪啪, 高斯SLAM, DROID-Splat，等等。

那些尝试继续或扩展基于 Splat 的人体合成的项目包括米格斯, 创业板, EVA, 奥克福斯, FAG头, 人类飞溅, GG头, 人类基因组测序和 Topo4D。尽管还有其他报道，但这些报道都没有达到 2023 年底出现的论文的最初影响。

测试样本的“韦恩斯坦时代”正在（缓慢）衰落

东南亚（尤其是中国）的研究通常包含一些难以在评论文章中重新发表的测试示例，因为它们包含一些有点“刺激”的材料。

这是否是因为该地区的研究科学家希望他们的研究成果能引起人们的关注，这一点尚有争议；但在过去 18 个月中，越来越多关于生成式人工智能（图像和/或视频）的论文默认在项目示例中使用年轻且衣着暴露的女性和女孩。这种边缘 NSFW 示例包括 UniAnimate, 控制下一步甚至非常“枯燥”的论文，例如通过 Fréchet 视频运动距离评估运动一致性（FVMD）。

这符合围绕潜在扩散模型 (LDM) 的 subreddits 和其他社区的总体趋势，其中规则 34 仍然非常明显。

名人对决

这种不恰当的例子与人们日益增长的认识相吻合，即人工智能流程不应任意利用名人相似性——特别是在那些不加批判地使用例子的研究中特色有吸引力的名人，通常是女性，并将她们置于可疑的环境中。

一个例子是任何着装，除了以非常年轻的动漫风格女性角色为特色外，还大量使用了玛丽莲·梦露等经典名人的身份，以及安妮·海瑟薇等当代名人的身份（她谴责了这种使用方式相当直言不讳).

随意使用当代和“经典”名人在东南亚报纸中仍然相当普遍，尽管这种做法略有减少。 来源：https://crayon-shinchan.github.io/AnyDressing/

In 西论文中，这种做法在 2024 年明显下降，主要是 FAANG 和其他高级研究机构（如 OpenAI）发布的大量论文。这些大型企业参与者意识到未来可能出现的诉讼，他们似乎越来越不愿意代表虚构照片般逼真的人。

尽管他们正在创建的系统（例如图像以及 Veo2) 显然能够实现这样的输出，西方生成式人工智能项目的例子现在趋向于“可爱”、迪士尼化和极其“安全”的图像和视频。

尽管 Google Research 吹嘘 Imagen 能够创造“照片级”输出，但其推广的样本通常都是奇幻的“家庭”作品——他们小心地避免使用照片级的人物，或者只提供极少的示例。来源：https://imagen.research.google/

尽管 Google Research 夸耀 Imagen 能够创造出“照片般逼真”的输出，但它推广的样本通常都是幻想性的“家庭”作品——他们小心地避免使用照片般逼真的人物，或者只提供极少的例子。来源：https://imagen.research.google/

洗脸

在西方简历文献中，这种不诚实的做法尤其明显定制系统——能够在多个示例中创建特定人的一致相似性的方法（例如，LoRA 和较早的梦想展位).

例子包括：正交视觉嵌入, LoRA-Composer，谷歌指导展台，还有许多其他的。

尽管历史表明用户对创建照片般逼真的人物比创建毛茸茸的角色更感兴趣，但谷歌的 InstructBooth 将可爱度提升到了 11 级。来源：https://sites.google.com/view/instructbooth

尽管历史表明用户对创建照片般逼真的人物比对创建毛茸茸或蓬松的角色更感兴趣，但谷歌的 InstructBooth 将可爱度提升到了 11。 来源：https://sites.google.com/view/instructbooth

然而，“可爱例子”的兴起也出现在其他 CV 和综合研究领域，例如 Comp4D, V3D, 设计编辑, 统一编辑, 脸链（这让用户对其的期望更加现实 GitHub页面）， DPG-T2I，等等。

此类系统（如 LoRA) 可以由家庭用户使用相对适中的硬件创建，这导致了可免费下载的名人模型的激增在 civit.ai 域名和社区。这种非法使用仍然可以通过开源架构实现，例如稳定扩散以及助焊剂.

虽然通常可以突破生成文本到图像 (T2I) 和文本到视频 (T2V) 系统的安全特性来生成平台使用条款禁止的材料，但最佳系统（例如 RunwayML 和 Sora）的受限功能与仅仅是高性能系统的无限功能（例如稳定的视频扩散, 齿轮视频以及本地部署浑源但许多人认为，这一进程并未真正结束。

相反，这些专有系统和开源系统都面临着变得同样无用的威胁：昂贵且超大规模的 T2V 系统可能由于担心诉讼而变得过于受限，而随着更严格的法规出台，开源系统缺乏许可基础设施和数据集监督可能会将它们完全排除在市场之外。

首次发布于 24 年 2024 月 XNUMX 日星期二

相关话题：人工智能研究人工智能研究 2024 计算机视觉