人工智能

NeRF 又迈近了一步，可能取代 CGI

Published June 4, 2021

Updated April 5, 2026

Martin Anderson

麻省理工学院和谷歌的研究人员在解决神经辐射场（NeRF）技术中一个基本障碍方面取得了重大进展，这项技术可能最终取代计算机生成图像（CGI）- 将 NeRF 图像分解为其组成的视觉组件，以便可以重新纹理和重新照明。

新的方法，称为 NeRFactor，有效地将捕获的图像分解为每个对象的法线（可以分配纹理）、光可见性、反照率（入射光线反射到表面上的比例）和双向反射分布函数（BRDF）。

通过隔离这些方面，可以不仅为个别对象或对象组切换纹理，还可以添加新颖和独特的光源和阴影实现，忽略多摄像头阵列捕获的任何内容，这些阵列生成输入用于 NeRF 图像。

NeRFactor 下的法线、可见性、反照率和 BRDF 分离 源：https://www.youtube.com/watch?v=UUVSPJlwhPg

该模型支持来自任意用户定义光源的软阴影或硬阴影，并使用重构损失、来自以前 BRDF 计算的数据和基本简单光滑正则化以编程方式分离捕获视频的四个方面。

NeRFactor 的工作流程，提取来自多摄像头阵列的图像的单独可操作方面 源：https://arxiv.org/pdf/2106.01970.pdf

NeRFactor 使用高动态范围（HDR）光探针，这是一种自 1998 年引入以来已在视觉工业和艺术界广泛使用的方法，来评估射线的可能路径，从而实现任意照明。由于这会生成大量可能的参数，因此光探针通过多层感知器（MLP）进行过滤，MLP 将感知到的几何体映射到探针上，而无需尝试计算模型空间的完整照明体积图。

使用 NeRFactor 下的两种神经辐射场模型来展示五种可能的照明模型。点击图像以查看更高分辨率。

值得反思的原因

新的研究也许在分离控制反射的捕获图像层方面最为重要，这仍然是神经辐射场图像的最大挑战之一，因为真正新颖和灵活的 NeRF 系统不仅需要能够替换纹理，还需要有一种方法来反射移动对象（除了固定环境之外），这些对象通常在 CGI 工作流程中被考虑在内。

这个问题最近在英特尔令人印象深刻的新研究中被提及，该研究使用卷积神经网络将视频游戏镜头转换为照片级视频。在此类工作流程中，源材料的许多“烘焙”方面需要变得离散和可交换，这在重新照明（这是 NeRF 中渲染几何体的函数）方面可能比在反射（利用“离屏”几何体，该几何体完全超出了模型的范围）方面更容易解决。

因此，在 NeRF 视频中分离促进反射的层将 NeRF 更接近于解决其“反射挑战”。

https://www.youtube.com/watch?v=UUVSPJlwhPg

使用 HDR 环境已经解决了生成世界环境反射（即天空、景观和其他“固定”环境因素）的问题，但需要新的方法来引入移动和动态反射。

使用 NeRF 的摄影测量

神经辐射场图像使用机器学习分析从多个角度捕获的场景或对象来开发完全体积空间。

各种基于 NeRF 的方案已经在过去一年中使用了多种贡献摄像头设备；一些使用 16 台或更多摄像头，其他一些使用一两台摄像头。在所有情况下，中间视图都被“填充”（即解释），以便可以流畅地导航场景或对象。

结果实体是一个完全体积空间，具有内在的 3D 理解，可以通过多种方式利用，包括从输入图像的 3D 解析总和生成传统的 CG 网格。

NeRF 在“新 CGI”的背景下

神经辐射场图像直接从现实世界的图像中绘制，包括移动图像、对象和场景。相比之下，CGI 方法“研究”和解释世界，需要熟练的工人来构建网格、骨骼和纹理，这些都使用了现实世界的图像（即面部和环境捕获）。这是一个本质上是解释性的和手工艺的方法，既昂贵又耗时。

此外，CGI 一直在重现人类面貌方面遇到困难，面临着“不适感谷”效应，而 NeRF 驱动的方法则不受此限制，因为它只是捕获视频或图像，并对其进行操作。

此外，NeRF 可以根据需要直接从照片生成传统的 CGI 风格网格几何体，并实际上取代计算机生成图像中一直必要的许多手动过程。

NeRF 的挑战

麻省理工学院和谷歌的最新研究是在过去一年中涌现出大量 NeRF 论文的背景下进行的，其中许多论文都为 NeRF 技术提出了解决方案。

四月份，中国研究团队的创新提供了一种方法来离散地分离 NeRF 场景中各个方面的个别时间线，包括人员。

ST-NeRF 允许最终用户复制、粘贴和调整捕获元素的大小，将它们与原始源视频的线性时间轴分离。 源：https://www.youtube.com/watch?v=Wp4HfOwFGP4

这种方法不仅可以从摄像头阵列捕获的任意角度重新想象场景（而不仅仅是典型视频捕获中的单个视图），还可以实现多功能的合成，甚至可以在同一场景中以各自的个别时间帧（或根据需要反向）运行两个来自同一镜头的方面。

同一场景中两个单独的 NeRF 方面以不同的速度运行。源：https://www.youtube.com/watch?v=Wp4HfOwFGP4

ST-NeRF 允许最终用户复制、粘贴和调整捕获元素的大小，将它们与原始源视频的线性时间轴分离。 源：https://www.youtube.com/watch?v=Wp4HfOwFGP4

NeRF 面临的最大挑战之一是降低训练场景所需的巨大资源，这已经在最近的几篇论文中得到了解决。例如，马克斯·普朗克智能系统研究所最近推出了 KiloNeRF，它不仅将渲染时间加快了 1000 倍，还使 NeRF 能够交互式运行。

KiloNeRF 在 GTX 1080ti 上以 50fps 运行交互式环境。 源：https://github.com/creiser/kilonerf

然而，NeRF 速度创新中真正吸引研究人员和公众关注的是由加州大学伯克利分校领导的 PlenOctrees 合作，这提供了神经辐射场的实时渲染：

https://www.youtube.com/watch?v=obrmH1T5mfI

PlenOctrees 交互功能的效果已在基于 Web 的交互式界面中重现。

PlenOctrees 对象在 Firefox 中的实时交互式移动（移动更流畅、更动态，不像这个 GIF）。 源：http://alexyu.net/plenoctrees/demo/

此外，Recursive-NeRF（来自 2021 年 5 月的清华大学研究人员的论文）提供了按需的高质量递归渲染。与其要求用户渲染整个场景（包括可能看不到的部分），Recursive-NeRF 提供了一种类似于 JPEG 压缩的东西，可以按需生成离散的子 NeRF 来处理额外的图像，从而在计算资源方面实现了巨大的节省。

使用 Recursive-NeRF 保留细节，同时丢弃不必要的渲染计算。源：https://arxiv.org/pdf/2105.09103.pdf

使用 Recursive-NeRF 保留细节，同时丢弃不必要的渲染计算。点击图像以查看更高分辨率。 源：https://arxiv.org/pdf/2105.09103.pdf

其他方法包括 FastNeRF，它声称以 200fps 实现高保真度神经渲染。

人们注意到，许多 NeRF 的优化技术都涉及“烘焙”场景，通过提交要渲染的内容并丢弃其他方面，这限制了探索，但大大加快了交互性。

这的缺点是，压力从 GPU 转移到了存储，因为烘焙场景占用了大量的磁盘空间；这在一定程度上可以通过对烘焙数据进行下采样来缓解，但这也涉及到一定的承诺，例如关闭探索或交互的途径。

关于运动捕捉和骨骼绑定，浙江大学和康奈尔大学的新方法于五月份披露，提供了一种使用混合权重场和骨骼结构从输入视频中解释的方法来重新创建可动画化的人类：

可动画化 NeRF 中的导出骨骼结构。 源：https://www.youtube.com/watch?v=eWOSWbmfJo4

NeRF 何时会有它的“侏罗纪公园”时刻？

尽管神经辐射场图像合成的进展迅速，但只有在这一时期，任何“热力学定律”才会为 NeRF 的部署可能性而建立。在 CGI 历史的时间线中，NeRF 目前处于 1973 年左右，就在 CGI 首次用于《西部世界》之后。

这并不意味着 NeRF 必须等待九年才能达到其等效的《愤怒的汗》里程碑，或者等待几十年才能达到与詹姆斯·卡梅隆在 1989 年的《深渊》和 1991 年的《终结者 2》中所取得的 CGI 突破一样的突破——然后，在 1993 年的《侏罗纪公园》中真正革命性的突破。

图像领域自电影诞生以来到 20 世纪 90 年代初期，相机化学视觉效果停滞不前，已经发生了很大变化。个人电脑革命和摩尔定律的加速导致了 CGI 革命，这本可以早在 20 世纪 60 年代就发生。

仍然需要观察是否有任何无法克服的障碍，可能会长期阻碍 NeRF 的进展——或者随着时间的推移，计算机视觉的后续创新可能不会完全超越 NeRF，成为争夺 CGI 王位的关键竞争者，将神经辐射场视为图像合成的“传真机”。

到目前为止，NeRF 尚未在任何学术研究以外的背景下使用；但值得注意的是，谷歌研究等主要玩家以及最著名的计算机视觉研究实验室都在竞争最新的 NeRF 突破。

NeRF 的许多最大障碍已经开始直接解决；如果后续研究提供了解决“反射问题”的解决方案，并且 NeRF 优化研究的许多线索汇聚成对该技术的巨大处理和/或存储需求的决定性解决方案，NeRF 确实有可能在未来五年内成为“新的 CGI”。

Related Topics:image synthesis NeRF research visual AI