神经渲染：NeRF 走进新鲜空气

发布于 2021年11月25日

更新于 2026年5月24日

作者

Martin Anderson

谷歌研究院和哈佛大学之间的合作开发了一种新的方法，使用神经辐射场（NeRF）创建 360 度神经视频的完整场景。这种新方法使 NeRF 更接近于在任何环境中进行抽象使用，而不仅仅局限于桌面模型或封闭的室内场景。

查看文章末尾的完整视频。 来源：https://www.youtube.com/watch?v=YStDS2-Ln1s

Mip-NeRF 360 可以处理扩展的背景和“无限”的物体，例如天空，因为它与以前的大多数版本不同，限制了光线的解释方式，并创建了注意力边界，从而合理化了训练时间。查看文章末尾的新视频以获取更多示例和对该过程的深入见解。

新的论文《Mip-NeRF 360：无边界抗锯齿神经辐射场》由谷歌研究院高级研究科学家 Jon Barron 领导。

为了理解这一突破，需要对基于神经辐射场的图像合成功能有基本的了解。

描述 NeRF 网络时，很难将其称为“视频”，因为它更像是一个完全 3D 实现的基于 AI 的虚拟环境，其中使用单个照片（包括视频帧）从多个视点创建一个场景，该场景仅存在于机器学习算法的潜在空间中，但可以从中提取出大量的视点和视频。

NeRF 从多个相机捕获点组装神经场景的图解（右图）。

从贡献照片中提取的信息被训练到一个类似于传统体素网格的矩阵中，在 CGI 工作流中，每个 3D 空间点都有一个值，使场景可导航。

传统体素矩阵将像素信息（通常存在于 2D 上下文中，例如 JPEG 文件的像素网格）放入三维空间中。 来源：ResearchGate

计算照片之间的间隔空间（如果必要），然后对每个贡献照片的每个可能像素进行“光线追踪”，并分配一个颜色值，包括一个透明度值（没有它，神经矩阵将完全不透明或完全空）。

与体素网格和基于 CGI 的 3D 坐标空间不同，NeRF 矩阵中“封闭”对象的“内部”不存在。你可以打开一个 CGI 鼓组并查看内部，但就 NeRF 而言，鼓组的存在在其表面的不透明度值等于“1”时结束。

Mip-NeRF 360 是对 2021 年 3 月研究的扩展，该研究有效地将高效的抗锯齿引入 NeRF，而无需进行详尽的超采样。

传统的 NeRF 只计算一个像素路径，这容易产生早期互联网图像格式和早期游戏系统中出现的“锯齿”现象。这些锯齿边缘通过各种方法解决，通常涉及采样相邻像素并找到平均表示。

Mip-NeRF 引入了一个“圆锥形”的接收区域，类似于宽束光束，提供足够的相邻像素信息以产生经济的抗锯齿和改进的细节。

Mip-NeRF 使用的圆锥形接收区域被切割成圆锥截头体（下图），然后进一步“模糊”以表示模糊的高斯空间，可以用来计算像素的准确性和锯齿。 来源：https://www.youtube.com/watch?v=EpH175PY1A0

标准 NeRF 实现的改进很显著：

Mip-NeRF（右），于 2021 年 3 月发布，通过更全面但经济的抗锯齿管道提供更好的细节，而不是仅仅“模糊”像素以避免锯齿边缘。 来源：https://jonbarron.info/mipnerf/

2021 年 3 月的论文留下了三个未解决的问题，关于在可能包括非常遥远的物体（包括天空）的无边界环境中使用 Mip-NeRF。新的论文通过将 Kalman 风格的变形应用于 Mip-NeRF 高斯分布来解决这个问题。

其次，大型场景需要更多的处理能力和更长的训练时间，Mip-NeRF 360 通过使用小型“提议”多层感知器（MLP）来解决这个问题，该多层感知器预先确定了标准 NeRF 多层感知器预测的几何形状，从而将训练时间缩短了三倍。

最后，大型场景往往使解释的几何形状的离散化变得模糊，从而导致游戏玩家可能熟悉的游戏输出“撕裂”现象。新的论文通过为 Mip-NeRF 射线间隔创建一个新的正则化器来解决这个问题。

右图显示 Mip-NeRF 中不想要的伪影，由于难以确定如此大的场景。左图显示新的正则化器已经足够优化了场景以去除这些干扰。

要了解更多关于新论文的信息，请查看文章末尾的视频，并查看 2021 年 3 月 Mip-NeRF 介绍视频。您还可以通过查看我们迄今为止的报道来了解更多关于 NeRF 研究的信息。

最初发布于 2021 年 11 月 25 日
2021 年 12 月 21 日，12:25 下午 – 替换了死链接。- MA

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI