人工智能
神经渲染:NeRF 进入新鲜空气

谷歌研究院和哈佛大学之间的合作开发了一种使用 神经辐射场 (NeRF) 创建 360 度神经视频的完整场景的新方法。这种新方法使 NeRF 更接近于在任何环境中进行抽象使用,而不仅仅局限于 桌面模型 或 封闭的室内场景。

查看文章末尾的完整视频。 来源:https://www.youtube.com/watch?v=YStDS2-Ln1s
Mip-NeRF 360 可以处理扩展的背景和“无限”的物体,如天空,因为它与大多数以前的迭代不同,它设置了光线解释的限制,并创建了合理的注意力边界,从而使训练时间大大减少。请查看文章末尾的新附件视频,以获取更多示例和对该过程的深入了解。
新论文题为 《Mip-NeRF 360:无边界抗锯齿神经辐射场》,由谷歌研究院高级研究科学家 Jon Barron 领导。
为了理解这一突破,需要对基于神经辐射场的图像合成有基本的了解。
什么是 NeRF?
将 NeRF 网络描述为“视频”是有问题的,因为它更接近于一个完全 3D 实现的基于 AI 的虚拟环境,其中使用单个照片(包括视频帧)从多个视点拼接成一个场景,该场景仅存在于机器学习算法的潜在空间中,但可以从中提取出大量的视点和视频。

多个摄像头捕捉点提供的数据是 NeRF 组装成神经场景(右图)所需的数据。
从贡献照片中提取的信息被训练成一个类似于传统 体素网格 的矩阵,在 CGI 工作流中,每个 3D 空间点都有一个值,使场景可导航。

传统的体素矩阵将像素信息(通常存在于 2D 上下文中,例如 JPEG 文件的像素网格)放入三维空间中。 来源:ResearchGate
在计算照片之间的间隔空间(如果必要)后,每个贡献照片的每个可能像素的路径都被有效地“光线追踪”并分配一个颜色值,包括透明度值(没有它,神经矩阵将完全不透明或完全空)。
与体素网格类似,与基于 CGI 的 3D 坐标空间不同,封闭对象的“内部”在 NeRF 矩阵中不存在。你可以打开一个 CGI 鼓套并查看内部,但就 NeRF 而言,鼓套的存在在其表面的不透明度值等于“1”时结束。
像素的更广泛视野
Mip-NeRF 360 是对 2021 年 3 月 研究 的扩展,该研究有效地将高效的抗锯齿引入 NeRF,而无需详尽的超采样。
传统的 NeRF 只计算一个像素路径,这容易产生早期互联网图像格式和 早期游戏系统 中的“锯齿”效果。这些锯齿边缘通过各种方法解决,通常涉及采样相邻像素并找到平均表示。
由于传统的 NeRF 只采样一个像素路径,Mip-NeRF 引入了一个“圆锥形”的接收区域,类似于宽光束手电筒,为相邻像素提供足够的信息以产生经济的抗锯齿和改进的细节。

Mip-NeRF 使用的圆锥形接收区域被切割成圆锥截头体(下图),然后进一步“模糊”以表示模糊的高斯空间,可以用来计算像素的准确性和锯齿。 来源:https://www.youtube.com/watch?v=EpH175PY1A0
与标准 NeRF 实现相比,改进是显著的:

Mip-NeRF(右),于 2021 年 3 月发布,通过更全面的但经济的抗锯齿管道提供改进的细节,而不是仅仅“模糊”像素以避免锯齿边缘。 来源:https://jonbarron.info/mipnerf/
NeRF 无边界
2021 年 3 月的论文留下了三个问题,关于在可能包括非常遥远的物体(包括天空)的无边界环境中使用 Mip-NeRF。新论文通过将 Kalman 风格的变形应用于 Mip-NeRF 高斯函数来解决这个问题。
其次,较大的场景需要更大的处理能力和更长的训练时间,Mip-NeRF 360 通过使用小型“提议” 多层感知器 (MLP) 来“提取”场景几何形状来解决这个问题,该 MLP 预先确定了标准 NeRF MLP 预测的几何形状。这样可以将训练速度提高三倍。
最后,较大的场景往往使解释的几何形状的离散化变得模糊,从而导致游戏玩家可能熟悉的游戏输出“撕裂”现象。新论文通过为 Mip-NeRF 射线间隔创建一个新的正则化器来解决这个问题。

在右边,我们看到由于难以确定如此之大的场景而在 Mip-NeRF 中产生的不需要的伪影。在左边,我们看到新的正则化器已经足够优化了场景以去除这些干扰。
要了解更多关于新论文的信息,请查看下面的视频,以及 2021 年 3 月的 Mip-NeRF 介绍视频。您还可以通过查看 我们迄今为止的报道 来了解更多关于 NeRF 研究的信息。
最初发布于 2021 年 11 月 25 日
2021 年 12 月 21 日,12:25 – 替换了死链接。- MA
