Connect with us

人工智能

NeRFocus:将轻量级焦点控制带到神经辐射场

mm

中国的新研究提供了一种方法,以实现神经辐射场(NeRF)的景深效果的经济控制,允许最终用户进行焦点控制,并动态更改虚拟镜头在渲染空间中的配置。

新研究从中国提出了一种方法,实现了神经辐射场(NeRF)的景深效果的经济控制,允许最终用户进行焦点控制,并动态更改虚拟镜头在渲染空间中的配置。

这项技术被称为NeRFocus,它采用了一种新颖的“薄镜头成像”方法来实现焦点控制,并创新了P-training,一种概率训练策略,消除了对专用景深数据集的需求,并简化了焦点启用的训练工作流程。

这篇论文被称为NeRFocus:用于3D合成失焦的神经辐射场,由来自北京大学深圳研究生院和深圳朋成实验室的四位研究人员撰写,深圳朋成实验室是由广东省政府资助的机构。

解决NeRF中的注视焦点问题

如果NeRF要成为虚拟现实和增强现实的有效驱动技术,它需要一种轻量级的方法来实现真实的注视渲染,即大部分渲染资源集中在用户的注视点周围,而不是在整个可用视觉空间中以较低的分辨率进行渲染。

来自2021年论文《面向实时和自我中心虚拟现实的注视神经辐射场》,我们看到NeRF中的一种新颖的注视渲染方案的注视焦点。来源:https://arxiv.org/pdf/2103.16365.pdf

来自2021年论文《面向实时和自我中心虚拟现实的注视神经辐射场》,我们看到NeRF中的一种新颖的注视渲染方案的注视焦点。来源:https://arxiv.org/pdf/2103.16365.pdf

未来NeRF部署的真实性将取决于系统反映人眼在视角平面上切换焦点的能力(见上图)。

这种焦点梯度也是场景规模的感知指标;从飞行中的直升机上看城市的景象将没有可导航的焦点区域,因为整个场景都在观察者的最外焦点范围之外,而对微型或“近场”场景的检查不仅可以进行“焦点拉伸”,而且出于真实性的考虑,应该默认具有窄的景深。

以下是NeRFocus的初始功能演示视频,由论文的通讯作者提供:

超越受限焦点平面

意识到焦点控制的需求,近年来许多NeRF项目都为其提供了条件,尽管到目前为止所有尝试都是某种变通方法,或者需要显著的后处理例行程序,这使得它们不太可能为最终设想的Neural Radiance Fields技术的实时环境做出贡献。

合成焦点控制在神经渲染框架中已通过各种方法尝试过——例如,使用分割网络来隔离前景和背景数据,然后对背景进行通用失焦——这是常见解决方案,用于简单的两平面焦点效果。

来自论文《自动肖像分割用于图像风格化》的平淡、动画风格的焦点平面分离。来源:https://jiaya.me/papers/portrait_eg16.pdf

来自论文《自动肖像分割用于图像风格化》的平淡、动画风格的焦点平面分离。来源:https://jiaya.me/papers/portrait_eg16.pdf

多平面表示法为这种范式添加了几个虚拟的“动画单元”,例如使用深度估计将场景分成可管理的、不规则的焦点平面梯度,然后编排深度依赖的内核来合成模糊

此外,对于潜在的AR/VR环境来说,双目摄像头设置的两个视点之间的差异可以用作深度代理——这是谷歌研究在2015年提出的方法。

来自谷歌领衔的论文《快速双边空间立体合成失焦》,两个视点之间的差异提供了一个可以促进模糊的深度图。然而,这种方法在上述情景中是不真实的,因为照片显然是用35-50mm(SLR标准)镜头拍摄的,但背景的极端失焦只会在超过200mm的镜头中发生,这种镜头具有高度受限的焦点平面,在正常的、人类大小的环境中会产生窄的景深。来源

来自谷歌领衔的论文《快速双边空间立体合成失焦》,两个视点之间的差异提供了一个可以促进模糊的深度图。然而,这种方法在上述情景中是不真实的,因为照片显然是用35-50mm(SLR标准)镜头拍摄的,但背景的极端失焦只会在超过200mm的镜头中发生,这种镜头具有高度受限的焦点平面,在正常的、人类大小的环境中会产生窄的景深。来源

这种方法往往表现出边缘伪影,因为它们试图将两个不同的、边缘受限的焦点球体表示为连续的焦点梯度。

2021年,RawNeRF计划提供了高动态范围(HDR)功能,具有更好的低光环境控制和显著的焦点控制能力:

RawNeRF美丽地拉伸焦点(如果在这种情况下,由于不真实的焦点平面),但需要高计算成本。来源:https://bmild.github.io/rawnerf/

RawNeRF美丽地拉伸焦点(如果在这种情况下,由于不真实的焦点平面),但需要高计算成本。来源:https://bmild.github.io/rawnerf/

然而,RawNeRF需要对训练的NeRF进行繁重的预计算,导致无法轻松地将其适应于NeRF的更轻量或更低延迟的实现。

模拟虚拟镜头

NeRF本身是基于针孔成像模型的,它以类似于默认CGI场景(在各种方法之前渲染模糊作为后处理或基于景深的效果)的方式渲染整个场景。

NeRFocus创建了一个虚拟的“薄镜头”(而不是“无玻璃”光圈),它计算每个传入像素的光束路径并直接渲染它,有效地颠倒了标准的图像捕获过程,这种过程是在光输入已经受到镜头设计的折射特性的影响之后进行的。

这种模型引入了一系列在视锥体(上图中显示的最大影响圆圈)内渲染内容的可能性。

计算每个多层感知器(MLP)在这些可能性更广泛的范围内的正确颜色和密度是一个额外的任务。这已经通过在大量DLSR图像上应用监督训练来解决,需要创建额外的数据集以进行概率训练工作流程,有效地涉及创建和存储可能需要或不需要的计算资源的劳动密集型准备和存储。

NeRFocus通过P-training来克服这一点,其中训练数据集是基于基本模糊操作生成的。因此,模型是带有模糊操作的,并且可以导航。

在训练期间将光圈直径设置为零,并使用预定义的概率随机选择模糊核。然后使用获得的直径来缩放每个复合圆锥的直径,让MLP能够准确预测视锥体(上图中代表每个像素的最大转换区域的宽圆圈)的辐射度和密度

在训练期间将光圈直径设置为零,并使用预定义的概率随机选择模糊核。然后使用获得的直径来缩放每个复合圆锥的直径,让MLP能够准确预测视锥体(上图中代表每个像素的最大转换区域的宽圆圈)的辐射度和密度

论文作者观察到,NeRFocus可能与RawNeRF的HDR驱动方法兼容,这可能有助于渲染某些具有挑战性的部分,例如失焦的镜面高光,并且还有许多其他在过去30年或更长时间内挑战CGI工作流程的计算密集型效果。

该过程不需要比之前的方法(如核心NeRF和Mip-NeRF)更长的时间和/或参数,并且可以作为神经辐射场的核心方法的通用扩展。

 

首次发布于2022年3月12日。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai