人工智能
NeRF:Facebook 联合研究开发混合静态/动态视频合成

弗吉尼亚理工学院、州立大学和 Facebook 之间的合作解决了 NeRF 视频合成的主要挑战之一:在神经辐射场 (NeRF) 输出中自由混合静态和动态图像和视频。
该系统可以生成具有动态视频元素和静态环境的可导航场景,每个场景都在现场录制,但分为虚拟环境的可控方面:
此外,它从单一视角实现了这一点,而不需要那种可以将此类举措与工作室环境绑定的多摄像机阵列。
这个 纸,有权 动态单目视频的动态视图合成,并不是第一个开发单目 神经RF 工作流程,但似乎是第一个同时从同一输入训练时间变模型和时间静态模型,并生成一个框架,允许运动视频存在于“预映射”的 NeRF 区域内,类似于通常封装高预算科幻片中演员的那种虚拟环境。
超越 D-NeRF
研究人员必须从本质上重新创建 Dynamic NeRF 的多功能性(D-NeRF)只需单一视角,无需像 D-NeRF 那样使用多台摄像机。为了解决这个问题,他们预测了前后场景流,并利用这些信息开发出一个时间上一致的扭曲辐射场。
由于只有一个视角,因此需要使用二维光流分析来获取参考帧中的三维点。然后将计算出的三维点反馈到虚拟相机中,以建立“场景流”,使计算出的光流与估算出的光流相匹配。
在训练时,动态元素和静态元素将作为可单独访问的方面调整为完整模型。
通过在 D-NeRF 中包含深度阶损失的计算、模型以及应用场景流预测的严格正则化,运动模糊的问题得到了极大的缓解。

尽管该研究在规范 NeRF 计算方面有很多贡献,并且极大地提高了单个 POV 输出探索的灵活性和便利性,但至少同样值得注意的是动态和静态 NeRF 元素的新颖分离和重新集成。
依靠单个摄像头,这样的系统无法复制多摄像头阵列 NeRF 设置的全景监狱视图,但它可以去任何地方,而且无需卡车。
NeRF – 静态还是视频?
最近我们看了一些 有声有色 中国开展的一项新的 NeRF 研究能够分离出用 16 台摄像机拍摄的动态 NeRF 场景中的元素。

ST-NeRF(上图)允许观看者重新定位捕捉场景中的单个元素,甚至可以调整它们的大小、更改播放速率、冻结它们或倒放它们。此外,ST-NeRF 还允许用户“滚动”浏览 180 台摄像机捕捉到的 16 度弧线的任何部分。
然而,ST-NeRF 的研究人员 纸 最后承认,在该系统下,时间总是朝着某个方向运行,并且很难改变光照并将效果应用于实际的视频环境,而不是“静态映射”的 NeRF 环境,因为“静态映射”的 NeRF 环境本身不包含移动组件,并且不需要被捕获为视频。
高度可编辑的静态 NeRF 环境
静态神经辐射场场景现在与任何运动视频片段隔离,更容易以多种方式处理和增强,包括重新照明,正如 NeRV(用于重新照明和视图合成的神经反射和可见性场)今年早些时候提出的那样,它提供了改变 NeRF 环境或对象的照明和/或纹理的初始步骤:

使用 NeRV 重新照亮 NeRF 对象。 来源:https://www.youtube.com/watch?v=4XyDdvhhjVo

NeRV 中的重新纹理,甚至包括逼真的镜面效果。 由于图像数组的基础是静态的,因此以这种方式处理和增强 NeRF 方面比涵盖一系列视频帧的效果更容易,从而使初始预处理和最终训练变得更轻松。














