Anderson 视角

ST-NeRF:用于视频合成的编辑和合成

mm
ST-NeRF

中国的一个研究团队已经开发了一种技术,可以将编辑和合成功能带到图像合成研究领域中最热门的领域之一——神经辐射场(NeRF)。该系统被称为ST-NeRF(时空相干神经辐射场)。

下面这张图像中看起来像是一个物理相机的平移,实际上只是用户在视频内容中“滚动”视点。视频内容存在于4D空间中,视点不受视频中人物的表现限制,可以从180度半径的任何位置查看他们的动作。

ST-NeRF

视频中的每个面都是一个离散捕获的元素,合成成一个连贯的场景,可以动态地探索。

这些面可以自由地在场景中复制或调整大小:

ST-NeRF

此外,每个面的时间行为可以轻松地改变,减慢,倒放或以任何方式操作,从而开启了滤波器架构和极高的可解释性。

两个独立的NeRF面以不同的速度在同一个场景中运行。来源:https://www.youtube.com/watch?v=Wp4HfOwFGP4

两个独立的NeRF面以不同的速度在同一个场景中运行。 来源:https://www.youtube.com/watch?v=Wp4HfOwFGP4

不需要对演员或环境进行rotoscope处理,也不需要让演员在没有场景背景的情况下盲目执行动作。相反,通过16个覆盖180度的视频摄像头自然捕获画面:

16摄像头ST-NeRF

上面显示的三个元素,两个人的环境,都是不同的,并且仅用于说明目的。每个元素都可以被替换,并且可以在其个体捕获时间轴中的任何时候插入到场景中。

上面显示的三个元素,两个人的环境,都是不同的,并且仅用于说明目的。每个元素都可以被替换,并且可以在其个体捕获时间轴中的任何时候插入到场景中。

ST-NeRF是神经辐射场(NeRF)研究的创新,神经辐射场是一种机器学习框架,通过大量训练,将多个视点捕获合成成一个可导航的虚拟空间(尽管单个视点捕获也是NeRF研究的一个子领域)。

神经辐射场通过收集多个视点捕获到一个单一的连贯和可导航的3D空间,中间的空隙由神经网络估计和渲染。使用视频(而不是静态图像)时,所需的渲染资源通常很大。来源:https://www.matthewtancik.com/nerf

神经辐射场通过收集多个视点捕获到一个单一的连贯和可导航的3D空间,中间的空隙由神经网络估计和渲染。使用视频(而不是静态图像)时,所需的渲染资源通常很大。 来源:https://www.matthewtancik.com/nerf

过去九个月中,人们对NeRF的兴趣变得非常强烈,Reddit维护的一个列表中列出了60个NeRF论文的衍生或探索性项目。

 

原始NeRF论文的几个分支。来源:https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/

原始NeRF论文的几个分支。来源:https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/

经济实惠的训练

该论文是上海科技大学和DGene数字技术的研究人员之间的合作,并已被Open Review以热情的态度接受。

ST-NeRF在ML导出的可导航视频空间的前几项研究中提供了多项创新。最重要的是,它只使用16个摄像头就能实现高水平的真实性。虽然Facebook的DyNeRF使用的摄像头比这多两个,但它提供的可导航弧度却更加有限。

Facebook的DyNeRF环境示例,具有更有限的运动范围,需要更多摄像头来重建场景。来源:https://neural-3d-video.github.io

Facebook的DyNeRF环境示例,具有更有限的运动范围,需要更多摄像头来重建场景。 来源:https://neural-3d-video.github.io

除了缺乏编辑和合成个别面的能力,DyNeRF在计算资源方面也非常昂贵。相比之下,中国研究人员表示,他们的数据训练成本约为900美元至3000美元,而最先进的视频生成模型DVDGAN的训练成本为30000美元,DyNeRF等强大的系统也需要大量资源。

评论者还指出,ST-NeRF在解耦运动学习过程和图像合成过程方面取得了重大创新。这一分离使得编辑和合成成为可能,而以前的方法则受到限制且线性。

虽然16个摄像头对于如此全面的半圆视野来说是一个非常有限的阵列,但研究人员希望通过使用预先扫描的静态背景和更数据驱动的场景建模方法来减少摄像头的数量。他们还希望加入重新照明的功能,这是NeRF研究中最近的创新。

解决ST-NeRF的局限性

在学术CS论文中,即使在实际使用性方面,研究人员通常会在最后一段中丢弃新系统的局限性。然而,即使是研究人员承认的ST-NeRF的局限性也是不寻常的。

他们观察到,系统目前无法区分和单独渲染场景中的特定对象,因为视频中的人物是通过一个设计用于识别人类而不是物体的系统分割成个体的——这个问题似乎可以通过YOLO和类似的框架轻松解决,因为提取人类视频的更艰难工作已经完成。

尽管研究人员指出,目前无法生成慢动作,但似乎没有什么可以阻止使用现有的帧插值创新,如DAINRIFE

与所有NeRF实现一样,在计算机视觉研究的许多其他领域,ST-NeRF可能会在严重遮挡的情况下失败,在这种情况下,主题被其他人或物体暂时遮挡,可能很难连续跟踪或之后准确重新获取。与其他情况一样,这个困难可能需要上游解决方案。在此期间,研究人员承认,在这些遮挡帧中需要手动干预。

最后,研究人员观察到,目前的人类分割过程依赖于颜色差异,这可能会导致两个人的意外合并到一个分割块中——这不是ST-NeRF所特有的, 而是所使用的库的固有问题,可能可以通过光流分析和其他新兴技术解决。

最初发布于2021年5月7日。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai