ST-NeRF：视频合成的合成和编辑

发布时间 2021 年 5 月 7 日

更新 2022 年 12 月 9 日

马丁安德森

一个中国研究财团已发达技术将编辑和合成功能引入去年最热门的图像合成研究领域之一——神经辐射场（NeRF）。该系统名为 ST-NeRF（时空相干神经辐射场）。

下图中看似物理镜头摇摄的画面，实际上只是用户在 4D 空间中“滚动”视频内容的视角。视角并非锁定在视频中人物的表演上，而是可以从 180 度半径范围内的任何角度观看人物的动作。

ST-NeRF

视频中的每个方面都是一个离散捕获的元素，组合在一起形成一个可以动态探索的有凝聚力的场景。

面可以在场景中自由复制，或调整大小：

ST-NeRF

此外，每个方面的时间行为可以很容易地改变、减慢、向后运行或以多种方式进行操纵，从而为滤波器架构和极高水平的可解释性开辟了道路。

两个独立的 NeRF 面在同一场景中以不同的速度运行。 来源：https://www.youtube.com/watch?v=Wp4HfOwFGP4

无需对表演者或环境进行旋转观察，也无需让表演者在预期场景的背景下盲目地执行他们的动作。相反，镜头是通过 16 个覆盖 180 度的摄像机阵列自然捕捉的：

16 台相机 ST-NeRF

上面描述的三个元素，两个人和环境，是截然不同的，并且仅出于说明目的而概述。每个都可以被换出，并且每个都可以在其各自的捕获时间轴的较早或较晚的点插入到场景中。

ST-NeRF 是神经辐射场研究的一项创新（神经RF），一种机器学习框架，通过广泛的训练将多个视点捕获合成到一个可导航的虚拟空间中（尽管单视点捕获也是 NeRF 研究的一个子领域）。

神经辐射场的工作原理是将多个捕捉视点整理到一个连贯且可导航的 3D 空间中，覆盖范围之间的间隙由神经网络估计和渲染。在使用视频（而不是静止图像）的情况下，所需的渲染资源通常是相当大的。资料来源：https://www.matthewtancik.com/nerf

在过去的九个月里，人们对 NeRF 的兴趣变得越来越浓厚，Reddit 维护的名单衍生或探索性 NeRF 论文目前列出了 XNUMX 个项目。

这只是原始 NeRF 论文的众多分支中的一小部分。资料来源：https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/

该论文是上海科技大学和迪基因数码科技，并已被热情地接受在公开审查中.

ST-NeRF 在机器学习衍生的可导航视频空间领域较以往的方案提供了许多创新。尤其值得一提的是，它仅用 16 个摄像头就实现了高水平的真实感。尽管 Facebook 的达尼射频仅使用比这多两个摄像头，它提供了更受限制的导航弧线。

这是 Facebook 的 DyNeRF 环境的一个示例，其运动范围更加有限，并且每平方英尺需要更多的摄像头来重建场景。 来源：https://neural-3d-video.github.io

除了缺乏编辑和合成单个面的能力之外，DyNeRF 在计算资源方面特别昂贵。相比之下，中国研究人员表示，他们的数据训练成本约为 900 至 3,000 美元，而最先进的视频生成模型 DVDGAN 和 DyNeRF 等强化系统的训练成本为 30,000 美元。

审稿人还指出，ST-NeRF 在将运动学习过程与图像合成过程解耦方面做出了重大创新。这种分离使得编辑和合成成为可能，相比之下，以前的方法具有限制性和线性性。

尽管对于这样一个完整的半圆视图来说，16 个摄像头的阵列非常有限，但研究人员希望通过使用代理预扫描静态背景和更多数据驱动的场景建模方法，在以后的工作中进一步减少这个数字。他们还希望能够整合重新照明功能，最近的创新在 NeRF 研究中。

在学术 CS 论文中，往往会在丢弃的结尾段落中破坏新系统的实际可用性，即使是研究人员承认的 ST-NeRF 的局限性也是不寻常的。

他们观察到，该系统目前无法区分和单独渲染场景中的特定对象，因为镜头中的人物通过旨在识别人类而不是物体的系统被分割成单独的实体——这个问题似乎可以通过 YOLO 和类似的解决方案轻松解决框架，提取人类视频的艰巨工作已经完成。

尽管研究人员指出，目前不可能生成慢动作，但似乎没有什么可以阻止使用帧插值中的现有创新来实现这一点，例如戴恩以及里夫.

与所有 NeRF 实现以及计算机视觉研究的许多其他领域一样，ST-NeRF 在严重遮挡的情况下可能会失败，其中主体被另一个人或物体暂时遮挡，并且可能难以连续跟踪或准确地识别之后重新获得。与其他地方一样，这一困难可能需要等待上游解决方案。与此同时，研究人员承认，在这些被遮挡的帧中，手动干预是必要的。

最后，研究人员观察到，目前的人体分割程序依赖于颜色差异，这可能会导致无意中将两个人整理到一个分割块中——这一障碍不仅限于 ST-NeRF，而且是所使用的库所固有的，并且也许可以通过光流分析和其他新兴技术来解决。

首次发布于 7 年 2021 月 XNUMX 日。

相关话题：中国图像生成机器学习神经RF 视频视频编辑

马丁安德森

机器学习作家，人体图像合成领域专家。曾任 Metaphysic.ai 研究内容主管。
个人网站：马丁南德森.ai
联系我们 [email protected]
推特：@manders_ai

联合人工智能