人工智能

通过神经 Lumigraph 渲染实现实时人工智能人类

更新 on 2022 年 12 月 9 日

马丁安德森

尽管当前人们对神经辐射场产生了浓厚的兴趣（神经RF）是一种能够创建 AI 生成的 3D 环境和对象的技术，这种新的图像合成技术方法仍然需要大量的训练时间，并且缺乏支持实时、高响应接口的实现。

然而，工业界和学术界一些令人印象深刻的名字之间的合作为这一挑战提供了新的视角（通常称为新颖视图合成，或 NVS）。

这个调查纸，有权 神经 Lumigraph 渲染，声称比最先进的技术提高了大约两个数量级，代表着通过机器学习管道实现实时 CG 渲染的几个步骤。

神经 Lumigraph 渲染（右）提供了更好的混合伪像分辨率，并比以前的方法改进了遮挡处理。来源：https://www.youtube.com/watch?v=maVF-7x9644

神经 Lumigraph 渲染（右）提供了更好的混合伪像分辨率，并比以前的方法改进了遮挡处理。 来源：https://www.youtube.com/watch?v=maVF-7×9644

尽管该论文的署名仅引用了斯坦福大学和全息显示技术公司 Raxium（目前在隐身模式），贡献者包括主要的机器学习建筑师在谷歌，一台电脑科学家在 Adobe 和首席技术官 at 故事档案（这使得新闻头条最近与威廉沙特纳的人工智能版本）。

关于最近沙特纳的宣传闪电战，StoryFile 似乎在其新流程中采用 NLR，根据个人的特征和叙述来创建交互式、人工智能生成的实体。

威廉·沙特纳通过人工智能保住自己的生命

William Shatner to preserve his life through AI

Watch this video on YouTube

StoryFile 设想在博物馆展示、在线互动叙事、全息显示、增强现实 (AR) 和遗产文献记录中使用这项技术，并且似乎还关注 NLR 在招聘面试和虚拟约会应用程序中的潜在新应用：

StoryFile 在线视频的建议用途。 来源：https://www.youtube.com/watch?v=2K9J6q5DqRc

用于新颖视图合成界面和视频的体积捕获

体积捕捉的原理，跨越关于该主题的一系列论文，是拍摄某个主题的静态图像或视频，并使用机器学习“填充”原始内容中未涵盖的观点的想法相机阵列。

资料来源：https://research.fb.com/wp-content/uploads/2019/06/Neural-Volumes-Learning-Dynamic-Renderable-Volumes-from-Images.pdf

在上图中，取自 Facebook 的 AI 2019 人工智能研究（见下文），我们看到体积捕捉的四个阶段：多个摄像机获取图像/镜头；编码器/解码器架构（或其他架构）计算并连接视图的相对性；射线行进算法计算体素体积空间中每个点（或其他XYZ空间几何单位）；（在最近的论文中）训练是为了合成一个可以实时操作的完整实体。

迄今为止，正是这种广泛且数据密集的训练阶段使新颖的视图合成脱离了实时或高响应捕获的领域。

事实上，Novel View Synthesis 制作了体积空间的完整 3D 地图，这意味着将这些点拼接到传统的计算机生成的网格中相对简单，从而有效地捕捉和阐明 CGI 人类（或任何其他相对有界的对象）。苍蝇。

使用 NeRF 的方法依靠点云和深度图来生成捕获设备的稀疏视点之间的插值：

NeRF可以通过计算深度图来生成体积深度，而不是生成CG网格。 来源：https://www.youtube.com/watch?v=JuH79E8rdKc

虽然 NeRF 是能力在计算网格时，大多数实现不使用它来生成体积场景。

相比之下，隐式可微渲染器（IDR）方法，出版由魏茨曼科学研究所于 2020 年 3 月发布，其关键在于利用从捕获阵列自动生成的 XNUMXD 网格信息：

IDR 捕获的示例变成了交互式 CGI 网格。 来源：https://www.youtube.com/watch?v=C55y7RhJ1fE

虽然 NeRF 缺乏 IDR 的形状估计能力，但 IDR 无法与 NeRF 的图像质量相匹配，并且两者都需要大量资源来训练和整理（尽管 NeRF 最近的创新是开始至解决这个问题).

NLR 的定制摄像机装备配备 16 台 GoPro HERO7 和 6 台中央 Back-Bone H7PRO 摄像机。对于“实时”渲染，它们的运行速度至少为 60 fps。 资料来源：https://arxiv.org/pdf/2103.11571.pdf

相反，神经 Lumigraph 渲染利用 SIREN （正弦表示网络）将每种方法的优点纳入其自己的框架中，旨在生成可直接在现有实时图形管道中使用的输出。

SIRN 已被用于类似的实现过去一年，现在代表流行的API调用面向图像合成社区中的业余爱好者 Colab；然而，NLR 的创新是将 SIREN 应用于二维多视图图像监督，由于 SIREN 产生过度拟合而不是广义输出的程度，这是有问题的。

从阵列图像中提取 CG 网格后，通过 OpenGL 对网格进行光栅化，并将网格的顶点位置映射到适当的像素，然后计算各种贡献贴图的混合。

生成的网格比 NeRF 的网格更通用、更有代表性（见下图），需要的计算更少，并且不会对无法从中受益的区域（例如光滑的面部皮肤）应用过多的细节：

资料来源：https://arxiv.org/pdf/2103.11571.pdf

不利的一面是，NLR 尚不具备任何动态照明或重新照明，并且输出仅限于阴影贴图和捕获时获得的其他照明考虑因素。研究人员打算在未来的工作中解决这个问题。

此外，该论文承认 NLR 生成的形状不如某些替代方法准确，例如 非结构化多视图立体的逐像素视图选择，或者是前面提到的魏茨曼研究所的研究。

体积图像合成的兴起

使用神经网络从有限的一系列照片创建 3D 实体的想法早于 NeRF 出现，有远见的论文可以追溯到 2007 年或更早。 2019 年，Facebook 的人工智能研究部门发表了一篇开创性的研究论文， 神经体积：从图像中学习动态可渲染体积，它首先为基于机器学习的体积捕获生成的合成人类启用了响应式界面。