人工智能

神经渲染：输入量能降低到多低？

发布时间 2021 年 5 月 13 日

更新 2022 年 12 月 9 日

马丁安德森

昨天，神经图像合成方面的一些非凡的新工作引起了互联网的关注和想象力，英特尔研究人员透露了一项研究成果。新方法用于增强合成图像的真实感。

该系统，如在视频来自英特尔的，直接干预 Grand Theft Auto V 视频游戏的图像管道，并通过在卷积神经网络 (CNN) 上训练的图像合成算法，使用来自真实世界的图像来自动增强图像。马普利亚数据集，并替换 GTA 游戏引擎不太现实的光照和纹理。

Reddit 和 Hacker News 等社区中的评论者们反应各异，他们不仅认为这种类型的神经渲染可以有效取代传统游戏引擎和 VFX 级 CGI 不太逼真的输出，而且这一过程可以通过比英特尔 GTA5 演示中演示的更基本的输入来实现——有效地创建具有高度逼真输出的“木偶”代理输入。

配对数据集

过去三年来，新一代 GAN 和编码器/解码器系统已经体现了这一原理，例如 NVIDIA 的 GauGAN，它可以通过粗糙的涂抹生成逼真的风景图像。

该原则有效地颠覆了语义分割的传统用法计算机视觉从一种允许机器系统识别和隔离观察到的对象的被动方法转变为一种创造性的输入，其中用户“绘制”一个伪语义分割图，系统生成与它从已经对特定领域（例如风景）进行分类和分割所理解的关系一致的图像。

机器学习框架将语义分割应用于各种外部场景，提供允许开发交互式系统的架构范例，其中用户绘制语义分割块，系统用来自特定领域数据集的适当图像填充该块，例如德国的 Mapillary 街景集，用于英特尔的 GTA5 神经渲染演示。资料来源：http://ais.informatik.uni-freiburg.de/publications/papers/valada17icra.pdf

机器学习框架将语义分割应用于各种外部场景，提供允许开发交互式系统的架构范例，其中用户绘制语义分割块，并且系统使用来自特定领域数据集的相应图像填充该块，例如英特尔 GTA5 神经渲染演示中使用的德国 Mapillary 街景集。资料来源：http://ais.informatik.uni-freiburg.de/publications/papers/valada17icra.pdf

配对数据集图像合成系统通过关联两个数据集上的语义标签来工作：一个丰富而成熟的图像集，可以从真实世界图像生成（就像昨天英特尔演示中用于增强 GTA5 的 Mapillary 集一样），也可以从合成图像（例如 CGI 图像）生成。

图像合成系统的配对数据集示例，旨在从笨拙的草图创建神经渲染的角色。左侧是来自 CGI 数据集的样本。中间，来自“草图”数据集的相应样本。没错，神经渲染已将草图转换回高质量图像。来源：https://www.youtube.com/watch?v=miLIwQ7yPkA

图像合成系统的配对数据集示例，该系统旨在通过粗糙的草图创建神经渲染角色。左侧为 CGI 数据集的样本。中间为“草图”数据集的相应样本。右侧为将草图重新转换为高质量图像的神经渲染器。来源：https://www.youtube.com/watch?v=miLIwQ7yPkA

在创建这种类型的配对数据集转换时，外部环境相对来说没有太大挑战性，因为突起通常非常有限，地形的变化范围有限，无法在数据集中全面捕获，而且我们不必处理创建人造人或解决恐怖谷问题（目前）。

反转分割图

谷歌开发了 GauGAN 模式的动画版本，称为无限自然，能够通过 NVIDIA 的铲填充系统：

来源：https://www.youtube.com/watch?v=oXUf6anNAtc

然而，Infinite Nature 使用单个图像作为起点，并使用 SPADE 仅在连续帧中绘制缺失的部分，而 SPADE 本身直接从分割图创建图像变换。

来源：https://nvlabs.github.io/SPADE/

正是这种能力似乎激起了英特尔图像增强系统的崇拜者——即使是实时（最终），也可以从极其原始的输入中获得非常高质量的逼真图像。

用神经渲染代替纹理和光照

就 GTA5 输入而言，一些人想知道，在未来的神经渲染系统中，游戏引擎输出中计算成本高昂的程序和位图纹理和照明是否真的有必要，或者是否有可能将低分辨率、线框级输入转换为照片级逼真的视频，其性能优于游戏引擎的着色、纹理和照明功能，从而通过“占位符”代理输入创建超逼真的场景。

显而易见，游戏生成的元素（例如反射、纹理和其他类型的环境细节）是英特尔所展示的神经渲染系统的重要信息来源。然而，NVIDIA 的单元（无监督图像到图像转换网络）证明，只有领域才是重要的，甚至像“白天或夜晚”这样广泛的方面本质上也是需要通过风格转换来处理的问题：

就所需输入而言，这可能使游戏引擎只需要生成基本几何和物理模拟，因为神经渲染引擎可以通过从捕获的数据集中合成所需的图像，使用语义图作为解释来覆盖所有其他方面层。

英特尔的系统增强了 GTA5 中完全完成和渲染的帧，添加了分段和评估的深度图——这两个方面可能由精简的游戏引擎直接提供。来源：https://www.youtube.com/watch?v=P1IcaBn3ej0

英特尔的系统增强了 GTA5 中完全完成和渲染的帧，增加了分割和评估深度图 - 这两个方面可能由精简的游戏引擎直接提供。 来源：https://www.youtube.com/watch?v=P1IcaBn3ej0

英特尔的神经渲染方法涉及对《GTA5》缓冲区中完整渲染的帧进行分析，而神经系统则需要额外创建深度图和分割图。由于深度图在传统 3D 管线中隐式可用（并且生成深度图比纹理、光线追踪或全局照明更容易），因此让游戏引擎来处理它们或许能更好地利用资源。

神经渲染引擎的精简输入

因此，英特尔图像增强网络的当前实现可能涉及大量冗余计算周期，因为游戏引擎会生成计算成本高昂的纹理和光照，而神经渲染引擎并不真正需要这些纹理和光照。该系统似乎是以这种方式设计的，并不是因为这一定是最佳方法，而是因为使神经渲染引擎适应现有管道比创建针对神经渲染方法优化的新游戏引擎更容易。

在这种性质的游戏系统中，最经济的资源利用可能是神经渲染系统完全选择 GPU，而由 CPU 处理精简的代理输入。

此外，游戏引擎可以通过关闭其输出中的所有阴影和照明来轻松地生成具有代表性的分割图。此外，它可以提供比通常所需分辨率低得多的视频，因为视频只需要广泛代表内容，高分辨率细节由神经引擎处理，从而进一步释放本地计算资源。

英特尔 ISL 先前在图像分割方面的工作

将分割技术直接转化为照片级逼真的视频远非天方夜谭。2017年，英特尔ISL，也就是昨日风波的缔造者，发布了最初的研究能够直接从语义分割执行城市视频合成。

英特尔 ISL 从 2017 年开始对图像进行分割工作。 来源：https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

实际上，原始的 2017 管道仅进行了扩展以适应 GTA5 的完整渲染输出。

VFX 中的神经渲染

人工分割图的神经渲染似乎也是一种很有前途的视觉特效技术，通过生成从模型或合成 (CGI) 图像中获取的特定领域数据集，可以将非常基本的视频直接转换为完成的视觉效果片段。

假设的神经渲染系统，其中每个目标对象的广泛覆盖被抽象为贡献数据集，并且人工生成的分割图被用作全分辨率真实感输出的基础。 资料来源：https://rossdawson.com/futurist/implications-of-ai/compressive-guide-ai-artificial-intelligence-visual-effects-vfx/

此类系统的开发和采用将使艺术工作的焦点从解释性工作流程转变为代表性工作流程，并将领域驱动的数据收集从视觉艺术中的支持角色提升为核心角色。