Anderson 视角

神经渲染：输入可以低到什么程度？

发布于 2021年5月13日

更新于 2026年5月25日

作者

Martin Anderson

昨天，英特尔研究人员透露了一种新的方法，用于增强合成图像的真实性，这引起了互联网的关注和想象力。这一系统直接干预了大盗猎车5视频游戏的图像管道，并通过一个使用卷积神经网络（CNN）训练的图像合成算法自动增强图像，使用来自Mapillary数据集的真实世界图像，并用神经渲染替换了GTA游戏引擎的不太真实的照明和纹理。

评论者在Reddit和Hacker News等社区的反应各不相同，认为这种类型的神经渲染不仅可以替代传统游戏引擎和VFX级CGI的不太真实的输出，而且可以用非常基本的输入实现这一过程，有效地创建“木偶”代理输入和非常真实的输出。

英特尔图像增强系统的工作原理是将语义标签关联到两个数据集：一个丰富的图像数据集，或者是从真实世界图像生成的（如Mapillary数据集），或者是从合成图像生成的（如CGI图像）。这种关联使得系统能够从语义标签中生成非常真实的图像。

配对数据集

这种原理已经被新的GAN和编码器/解码器系统所体现，如NVIDIA的GauGAN，它可以从粗糙的涂鸦中生成非常真实的风景图像。

这种原理实际上是将传统的语义分割方法从被动的识别和分离观察对象转变为创造性的输入，其中用户“绘制”一个虚假的语义分割图，并且系统生成与其理解的关系一致的图像，例如风景。

机器学习框架应用语义分割到各种外部场景，提供了交互式系统的架构范式，用户可以绘制语义分割块，系统使用特定领域的数据集填充块，例如德国的Mapillary街景集，用于英特尔的GTA5神经渲染演示。来源：http://ais.informatik.uni-freiburg.de/publications/papers/valada17icra.pdf

配对数据集图像合成系统通过关联两个数据集的语义标签来工作：一个丰富的图像数据集，或者是从真实世界图像生成的（如Mapillary数据集），或者是从合成图像生成的（如CGI图像）。

配对数据集示例，用于创建从粗糙草图到高质量图像的神经渲染字符。左侧，CGI数据集样本。中间，相应的草图数据集样本。右侧，神经渲染将草图转换回高质量图像。来源：https://www.youtube.com/watch?v=miLIwQ7yPkA

反转分割图

谷歌已经开发了GauGAN模式的动画版本，称为Infinite Nature，可以通过将虚假的语义分割图转换为非常真实的图像来生成连续和无尽的虚构景观。

来源：https://www.youtube.com/watch?v=oXUf6anNAtc

然而，Infinite Nature使用单个图像作为起点，并使用SPADE仅填充缺失的部分，而SPADE本身可以直接从分割图创建图像变换。

来源：https://nvlabs.github.io/SPADE/

用神经渲染替换纹理和照明

在GTA5输入的情况下，一些人已经想知道游戏引擎输出的计算密集型程序和位图纹理和照明是否真的必要，还是可以将低分辨率、线框级输入转换为非常真实的视频，从而超越游戏引擎的阴影、纹理和照明能力。

可能看起来很明显，游戏生成的方面，如反射、纹理和其他类型的环境细节，对于英特尔演示的神经渲染系统来说是必不可少的信息来源。然而，NVIDIA的UNIT已经证明，只有域才是重要的，即使像“白天或黑夜”这样的方面也可以通过风格转换来处理。

在所需输入方面，这可能会使游戏引擎只需要生成基本几何和物理模拟，因为神经渲染引擎可以通过从捕获的数据集中合成所需的图像来覆盖所有其他方面，使用语义图作为解释层。

英特尔的系统增强了GTA5的一个完全渲染帧，添加了分割和评估深度图——两个方面可以直接由简化的游戏引擎提供。 来源：https://www.youtube.com/watch?v=P1IcaBn3ej0

神经渲染引擎的简化输入

英特尔图像增强网络的当前实现可能涉及大量冗余的计算周期，因为游戏引擎生成计算密集型的纹理和照明，而神经渲染引擎并不真正需要它们。该系统似乎是以这种方式设计的，不是因为这是一个最佳方法，而是因为将神经渲染引擎适应现有的管道比创建一个针对神经渲染方法优化的新游戏引擎更容易。

在这样的游戏系统中，资源的最经济使用可能是神经渲染系统完全占用GPU，而简化的代理输入由CPU处理。

此外，游戏引擎可以轻松地生成代表性的分割图，只需关闭其输出的所有阴影和照明。另外，它可以以远低于正常要求的分辨率提供视频，因为视频只需要大致代表内容，高分辨率细节由神经引擎处理，从而进一步释放本地计算资源。

英特尔ISL的先前工作：分割>图像

直接将分割转换为非常真实的视频并非虚构。在2017年，英特尔ISL发布了最初的研究成果，能够直接从语义分割生成城市视频合成。

英特尔ISL的分割到图像工作，2017年。 来源：https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

实际上，最初的2017年管道只是被扩展以适应GTA5的完全渲染输出。

视觉特效中的神经渲染

从人工分割图生成神经渲染似乎也是视觉特效中的一项有前途的技术，具有直接将非常基本的视频直接转换为完成的视觉特效的可能性，通过生成特定领域的数据集，或者从模型中获取，或者从合成（CGI）图像中获取。

一个假设的神经渲染系统，其中每个目标对象的广泛覆盖被抽象为一个贡献数据集，人工生成的分割图被用作全分辨率非常真实输出的基础。 来源：https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

此类系统的开发和采用将会将艺术工作的重点从解释转变为代表性工作流，并将特定领域的数据收集从支持角色提升到视觉艺术中的核心角色。