Anderson 视角

改进驾驶模拟的照片现实主义使用生成对抗网络

发布于 2022年7月23日

更新于 2026年5月26日

作者

Martin Anderson

美国和中国之间的新研究计划提出使用生成对抗网络（GAN）来提高驾驶模拟器的现实主义程度。

研究人员开发了一种混合方法，将CycleGAN基于系统的更照片现实主义输出与更传统生成的元素相结合，后者需要更高的细节和一致性，例如从驾驶员的视角观察到的道路标志和车辆。

混合生成神经图形（HGNG）为驾驶模拟提供了一个新的方向，既保留了3D模型对于基本元素的准确性（例如道路标志和车辆），又发挥了GAN生成有趣和非重复的背景和环境细节的优势。来源

该系统，称为混合生成神经图形（HGNG），将传统的、基于CGI的驾驶模拟器的输出注入到GAN管道中，NVIDIA SPADE 框架接管环境生成的工作。

根据作者的说法，驾驶环境将变得更加多样化，创造出更身临其境的体验。目前，即使是将CGI输出转换为照片现实神经渲染输出，也无法解决重复的问题，因为进入神经管道的原始视频受到模型环境的限制，并且容易重复纹理和网格。

来源：https://www.youtube.com/watch?v=0fhUJT21-bs

来自2021年论文“增强照片现实主义”的转换视频，仍然依赖于CGI渲染的视频，包括背景和一般环境细节，限制了模拟体验中的环境多样性。 来源：https://www.youtube.com/watch?v=P1IcaBn3ej0

该论文指出*：

“传统驾驶模拟器的保真度取决于其计算机图形管道的质量，该管道由3D模型、纹理和渲染引擎组成。高质量的3D模型和纹理需要手工制作，而渲染引擎必须运行复杂的物理计算以实现光照和阴影的真实表示。”

新论文题为驾驶模拟中的照片现实主义：混合生成对抗图像合成与渲染，由俄亥俄州立大学电气和计算机工程系和中国重庆长安汽车有限公司的研究人员撰写。

背景材料

HGNG通过混合部分渲染的前景材料和GAN生成的环境来转换输入CGI生成场景的语义布局。虽然研究人员尝试使用各种数据集来训练模型，但最有效的证明是KITTI视觉基准套件，该套件主要包含来自德国卡尔斯鲁厄的驾驶员视角材料。

HGNG从CGI渲染输出生成语义分割布局，然后使用SPADE（具有不同的样式编码）生成随机和多样化的照片现实背景图像，包括城市场景中的附近物体。该论文指出，资源受限的CGI管道中常见的重复模式会“打破沉浸感”为使用模拟器的人类驾驶员，而GAN可以提供的更丰富的背景可以缓解这个问题。

研究人员使用条件GAN（cGAN）和CycleGAN（CyGAN）作为生成网络，发现每种方法都有优缺点：cGAN需要成对的数据集，而CyGAN不需要。然而，CyGAN目前尚无法超越传统模拟器中的最先进技术，需要进一步改进领域适应和循环一致性。因此，cGAN在目前获得了最好的结果。

HGNG的概念架构。

在HGNG神经图形管道中，从CGI合成场景形成2D表示。从CGI渲染传递到GAN流的对象仅限于“基本”元素，包括道路标志和车辆，这些元素GAN目前无法以足够的时间一致性和完整性渲染。然后将cGAN合成的图像与部分基于物理的渲染相结合。

测试

为了测试该系统，研究人员使用在Cityscapes上训练的SPADE将场景的语义布局转换为照片现实输出。CGI源来自开源驾驶模拟器CARLA，该模拟器利用虚幻引擎4（UE4）。

开源驾驶模拟器CARLA的输出。 来源：https://arxiv.org/pdf/1711.03938.pdf

UE4的着色和光照引擎提供了语义布局和部分渲染图像，只输出车辆和车道标志。使用在Transient Attributes Database上训练的GP-GAN实例实现了混合，所有实验都在NVIDIA RTX 2080上运行，配备8 GB的GDDR6 VRAM。

研究人员测试了语义保留，即输出图像对应于场景模板的初始语义分割掩码的能力。

上面的测试图像中，我们看到“仅渲染”图像（左下）没有获得可信的阴影。研究人员指出，这里（黄色圆圈）树木投射到人行道上的阴影被DeepLabV3（用于这些实验的语义分割框架）错误地分类为“道路”内容。

在中间列流中，我们看到cGAN创建的车辆没有足够的定义来用于驾驶模拟器（红色圆圈）。在右侧列流中，混合图像符合原始语义定义，同时保留基本的CGI元素。

为了评估现实主义，研究人员使用弗雷切特英ception距离（FID）作为性能指标，因为它可以在成对数据或非成对数据上运行。

使用三个数据集作为基准真相：Cityscapes、KITTI和ADE20K。

输出图像使用FID评分相互比较，并与基于物理的管道（即CGI）进行比较，同时也评估了语义保留。

上面的结果与语义保留有关，得分越高越好，使用金字塔结构的cGAN方法（研究人员测试的多个管道之一）得分最高。

上面的结果与FID评分有关，使用KITTI数据集的HGNG得分最高。

“仅渲染”方法（表示为[23]）是CARLA的输出，CARLA是一个CGI流，预计不会是照片现实的。

传统渲染引擎的定性结果（图像中的“c”）表现出不现实的远景背景信息，例如树木和植被，同时需要详细的模型和实时网格加载，以及其他处理器密集型过程。在中间（b）中，我们看到cGAN无法获得基本元素（如车辆和道路标志）的足够定义。在所提出的混合输出（a）中，车辆和道路的定义良好，同时环境也是多样化和照片现实的。

该论文得出结论，GAN生成的渲染管道的时间一致性可以通过使用更大的城市数据集来提高，并且在这个方向上的未来工作可以提供一个真正的替代方案，代替昂贵的基于CGI的流的神经转换，同时提供更大的现实主义和多样性。

* 我将作者的内联引用转换为超链接。

首次发布于2022年7月23日。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

改进驾驶模拟的照片现实主义使用生成对抗网络

背景材料

测试

发现更多