人工智能
使用生成对抗网络提高驾驶模拟的照片真实性

美国和中国之间的一个新研究计划提出了使用生成对抗网络(GANs)来提高驾驶模拟器的真实性。
在处理产生照片真实的第一人称驾驶场景的挑战时,研究人员开发了一种混合方法,利用了不同方法的优势,将基于CycleGAN的系统的更真实的输出与需要更高详细度和一致性的传统生成元素(如道路标记和从驾驶员视角观察到的车辆)相结合。

混合生成神经图形(HGNG)为驾驶模拟提供了一个新方向,保留了3D模型对于基本元素(如道路标记和车辆)的准确性,同时发挥了GAN生成有趣和非重复的背景和环境细节的优势。 来源
该系统,称为混合生成神经图形(HGNG),将传统的基于CGI的驾驶模拟器的输出注入到GAN管道中,在那里NVIDIA SPADE 框架接管环境生成的工作。
根据作者的说法,优势在于驾驶环境将变得更加多样化,从而创造出更身临其境的体验。目前,即使 将 CGI输出转换为照片真实的神经渲染输出,也无法解决重复的问题,因为进入神经管道的原始素材受到模型环境的限制及其重复纹理和网格的趋势。

2021年论文“增强照片真实性”的转换后素材,仍然依赖于CGI渲染的素材,包括背景和一般环境细节,限制了模拟体验中的环境多样性。 来源:https://www.youtube.com/watch?v=P1IcaBn3ej0
论文指出*:
‘传统驾驶模拟器的保真度取决于其计算机图形管道的质量,该管道由3D模型、纹理和渲染引擎组成。高质量的3D模型和纹理需要手工艺,而渲染引擎必须运行复杂的物理计算以实现照明和阴影的真实表示。’
新论文题为 驾驶模拟中的照片真实性:混合生成对抗图像合成与渲染,来自美国俄亥俄州立大学电气和计算机工程系以及中国重庆长安汽车有限公司的研究人员。
背景材料
HGNG通过混合部分渲染的前景材料和GAN生成的环境来转换输入CGI生成场景的语义布局。虽然研究人员在各种数据集上训练模型时进行了实验,但最有效的证明是 KITTI 视觉基准套件,它主要包含来自德国卡尔斯鲁厄的驾驶员视角材料。

HGNG从CGI渲染输出生成语义分割布局,然后使用SPADE(具有不同的风格编码)插入,以创建随机和多样的照片真实的背景图像,包括城市场景中的附近物体。新论文指出,重复模式是资源受限的CGI管道的常见问题,这会破坏使用模拟器的人类驾驶员的沉浸感,而GAN可以提供的更丰富的背景可以缓解这个问题。
研究人员使用 条件GAN(cGAN)和 CYcleGAN(CyGAN)作为生成网络,发现最终每种方法都有优缺点:cGAN需要 配对数据集,而CyGAN不需要。然而,CyGAN目前尚无法超越传统模拟器的状态,需要进一步改进 域适应 和循环一致性。因此,cGAN目前获得了最好的结果。

HGNG的概念架构。
在HGNG神经图形管道中,2D表示是从CGI合成场景形成的。传递到GAN流的对象仅限于“基本”元素,包括道路标记和车辆,这些是GAN目前无法以足够的时间一致性和完整性渲染的。然后将cGAN合成的图像与部分基于物理的渲染相结合。
测试
为了测试该系统,研究人员使用SPADE(在 Cityscapes 上训练)将场景的语义布局转换为照片真实的输出。CGI源来自开源驾驶模拟器 CARLA,它利用了虚幻引擎4(UE4)。

开源驾驶模拟器CARLA的输出。 来源:https://arxiv.org/pdf/1711.03938.pdf
UE4的着色和照明引擎提供了语义布局和部分渲染图像,只输出车辆和车道标记。混合使用在 Transient Attributes Database 上训练的 GP-GAN 实例实现,所有实验在NVIDIA RTX 2080 上运行,配备8 GB GDDR6 VRAM。
研究人员测试了 语义保留,即输出图像对应于场景模板的初始语义分割掩码的能力。
在上面的测试图像中,我们看到“仅渲染”图像(左下)中,完整渲染无法获得可信的阴影。研究人员指出,这里(黄色圆圈)树木投射到人行道上的阴影被 DeepLabV3(用于这些实验的语义分割框架)错误地分类为“道路”内容。
在中间列流中,我们看到cGAN创建的车辆没有足够的定义,无法在驾驶模拟器中使用(红色圆圈)。在右侧列流中,混合图像符合原始语义定义,同时保留了基本的CGI元素。
为了评估真实性,研究人员使用 Frechet Inception Distance(FID)作为性能指标,因为它可以在配对数据或非配对数据上运行。
使用三个数据集作为真实数据:Cityscapes、KITTI和 ADE20K。
输出图像使用FID评分相互比较,并与基于物理的管道(即CGI)比较,同时还评估了语义保留。

上面的结果与语义保留有关,得分越高越好,cGAN金字塔方法(研究人员测试的几种管道之一)得分最高。

上面的结果与FID评分有关,HGNG通过使用KITTI数据集获得了最高评分。
“仅渲染”方法(表示为 [23])是CARLA的输出,CARLA是一种CGI流,预计不会是照片真实的。
传统渲染引擎的定性结果(图像中的“c”)表现出不真实的远景信息,例如树木和植被,同时需要详细的模型和即时网格加载,以及其他处理器密集型过程。在中间(b)中,我们看到cGAN无法获得基本元素(车辆和道路标记)的足够定义。在提出的混合输出(a)中,车辆和道路定义良好,同时环境是多样和照片真实的。
论文得出结论,通过使用更大的城市数据集,可以提高GAN生成部分的渲染管道的时间一致性,并且在这个方向上的未来工作可以提供一个真正的替代方案,以替代昂贵的CGI流的神经转换,同时提供更高的真实性和多样性。
* 我将作者的内联引用转换为超链接。
首次发布于2022年7月23日。














