关注我们.

人工智能

利用生成对抗网络提高驾驶模拟的真实感

mm
更新 on

美国和中国之间的一项新研究计划提出使用生成对抗网络(GAN)来提高驾驶模拟器的真实感。

在应对生成真实 POV 驾驶场景的挑战中,研究人员开发了一种混合方法,通过将基于 CycleGAN 的系统的更真实的输出与更传统生成的元素混合在一起,该方法可以发挥不同方法的优势,这需要更高水平的细节和一致性,例如道路标记和从驾驶员角度观察到的实际车辆。

混合生成神经图形 (HGNG) 为驾驶模拟提供了一个新方向,它保留了基本元素(例如道路标记和车辆)的 3D 模型的准确性,同时发挥 GAN 在生成有趣且非重复的背景和环境方面的优势细节。 来源

混合生成神经图形 (HGNG) 为驾驶模拟提供了新的方向,保留基本元素(例如道路标记和车辆)的 3D 模型的准确性,同时发挥 GAN 在生成有趣且非重复的背景和环境方面的优势细节。 来源

该系统称为混合生成神经图形 (HGNG),将传统的基于 CGI 的驾驶模拟器的高度有限的输出注入到 GAN 管道中,其中 NVIDIA 框架接管环境生成的工作。

作者表示,这样做的好处是驾驶环境将变得更加多样化,从而创造出更加身临其境的体验。 就目前情况而言,即使 转换 CGI 输出到真实感神经渲染输出无法解决重复问题,因为进入神经管道的原始素材受到模型环境的限制及其重复纹理和网格的倾向的限制。

来源:https://www.youtube.com/watch?v=0fhUJT21-bs

2021 年转换的素材 “增强照片真实感增强”仍然依赖于 CGI 渲染的镜头,包括背景和一般环境细节,限制了模拟体验中环境的多样性。 来源:https://www.youtube.com/watch?v=P1IcaBn3ej0

论文指出*:

“传统驾驶模拟器的保真度取决于其计算机图形管道的质量,该管道由 3D 模型、纹理和渲染引擎组成。 高质量的 3D 模型和纹理需要工匠精神,而渲染引擎必须运行复杂的物理计算才能真实地表示 照明和阴影.'

我们推荐使用 新文 标题为 驾驶模拟中的真实感:将生成对抗性图像合成与渲染相结合,来自俄亥俄州立大学电气与计算机工程系和中国重庆长安汽车有限公司的研究人员。

背景材料

HGNG 通过将部分渲染的前景材料与 GAN 生成的环境混合来转换输入 CGI 生成的场景的语义布局。 尽管研究人员尝试了各种数据集来训练模型,但事实证明最有效的是 奇蒂 Vision Benchmark Suite,主要捕捉来自德国卡尔斯鲁厄镇的驾驶员 POV 材料。

HGNG 从 CGI 渲染输出生成语义分割布局,然后插入具有不同风格编码的 SPADE,以创建随机且多样化的真实感背景图像,包​​括城市场景中的附近物体。 新论文指出,资源受限的 CGI 管道中常见的重复模式会“破坏”使用模拟器的人类驾驶员的沉浸感,而 GAN 可以提供的更加多样化的背景可以缓解这个问题。

HGNG 从 CGI 渲染输出生成语义分割布局,然后插入具有不同风格编码的 SPADE,以创建随机且多样化的真实感背景图像,包​​括城市场景中的附近物体。 新论文指出,资源受限的 CGI 管道中常见的重复模式会“破坏”使用模拟器的人类驾驶员的沉浸感,而 GAN 可以提供的更加多样化的背景可以缓解这个问题。

研究人员对两者进行了实验  条件生成对抗网络 (cGAN)和 循环GAN (CyGAN)作为生成网络,最终发现每个网络都有优点和缺点:cGAN 需要 配对数据集,而 CyGAN 则不然。 然而,CyGAN 目前无法超越传统模拟器的最先进水平,有待进一步改进 领域适应 和循环一致性。 因此,cGAN 凭借其额外的配对数据要求,获得了目前最好的结果。

HGNG 的概念架构。

HGNG 的概念架构。

在 HGNG 神经图形管道中,2D 表示是由 CGI 合成场景形成的。 从 CGI 渲染传递到 GAN 流的对象仅限于“基本”元素,包括道路标记和车辆,而 GAN 本身目前无法为驾驶模拟器提供足够的时间一致性和完整性渲染。 然后将 cGAN 合成的图像与部分基于物理的渲染混合。

检测

为了测试该系统,研究人员使用了 SPADE,并接受过训练 风情,将场景的语义布局转换为逼真的输出。 CGI源码来自开源驾驶模拟器 卡拉,它利用了虚幻引擎 4 (UE4)。

开源驾驶模拟器 CARLA 的输出。 资料来源:https://arxiv.org/pdf/1711.03938.pdf

开源驾驶模拟器 CARLA 的输出。 资料来源:https://arxiv.org/pdf/1711.03938.pdf

UE4的着色和光照引擎提供了语义布局和部分渲染的图像,仅输出车辆和车道标记。 混合是通过 GP-GAN 训练有素的实例 瞬态属性数据库,并且所有实验都在 NVIDIA 上运行 RTX 2080 配备 8 GB GDDR6 VRAM。

SIGGRAPH 2014 - 用于高级理解和编辑户外场景的瞬态属性

研究人员测试了 语义保留 – 输出图像与用作场景模板的初始语义分割掩模相对应的能力。

在上面的测试图像中,我们看到在“仅渲染”图像(左下)中,完整渲染没有获得合理的阴影。 研究人员指出,这里(黄色圆圈)落在人行道上的树木阴影被错误地分类为 深实验室V3 (用于这些实验的语义分割框架)作为“道路”内容。

在中间的列流中,我们看到 cGAN 创建的车辆没有足够一致的定义,无法在驾驶模拟器中使用(红色圆圈)。 在最右侧的列流中,混合图像符合原始语义定义,同时保留基于 CGI 的基本元素。

为了评估真实感,研究人员使用 弗雷切起始距离 (FID)作为性能指标,因为它可以对配对数据或不配对数据进行操作。

使用三个数据集作为基本事实:Cityscapes、KITTI 和 ADE20K.

使用 FID 分数对输出图像进行相互比较,并与基于物理的(即 CGI)管道进行比较,同时还评估语义保留。

在上面与语义保留相关的结果中,分数越高越好,其中基于 CGAN 金字塔的方法(研究人员测试的几种流程之一)得分最高。

上图直接显示的结果与 FID 分数相关,其中 HGNG 通过使用 KITTI 数据集得分最高。

“仅渲染”方法(表示为 [23])涉及 CARLA 的输出,这是一种 CGI 流程,预计不会具有照片级真实感。

传统渲染引擎(上图中的“c”)的定性结果显示出不切实际的远处背景信息,例如树木和植被,同时需要详细的模型和即时网格加载以及其他处理器密集型程序。 在中间 (b) 中,我们看到 cGAN 未能获得对汽车和道路标记等基本元素的充分定义。 在建议的混合输出(a)中,车辆和道路清晰度良好,而周围环境多样化且逼真。

该论文最后指出,可以通过使用更大的城市数据集来提高渲染管道中 GAN 生成部分的时间一致性,并且未来在这个方向上的工作可以为基于 CGI 的昂贵的神经转换提供真正的替代方案。流,同时提供更大的真实性和多样性。

 

* 我将作者的内联引用转换为超链接。

首次发布于 23 年 2022 月 XNUMX 日。