关注我们.

人工智能

使用生成对抗网络将 LiDAR 转换为照片级真实图像

mm

本周早些时候,视频被 发布 显示 2021 年 XNUMX 月,特斯拉自动驾驶系统直接撞上高速公路上一辆熄火车辆的侧面。由于该车颜色较暗且难以辨别,因此引发了人们的注意。 讨论 关于在自动驾驶场景中依赖计算机视觉的局限性。

2021 年 1473307236952940548 月发布的视频描述了撞击的瞬间。 来源:https://twitter.com/greentheonly/status/XNUMX

2021 年 XNUMX 月发布的视频描述了撞击的瞬间。 来源:https://twitter.com/greentheonly/status/1473307236952940548

虽然广为流传的视频压缩技术稍微夸张地展现了卡车“偷偷靠近”司机的速度,但同一事件的高质量视频显示,即使是完全警觉的司机,除了迟缓的转向或半有效的制动外,也难以做出任何反应。

这段视频加剧了围绕特斯拉的争议 决定移除雷达传感器 2021 年 XNUMX 月宣布的 Autopilot 及其立场 支持基于视觉的系统 优于激光雷达等其他回声定位技术。

巧合的是,以色列本周发表的一篇新研究论文提供了一种跨越激光雷达和计算机视觉领域的方法,通过使用生成对抗网络(GAN)将激光雷达点云转换为照片级真实图像。

在以色列的新项目中,激光雷达镜头中识别的黑色汽车被转换为“日光”场景,以进行基于计算机视觉的分析,类似于特斯拉在开发其自动驾驶系统时所追求的策略。 资料来源:https://arxiv.org/pdf/2112.11245.pdf

在以色列的新项目中,激光雷达镜头中识别的黑色汽车被转换为“日光”场景,以进行基于计算机视觉的分析,类似于特斯拉在开发其自动驾驶系统时所追求的策略。 资料来源:https://arxiv.org/pdf/2112.11245.pdf

作者指出:

“我们的模型学会了如何仅根据点云数据预测逼真的图像,甚至是黑色汽车的图像。

“由于黑色汽车的反射率较低,因此很难直接从点云中检测到。 这种方法将来可能会用于对激光雷达点云生成的逼真图像进行视觉对象识别。

基于 LiDAR 的真实照片图像流

这个 新文 标题为 使用生成对抗网络从 LiDAR 点云生成逼真的图像,由来自以色列三个学术院系的七名研究人员以及来自以色列 Innoviz Technologies 的六名研究人员组成。

研究人员着手探索是否可以以适当的速率从 LiDAR 系统生成的点云生成基于 GAN 的合成图像,以便后续图像流可以用于对象识别和语义分割工作流程。

时间

中心思想,正如许多 小说 [x]>[x] 图像音译项目,是在配对数据上训练算法,其中 LiDAR 点云图像(依赖于设备发射的光)针对前置摄像头的匹配帧进行训练。

由于这段视频是在白天拍摄的,计算机视觉系统可以更轻松地识别出一辆难以捉摸的全黑车辆(例如特斯拉 XNUMX 月撞上的那辆),因此这种训练应该提供一个更重要的核心事实:耐黑暗条件。

数据是通过 InnovizOne LiDAR 传感器收集的,该传感器提供 10 fps 或 15 fps 的捕获率,具体取决于型号。

Innoviz 设备捕获的 LiDAR 数据。 来源:https://www.youtube.com/watch?v=wmcaf_VpsQI

Innoviz 设备捕获的 LiDAR 数据。 来源:https://www.youtube.com/watch?v=wmcaf_VpsQI

生成的数据集包含大约 30,000 张图像和 200,000 个收集的 3D 点。 研究人员进行了两项测试:一项是点云数据仅携带反射率信息;另一项是点云数据仅携带反射率信息。 第二种,点云数据有两个通道,每个通道用于反射率和距离。

在第一个实验中,GAN 被训练了 50 个时期,超过这个时期就会出现过度拟合的问题。

GAN 在第一个实验中创建的图像。 左边是点云数据; 中间是捕获的镜头中的实际帧,用作地面实况; 右边是生成对抗网络创建的综合表示。

GAN 在第一个实验中创建的图像。 左边是点云数据; 中间是捕获的镜头中的实际帧,用作地面实况; 右边是生成对抗网络创建的综合表示。

作者评论:

“测试集是 GAN 在测试之前从未见过的全新记录。 这是仅使用点云的反射率信息来预测的。

“我们选择展示黑色汽车的框架,因为黑色汽车通常很难从激光雷达中检测到。 我们可以看到,生成器可能从上下文信息中学会了生成黑色汽车,因为预测图像中物体的颜色和确切形状与真实图像中的颜色和形状并不相同。

对于第二个实验,作者将 GAN 训练为 40 个时期,批量大小为 1,从而得到了主要从上下文中获得的“代表性”黑色汽车的类似呈现。 此配置还用于生成 电影 显示了 GAN 生成的镜头(如上图所示,在下面的示例图像中)以及地面实况镜头。

评价

由于其独特性,该项目不可能采用常规的评估过程以及与现有最先进技术进行比较。 相反,研究人员设计了一个自定义指标,衡量汽车(源镜头的次要和短暂部分)在输出镜头中的呈现程度。

他们从每组中选择了 100 对 LiDAR/生成的图像,并将源镜头中存在的汽车图像数量有效地除以生成的合成数据中存在的数量,产生 0 到 1 的公制比例。

作者指出:

“两个实验的得分都在 0.7 到 0.8 之间。 考虑到预测图像的总体质量低于真实图像(通常检测质量较低的图像中的对象更困难),该分数表明,地面实况中存在的绝大多数汽车都存在于真实图像中。预测的图像。

研究人员得出的结论是,黑色车辆的检测对于基于计算机视觉的系统和激光雷达来说都是一个问题,可以通过识别黑色车辆来实现。 缺乏 图像各部分的数据:

“在预测图像中,颜色信息和确切形状与地面真实情况并不相同,这一事实表明,黑色汽车的预测主要来自上下文信息,而不是来自点本身的激光雷达反射率。

“我们建议,除了传统的激光雷达系统之外,还可以同时运行第二个从激光雷达点云生成逼真图像的系统,以实时识别视觉对象。”

研究人员打算在未来利用更大的数据集来开展这项工作。

延迟和拥挤的 SDV 处理堆栈

在关于Autopilot撞车事故的推特帖子中,一位评论者估计,以大约75英里/小时(每秒110英尺)的速度行驶时,20帧/秒的视频流每帧只能覆盖5.5英尺。然而,如果车辆运行的是特斯拉最新的硬件和软件,主摄像头的帧率将达到36帧/秒,这意味着评估速率为 每秒 110 英尺 (每帧三英尺)。

除了成本和人体工程学之外,使用 LiDAR 作为补充数据流的问题是传感器输入到 SDV 处理框架的信息“交通拥堵”的规模。 结合任务的关键性质,这似乎迫使雷达和激光雷达退出自动驾驶仪堆栈,转而采用基于图像的评估方法。

因此,从特斯拉的角度来看,使用激光雷达(其本身会增加自动驾驶仪的处理瓶颈)的系统来推断照片级真实图像似乎不太可行。

特斯拉创始人埃隆·马斯克并不是对激光雷达的全面批评者, 他指出 SpaceX 使用该技术进行对接程序,但认为该技术对于自动驾驶车辆“毫无意义”。 马斯克表示,穿透遮挡的波长(例如约 4 毫米的精密雷达)会更有用。

然而,截至 2021 年 XNUMX 月,特斯拉汽车 也没有配备雷达。 目前似乎没有很多项目旨在以与当前以色列项目尝试相同的方式从雷达生成图像流(尽管美国能源部 赞助 2018 年对雷达来源的 GAN 图像的一次尝试)。

 

首次发布于 23 年 2021 月 XNUMX 日。