人工智能

使用生成对抗网络将LiDAR转换为照片级图像

Published December 23, 2021

Updated April 28, 2026

Martin Anderson

本周早些时候，发布了一段视频，显示特斯拉的自动驾驶系统在2021年6月直接撞上了高速公路上一辆停滞的车辆。由于汽车是黑色的，很难辨认，这一事实引发了人们对在自动驾驶场景中仅依赖计算机视觉的讨论的热潮。released。

2021年12月发布的视频显示了碰撞的瞬间。 来源：https://twitter.com/greentheonly/status/1473307236952940548

虽然在广泛分享的视频中，视频压缩给人一种略微夸张的印象，好像停滞的卡车突然出现在驾驶员面前，但同一事件的更高质量视频表明，即使是完全警觉的驾驶员也会难以做出任何反应，除了迟缓的转向或半有效的制动。

该视频为特斯拉在2021年5月宣布的决定——为自动驾驶系统移除雷达传感器，以及其偏爱基于视觉的系统而非其他回声定位技术（如LiDAR）的立场，增添了争议。

巧合的是，来自以色列的新研究论文本周提供了一种方法，利用生成对抗网络（GAN）将LiDAR点云数据转换为照片级图像，以跨越LiDAR和计算机视觉领域。

在以色列的新项目中，LiDAR视频中识别出的黑色汽车被转换为“白天”场景，以便进行基于计算机视觉的分析，类似于特斯拉为开发其自动驾驶系统所采取的方法。来源：https://arxiv.org/pdf/2112.11245.pdf

作者表示：

‘我们的模型学会了从仅仅点云数据中预测出看起来很真实的图像，甚至包括黑色汽车。 ‘

‘黑色汽车很难直接从点云中检测出来，因为它们的反射率很低。这一方法可能在未来用于从LiDAR点云生成的照片级图像中执行视觉对象识别。’

照片级、基于LiDAR的图像流

新论文的标题为使用生成对抗网络从LiDAR点云生成照片级图像</em》，来自七位以色列学术机构的研究人员，以及来自以色列创新公司Innoviz Technologies的六位研究人员。

研究人员试图发现是否可以使用GAN从LiDAR系统生成的点云以合适的速率生成合成图像，以便在对象识别和语义分割工作流中使用图像流。

数据

这个想法与许多其他新颖的[x]到[x]图像转换项目一样，是训练算法在配对数据上进行，其中LiDAR点云图像（依赖于设备发出的光）与来自前置摄像头的匹配帧一起训练。

由于视频是在白天拍摄的，在这种情况下，计算机视觉系统可以更容易地识别出一个原本难以察觉的全黑色车辆（如特斯拉在2021年6月撞到的那辆车），因此，这种训练应该提供一个更能抵抗黑暗条件的基本真相。

数据是使用InnovizOne LiDAR传感器收集的，该传感器提供10fps或15fps的捕获率，具体取决于模型。

Innoviz设备捕获的LiDAR数据。 来源：https://www.youtube.com/watch?v=wmcaf_VpsQI

所得数据集包含大约30,000张图像和200,000个收集的3D点。研究人员进行了两次测试：一次是点云数据仅携带反射率信息；另一次是点云数据有两个通道，分别对应反射率和距离。

在第一次实验中，GAN训练了50个epoch，之后过拟合变得明显。

第一实验中由GAN创建的图像。左边是点云数据；中间是实际的捕获帧，用于作为基准真相；右边是生成对抗网络创建的合成表示。

作者评论道：

‘测试集是一个完全新的录音，GAN在测试前从未见过。这种预测仅使用点云的反射率信息。 ‘

‘我们选择显示带有黑色汽车的帧，因为黑色汽车通常很难从LiDAR中检测出来。我们可以看到，生成器学会了生成黑色汽车，可能是从上下文信息中推断出来的，因为预测图像中的颜色和确切形状与实际图像不完全相同。’

对于第二个实验，作者训练了GAN 40个epoch，批量大小为1，结果显示出类似的“代表性”黑色汽车，大多是从上下文中获得的。这一配置也用于生成一个视频</a》，该视频显示了GAN生成的视频（如上所示的示例图像）以及基准真相视频。

评估

由于该项目的独特性，通常的评估和比较现有最先进技术的过程是不可能的。相反，研究人员设计了一个自定义指标，用于衡量输出图像中汽车（源视频中次要且短暂的部分）的表示程度。

他们从每个集合中选择了100对LiDAR/生成图像，并有效地将源视频中存在的汽车图像数量除以合成数据中存在的汽车图像数量，产生一个从0到1的量表。

作者表示：

‘两个实验的得分都在0.7和0.8之间。考虑到预测图像的总体质量低于实际图像（一般来说，在质量较低的图像中检测对象更困难），这一得分表明，基准真相中存在的大多数汽车也存在于预测图像中。’

研究人员得出结论，检测黑色车辆（这对计算机视觉系统和LiDAR系统都构成挑战）的方法可以通过识别图像中缺失的数据部分来实现：

‘预测图像中，颜色信息和确切形状与基准真相不完全相同，这表明黑色汽车的预测主要是从上下文信息中推断出来的，而不是从LiDAR点的反射率本身。 ‘

‘我们建议，在传统的LiDAR系统之外，一个同时运行的系统可以从LiDAR点云生成照片级图像，以便在实时进行视觉对象识别。’

研究人员计划在未来用更大的数据集来开发这项工作。

延迟和拥挤的SDV处理栈

一位评论者估计，如果特斯拉的自动驾驶系统以每小时75英里（110英尺每秒）的速度行驶，视频帧率为20fps，那么视频只会每5.5英尺覆盖一帧。然而，如果该车辆运行的是特斯拉最新的硬件和软件，帧率将为36fps（对于主摄像头），这将以每秒110英尺（每帧3英尺）的速度进行评估。

除了成本和人机工程学问题之外，使用LiDAR作为补充数据流的主要问题是传感器输入到SDV处理框架的信息“交通拥堵”的庞大规模。结合任务的关键性质，这似乎迫使雷达和LiDAR从自动驾驶技术栈中被移除，以便为基于图像的评估方法让路。

因此，从特斯拉的角度来看，似乎不太可能使用LiDAR来推断照片级图像，因为这本身就会增加自动驾驶系统的处理瓶颈。

特斯拉创始人埃隆·马斯克（Elon Musk）并不是LiDAR的彻底批评者，他指出LiDAR被SpaceX用于对接程序，但他认为这项技术对于自驾驶车辆来说是“毫无意义的”。马斯克建议，穿透遮挡的波长（如精密雷达的~4mm）将更有用。

然而，截至2021年6月，特斯拉的车辆不配备雷达。目前似乎没有太多项目旨在以与当前以色列项目相同的方式从雷达生成图像流（尽管美国能源部在2018年赞助了一项使用GAN的雷达源图像尝试）。

最初发布于2021年12月23日。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

使用生成对抗网络将LiDAR转换为照片级图像

照片级、基于LiDAR的图像流

数据

评估

延迟和拥挤的SDV处理栈

You may like