Anderson 视角

利用生成对抗网络将LiDAR转换为照片级图像

发布于 2021年12月23日

更新于 2026年5月24日

作者

Martin Anderson

本周早些时候，发布了一段视频，显示特斯拉自动驾驶系统在2021年6月的一条高速公路上直接撞上了停滞的车辆。由于这辆车很暗，很难看清，这一事实引发了人们对依赖计算机视觉在自动驾驶场景中的局限性的讨论。

2021年12月发布的视频显示了碰撞的瞬间。 来源：https://twitter.com/greentheonly/status/1473307236952940548

虽然在广泛分享的视频中，视频压缩给人一种夸张的印象，好像停滞的卡车突然出现在驾驶员面前，但同一事件的更高质量视频表明，即使是完全警觉的驾驶员也会难以做出反应，除了迟缓的转向或半有效的制动之外。

该视频为特斯拉在2021年5月宣布的决定添加了争议，该决定是从自动驾驶中删除雷达传感器，并且该公司偏爱基于视觉的系统而不是其他回声定位技术，例如LiDAR。

巧合的是，来自以色列的一篇新研究论文本周提出了一种方法，利用生成对抗网络（GAN）将LiDAR点云数据转换为照片级图像，从而弥合LiDAR和计算机视觉领域之间的差距。

在以色列的新项目中，LiDAR图像中的黑色汽车被转换为“白天”场景，以便进行计算机视觉分析，类似于特斯拉为开发其自动驾驶系统而采取的方法。 来源：https://arxiv.org/pdf/2112.11245.pdf

作者们指出：

‘我们的模型学会了从仅点云数据中预测真实的图像，甚至是黑色汽车的图像。 ‘

‘黑色汽车很难直接从点云中检测，因为它们的反射率很低。这种方法可能在未来用于从LiDAR点云生成的照片级图像中进行视觉对象识别。’

照片级、基于LiDAR的图像流

新论文《使用生成对抗网络从LiDAR点云生成照片级图像》由七位以色列学术机构的研究人员和六位来自以色列Innoviz Technologies的研究人员共同撰写。

研究人员旨在探索是否可以使用LiDAR系统生成的点云数据以适合的速率生成合成图像，以便在对象识别和语义分割工作流中使用该图像流。

正如许多其他新颖的图像转换项目一样，中心思想是训练算法使用配对数据，其中LiDAR点云图像（依赖于设备发出的光）与来自前置摄像头的匹配帧一起训练。

由于视频是在白天拍摄的，计算机视觉系统可以更容易地识别出一个通常难以察觉的全黑色车辆（如特斯拉在2021年6月撞到的那辆车），因此这种训练应该提供一个更能抵抗黑暗条件的基本真相。

数据使用InnovizOne LiDAR传感器收集，该传感器提供10fps或15fps的捕获速率，具体取决于型号。

Innoviz设备捕获的LiDAR数据。 来源：https://www.youtube.com/watch?v=wmcaf_VpsQI

所得数据集包含约30,000张图像和200,000个收集的3D点。研究人员进行了两项测试：一项测试中，点云数据仅携带反射率信息；另一项测试中，点云数据有两个通道，一个用于反射率，一个用于距离。

在第一项实验中，GAN训练了50个epoch，之后过拟合成为一个问题。

第一项实验中由GAN创建的图像。左侧为点云数据；中间为从捕获的视频中使用的实际帧，作为基准；右侧为生成对抗网络创建的合成表示。

作者们评论道：

‘测试集是一个完全新的录音，GAN从未在测试前见过。该预测仅使用点云的反射率信息。 ‘

‘我们选择显示带有黑色汽车的帧，因为黑色汽车通常很难从LiDAR中检测到。我们可以看到，生成器学会了生成黑色汽车，可能是从上下文信息中推断出来的，因为预测图像中的颜色和对象的确切形状与实际图像中的不完全相同。’

在第二项实验中，作者们训练了GAN，批大小为1，结果显示出类似的“代表性”黑色汽车，主要是从上下文中推断出来的。该配置也用于生成一段视频，展示了GAN生成的图像（如上所示）以及基准视频。

评估

由于该项目的独特性，通常的评估和比较现有最先进技术的过程是不可能的。相反，研究人员设计了一个自定义指标，用于衡量LiDAR/生成图像对中汽车（源视频中次要且短暂的部分）的表示程度。

他们从每个集合中选择了100对LiDAR/生成图像，并有效地将源视频中存在的汽车图像数量除以合成数据中存在的汽车图像数量，产生了一个从0到1的度量标准。

作者们指出：

‘两个实验的得分都在0.7和0.8之间。考虑到预测图像的总体质量低于实际图像（一般来说，在质量较低的图像中检测对象更困难），该得分表明，基准图像中存在的大多数汽车也存在于预测图像中。’

研究人员得出结论，黑色车辆的检测是一个问题，既困扰计算机视觉系统，也困扰LiDAR系统，可以通过识别图像中数据的缺失来实现：

‘预测图像中的颜色信息和确切形状与基准图像不完全相同，表明黑色汽车的预测主要是从上下文信息中推断出来的，而不是从LiDAR点的反射率中推断出来的。 ‘

‘我们建议，在传统的LiDAR系统之外，应该同时运行一个从LiDAR点云生成照片级图像的系统，以便在实时进行视觉对象识别。’

研究人员计划在未来用更大的数据集来发展这项工作。

延迟和拥挤的SDV处理栈

一位评论者估计，如果一辆车以每小时75英里的速度行驶（110英尺每秒），那么一段20fps的视频只会覆盖每帧5.5英尺的距离。然而，如果该车辆运行的是特斯拉最新的硬件和软件，则帧率将为36fps（对于主摄像头），这将以每秒110英尺（每帧3英尺）的速度进行评估。

除了成本和人体工程学问题外，使用LiDAR作为补充数据流的主要问题是传感器输入到SDV处理框架中的信息“交通拥堵”的庞大规模。结合任务的关键性质，这似乎迫使雷达和LiDAR从自动驾驶栈中被移除，以便为基于图像的评估方法让路。

因此，从特斯拉的角度来看，使用LiDAR（这本身就会给自动驾驶增加处理瓶颈）来推断照片级图像是不可行的。

特斯拉创始人埃隆·马斯克并不是LiDAR的彻底批评者，他指出LiDAR被SpaceX用于对接程序，但他认为该技术对于自动驾驶车辆来说是“毫无意义的”。马斯克建议，使用一种能够穿透遮挡的波长，例如精密雷达的~4mm，将更有用。

然而，截至2021年6月，特斯拉的车辆不配备雷达。目前似乎没有太多项目旨在像以色列当前项目尝试的那样从雷达生成图像流（尽管美国能源部在2018年赞助了一项尝试使用雷达源GAN图像）。

首次发布于2021年12月23日。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

利用生成对抗网络将LiDAR转换为照片级图像

照片级、基于LiDAR的图像流

评估

延迟和拥挤的SDV处理栈

发现更多