投资

Waymo 的自动驾驶技术变得更加智能，借助内容搜索可识别数十亿个物体

更新 on 2022 年 12 月 9 日

Waymo 开发的自动驾驶汽车利用计算机视觉技术和人工智能来感知周围环境，并实时决定车辆应如何反应和移动。当车辆内部的摄像头和传感器感知到物体时，它们会与 Alphabet 编制的大型数据库进行匹配，以便被识别。

海量数据集对于自动驾驶车辆的训练非常重要，因为它们使车辆内的人工智能变得更好并提高其性能。然而，工程师需要某种方法来有效地将数据集中的项目与查询进行匹配，以便他们可以研究人工智能在特定类型图像上的表现。为了解决这个问题，据 VentureBeat 报道，Waymo 最近开发了一种名为“内容搜索”的工具，其功能类似于 Google 图片搜索和 Google Photos 的操作方式。这些系统将查询与图像中的语义内容相匹配，生成对象的表示，从而使基于自然语言查询的图像检索变得更容易。

在内容搜索出现之前，如果 Waymo 的研究人员想要从日志中检索某些样本，他们必须使用启发式方法来描述该对象。 Waymo 的日志必须使用基于规则搜索对象的命令进行搜索，这意味着运行搜索“低于 X 高度”的对象或“以每小时 y 英里的速度行驶”的对象。这些基于规则的搜索结果通常可能非常广泛，研究人员需要手动梳理返回的结果。

内容搜索通过创建数据目录并对不同目录进行相似性搜索来解决此问题，以便在呈现对象时找到最相似的类别。如果内容搜索显示卡车或树木，它将返回 Waymo 自动驾驶车辆遇到的其他卡车或树木。当 Waymo 车辆行驶时，它会记录周围物体的图像，然后将这些物体存储为嵌入/数学表示。这意味着该工具可以在对象类别之间进行比较，并根据存储的对象图像与提供的对象的相似程度对响应进行排名。这类似于嵌入相似性匹配服务由谷歌运营。

Waymo 车辆遇到的物体可能有各种不同的形状和大小，但它们都需要被提炼成其基本组成部分并进行分类，以便内容搜索发挥作用。为了实现这一目标，Waymo 使用了针对各种对象进行训练的多个人工智能模型。各种模型学习识别各种对象，并且它们受到内容搜索的支持，这使得模型能够了解是否在给定图像中找到属于特定类别的项目。与主模型一起使用了额外的光学字符识别模型，允许 Waymo 车辆根据图像中发现的任何文本向图像中的对象添加额外的识别信息。例如，配备标牌的卡车将在其内容搜索描述中包含标牌文本。

由于上述模型的协同工作，Waymo 的研究人员和工程师能够在图像数据日志中搜索非常特定的对象，例如特定树种和汽车品牌。

据 VentureBeat 援引 Waymo 的说法：

“通过内容搜索，我们能够自动注释……驾驶历史中的对象，这反过来又成倍地提高了我们发送用于标记的数据的速度和质量。加速标签的能力为我们系统的许多改进做出了贡献，从检测载有即将走上人行道的儿童的校车或骑电动滑板车的人，到过马路的猫或狗。随着 Waymo 扩展到更多城市，我们将不断遇到新的物体和场景。”

这并不是 Waymo 第一次使用多种机器学习模型来提高车辆的可靠性和准确性。韦莫过去曾与 Alphabet/Google 合作过，与 DeepMind 一起帮助开发人工智能技术。人工智能系统的灵感来自进化生物学。首先，创建各种机器学习模型，经过训练后，表现不佳的模型将被剔除并用后代模型替换。据报道，这项技术能够显着减少误报，同时还减少了所需的计算资源和培训时间。