人工智能

YOLO-World：实时开放词汇目标检测

发布时间

2个月前

2024 年 3 月 15 日

物体检测一直是一个基本挑战计算机视觉行业，在机器人、图像理解、自动驾驶汽车等领域都有应用图像识别。近年来，人工智能领域的突破性工作，特别是通过深度神经网络，显着推进了物体检测。然而，这些模型具有固定的词汇表，仅限于检测 COCO 数据集 80 个类别内的对象。这种限制源于训练过程，目标检测器被训练为仅识别特定类别，从而限制了它们的适用性。

为了克服这个问题，我们引入了 YOLO-World，这是一种创新方法，旨在通过开放词汇检测功能增强 YOLO（You Only Look Once）框架。这是通过在大规模数据集上预训练框架并实施视觉语言建模方法来实现的。具体来说，YOLO-World 采用可重新参数化的视觉语言路径聚合网络（RepVL-PAN）和区域文本对比损失来促进语言和视觉信息之间的交互。通过 RepVL-PAN 和区域文本对比损失，YOLO-World 可以在零样本设置下准确检测各种对象，在开放词汇分割和对象检测任务中表现出卓越的性能。

本文旨在全面了解YOLO-World的技术基础、模型架构、训练流程和应用场景。让我们深入了解一下。

YOLO-World：实时开放词汇目标检测

YOLO 或 You Only Look Once 是计算机视觉行业中最流行的现代目标检测方法之一。以其令人难以置信的速度和效率而闻名， YOLO 该机制彻底改变了机器实时解释和检测图像和视频中特定对象的方式。传统的对象检测框架实现两步对象检测方法：在第一步中，框架提出可能包含对象的区域，框架在下一步中对对象进行分类。另一方面，YOLO 框架将这两个步骤集成到单个神经网络模型中，这种方法允许框架仅查看图像一次即可预测对象及其在图像中的位置，因此名称为 YOLO 或 You只看一次。

此外，YOLO 框架将目标检测视为回归问题，并直接从完整图像中预测类别概率和边界框。该方法的实现不仅提高了检测过程的速度，还增强了模型从复杂多样的数据中进行泛化的能力，使其成为自动驾驶、速度检测或数字等实时操作应用的合适选择车牌识别。此外，过去几年深度神经网络的显着进步也为目标检测框架的发展做出了重大贡献，但目标检测框架的成功仍然有限，因为它们只能检测词汇量有限的目标。这主要是因为一旦在数据集中定义并标记了对象类别，框架中经过训练的检测器就只能识别这些特定类别，从而限制了在实时和开放场景中部署对象检测模型的适用性和能力。

最近开发的视觉语言模型利用从语言编码器提取的词汇知识来解决开放词汇检测问题。尽管这些框架在开放词汇检测方面比传统的目标检测模型表现更好，但由于词汇多样性有限的训练数据稀缺，它们的适用性仍然有限。此外，选定的框架大规模训练开放词汇对象检测器，并将训练对象检测器分类为区域级视觉语言预训练。然而，由于两个主要原因，该方法在实时检测目标方面仍然存在困难：边缘设备的复杂部署过程和繁重的计算要求。从积极的方面来看，这些框架已经展示了通过预训练大型检测器以使用具有开放识别功能的积极结果。

YOLO-World框架旨在实现高效的开放词汇目标检测，并探索大规模预训练方法的可能性，以提高传统YOLO检测器在开放词汇目标检测方面的效率。与之前的目标检测工作相反，YOLO-World 框架显示出卓越的效率和高推理速度，并且可以轻松部署在下游应用程序上。 YOLO-World 模型遵循传统的 YOLO 架构，并利用预先训练的 CLIP 文本编码器的功能对输入文本进行编码。此外，YOLO-World 框架在其架构中包含一个可重新参数化的视觉语言路径聚合网络 (RepVL-PAN) 组件，用于连接图像和文本特征以增强视觉语义表示。在推理阶段，该框架删除了文本编码器，并将文本嵌入重新参数化为 RepVL-PAN 权重，从而实现高效部署。该框架还包括区域文本对比学习，以研究传统 YOLO 模型的开放词汇预训练方法。区域-文本对比学习方法将图像-文本数据、基础数据和检测数据统一为区域-文本对。在此基础上，针对区域文本对进行预训练的 YOLO-World 框架展示了开放和大词汇量检测的卓越能力。此外，YOLO-World框架还探索了一种提示然后检测的范例，旨在提高实时和现实场景中开放词汇对象检测的效率。

如下图所示，传统的对象检测器专注于具有预定义类别的封闭固定词汇检测，而开放词汇检测器通过使用开放词汇的文本编码器对用户提示进行编码来检测对象。相比之下，YOLO-World 的提示然后检测方法首先通过对用户提示进行编码来构建离线词汇表（根据不同的需求使用不同的词汇表），允许检测器实时解释离线词汇，而无需重新编码提示。

YOLO-World：方法和架构

区域-文本对

传统上，对象检测框架包括 YOLO 使用包含类别标签和边界框的实例注释来训练对象检测器系列。相比之下，YOLO-World 框架将实例注释重新表述为区域文本对，其中文本可以是对象、名词短语或类别名称的描述。值得指出的是，YOLO-World框架采用文本和图像作为输入和输出预测框及其相应的对象嵌入。

模型架构

YOLO-World 模型的核心由文本编码器、YOLO 检测器和可重参数化视觉语言路径聚合网络 (RepVL-PAN) 组件组成，如下图所示。

对于输入文本，文本编码器组件将文本编码为文本嵌入，然后由 YOLO 检测器组件中的图像检测器从输入图像中提取多尺度特征。然后，可重新参数化的视觉语言路径聚合网络（RepVL-PAN）组件利用文本和特征嵌入之间的跨模态融合来增强文本和图像表示。

YOLO探测器

YOLO-World 模型建立在现有 YOLOv8 框架之上，该框架包含一个 Darknet 主干组件作为其图像编码器、一个用于对象嵌入和边界框回归的头，以及一个用于多尺度特征金字塔的 PAN 或路径攻击网络。

文本编码器

对于给定的文本，YOLO-World模型通过采用预先训练的具有一定名词数量和嵌入维度的CLIP Transformer文本编码器来提取相应的文本嵌入。 YOLO-World框架采用CLIP文本编码器的主要原因是它为连接文本与视觉对象提供了更好的视觉语义性能，显着优于传统的纯文本语言编码器。然而，如果输入文本是标题或引用表达式，YOLO-World 模型会选择更简单的 n-gram 算法来提取短语。然后这些短语被输入到文本编码器。

文字对比头

解耦头是早期目标检测模型使用的组件，YOLO-World框架采用具有双3×3卷积的解耦头来回归固定数量对象的对象嵌入和边界框。 YOLO-World 框架采用文本对比头，使用 L2 归一化方法和文本嵌入来获取对象-文本相似度。此外，YOLO-World模型还采用了具有移位因子和可学习缩放因子的仿射变换方法，L2归一化和仿射变换增强了模型在区域文本训练期间的稳定性。

在线词汇培训

在训练阶段，YOLO-World 模型为每个马赛克样本构建一个在线词汇表，每个马赛克样本由 4 张图像组成。该模型对马赛克图像中包含的所有正名词进行采样，并从相应的数据集中随机采样一些负名词。每个样本的词汇表最多包含 n 个名词，默认值为 80。

离线词汇推理

在推理过程中，YOLO-World模型提出了离线词汇的提示-然后检测策略，进一步提高模型的效率。用户首先定义一系列自定义提示，其中可能包括类别甚至标题。然后，YOLO-World 模型利用文本编码器对这些提示进行编码，从而获得离线词汇嵌入。因此，离线推理词汇可以帮助模型避免对每个输入进行计算，也可以让模型根据需求灵活调整词汇。

可重新参数化的视觉语言路径攻击网络（RevVL-PAN）

下图说明了所提出的可重参数化视觉语言路径攻击网络的结构，该网络遵循自上而下和自下而上的路径来建立具有多尺度特征图像的特征金字塔。

为了增强文本和图像特征之间的交互，YOLO-World模型提出了图像池注意力和文本引导的CSPLayer（跨阶段部分层），最终目标是提高开放词汇能力的视觉语义表示。在推理过程中，YOLO-World 模型将离线词汇嵌入重新参数化为线性或卷积层的权重，以实现有效部署。

从上图可以看出，YOLO-World模型利用了自上而下或自下而上融合后的CSPLayer，将文本引导融入到多尺度图像特征中，形成了文本引导CSPLayer，从而扩展了CSP播放器。对于任何给定的图像特征及其相应的文本嵌入，该模型在最后一个瓶颈块之后采用最大 sigmoid 注意力将文本特征聚合为图像特征。然后将更新后的图像特征与跨阶段特征连接起来，并作为输出呈现。

接下来，YOLO-World 模型通过引入图像池注意力层聚合图像特征来更新文本嵌入，以通过图像感知信息增强文本嵌入。该模型没有直接在图像特征上使用交叉注意力，而是利用多尺度特征的最大池化来获取 3×3 区域，从而产生 27 个补丁标记，模型在下一步中更新文本嵌入。

预培训计划

YOLO-World 模型遵循两种主要的预训练方案：从区域文本对比损失中学习和使用图像文本数据进行伪标记。对于主要预训练方案，模型输出对象预测以及给定文本和马赛克样本的注释。 YOLO-World 框架通过遵循和利用任务分配的标签分配来将预测与真实注释相匹配，并使用充当分类标签的文本索引分配单个正预测。另一方面，图像-文本数据伪标记预训练方案提出使用自动标记方法，而不是使用图像-文本对来生成区域-文本对。提议的标记方法包括三个步骤： 提取名词短语、伪标签和过滤。 第一步利用 n-gram 算法从输入文本中提取名词短语，第二步采用预先训练的开放词汇检测器为单个图像的给定名词短语生成伪框，而第三步也是最后一步采用一个预先训练的 CLIP 框架，用于评估区域-文本和文本-图像对的相关性，随后模型过滤低相关性伪图像和注释。

YOLO-世界：结果

一旦 YOLO-World 模型完成预训练，就可以在零样本设置下直接在 LVIS 数据集上进行评估，LVIS 数据集包含超过 1200 个类别，明显多于现有测试框架使用的预训练数据集他们在大词汇量检测上的表现。下图展示了 YOLO-World 框架与一些现有最先进的对象检测框架在零样本设置下在 LVIS 数据集上的性能。

可以看出，YOLO-World 框架在推理速度和零样本性能方面优于大多数现有框架，即使是像 Grounding DINO、GLIP 和 GLIPv2 这样包含更多数据的框架。总体而言，结果表明，像 YOLO-World-S 这样只有 13 万个参数的小型物体检测模型可以用于具有显着开放词汇能力的视觉语言任务的预训练。

最后的思考

在本文中，我们讨论了 YOLO-World，这是一种创新方法，旨在通过在大规模数据集上对框架进行预训练，并实现视觉语言建模方法。更具体地说，YOLO-World 框架建议实现可重新参数化的视觉语言路径聚合网络或 RepVL-PAN 以及区域文本对比损失，以促进语言信息和视觉信息之间的交互。通过实现 RepVL-PAN 和区域文本对比损失，YOLO-World 框架能够在零样本设置中准确有效地检测各种对象。