人工知能

YOLO-World: リアルタイム開放語彙物体検出

Published March 15, 2024

Updated March 21, 2026

Kunal Kejriwal

物体検出は、ロボティクス、画像理解、自律走行車、画像認識などにおける応用を通じて、コンピュータビジョン業界における基本的な課題であり続けてきました。近年、特に深層ニューラルネットワークを通じたAI分野の画期的な研究により、物体検出は大きく進歩しました。しかし、これらのモデルは固定された語彙を持ち、COCOデータセットの80カテゴリ内の物体の検出に限定されています。この制限は、物体検出器が特定のカテゴリのみを認識するように訓練されるという学習プロセスに起因しており、その適用可能性を制限しています。この課題を克服するため、我々はYOLO（You Only Look Once）フレームワークに開放語彙検出能力を付与することを目指した革新的なアプローチ、YOLO-Worldを紹介します。これは、大規模データセットでの事前学習と、視覚言語モデリングアプローチの実装によって達成されます。具体的には、YOLO-Worldは、言語情報と視覚情報の相互作用を促進するために、再パラメータ化可能な視覚言語パス集約ネットワーク（RepVL-PAN）と領域-テキスト対照損失を採用しています。RepVL-PANと領域-テキスト対照損失を通じて、YOLO-Worldはゼロショット設定において幅広い物体を正確に検出でき、開放語彙セグメンテーションおよび物体検出タスクで顕著な性能を示します。本記事は、YOLO-Worldの技術的基盤、モデルアーキテクチャ、学習プロセス、および応用シナリオについての徹底的な理解を提供することを目的としています。さあ、始めましょう。

YOLO-World: リアルタイム開放語彙物体検出

YOLO（You Only Look Once）は、コンピュータビジョン業界における現代の物体検出において最も一般的な手法の一つです。その驚異的な速度と効率性で知られ、YOLOメカニズムの登場は、機械が画像や動画内の特定の物体をリアルタイムで解釈・検出する方法に革命をもたらしました。従来の物体検出フレームワークは、2段階の物体検出アプローチを採用しています。最初の段階で、フレームワークは物体を含む可能性のある領域を提案し、次の段階でフレームワークが物体を分類します。一方、YOLOフレームワークはこれら2つの段階を単一のニューラルネットワークモデルに統合し、画像を一度見るだけで物体とその位置を予測するアプローチを取ります。それゆえ、YOLO（You Only Look Once）という名前が付けられています。さらに、YOLOフレームワークは物体検出を回帰問題として扱い、クラス確率とバウンディングボックスを画像全体から一瞥で直接予測します。この手法の実装は、検出プロセスの速度を向上させるだけでなく、複雑で多様なデータから一般化するモデルの能力も高め、自律走行、速度検出、ナンバープレート認識など、リアルタイムで動作するアプリケーションに適した選択肢となっています。さらに、過去数年間の深層ニューラルネットワークの著しい進歩も物体検出フレームワークの発展に大きく貢献してきましたが、物体検出フレームワークの成功は、限られた語彙の物体しか検出できないという点で依然として制限されています。これは主に、データセット内で物体カテゴリが定義・ラベル付けされると、フレームワーク内で訓練された検出器はこれらの特定のカテゴリのみを認識できるためであり、リアルタイムかつ開放的なシナリオでの物体検出モデルの適用可能性と展開能力を制限しています。続いて、最近開発された視覚言語モデルは、言語エンコーダから抽出された語彙知識を活用して開放語彙検出に対処します。これらのフレームワークは従来の物体検出モデルよりも開放語彙検出において優れた性能を示しますが、語彙の多様性が限られた学習データの不足により、依然として適用可能性が制限されています。さらに、一部のフレームワークは大規模で開放語彙物体検出器を訓練し、訓練済み物体検出器を領域レベルの視覚言語事前学習として分類しています。しかし、このアプローチは、エッジデバイスへの複雑な展開プロセスと高い計算要件という2つの主要な理由により、リアルタイムでの物体検出に苦戦しています。良い点としては、これらのフレームワークは、大規模な検出器を事前学習し、開放的な認識能力で活用することで、肯定的な結果を示しています。 YOLO-Worldフレームワークは、非常に効率的な開放語彙物体検出を達成し、大規模事前学習アプローチの可能性を探求することで、従来のYOLO検出器の開放語彙物体検出における効率を高めることを目指しています。これまでの物体検出研究とは異なり、YOLO-Worldフレームワークは高い推論速度で顕著な効率性を示し、下流アプリケーションに容易に展開できます。YOLO-Worldモデルは従来のYOLOアーキテクチャに従い、事前学習済みCLIPテキストエンコーダの能力を活用して入力テキストをエンコードします。さらに、YOLO-Worldフレームワークは、画像特徴とテキスト特徴を接続して視覚的・意味的表現を強化するために、そのアーキテクチャに再パラメータ化可能な視覚言語パス集約ネットワーク（RepVL-PAN）コンポーネントを含んでいます。推論フェーズでは、フレームワークはテキストエンコーダを除去し、テキスト埋め込みをRepVL-PANの重みに再パラメータ化することで、効率的な展開を実現します。また、フレームワークは領域-テキスト対照学習も組み込んでおり、従来のYOLOモデルのための開放語彙事前学習方法を研究します。領域-テキスト対照学習法は、画像-テキストデータ、グラウンディングデータ、検出データを領域-テキストペアに統合します。これに基づき、領域-テキストペアで事前学習されたYOLO-Worldフレームワークは、開放的な大語彙検出において顕著な能力を示します。加えて、YOLO-Worldフレームワークは、リアルタイムおよび実世界シナリオにおける開放語彙物体検出の効率を高めることを目的として、プロンプトしてから検出するパラダイムも探求しています。以下の画像に示されているように、従来の物体検出器は事前定義されたカテゴリを持つ閉じた固定語彙検出に焦点を当てるのに対し、開放語彙検出器はテキストエンコーダでユーザープロンプトをエンコードして開放語彙に対応します。これと比較して、YOLO-Worldのプロンプトしてから検出するアプローチは、まずオフライン語彙（ニーズに応じて変化する語彙）をユーザープロンプトをエンコードすることで構築し、検出器がプロンプトを再エンコードすることなくリアルタイムでオフライン語彙を解釈できるようにします。

YOLO-World : 手法とアーキテクチャ

領域-テキストペア

従来、YOLOファミリーを含む物体検出フレームワークは、カテゴリラベルとバウンディングボックスを含むインスタンスアノテーションを使用して訓練されてきました。対照的に、YOLO-Worldフレームワークはインスタンスアノテーションを領域-テキストペアとして再構成します。ここでのテキストは、物体の説明、名詞句、またはカテゴリ名となります。特筆すべきは、YOLO-Worldフレームワークはテキストと画像の両方を入力として採用し、対応する物体埋め込みと共に予測されたボックスを出力することです。

モデルアーキテクチャ

その中核において、YOLO-Worldモデルは、以下の画像に示すように、テキストエンコーダ、YOLO検出器、および再パラメータ化可能な視覚言語パス集約ネットワーク（RepVL-PAN）コンポーネントで構成されています。入力テキストに対して、テキストエンコーダコンポーネントはテキストをテキスト埋め込みにエンコードし、その後、YOLO検出器コンポーネント内の画像検出器によって入力画像からマルチスケール特徴が抽出されます。次に、再パラメータ化可能な視覚言語パス集約ネットワーク（RepVL-PAN）コンポーネントが、テキストと特徴埋め込み間のクロスモダリティ融合を活用して、テキストと画像の表現を強化します。

YOLO検出器

YOLO-Worldモデルは、既存のYOLOv8フレームワークを基盤として構築されており、画像エンコーダとしてDarknetバックボーンコンポーネント、物体埋め込みとバウンディングボックス回帰のためのヘッド、およびマルチスケール特徴ピラミッドのためのPAN（パス集約ネットワーク）を含んでいます。

テキストエンコーダ

与えられたテキストに対して、YOLO-Worldモデルは、事前学習済みのCLIP Transformerテキストエンコーダを採用し、特定の数の名詞と埋め込み次元で対応するテキスト埋め込みを抽出します。YOLO-WorldフレームワークがCLIPテキストエンコーダを採用する主な理由は、テキストと視覚的物体を結びつけるための視覚的・意味的性能が優れており、従来のテキストのみの言語エンコーダを大幅に上回るためです。ただし、入力テキストがキャプションまたは参照表現である場合、YOLO-Worldモデルはより単純なn-gramアルゴリズムを選択してフレーズを抽出します。これらのフレーズはその後、テキストエンコーダに供給されます。

テキスト対照ヘッド

デカップルドヘッドは以前の物体検出モデルで利用されたコンポーネントであり、YOLO-Worldフレームワークは、固定数の物体に対して物体埋め込みとバウンディングボックスを回帰するために、デュアル3×3畳み込みを持つデカップルドヘッドを採用しています。YOLO-Worldフレームワークは、L2正規化アプローチとテキスト埋め込みを使用して物体-テキスト類似度を取得するために、テキスト対照ヘッドを採用しています。さらに、YOLO-Worldモデルは、シフト係数と学習可能なスケーリング係数を持つアフィン変換アプローチも採用しており、L2正規化とアフィン変換は領域-テキスト学習中のモデルの安定性を高めます。

オンライン語彙学習

学習フェーズ中、YOLO-Worldモデルは、それぞれ4枚の画像からなるモザイクサンプルごとにオンライン語彙を構築します。モデルはモザイク画像に含まれる全てのポジティブ名詞をサンプリングし、対応するデータセットからランダムにいくつかのネガティブ名詞をサンプリングします。各サンプルの語彙は最大n個の名詞で構成され、デフォルト値は80です。

オフライン語彙推論

推論中、YOLO-Worldモデルは、モデルの効率をさらに高めるために、オフライン語彙を用いたプロンプトしてから検出する戦略を提示します。ユーザーはまず、カテゴリやキャプションを含む可能性のある一連のカスタムプロンプトを定義します。次に、YOLO-Worldモデルは、テキストエンコーダを利用してこれらのプロンプトをエンコードすることで、オフライン語彙埋め込みを取得します。その結果、推論のためのオフライン語彙は、モデルが各入力に対する計算を回避することを可能にし、また、要件に応じて語彙を柔軟に調整することを可能にします。

再パラメータ化可能な視覚言語パス集約ネットワーク (RevVL-PAN)

以下の図は、提案された再パラメータ化可能な視覚言語パス集約ネットワークの構造を示しており、トップダウンおよびボトムアップのパスに従ってマルチスケール特徴画像を持つ特徴ピラミッドを確立します。テキストと画像特徴間の相互作用を強化するために、YOLO-Worldモデルは、開放語彙能力のための視覚的・意味的表現を改善することを最終目的として、画像プーリングアテンションとテキスト誘導CSPLayer（クロスステージ部分レイヤー）を提案します。推論中、YOLO-Worldモデルは、効果的な展開のために、オフライン語彙埋め込みを線形または畳み込み層の重みに再パラメータ化します。上の図からわかるように、YOLO-Worldモデルはトップダウンまたはボトムアップ融合の後にCSPLayerを利用し、マルチスケール画像特徴にテキスト誘導を組み込み、テキスト誘導CSPLayerを形成することでCSPLayerを拡張します。任意の画像特徴とその対応するテキスト埋め込みに対して、モデルは最後のボトルネックブロックの後にmax-sigmoidアテンションを採用して、テキスト特徴を画像特徴に集約します。更新された画像特徴はその後、クロスステージ特徴と連結され、出力として提示されます。続いて、YOLO-Worldモデルは、画像特徴を集約してテキスト埋め込みを更新するために、画像プーリングアテンションレイヤーを導入し、画像を意識した情報でテキスト埋め込みを強化します。画像特徴に対して直接クロスアテンションを使用する代わりに、モデルはマルチスケール特徴に対して最大プーリングを利用して3×3領域を取得し、27個のパッチトークンを生成し、次のステップでテキスト埋め込みを更新します。