人工知能

YOLO-World: リアルタイムオープンボキャブラリー物体検出

Published March 15, 2024

Updated April 27, 2026

Kunal Kejriwal

物体検出は、コンピュータビジョン業界における基本的な課題であり、ロボティクス、画像理解、自動運転、画像認識などの分野で応用されています。近年、AI、特にディープニューラルネットワークの研究により、物体検出が大幅に進歩しました。しかし、これらのモデルには固定されたボキャブラリーがあり、COCOデータセットの80カテゴリ内でのみ物体を検出できます。この制限は、トレーニングプロセスから生じるもので、物体検出器は特定のカテゴリのみを認識するようにトレーニングされており、応用性が制限されます。

これを克服するために、YOLO（You Only Look Once）フレームワークにオープンボキャブラリー検出機能を付加したYOLO-Worldという革新的アプローチを導入します。これは、大規模なデータセットで事前トレーニングを行い、ビジョン言語モデリングアプローチを実装することで実現されます。具体的には、YOLO-Worldは、Re-parameterizable Vision-Language Path Aggregation Network（RepVL-PAN）とリージョン・テキスト・コントラスト損失を使用して、言語情報と視覚情報の間の相互作用を促進します。RepVL-PANとリージョン・テキスト・コントラスト損失を使用することで、YOLO-Worldはゼロショット設定で幅広い物体を正確に検出できます。また、オープンボキャブラリーのセグメンテーションと物体検出タスクで優れたパフォーマンスを示しています。

この記事では、YOLO-Worldの技術的基礎、モデルアーキテクチャ、トレーニングプロセス、アプリケーションシナリオについて詳細に説明します。詳しく見てみましょう。

YOLO-World: リアルタイムオープンボキャブラリー物体検出

YOLOまたはYou Only Look Onceは、コンピュータビジョン業界で最も人気のある物体検出方法の1つです。驚くべき速度と効率性で知られており、YOLOメカニズムの出現は、機械が画像やビデオ内の特定の物体を解釈して検出する方法を革命的に変えました。伝統的な物体検出フレームワークは、2ステップの物体検出アプローチを実装します。最初のステップでは、フレームワークは物体を含む可能性のあるリージョンを提案し、2番目のステップでは、物体を分類します。YOLOフレームワークは、これらの2つのステップを1つのニューラルネットワークモデルに統合し、フレームワークが画像を1回見るだけで物体とその位置を予測できるようにします。したがって、YOLOまたはYou Only Look Onceという名前です。

さらに、YOLOフレームワークは物体検出を回帰問題として扱い、単一の画像から直接クラス確率とバウンディングボックスを予測します。この方法の実装により、検出プロセスの速度が向上し、モデルが複雑で多様なデータから一般化する能力も向上します。これにより、リアルタイムで動作するアプリケーション、たとえば自動運転、速度検出、またはナンバープレート認識などの用途に適した選択となります。さらに、ディープニューラルネットワークの進歩も物体検出フレームワークの開発に大きく貢献しています。しかし、物体検出フレームワークの成功はまだ限られています。なぜなら、物体カテゴリがデータセットで定義され、ラベル付けされた後、トレーニングされた検出器は特定のカテゴリのみを認識できるからです。したがって、モデルをリアルタイムでオープンなシナリオで展開する能力と応用性が制限されます。

最近開発されたビジョン言語モデルは、言語エンコーダーから蒸留されたボキャブラリー知識を使用してオープンボキャブラリー検出に取り組んでいます。伝統的な物体検出モデルよりもオープンボキャブラリー検出で優れたパフォーマンスを示すこれらのフレームワークですが、ボキャブラリーの多様性が限られているトレーニングデータの希少性により、応用性はまだ限られています。さらに、選択されたフレームワークは、大規模なオープンボキャブラリー物体検出器をトレーニングし、トレーニング物体検出器をリージョンレベルのビジョン言語事前トレーニングとして分類します。しかし、アプローチは、エッジデバイスへの複雑な展開プロセスと重い計算要件の2つの主な理由により、リアルタイムで物体を検出するのに苦労しています。幸い、これらのフレームワークは、オープン認識機能を使用するために大きな検出器を事前トレーニングすることの利点を示しています。

YOLO-Worldフレームワークは、高度に効率的なオープンボキャブラリー物体検出を達成し、伝統的なYOLO検出器の効率性を向上させるために大規模な事前トレーニングアプローチの可能性を探ることを目的としています。物体検出における以前の研究とは対照的に、YOLO-Worldフレームワークは高い推論速度で優れた効率性を示し、ダウンストリームアプリケーションに簡単に展開できます。YOLO-Worldモデルは伝統的なYOLOアーキテクチャに従い、事前トレーニングされたCLIPテキストエンコーダーを使用して入力テキストをエンコードします。さらに、YOLO-Worldフレームワークには、画像とテキストの特徴を結合して視覚的意味的表現を強化するために、Re-parameterizable Vision-Language Path Aggregation Network（RepVL-PAN）コンポーネントが含まれています。推論フェーズでは、フレームワークはテキストエンコーダーを削除し、テキスト埋め込みをRepVL-PANの重みに再パラメータ化して、効率的な展開を実現します。フレームワークには、伝統的なYOLOモデルに対するオープンボキャブラリー事前トレーニング方法を研究するために、リージョン・テキスト・コントラスト学習も含まれています。リージョン・テキスト・コントラスト学習方法は、画像・テキストデータ、グラウンドデータ、検出データをリージョン・テキストのペアに統合します。この上に、YOLO-Worldフレームワークはリージョン・テキストのペアで事前トレーニングされ、オープンで大きなボキャブラリー検出に対する優れた能力を示しています。さらに、YOLO-Worldフレームワークは、リアルタイムおよびリアルワールドのシナリオでのオープンボキャブラリー物体検出の効率性を向上させることを目的とした、プロンプト・THEN・検出パラダイムを探究しています。

以下の画像に示すように、伝統的な物体検出器は、事前に定義されたカテゴリを持つ固定ボキャブラリーの検出に焦点を当てています。一方、オープンボキャブラリー検出器は、テキストエンコーダーを使用してユーザープロンプトをエンコードしてオープンボキャブラリーを検出します。対照的に、YOLO-Worldのプロンプト・THEN・検出アプローチは、オフラインボキャブラリーを事前に構築します（さまざまなニーズに応じてさまざまなボキャブラリー）。ユーザープロンプトをエンコードして、検出器がリアルタイムでオフラインボキャブラリーを解釈できるようにしますが、プロンプトを再エンコードする必要はありません。

YOLO-World : 方法とアーキテクチャ

リージョン・テキストのペア

伝統的な物体検出フレームワーク、たとえばYOLOファミリーの物体検出器は、インスタンスの注釈が付いたデータセットでトレーニングされます。インスタンスの注釈には、カテゴリラベルとバウンディングボックスが含まれます。一方、YOLO-Worldフレームワークは、インスタンスの注釈をリージョン・テキストのペアとして再定式化します。ここで、テキストは物体の説明、名詞句、またはカテゴリ名になります。YOLO-Worldフレームワークがテキストと画像の両方を入力として受け取り、予測されたバウンディングボックスと対応する物体埋め込みを出力することも注目に値します。

モデルアーキテクチャ

YOLO-Worldモデルは、基本的に、テキストエンコーダー、YOLO検出器、Re-parameterizable Vision-Language Path Aggregation Network（RepVL-PAN）コンポーネントで構成されています。次の画像に示すように。

入力テキストに対して、テキストエンコーダーコンポーネントはテキストをテキスト埋め込みにエンコードし、次にYOLO検出器の画像検出器は入力画像からマルチスケール特徴を抽出します。Re-parameterizable Vision-Language Path Aggregation Network（RepVL-PAN）コンポーネントは、テキストと特徴埋め込みの間のクロスモダリティー・フュージョンを利用して、テキストと画像の表現を強化します。

YOLO検出器

YOLO-Worldモデルは、既存のYOLOv8フレームワークに基づいて構築されており、ダークネットバックボーンコンポーネントを画像エンコーダーとして持ち、物体埋め込みとバウンディングボックス回帰のヘッド、およびマルチスケール特徴ピラミッドのためのPAN（Path Aggression Network）を持っています。

テキストエンコーダー

特定のテキストに対して、YOLO-Worldモデルは、事前トレーニングされたCLIPトランスフォーマーテキストエンコーダーを使用して、対応するテキスト埋め込みを抽出します。YOLO-WorldフレームワークがCLIPテキストエンコーダーを採用する主な理由は、視覚的意味的パフォーマンスが優れており、テキストと視覚的物体を結び付けることができるからです。従来のテキストのみの言語エンコーダーよりも大幅に優れています。しかし、入力テキストがキャプションまたは参照表現である場合、YOLO-Worldモデルは、フレーズを抽出するためにn-gramアルゴリズムを使用します。これらのフレーズは、次にテキストエンコーダーに供給されます。

テキストコントラストヘッド

デカップルヘッドは、以前の物体検出モデルで使用されるコンポーネントであり、YOLO-Worldフレームワークは、デカップルヘッドを2つの3×3の畳み込みで採用して、固定数の物体に対して物体埋め込みとバウンディングボックスを回帰します。YOLO-Worldフレームワークは、L2ノーマライゼーションアプローチとテキスト埋め込みを使用して、物体・テキストの類似性を取得するために、テキストコントラストヘッドを採用します。さらに、YOLO-Worldモデルは、シフト係数と学習可能なスケーリング係数を使用するアフィン変換アプローチを採用し、L2ノーマライゼーションとアフィン変換は、リージョン・テキストのトレーニング中にモデルの安定性を高めます。

オンラインボキャブラリーのトレーニング

トレーニングフェーズ中、YOLO-Worldモデルは、各モザイクサンプル（4枚の画像で構成される）に対してオンラインボキャブラリーを構築します。モデルは、モザイク画像に含まれるすべての正の名詞をサンプリングし、対応するデータセットからランダムに負の名詞をサンプリングします。各サンプルのボキャブラリーには、最大でn個の名詞が含まれます。デフォルト値は80です。

オフラインボキャブラリーの推論

推論中、YOLO-Worldモデルは、オフラインボキャブラリーを使用したプロンプト・THEN・検出戦略を提示して、モデルの効率性をさらに高めます。ユーザーは、カテゴリまたはキャプションを含む可能性のあるカスタムプロンプトのシリーズを定義します。次に、YOLO-Worldモデルは、テキストエンコーダーを使用してこれらのプロンプトをエンコードすることで、オフラインボキャブラリーの埋め込みを取得します。結果として、推論のオフラインボキャブラリーは、モデルが各入力に対する計算を避け、ボキャブラリーを柔軟に調整できるようにします。

Re-parameterizable Vision-Language Path Aggression Network（RevVL-PAN）

次の図は、提案されたRe-parameterizable Vision-Language Path Aggregation Networkの構造を示しています。これは、トップダウンとボトムアップのパスを使用して、マルチスケール特徴画像の特徴ピラミッドを確立します。

テキストと画像の特徴の間の相互作用を強化するために、YOLO-Worldモデルは、画像プーリング・アテンションとテキスト・ガイドのCSPLayer（クロス・ステージ・パーシャル・レイヤー）を提案します。目標は、オープンボキャブラリーの機能を向上させるために、視覚的意味的表現を改善することです。推論中、YOLO-Worldモデルは、オフラインボキャブラリーの埋め込みを、線形または畳み込み層の重みに再パラメータ化して、効率的な展開を実現します。

上記の図からわかるように、YOLO-Worldモデルは、トップダウンまたはボトムアップのフュージョンの後、CSPLayerを使用し、マルチスケール画像特徴にテキストガイダンスを組み込むことで、テキストガイドのCSPLayerを形成します。つまり、CSPLayerを拡張します。特定の画像特徴とその対応するテキスト埋め込みに対して、モデルは最後のボトルネックブロックの後にマックスシグモイド・アテンションを採用して、テキスト特徴を画像特徴に集約します。更新された画像特徴は、クロスステージ特徴と結合され、出力として提示されます。

さらに、YOLO-Worldモデルは、画像プーリング・アテンション層を導入して、画像認識可能な情報でテキスト埋め込みを強化します。画像特徴に対するクロスアテンションを直接使用するのではなく、モデルはマルチスケール特徴に対するマックスプーリングを使用して、3×3のリージョンを取得し、27のパッチトークンを生成します。モデルは、次のステップでテキスト埋め込みを更新します。

事前トレーニングスキーム

YOLO-Worldモデルは、2つの主な事前トレーニングスキームを使用します。リージョン・テキスト・コントラスト損失からの学習と、画像・テキストデータによる疑似ラベル付けです。主な事前トレーニングスキームでは、モデルは、特定のテキストとモザイクサンプルに対する物体の予測と注釈を出力します。YOLO-Worldフレームワークは、タスク割り当てラベル割り当てを使用して、予測をグラウンドトゥルースの注釈と一致させ、個々の正の予測にテキストインデックス（分類ラベルとして機能する）を割り当てます。一方、画像・テキストデータによる疑似ラベル付けの事前トレーニングスキームでは、画像・テキストのペアを使用してリージョン・テキストのペアを生成する自動ラベル付けアプローチを提案します。提案されたラベル付けアプローチは、3つのステップで構成されます：名詞句の抽出、疑似ラベル付け、フィルタリング。最初のステップでは、n-gramアルゴリズムを使用して入力テキストから名詞句を抽出します。2番目のステップでは、事前トレーニングされたオープンボキャブラリー検出器を使用して、個々の画像に対して指定された名詞句の疑似ボックスを生成します。3番目で最後のステップでは、事前トレーニングされたCLIPフレームワークを使用して、リージョン・テキストとテキスト・画像のペアの関連性を評価し、モデルは低関連性の疑似画像と注釈をフィルタリングします。

YOLO-World : 結果

YOLO-Worldモデルが事前トレーニングされた後、ゼロショット設定でLVISデータセット上で直接評価されます。LVISデータセットには、1200以上のカテゴリが含まれており、これは、オープンボキャブラリー検出のパフォーマンスをテストするために使用される既存のフレームワークの事前トレーニングデータセットよりもはるかに多くのカテゴリです。次の図は、ゼロショット設定でLVISデータセット上のYOLO-Worldフレームワークと一部の既存の最先端の物体検出フレームワークのパフォーマンスを示しています。

観察すると、YOLO-Worldフレームワークは、推論速度とゼロショットのパフォーマンスで、多くの既存のフレームワークを上回っています。さらに、Grounding DINO、GLIP、GLIPv2などのフレームワークは、より多くのデータを組み込んでいます。全体的な結果は、小さな物体検出モデル、たとえばYOLO-World-S（1300万パラメータのみ）が、オープンボキャブラリーの機能でビジョン言語タスクに事前トレーニングされる可能性があることを示しています。

最終的な考え

この記事では、YOLO-Worldについて説明しました。これは、YOLO（You Only Look Once）フレームワークにオープンボキャブラリー検出機能を付加するための革新的アプローチです。具体的には、大規模なデータセットで事前トレーニングを行い、ビジョン言語モデリングアプローチを実装することで、Re-parameterizable Vision-Language Path Aggregation Network（RepVL-PAN）とリージョン・テキスト・コントラスト損失を使用して、言語情報と視覚情報の間の相互作用を促進します。RepVL-PANとリージョン・テキスト・コントラスト損失を使用することで、YOLO-Worldフレームワークはゼロショット設定で幅広い物体を正確に検出できます。また、オープンボキャブラリーのセグメンテーションと物体検出タスクで優れたパフォーマンスを示しています。