人工知能
YOLO-World:リアルタイムオープンボキャブラリー物体検出
物体検出は、コンピュータビジョン業界における基本的な課題であり、ロボティクス、画像理解、自動運転、画像認識などの分野で応用されています。近年、AI、特にディープニューラルネットワークの研究が進歩し、物体検出の精度が大幅に向上しました。しかし、これらのモデルには、COCOデータセットの80カテゴリに限定された固定ボキャブラリーの制限があります。この制限は、トレーニングプロセスで生じるものであり、物体検出器は特定のカテゴリのみを認識するように設計されています。したがって、実世界での応用性が制限されます。
これを克服するために、YOLO-Worldという革新的なアプローチを導入します。YOLO(You Only Look Once)フレームワークをオープンボキャブラリー検出能力で強化することを目的とします。これは、大規模データセットで事前トレーニングを行い、ビジョン言語モデリングアプローチを実装することで実現します。具体的には、YOLO-Worldは、Re-parameterizable Vision-Language Path Aggregation Network(RepVL-PAN)とリージョンテキストコントラストロスを使用して、言語情報と視覚情報の間の相互作用を促進します。RepVL-PANとリージョンテキストコントラストロスを使用することで、YOLO-Worldは、ゼロショット設定で幅広い物体を正確に検出できることを実証しています。
この記事では、YOLO-Worldの技術的基礎、モデルアーキテクチャ、トレーニングプロセス、アプリケーションシナリオについて詳細に説明します。詳しく見てみましょう。
YOLO-World:リアルタイムオープンボキャブラリー物体検出
YOLO(You Only Look Once)は、現代の物体検出において最も人気のある方法の1つです。YOLOメカニズムの登場により、コンピュータビジョン業界における物体検出の方法が革命的に変わりました。従来の物体検出フレームワークは、2ステップの物体検出アプローチを実装しています。最初のステップでは、物体が含まれる可能性のあるリージョンを提案し、2番目のステップでは物体を分类します。一方、YOLOフレームワークは、これらの2つのステップを1つのニューラルネットワークモデルに統合し、画像を1回見るだけで物体とその位置を予測できるため、YOLOまたはYou Only Look Onceと呼ばれています。
さらに、YOLOフレームワークは、物体検出を回帰問題として扱い、クラス確率とバウンディングボックスを直接予測します。これにより、検出プロセスの速度が向上し、モデルが複雑で多様なデータから一般化する能力が強化され、リアルタイムで動作するアプリケーション(例:自動運転、速度検出、ナンバープレート認識)に適した選択となります。また、近年におけるディープニューラルネットワークの進歩も、物体検出フレームワークの開発に大幅に貢献しています。しかし、物体検出フレームワークの成功はまだ限られており、検出可能な物体が限定されたボキャブラリーに制限されています。これは、物体カテゴリがデータセットで定義され、ラベル付けされた後、トレーニングされた検出器がこれらの特定のカテゴリのみを認識できるため、実世界での応用性が制限されるためです。
最近開発されたビジョン言語モデルは、言語エンコーダーから蒸留されたボキャブラリー知識を使用して、オープンボキャブラリー検出を実現します。ただし、これらのフレームワークは、トレーニングデータのボキャブラリー多様性が乏しいため、まだ限られた応用性しかありません。さらに、選択されたフレームワークは、オープンボキャブラリー物体検出器を大規模にトレーニングし、トレーニング物体検出器をリージョンレベルのビジョン言語事前トレーニングとして分类します。しかし、このアプローチは、エッジデバイスへのデプロイプロセスの複雑さと、重い計算要件の2つの理由により、リアルタイムで物体を検出するのに苦労しています。一方で、これらのフレームワークは、オープン認識能力を備えた大型検出器を事前トレーニングすることで、好ましい結果を示しています。
YOLO-Worldフレームワークは、高効率のオープンボキャブラリー物体検出を実現し、大規模事前トレーニングアプローチを使用して従来のYOLO検出器の効率を向上させることを目的とします。従来の物体検出とは異なり、YOLO-Worldフレームワークは、高い推論速度と簡単なデプロイプロセスを実現します。YOLO-Worldモデルは、従来のYOLOアーキテクチャに基づいており、入力テキストを事前トレーニングされたCLIPテキストエンコーダーを使用してエンコードします。さらに、YOLO-Worldフレームワークには、画像とテキストの特徴を結合して視覚セマンティック表現を強化するために、Re-parameterizable Vision-Language Path Aggregation Network(RepVL-PAN)コンポーネントが含まれています。推論フェーズでは、フレームワークはテキストエンコーダーを削除し、テキストエンベッディングをRepVL-PANの重みに再パラメータ化することで、効率的なデプロイを実現します。フレームワークには、従来のYOLOモデルに対するオープンボキャブラリー事前トレーニング方法を研究するために、リージョンテキストコントラスト学習も含まれています。リージョンテキストコントラスト学習方法は、画像テキストデータ、グラウンディングデータ、検出データをリージョンテキストペアに統合します。リージョンテキストペアで事前トレーニングされたYOLO-Worldフレームワークは、オープンおよび大規模ボキャブラリー検出に際して卓越した能力を示しています。さらに、YOLO-Worldフレームワークは、リアルタイムおよびリアルワールドシナリオでのオープンボキャブラリー物体検出の効率を向上させることを目的とした、プロンプトして検出するパラダイムを探索しています。
以下の画像のように、従来の物体検出器は、事前に定義された固定ボキャブラリーのクローズドセットに焦点を当てていますが、オープンボキャブラリー検出器は、テキストエンコーダーを使用してユーザープロンプトをエンコードすることで、オープンボキャブラリーを検出します。YOLO-Worldのプロンプトして検出するアプローチは、オフラインボキャブラリー(異なるニーズに応じて異なるボキャブラリー)をユーザープロンプトをエンコードすることで構築し、検出器がリアルタイムでオフラインボキャブラリーを解釈できるようにします。

YOLO-World :方法とアーキテクチャ
リージョンテキストペア
従来の物体検出フレームワーク、特にYOLOファミリーの物体検出器は、カテゴリラベルとバウンディングボックスを含むインスタンス注釈を使用してトレーニングされます。一方、YOLO-Worldフレームワークは、インスタンス注釈をリージョンテキストペアとして再定式化します。ここで、テキストは物体の説明、名詞句、またはカテゴリ名になります。YOLO-Worldフレームワークは、テキストと画像の両方を入力として受け取り、予測されたボックスとその対応する物体エンベッディングを出力します。
モデルアーキテクチャ
YOLO-Worldモデルは、テキストエンコーダー、YOLO検出器、Re-parameterizable Vision-Language Path Aggregation Network(RepVL-PAN)コンポーネントで構成されています。入力テキストに対して、テキストエンコーダーコンポーネントはテキストをテキストエンベッディングにエンコードし、YOLO検出器コンポーネントは入力画像からマルチスケール特徴を抽出します。RepVL-PANコンポーネントは、テキストと特徴エンベッディングの間のクロスモダリティフュージョンを利用して、テキストと画像の表現を強化します。
YOLO検出器
YOLO-Worldモデルは、YOLOv8フレームワークに基づいており、ダークネットバックボーンコンポーネントを画像エンコーダーとして、オブジェクトエンベッディングとバウンディングボックス回帰のヘッド、およびマルチスケール特徴ピラミッドのためのパスアグリゲーションネットワーク(PAN)コンポーネントを含みます。
テキストエンコーダー
YOLO-Worldモデルは、特定の数の名詞とエンベッディング次元を使用して、事前トレーニングされたCLIPトランスフォーマーテキストエンコーダーを採用して、テキストエンベッディングを抽出します。YOLO-WorldフレームワークがCLIPテキストエンコーダーを採用する主な理由は、視覚セマンティックパフォーマンスが優れており、テキストを視覚オブジェクトに接続するのに役立つからです。ただし、入力テキストがキャプションまたは参照表現の場合、YOLO-Worldモデルは、フレーズを抽出するためにn-gramアルゴリズムを使用します。これらのフレーズは、次にテキストエンコーダーに供給されます。
テキストコントラストヘッド
YOLO-Worldフレームワークは、オブジェクトテキスト類似度を取得するために、L2ノーマライゼーションアプローチとテキストエンベッディングを使用して、テキストコントラストヘッドを採用します。さらに、YOLO-Worldモデルは、シフト係数と学習可能なスケーリング係数を使用して、アフィン変換アプローチを採用し、L2ノーマライゼーションとアフィン変換がリージョンテキストトレーニング中にモデルの安定性を高めます。
オンラインボキャブラリー訓練
トレーニングフェーズ中、YOLO-Worldモデルは、各モザイクサンプル(4枚の画像)に対してオンラインボキャブラリーを構築します。モデルは、モザイク画像に含まれるすべての正の名詞をサンプリングし、対応するデータセットからランダムに負の名詞をサンプリングします。各サンプルのボキャブラリーは、最大でn個の名詞で構成され、デフォルト値は80です。
オフラインボキャブラリー推論
推論中、YOLO-Worldモデルは、オフラインボキャブラリーを使用したプロンプトして検出戦略を提示します。ユーザーは、カテゴリまたはキャプションを含むカスタムプロンプトのシリーズを定義します。YOLO-Worldモデルは、テキストエンコーダーを使用してこれらのプロンプトをエンコードすることで、オフラインボキャブラリーエンベッディングを取得します。結果として、推論のオフラインボキャブラリーは、モデルが各入力に対する計算を避け、ボキャブラリーを柔軟に調整できるようにします。
Re-parameterizable Vision-Language Path Aggression Network(RevVL-PAN)
以下の図は、提案されたRe-parameterizable Vision-Language Path Aggression Networkの構造を示しています。これは、トップダウンとボトムアップのパスに沿って、マルチスケール特徴ピラミッドを確立します。

画像とテキストの特徴間の相互作用を強化するために、YOLO-Worldモデルは、Image-Pooling AttentionとText-Guided CSPLayer(Cross-Stage Partial Layers)を提案します。視覚セマンティック表現を改善するために、YOLO-Worldモデルは、推論中にオフラインボキャブラリーのエンベッディングを、線形または畳み込み層の重みに再パラメータ化します。
上の図からわかるように、YOLO-Worldモデルは、トップダウンまたはボトムアップのフュージョンの後、CSPLayerを使用し、テキストガイダンスをマルチスケール画像特徴に組み込み、Text-Guided CSPLayerを形成します。つまり、CSPLayerを拡張します。画像特徴とその対応するテキストエンベッディングに対して、モデルは、最後のボトルネックブロックの後にマックスシグモイド注意を採用して、テキスト特徴を画像特徴に集約します。更新された画像特徴は、クロスステージ特徴に結合され、出力として提示されます。
さらに、YOLO-Worldモデルは、画像特徴を使用してテキストエンベッディングを更新するために、Image Pooling Attentionレイヤーを導入して、画像認識可能な情報でテキストエンベッディングを強化します。画像特徴に直接クロスアテンションを使用するのではなく、モデルはマルチスケール特徴に対してマックスプーリングを使用して、3×3のリージョンを取得し、27個のパッチトークンを生成します。モデルは、次のステップでテキストエンベッディングを更新します。
事前トレーニングスキーム
YOLO-Worldモデルは、2つの主要な事前トレーニングスキームを使用します。リージョンテキストコントラストロスから学習することと、画像テキストデータを使用した疑似ラベリングです。主要な事前トレーニングスキームでは、モデルは、与えられたテキストとモザイクサンプルに対して、オブジェクト予測と注釈を出力します。YOLO-Worldフレームワークは、予測をグラウンドトゥルース注釈と一致させるために、タスク割り当てラベル割り当てを使用し、個々の正の予測にテキストインデックスを割り当てます。テキストインデックスは、分類ラベルとして機能します。一方、画像テキストデータを使用した疑似ラベリング事前トレーニングスキームでは、画像テキストペアを使用してリージョンテキストペアを生成する代わりに、自動ラベリングアプローチを提案します。提案されたラベリングアプローチは、3つのステップで構成されます。
YOLO-World :結果
YOLO-Worldモデルが事前トレーニングされた後、ゼロショット設定でLVISデータセット上で評価されます。LVISデータセットには、1200以上のカテゴリがあり、従来のフレームワークが大規模ボキャブラリー検出のパフォーマンスをテストするために使用する事前トレーニングデータセットよりもはるかに多くのカテゴリがあります。以下の図は、ゼロショット設定でLVISデータセット上でのYOLO-Worldフレームワークと一部の既存の最先端物体検出フレームワークのパフォーマンスを示しています。

観察すると、YOLO-Worldフレームワークは、推論速度とゼロショットパフォーマンスの両方で、多くの既存のフレームワークを上回っています。さらに、Grounding DINO、GLIP、GLIPv2などのフレームワークは、より多くのデータを使用しています。全体的な結果は、小さな物体検出モデル(例:YOLO-World-S、1300万パラメータのみ)が、オープンボキャブラリー能力で注目に値する成果を上げることができることを示しています。
最終的な考え
この記事では、YOLO-Worldについて説明しました。YOLO-Worldは、YOLO(You Only Look Once)フレームワークを大規模データセットで事前トレーニングし、ビジョン言語モデリングアプローチを実装することで、オープンボキャブラリー検出能力を強化することを目的とした革新的なアプローチです。具体的には、YOLO-Worldは、Re-parameterizable Vision-Language Path Aggregation Network(RepVL-PAN)とリージョンテキストコントラストロスを使用して、言語情報と視覚情報の間の相互作用を促進します。RepVL-PANとリージョンテキストコントラストロスを使用することで、YOLO-Worldは、ゼロショット設定で幅広い物体を正確に検出できることを実証しています。












