スタブ YOLO-World: リアルタイムのオープンボキャブラリーオブジェクト検出 - Unite.AI
私達と接続

Artificial Intelligence

YOLO-World: リアルタイムのオープンボキャブラリーオブジェクト検出

mm

公開済み

 on

物体検出は、世界における根本的な課題でした。 コンピュータビジョン ロボット工学、画像理解、自動運転車などのアプリケーションを備えた産業 画像認識。近年、特にディープ ニューラル ネットワークを通じた AI の画期的な研究により、物体検出が大幅に進歩しました。ただし、これらのモデルには固定語彙があり、COCO データセットの 80 カテゴリ内のオブジェクトの検出に限定されています。この制限は、オブジェクト検出器が特定のカテゴリのみを認識するようにトレーニングされるトレーニング プロセスに起因するため、その適用性が制限されます。

これを克服するために、オープン語彙検出機能を備えた YOLO (You Only Look Once) フレームワークを強化することを目的とした革新的なアプローチである YOLO-World を導入します。これは、大規模なデータセットでフレームワークを事前トレーニングし、ビジョン言語モデリング アプローチを実装することによって実現されます。具体的には、YOLO-World は、再パラメータ化可能な視覚言語パス集約ネットワーク (RepVL-PAN) と領域テキストのコントラスト損失を採用して、言語情報と視覚情報の間の相互作用を促進します。 RepVL-PAN と領域テキストのコントラスト損失により、YOLO-World はゼロショット設定で広範囲のオブジェクトを正確に検出でき、オープンボキャブラリーのセグメンテーションとオブジェクト検出タスクで顕著なパフォーマンスを示します。

この記事は、YOLO-World の技術的基盤、モデル アーキテクチャ、トレーニング プロセス、およびアプリケーション シナリオを徹底的に理解することを目的としています。飛び込んでみましょう。

YOLO-World: リアルタイムのオープンボキャブラリーオブジェクト検出

YOLO (You Only Look Once) は、コンピューター ビジョン業界における現代の物体検出の最も一般的な方法の 1 つです。驚異的なスピードと効率性で知られる、 YOLO このメカニズムは、機械が画像やビデオ内の特定のオブジェクトをリアルタイムで解釈して検出する方法に革命をもたらしました。従来の物体検出フレームワークは、2 段階の物体検出アプローチを実装しています。最初のステップで、フレームワークは物体を含む可能性のある領域を提案し、次のステップでフレームワークは物体を分類します。一方、YOLO フレームワークは、これら 2 つのステップを単一のニューラル ネットワーク モデルに統合します。このアプローチにより、フレームワークは画像を 1 回だけ確認して、画像内のオブジェクトとその位置を予測できるため、YOLO または You という名前が付けられました。一度だけ見てください。 

さらに、YOLO フレームワークはオブジェクト検出を回帰問題として扱い、クラス確率と境界ボックスを画像全体から直接、一目で予測します。この手法を実装すると、検出プロセスの速度が向上するだけでなく、複雑で多様なデータから一般化するモデルの能力も強化されるため、自動運転、速度検出、番号検出などのリアルタイムで動作するアプリケーションに適した選択肢になります。プレート認識。さらに、ここ数年のディープ ニューラル ネットワークの大幅な進歩も物体検出フレームワークの開発に大きく貢献しましたが、物体検出フレームワークは限られた語彙でしか物体を検出できないため、その成功は依然として限定的です。これは主に、データセット内でオブジェクト カテゴリが定義されラベル付けされると、フレームワーク内のトレーニングされた検出器はこれらの特定のカテゴリのみを認識できるため、リアルタイムおよびオープン シナリオでのオブジェクト検出モデルの展開の適用性と能力が制限されるためです。 

さらに、最近開発されたビジョン言語モデルは、言語エンコーダーから抽出された語彙知識を利用して、オープン語彙の検出に対処します。これらのフレームワークは、オープン語彙検出において従来の物体検出モデルよりも優れたパフォーマンスを発揮しますが、語彙の多様性が限られたトレーニング データが入手困難であるため、適用性は依然として限られています。さらに、選択されたフレームワークは、オープン語彙オブジェクト検出器を大規模にトレーニングし、トレーニングオブジェクト検出器を領域レベルの視覚言語の事前トレーニングとして分類します。ただし、このアプローチでは、エッジ デバイスの複雑な展開プロセスと大量の計算要件という 2 つの主な理由により、オブジェクトをリアルタイムで検出するのがまだ困難です。良い点としては、これらのフレームワークは、オープンな認識機能を使用するために大型の検出器を事前トレーニングすることで肯定的な結果が得られることを実証しています。 

YOLO-World フレームワークは、高効率のオープン語彙オブジェクト検出を実現することを目的としており、オープン語彙オブジェクト検出のための従来の YOLO 検出器の効率を高める大規模な事前トレーニング アプローチの可能性を探ります。これまでの物体検出とは対照的に、YOLO-World フレームワークは高い推論速度で驚くべき効率を示し、ダウンストリーム アプリケーションに簡単に導入できます。 YOLO-World モデルは、従来の YOLO アーキテクチャに従っており、事前トレーニングされた CLIP テキスト エンコーダーの機能を活用して入力テキストをエンコードします。さらに、YOLO-World フレームワークには、画像とテキストの特徴を接続して視覚的意味論的表現を強化するための再パラメータ化可能なビジョン言語パス集約ネットワーク (RepVL-PAN) コンポーネントがそのアーキテクチャに含まれています。推論フェーズ中に、フレームワークはテキスト エンコーダーを削除し、テキストの埋め込みを RepVL-PAN の重みに再パラメータ化して、効率的な展開を実現します。このフレームワークには、従来の YOLO モデルのオープン語彙事前トレーニング方法を研究するためのフレームワークに、領域テキスト対比学習も含まれています。領域-テキスト対比学習法は、画像-テキスト データ、グラウンディング データ、および検出データを領域-テキスト ペアに統合します。これに基づいて、地域とテキストのペアで事前トレーニングされた YOLO-World フレームワークは、オープンで大量の語彙を検出するための優れた機能を実証します。さらに、YOLO-World フレームワークは、リアルタイムおよび現実世界のシナリオにおけるオープン語彙オブジェクト検出の効率を高めることを目的として、即時検出パラダイムも検討しています。 

次の図に示すように、従来のオブジェクト検出器は、事前定義されたカテゴリによる固定語彙の近いセットの検出に焦点を当てますが、オープン語彙検出器は、オープン語彙用のテキスト エンコーダを使用してユーザー プロンプトをエンコードすることによってオブジェクトを検出します。比較すると、YOLO-World のプロンプトから検出のアプローチでは、まずユーザー プロンプトをエンコードすることでオフライン ボキャブラリー (さまざまなニーズに応じたさまざまなボキャブラリー) を構築します。これにより、プロンプトを再エンコードすることなく、検出器がオフライン ボキャブラリーをリアルタイムで解釈できるようになります。 

YOLO-World : メソッドとアーキテクチャ

領域とテキストのペア

従来、オブジェクト検出フレームワークには、 YOLO オブジェクト検出器のファミリーは、カテゴリ ラベルと境界ボックスを含むインスタンス アノテーションを使用してトレーニングされます。対照的に、YOLO-World フレームワークは、インスタンス アノテーションを領域とテキストのペアとして再定式化します。テキストは、オブジェクトの説明、名詞句、またはカテゴリ名にすることができます。 YOLO-World フレームワークは、テキストと画像の両方を入力および出力の予測ボックスとして採用し、対応するオブジェクトの埋め込みを備えていることは指摘する価値があります。 

モデルアーキテクチャ

次の図に示すように、YOLO-World モデルの中核は、テキスト エンコーダー、YOLO 検出器、および再パラメーター化可能なビジョン言語パス集約ネットワーク (RepVL-PAN) コンポーネントで構成されます。 

入力テキストの場合、テキスト エンコーダ コンポーネントはテキストをテキスト埋め込みにエンコードし、続いて YOLO 検出器コンポーネントの画像検出器によって入力画像からマルチスケール特徴が抽出されます。次に、再パラメータ化可能なビジョン言語パス集約ネットワーク (RepVL-PAN) コンポーネントは、テキストと特徴の埋め込み間のクロスモダリティの融合を利用して、テキストと画像の表現を強化します。 

YOLO 検出器

YOLO-World モデルは、画像エンコーダーとしての Darknet バックボーン コンポーネント、オブジェクトの埋め込みとバウンディング ボックス回帰用のヘッド、およびマルチスケールの特徴ピラミッド用の PAN またはパス アグレッション ネットワークを含む既存の YOLOv8 フレームワーク上に構築されています。 

テキストエンコーダ

特定のテキストに対して、YOLO-World モデルは、特定の数の名詞と埋め込み次元を備えた事前トレーニング済みの CLIP Transformer テキスト エンコーダを採用することにより、対応するテキスト埋め込みを抽出します。 YOLO-World フレームワークが CLIP テキスト エンコーダを採用する主な理由は、テキストとビジュアル オブジェクトを結び付ける視覚的意味論的なパフォーマンスが向上し、従来のテキストのみの言語エンコーダよりも大幅に優れたパフォーマンスを提供するためです。ただし、入力テキストがキャプションまたは参照表現の場合、YOLO-World モデルはより単純な N グラム アルゴリズムを選択してフレーズを抽出します。これらのフレーズはテキスト エンコーダーに供給されます。 

テキストの対照的な頭

分離ヘッドは、以前のオブジェクト検出モデルで利用されていたコンポーネントであり、YOLO-World フレームワークは、固定数のオブジェクトのオブジェクトの埋め込みと境界ボックスを回帰するために、デュアル 3×3 畳み込みを備えた分離ヘッドを採用しています。 YOLO-World フレームワークは、テキスト対比ヘッドを採用し、L2 正規化アプローチとテキスト埋め込みを使用してオブジェクトとテキストの類似性を取得します。さらに、YOLO-World モデルは、シフト係数と学習可能なスケーリング係数を使用したアフィン変換アプローチも採用しており、L2 正規化とアフィン変換により、領域テキストのトレーニング中のモデルの安定性が向上します。 

オンライン語彙トレーニング

トレーニング段階では、YOLO-World モデルは、それぞれ 4 つの画像で構成されるモザイク サンプルごとにオンライン語彙を構築します。モデルは、モザイク画像に含まれるすべての肯定的な名詞をサンプリングし、対応するデータセットからいくつかの否定的な名詞をランダムにサンプリングします。各サンプルの語彙は最大 n 個の名詞で構成され、デフォルト値は 80 です。 

オフライン語彙推論

推論中、YOLO-World モデルは、オフライン語彙を使用した即時検出戦略を提示し、モデルの効率をさらに高めます。ユーザーはまず、カテゴリやキャプションを含む一連のカスタム プロンプトを定義します。次に、YOLO-World モデルは、テキスト エンコーダーを利用してこれらのプロンプトをエンコードすることにより、オフライン語彙埋め込みを取得します。その結果、推論用のオフライン語彙は、モデルが各入力の計算を回避するのに役立ち、またモデルが要件に応じて語彙を柔軟に調整できるようになります。 

再パラメータ化可能なビジョン言語パス アグレッション ネットワーク (RevVL-PAN)

次の図は、提案された再パラメータ化可能な視覚言語パス アグレッション ネットワークの構造を示しています。このネットワークは、トップダウンおよびボトムアップのパスに従って、マルチスケールの特徴画像を含む特徴ピラミッドを確立します。 

テキストと画像の特徴間の相互作用を強化するために、YOLO-World モデルは、オープンボキャブラリ機能の視覚的意味表現を改善することを最終的な目的として、画像プーリング アテンションとテキストガイド付き CSPLayer (クロスステージ部分レイヤー) を提案します。推論中に、YOLO-World モデルは、効果的な展開のために線形層または畳み込み層の重みに埋め込まれたオフライン語彙を再パラメータ化します。 

上の図からわかるように、YOLO-World モデルは、トップダウンまたはボトムアップの融合後に CSPLayer を利用し、マルチスケールの画像特徴にテキスト ガイダンスを組み込んで、テキスト ガイド付き CSPLayer を形成します。 CSPレイヤー。特定の画像特徴とそれに対応するテキスト埋め込みについて、モデルは最後のボトルネック ブロックの後にマックス シグモイド アテンションを採用して、テキスト特徴を画像特徴に集約します。更新された画像特徴は、クロスステージ特徴と連結され、出力として表示されます。 

 次に、YOLO-World モデルは画像特徴を集約し、画像プーリング アテンション レイヤーを導入してテキスト埋め込みを更新し、画像を意識した情報でテキスト埋め込みを強化します。画像特徴に直接クロスアテンションを使用する代わりに、モデルはマルチスケール特徴で最大プーリングを活用して 3×3 領域を取得し、次のステップでテキスト埋め込みを更新するモデルで 27 個のパッチ トークンが得られます。 

事前トレーニングスキーム

YOLO-World モデルは、領域テキストのコントラスト損失からの学習と画像テキスト データによる擬似ラベリングという 2 つの主要な事前トレーニング スキームに従います。主要な事前トレーニング スキームの場合、モデルは、指定されたテキストおよびモザイク サンプルの注釈とともにオブジェクト予測を出力します。 YOLO-World フレームワークは、タスクに割り当てられたラベル割り当てに従い、活用することで、予測をグラウンド トゥルースの注釈と照合し、分類ラベルとして機能するテキスト インデックスを使用して個々の肯定的な予測を割り当てます。一方、画像テキスト データによる擬似ラベリングの事前トレーニング スキームでは、画像とテキストのペアを使用して領域とテキストのペアを生成する代わりに、自動ラベリング アプローチを使用することを提案しています。提案されたラベル付けアプローチは、次の 3 つのステップで構成されます。 名詞句の抽出、擬似ラベル付け、およびフィルタリング。 最初のステップでは、n-gram アルゴリズムを利用して入力テキストから名詞句を抽出します。2 番目のステップでは、事前にトレーニングされたオープン語彙検出器を採用して、個々の画像に対して指定された名詞句の疑似ボックスを生成します。一方、3 番目と最後のステップでは、事前トレーニングされた CLIP フレームワークにより、領域とテキストおよびテキストと画像のペアの関連性を評価し、その後、モデルが関連性の低い疑似画像と注釈をフィルタリングします。 

YOLO-World : 結果

YOLO-World モデルが事前トレーニングされると、LVIS データセット上でゼロショット設定で直接評価されます。LVIS データセットは 1200 以上のカテゴリで構成され、既存のフレームワークでテストに使用される事前トレーニング データセットよりも大幅に多くなります。大量の語彙の検出におけるパフォーマンス。次の図は、ゼロショット設定での LVIS データセット上の既存の最先端の物体検出フレームワークの一部を使用した YOLO-World フレームワークのパフォーマンスを示しています。 

ご覧のとおり、YOLO-World フレームワークは、より多くのデータを組み込む Grounding DINO、GLIP、GLIPv2 などのフレームワークであっても、推論速度とゼロショット パフォーマンスの点で既存のフレームワークの大部分を上回っています。全体として、この結果は、わずか 13 万個のパラメーターを備えた YOLO-World-S のような小さな物体検出モデルが、顕著なオープン語彙機能を備えた視覚言語タスクの事前トレーニングに利用できることを示しています。 

最終的な考え

この記事では、YOLO-World について説明しました。これは、大規模なデータセットでフレームワークを事前トレーニングし、視覚言語モデリングのアプローチ。より具体的には、YOLO-World フレームワークは、言語情報と視覚情報の間の相互作用を促進するために、再パラメータ化可能な視覚言語パス集約ネットワーク (RepVL-PAN) と領域テキストのコントラスト損失を実装することを提案しています。 RepVL-PAN と領域テキストのコントラスト損失を実装することにより、YOLO-World フレームワークはゼロショット設定で広範囲のオブジェクトを正確かつ効果的に検出できます。

「職業はエンジニア、心は作家」。 Kunal は、AI と ML に対する深い愛情と理解を備えたテクニカル ライターであり、魅力的で有益なドキュメントを通じてこれらの分野の複雑な概念を簡素化することに専念しています。