人工知能
オスプレイ:ピクセルレベルの理解を実現するためのビジュアルインストラクションチューニング

最近のビジュアルインストラクションチューニング方法の進歩により、多モーダル大規模言語モデル(MLLMs)は、優れた汎用的なビジュアル言語能力を示しています。これらの能力により、MLLMsは現代の汎用的なビジュアルアシスタントの重要な構成要素となります。最近のモデル、MiniGPT-4、LLaVA、InstructBLIPなどは、印象的なビジュアル推論とインストラクションの実行能力を示しています。ただし、これらのモデルは主に画像テキストのペアに基づいて画像レベルのビジュアル言語の整合を実現しているため、画像レベルのドメインでは優れたパフォーマンスを発揮します。しかし、これらのモデルの画像レベルの理解とボックスレベルの理解に依存していることが、MLLMsがピクセルレベルのビジュアル言語の整合タスクでそのパフォーマンスを再現できない主な理由です。さらに、トレーニング用のマスクベースのインストラクションデータの限られた可用性も、MLLMsのさらなる強化を妨げています。
オスプレイは、マスクテキストインストラクショントレーニング方法であり、MLLMsを拡張することを目的としています。オスプレイは、言語インストラクションに細粒度のマスクされた領域を組み込むことで、ピクセルレベルのビジュアル言語の理解を実現します。オスプレイフレームワークは、マスクベースのリージョンテキストデータセットを700千以上のサンプルでキュレーションし、LLMにピクセルレベルの表現を注入して、ビジュアル言語モデルを設計します。オスプレイフレームワークは、CNNベースのCLIPモデルをビジョンエンコーダーとして採用し、マスク認識可能なビジュアルエクストラクターを統合して、高解像度入力からのビジュアルマスク特徴の精密抽出を可能にします。
この記事では、オスプレイフレームワークとそのアーキテクチャについて詳しく説明します。また、700千以上のサンプルを持つキュレーションされたリージョンテキストデータセットと、さまざまなリージョン理解タスクでのパフォーマンスを比較します。では、始めましょう。
オスプレイ:ピクセルレベルの理解を実現するためのビジュアルインストラクションチューニング
多モーダル大規模言語モデル、例えばMiniGPT-4、Otter、Qwen-LV、InstructBLIPなどは、汎用的なビジュアルアシスタントの開発における先駆者であり、優れた多モーダルおよびビジュアル生成能力で知られています。ただし、多モーダル大規模言語モデルは、細粒度の画像理解タスク、例えばキャプション作成、リージョン分類、推論などで不十分な結果をもたらします。これらのタスクでの不十分なパフォーマンスの主な理由は、リージョンレベルの整合が不足していることです。最近のMLLMs、例えばGPT4RoI、Shikraなどは、オブジェクトレベルのリージョンを処理し、空間特徴を使用して、ビジュアルインストラクションチューニングを実現することで、ビジュアル言語モデルのリージョンレベルの理解を可能にしようとしています。
オスプレイ:方法論とアーキテクチャ
以下の図は、オスプレイフレームワークのアーキテクチャの概要を示しています。オスプレイフレームワークは、大規模言語モデル、ピクセルレベルのマスク認識可能なビジュアルエクストラクター、画像レベルのビジョンエンコーダーで構成されています。
畳み込みベースのCLIPビジョンエンコーダー
ビジョンエンコーダーは、多くの多モーダル大規模言語モデルで使用されています。オスプレイフレームワークは、畳み込みベースのCLIPモデルをビジョンエンコーダーとして採用しています。伝統的な畳み込みニューラルネットワークベースのCLIPモデルは、異なる入力解像度に対する優れた汎用性を示しています。畳み込みベースのCLIPモデルを使用することで、オスプレイフレームワークは、モデルパフォーマンスを損なうことなく、高速な推論と効率的なトレーニングを可能にします。
マスク認識可能なビジュアルエクストラクター
オスプレイフレームワークは、詳細なマスク領域を使用して、オブジェクトベースの表現を実現します。オスプレイモデルは、マスク認識可能なビジュアルエクストラクターコンポーネントを使用して、各オブジェクト領域内のピクセルレベルの特徴を抽出します。
LLMトークン化
オスプレイフレームワークは、事前トレーニングされたLLMトークナイザーを使用して、テキストシーケンスをトークン化し、テキスト埋め込みを生成します。マスクベースの領域については、特殊トークンを定義し、空間トークンとマスクトークンを組み合わせて、完全な文を生成します。
オスプレイ:3段階のトレーニングプロセス
オスプレイフレームワークは、3段階のトレーニングプロセスを採用しています。各トレーニング段階は、次のトークンの予測損失を最小化することで監督されます。
ステージ1:画像テキスト整合トレーニング
最初のステージでは、オスプレイフレームワークは、CNNベースのCLIPビジョンエンコーダーを使用して、画像レベルの特徴と言語コネクターをトレーニングします。
ステージ2:マスクテキスト整合事前トレーニング
2番目のステージでは、オスプレイフレームワークは、事前トレーニングされたマスク認識可能なビジュアルエクストラクターを使用して、言語埋め込みとマスクベースの領域特徴を整合します。
ステージ3:エンドツーエンドのファインチューニング
3番目のステージでは、オスプレイフレームワークは、ビジョンエンコーダーの重みを固定し、大規模言語モデル、マスクベースの領域特徴抽出器、画像レベルのプロジェクターをファインチューニングします。
オスプレイ:実験結果
オスプレイの開発者は、オスプレイの能力を示すために、分類、ピクセルレベルの領域認識、複雑な説明などのタスクでオスプレイを評価しました。
オープンボキャブラリー分割
オープンボキャブラリー分割の主な目標は、入力テキストプロンプトに基づいて、マスクベースの領域認識とそのカテゴリを明示的に生成することです。
参照オブジェクト分類
オスプレイフレームワークは、参照オブジェクト分類タスクで優れたパフォーマンスを示しました。
詳細なリージョン記述
オスプレイフレームワークは、詳細なリージョン記述タスクで優れたパフォーマンスを示しました。
リージョンレベルのキャプション作成
オスプレイフレームワークは、リージョンレベルのキャプション作成タスクで優れたパフォーマンスを示しました。
最終的な考え
この記事では、オスプレイについて説明しました。オスプレイは、マスクテキストインストラクショントレーニング方法であり、MLLMsを拡張することを目的としています。オスプレイフレームワークは、700千以上のサンプルを持つキュレーションされたリージョンテキストデータセットと、CNNベースのCLIPモデル、マスク認識可能なビジュアルエクストラクターを使用して、ピクセルレベルのビジュアル言語の理解を実現します。オスプレイフレームワークは、MLLMsを拡張し、オブジェクトレベルのリージョンとパートレベルのリージョンを理解する能力を実現します。












