人工知能

Ospreyを用いたピクセルレベルの理解のためのビジュアルインストラクションチューニング

Published January 25, 2024

Updated April 4, 2026

Kunal Kejriwal

最近のビジュアルインストラクションチューニング方法の強化により、多モーダル大規模言語モデル（MLLMs）は、注目すべき一般目的のビジョン言語機能を実証しました。これらの機能により、モダンな一般目的のビジュアルアシスタントの重要な構成要素となります。MiniGPT-4、LLaVA、InstructBLIPなどの最近のモデルは、印象的なビジュアル推論およびインストラクションの実行能力を示しています。多くのモデルが画像テキストのペアに依存して画像レベルのビジョン言語の整列を行っているため、このドメインでは優れたパフォーマンスを発揮しています。しかし、ボックスレベルおよび画像レベルの理解に依存していることが、MLLMsがピクセルレベルのビジョン言語の整列タスクでそのパフォーマンスを再現できない主な理由です。さらに、トレーニング用のマスクベースのインストラクションデータの入手可能性が限られていることが、MLLMsをさらに強化する上での課題となっています。

Ospreyは、マスクテキストインストラクショントレーニング方法であり、MLLMsを拡張することを主な目的としています。Ospreyは、言語インストラクションに細粒なマスク領域を組み込むことで、ピクセルレベルのビジュアル言語の理解を実現します。Ospreyフレームワークは、700千を超えるサンプルを持つマスクベースのリージョンテキストデータセットをキュレーションし、LLMにピクセルレベルの表現を注入して、ビジョン言語モデルを設計します。Ospreyフレームワークは、コンボリューショナルCLIPモデルをビジョンエンコーダーとして採用し、アーキテクチャにマスク認識可能なビジュアルエクストラクターを統合しています。これにより、高解像度入力からビジュアルマスク特徴を正確に抽出することができます。

この記事では、Ospreyフレームワークとそのアーキテクチャについて詳しく説明します。また、700千を超えるサンプルを持つキュレーションされたリージョンテキストデータセットと、さまざまなリージョン理解タスクでのパフォーマンスを比較します。では、始めましょう。

Osprey: ピクセルレベルの理解のためのビジュアルインストラクションチューニング

多モーダル大規模言語モデルであるMiniGPT-4、Otter、Qwen-LV、InstructBLIPなどのモデルは、一般目的のビジュアルアシスタントの開発における先駆者的存在であり、優れた多モーダルおよびビジョン生成機能で知られています。しかし、多モーダル大規模言語モデルは、キャプション作成、リージョン分類、推論などの細粒な画像理解タスクで不十分な結果をもたらします。細粒な画像理解タスクで不十分なパフォーマンスをもたらす主な理由は、リージョンレベルの整列が不足していることです。最近のMLLMsであるGPT4RoI、Shikraなどのモデルは、オブジェクトレベルの空間特徴を使用して、ボックス指定されたリージョンを処理することで、ビジョン言語モデルにリージョンレベルの理解を可能にします。

リージョンレベルの理解を可能にするアプローチはパフォーマンスを向上させるかもしれませんが、スパースなボックスを直接参照入力リージョンとして使用すると、無関係な背景特徴が導入され、ビジュアルインストラクションチューニングにおけるリージョンテキストペアの整列が不正確になる可能性があります。推論プロセス中に、ボックスレベルの参照入力はオブジェクトを正確に検出および表現できず、セマンティック偏差をもたらす可能性があります。

一方、粗いボックスではなく細粒なマスクを参照入力として使用すると、オブジェクトをより正確に表現できる可能性があります。最近開発されたSAM（Segment Anything Model）は、数十億の高品質マスクでトレーニングされ、ゼロショットオブジェクトでの優れたセグメンテーション品質を示し、ポイントまたはシンプルなボックスをプロンプトとして使用することをサポートしています。しかし、SAMフレームワークは、主なセマンティックラベルを生成できず、詳細なセマンティックキャプションおよび属性を提供できません。したがって、既存のモデルは、固有の多モーダル細粒情報を欠いており、現実世界のシーンの理解が限られています。

既存のMLLMsが直面している課題に対処するために、Ospreyは、ピクセルレベルの理解のための多モーダル大規模言語モデルの機能を拡張することを目的とした、新しいマスクテキストインストラクショントレーニング方法です。Ospreyフレームワークは、マスク認識可能なビジュアルエクストラクターを導入して、各オブジェクトリージョン内のピクセルレベルの特徴を正確に抽出します。フレームワークは、ビジュアル特徴と言語インストラクションを組み合わせて、大規模言語モデルへの入力シーケンスを生成します。また、コンボリューショナルCLIPアーキテクチャを使用して、高解像度入力を可能にします。Ospreyフレームワークの設計とアーキテクチャにより、オブジェクトレベルおよびパーツレベルのリージョンでの細粒なセマンティック理解を実現し、オブジェクト属性および複雑なシーンの詳細な説明を提供します。

ビジュアルインストラクションチューニングの機能を利用して、Ospreyフレームワークは、画像レベルおよびボックスレベルの理解を超えた新しい機能を実現します。Ospreyフレームワークは、オフザシェルフのSAMからクラス非依存マスクを使用して、細粒なセマンティクスを生成できます。また、Ospreyは、オブジェクト参照分類、オープンボキャブラリー認識、リージョンレベルキャプション、詳細リージョン説明タスクで優れた機能を示します。

Osprey: 方法論とアーキテクチャ

以下の図は、Ospreyフレームワークのアーキテクチャの概要を示し、大規模言語モデル、ピクセルレベルのマスク認識可能なビジュアルエクストラクター、画像レベルのビジョンエンコーダーで構成されています。

入力画像、言語、参照マスクリージョンが与えられた場合、フレームワークは、エンベッディングを生成するために変換とトークン化を実行し、言語エンベッディングシーケンスとマスク特徴を大規模言語モデルに送信して、細粒なセマンティック理解を取得します。

コンボリューショナルCLIPビジョンエンコーダー

多モーダル大規模言語モデルの大部分で使用されているビジョンエンコーダーは、ViTベースのCLIPモデルを使用しています。したがって、フレームワークは、224×224ピクセルまたは336×336ピクセルの画像解像度を採用します。しかし、ViTベースのCLIPモデルを使用すると、ピクセルレベルの画像理解を実現することが難しくなります。これは、小さなリージョンでさらに悪化します。さらに、ViTアーキテクチャの計算オーバーヘッドにより、入力画像解像度を増やすことが困難になります。

この課題に対処するために、Ospreyフレームワークは、ビジョンエンコーダーとしてコンボリューショナルCLIPモデルを実装します。従来、CNNベースのCLIPモデルは、さまざまな入力解像度に対して、ビジョントランスフォーマーベースのCLIPモデルよりも優れた汎化能力を示しています。CNNベースのCLIPモデルを実装することで、パフォーマンスを損なうことなく、高速な推論と効率的なトレーニングが可能になります。さらに、CNNベースのCLIPモデルは、マルチスケール特徴マップを生成し、フレームワークはこれをオブジェクトリージョンの特徴抽出に直接使用します。

マスク認識可能なビジュアルエクストラクター

既存のリージョンベースモデルがスパースなボックスを参照入力として使用するのとは対照的に、Ospreyフレームワークは、詳細なマスクリージョンを使用してオブジェクトベースの表現を実現します。Ospreyモデルは、マスク認識可能なビジュアルエクストラクターコンポーネントを使用して、各オブジェクトリージョン内のピクセルレベルの特徴を抽出します。

これを実現するために、Ospreyは、ビジョンエンコーダーによって生成されたマルチレベルの画像特徴を使用して、マスクプーリング操作を採用し、各特徴レベルでマスクリージョン内のすべての特徴をプールします。モデルは、各特徴を線形投影層に通過させて、リージョンレベルのエンベッディングを生成し、さまざまなレベルの特徴を合計してマルチレベルの特徴を融合します。モデルは、ビジュアルマスクトークンを生成するためにMLP層を使用します。さらに、Ospreyは、各オブジェクトリージョンに対してバイナリマスクを実装して、ピクセルレベルの位置関係をエンコードします。最後に、Ospreyは、各マスクリージョンのエンベッディングに、ビジュアルマスクトークンとその空間トークンを含めます。

LLMトークン化

前述のように、モデルは、画像を事前トレーニングされたCNNベースのビジョンエンコーダーにフィードして、画像レベルのエンベッディングを抽出します。テキスト情報については、モデルは事前トレーニングされたLLMトークナイザーを使用してテキストシーケンスをトークン化し、トークン化されたテキストシーケンスをテキストエンベッディングに投影します。マスクベースのリージョンについては、モデルは、スペシャルトークンをプレイスホルダーとして定義し、空間トークンとマスクトークンで置き換えます。モデルは、テキスト入力でオブジェクトリージョンを参照する場合、リージョン名の後にプレイスホルダーを追加して、テキストとマスクリージョンを組み合わせて、完全な文を生成します。さらに、ユーザーのインストラクションに加えて、モデルは、ビジョンエンコーダーの画像レベルのエンベッディングで置き換えられる、プレフィックスプロンプトとして機能するスペシャルトークンを含めます。最後に、フレームワークは、リージョンレベルおよび画像レベルのビジュアルトークンとテキストトークンを組み合わせて、大規模言語モデルにフィードして、ユーザーのインストラクションと画像のさまざまなリージョンを理解します。

Osprey: 3段階のトレーニングプロセス

Ospreyフレームワークは、3段階のトレーニングプロセスを採用し、各トレーニング段階は、次のトークンの予測損失を最小化することによって監督されます。

ステージ1: 画像テキスト整列トレーニング

最初のステージでは、Ospreyフレームワークは、CNNベースのCLIPビジョンエンコーダーを使用して、画像レベルの特徴と言語コネクターをトレーニングして、画像テキスト特徴の整列を実現します。最初のステージでは、フレームワークは、事前トレーニングされた大規模言語モデル、事前トレーニングされたビジョンエンコーダー、画像レベルのプロジェクターの3つのコンポーネントを採用します。さらに、フレームワークは、ビジョン言語コネクターとしてMLP層を採用して、Ospreyの多モーダル生成機能を強化します。

ステージ2: マスクテキスト整列事前トレーニング

2番目のステージでは、Ospreyは、最初のステージでトレーニングされた重みをロードし、マスク認識可能なビジュアルエクストラクターコンポーネントを使用して、ピクセルレベルのリージョン特徴を抽出します。2番目のステージでは、フレームワークは、マスクベースのリージョン特徴と言語エンベッディングの整列を実現するために、マスク認識可能なビジュアルエクストラクターのみをトレーニングします。さらに、モデルは、パーツレベルおよびオブジェクトレベルの公開データセットからピクセルレベルのマスクペアと短いテキストを収集して、インストラクションフォローのデータを生成して、モデルをさらにトレーニングします。

ステージ3: エンドツーエンドのファインチューニング

3番目かつ最終的なステージでは、モデルはビジョンエンコーダーの重みを固定し、大規模言語モデル、マスクベースのリージョン特徴抽出器、画像レベルのプロジェクターのコンポーネントをファインチューニングします。3番目のステージの主な目的は、モデルがユーザーのインストラクションを正確に実行し、ピクセルレベルのリージョン理解タスクを効率的に実行する能力を拡張することです。

3つのトレーニングステージを実装した後、Ospreyフレームワークは、ユーザーのインストラクションとピクセルレベルのマスクリージョンによって定義される複雑なシナリオを理解する能力を獲得します。

Osprey: 実験結果

Ospreyのパフォーマンスを評価するために、開発者は、分類、ピクセルレベルのリージョンベースの認識、複雑な説明などの幅広い実験を実施して、モデルの機能を示します。

オープンボキャブラリー分割

オープンボキャブラリー分割の主な目的は、クラス非依存マスクを使用して、マスクベースのリージョン認識とそのカテゴリを明示的に生成することです。オープンボキャブラリー分割を実現するために、Ospreyは、入力テキストプロンプトを使用し、モデルは、モデルのパフォーマンスを評価するために、グラウンドトゥルースマスクリージョンを使用します。多モーダル大規模言語モデルによって生成された文の応答に基づいて、Ospreyは、ボキャブラリーリストと各データセットの出力の間のセマンティック類似性を計算します。以下の図は、Ospreyを、最先端の多モーダル大規模言語モデルと比較しています。

観察すると、Ospreyフレームワークは、CityscapesとADE20K-150の両方のデータセットで、既存の方法を大幅に上回っています。結果は、Ospreyの細粒なオブジェクトリージョンでの理解と認識の強さを示しています。

オブジェクト参照分類

オブジェクト参照分類タスクでは、モデルは、画像の特定のリージョン内のオブジェクトを分類する必要があります。分類能力を評価するために、Ospreyフレームワークは、セマンティックIoU（S-IoU）とセマンティック類似性（SS）を含む2つのセマンティック関連メトリックを使用します。セマンティックIoUは、グラウンドトゥルースと予測ラベルの間の単語の重なりを表し、セマンティック類似性は、予測および/またはグラウンドトゥルースラベル間のセマンティック空間の類似性を測定します。以下の画像は、Ospreyのオブジェクト参照分類タスクでのパフォーマンスを、ボックスレベルおよび画像レベルのアプローチを使用するモデルと比較して示しています。

詳細リージョン説明

詳細リージョン説明タスクでは、モデルは、インストラクションフォローの詳細説明能力を評価します。モデルは、事前定義されたプロンプトのリストから入力推論プロンプトをランダムに選択し、GPT-4 LLMフレームワークを使用して、モデルによって生成された応答の質を、入力参照リージョンに対して包括的に評価します。インストラクション生成パイプラインを使用して、モデルは質問を生成し、GPT-4の回答を求め、LLMは、セマンティックの正確性と参照理解の精度を評価します。以下の表は、詳細リージョン説明タスクでのOspreyのパフォーマンスを、最先端のモデルと比較して示しています。

リージョンレベルキャプション

Ospreyフレームワークは、リージョンレベルキャプションタスクでも、現在のアプローチを上回っています。結果は、以下の画像に示されています。

最終的な考え

この記事では、Ospreyについて説明しました。Ospreyは、ピクセルレベルの理解のためのマスクテキストインストラクショントレーニング方法であり、言語インストラクションに細粒なマスクリージョンを組み込むことで、ビジョン言語モデルの機能を拡張することを目的としています。Ospreyフレームワークは、700千を超えるサンプルを持つマスクベースのリージョンテキストデータセットをキュレーションし、LLMにピクセルレベルの表現を注入して、ビジョン言語モデルを設計します。Ospreyフレームワークは、CNNベースのCLIPモデルとマスク認識可能なビジュアルエクストラクターを採用して、オブジェクトレベルおよびパーツレベルのリージョンでの細粒なセマンティック理解を実現します。