人工知能

LLaVA-UHD: LMMが任意のアスペクト比と高解像度画像を認識する

Published June 6, 2024

Updated April 27, 2026

Kunal Kejriwal

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

最近のLarge Language Modelsの進歩と発展により、ビジョン言語推論、理解、インタラクションの能力が大幅に向上しました。モダンなフレームワークでは、LLMs（Large Language Models）に視覚シグナルを投影することで、視覚的に世界を認識する能力を実現しています。これは、視覚エンコーディング戦略が重要な役割を果たす、さまざまなシナリオのアレイです。ただし、実世界の画像は、シナリオの幅広い範囲を包含するだけでなく、解像度とアスペクト比でも大幅に異なります。これは、さまざまなドメインとタスクでLLMsに大きな課題をもたらします。実世界の画像による大きな変動に立ち向かうために、モダンな大規模言語モデルは、低解像度（例：224×224）と固定アスペクト比（例：1:1）で画像を認識します。低解像度と固定アスペクト比に妥協することは、LLMの実世界での汎用性を確保するために役立ちますが、画像の内容が大幅にぼやけ、形状歪みも生じます。この妥協は、特に光学文字認識や小物体理解などの細粒度タスクに最適化された大規模マルチモダリティモデル（LMM）に大きな影響を及ぼします。さらに、解像度とアスペクト比が事前に決定されているため、モデルはぼやけた画像を最もよく推測するだけであり、モデルは事実に基づいていないテキスト応答を生成する「モデルホールシネーション」という状況に陥ります。

この記事では、LLaVA-UHDについて説明します。LLaVA-UHDは、LLaVA-1.5とGPT-4Vフレームワークを代表的な例として取り、視覚エンコーディング戦略に根ざした体系的な欠陥を暴くことを試みた新しいアプローチです。LLaVA-UHDフレームワークは、マルチモーダルモデルであり、これらの課題に取り組むための試みです。LLaVA-UHDフレームワークは、高解像度および任意のアスペクト比の画像を認識できます。LLaVA-UHDフレームワークは、3つの重要なコンポーネントで構成されています。まず、ネイティブ解像度の画像を効率とエンコーディングを向上させるために、小さい可変サイズのスライスに分割する画像モジュール化戦略です。次に、視覚エンコーダーによって生成された画像トークンをさらに圧縮する圧縮モジュールです。最後に、大規模言語モデルにスライストークンを整理する空間スキーマです。包括的な実験結果は、LLaVA-UHDフレームワークが9つのベンチマークで最先端のLLMを上回ることができることを示しています。さらに、LLaVA-UHDフレームワークは、推論計算を94%しか使用せずに、6倍大きな解像度（672×1088）を持つ画像をサポートできます。

LLaVA-UHD : 任意のアスペクト比と高解像度で画像を効率的に認識する

ビジョン言語推論、理解、インタラクションは、最近のLarge Language Modelsの推進により大幅に進歩しました。モダンなフレームワークでは、LLMs（Large Language Models）に視覚シグナルを投影することで、視覚的に世界を認識する能力を実現しています。これは、視覚エンコーディング戦略が重要な役割を果たす、さまざまなシナリオのアレイです。シナリオの違いは、LLMsのドメインとタスクの狭いカバーを反映し、解像度とアスペクト比の違いは、実世界の画像の大きい内部変動を明らかにし、扱いにくいものにします。BERT以降のモデルは、低解像度（例：224×224）と固定アスペクト比（例：1:1）で画像を認識することで、実世界の画像の重要性に立ち向かいます。ただし、この妥協は、画像の内容が大幅にぼやけ、形状歪みも生じ、LLMsの実世界での汎用性を確保するために役立つ一方で、実世界の画像のぼやけた内容と歪んだ形状をもたらします。これにより、大規模マルチモダリティモデル（LMM）の能力が低下し、特に光学文字認識や小物体理解などの細粒度タスクに最適化されたモデルに影響を及ぼします。さらに、解像度とアスペクト比が事前に決定されているため、モデルはぼやけた画像を最もよく推測するだけであり、モデルは事実に基づいていないテキスト応答を生成する「モデルホールシネーション」という状況に陥ります。

なぜベンチマークLMMモデルは、高解像度と変化するアスペクト比の画像を認識できないのでしょうか?

ベンチマークLMMモデルが高解像度と変化するアスペクト比の画像を認識できない理由は2つあります。まず、視覚エンコーダーは固定解像度で事前にトレーニングされているため、画像の解像度とアスペクト比が変化する場合、モデルとエンコーダーが処理するのが難しくなり、モデルの適応性に大きな影響を及ぼします。2つ目は、高解像度画像を直接ビジョントランスフォーマーでエンコードすることは、画像のサイズに関して大きな計算コストがかかるため、ビジョントランスフォーマーを使用して高解像度画像を直接エンコードすることは、計算コストが大幅に増加するため、モデルの全体的な効率に大きな影響を及ぼします。さらに、高解像度画像の場合、視覚トークンの数が大幅に増加し、モデルの計算コストが大幅に増加するため、モデルの全体的な効率に大きな影響を及ぼします。LLaVA-UHDは、これらの課題に対処するために、LLaVA-1.5とGPT-4Vフレームワークを代表的な例として取り、視覚エンコーディング戦略に根ざした体系的な欠陥を暴くことを試みた新しいアプローチです。

上の画像は、GPT-4Vが画像内のオブジェクトの数を識別する実験結果を反映しています。LLaVA-UHDフレームワークの核となる部分は3つあります。まず、ネイティブ解像度の画像を効率とエンコーディングを向上させるために、小さい可変サイズのスライスに分割する画像モジュール化戦略です。最近のLLMとは異なり、LLaVA-UHDフレームワークによって生成される可変サイズのスライスは、形状を歪めず、サイズを変更せず、パディングせずにネイティブ解像度の画像に完全に適応できるようにします。2つ目は、視覚エンコーダーによって生成された画像トークンをさらに圧縮する圧縮モジュールです。最後に、大規模言語モデルにスライストークンを整理する空間スキーマです。

LLaVA-UHD : 方法論とアーキテクチャ

GPT-4VやLLaVA-1.5などの既存のフレームワークに関するパイロット実験の知見に基づいて、LLaVA-UHDフレームワークは、以下の画像に示す3コンポーネントアーキテクチャを実装しています。

まず、ネイティブ解像度の画像を効率とエンコーディングを向上させるために、小さい可変サイズのスライスに分割する画像モジュール化戦略です。次に、視覚エンコーダーによって生成された画像トークンをさらに圧縮する圧縮モジュールです。最後に、大規模言語モデルにスライストークンを整理する空間スキーマです。これらのコンポーネントについて詳しく見てみましょう。

モジュール化された視覚エンコーディング

高解像度画像と異なるアスペクト比を持つ画像を処理する一般的なアプローチは、ビジョントランスフォーマーまたはViTの位置埋め込みをターゲット形状に補間して直接エンコードすることです。ただし、このアプローチの実装は、計算コストが高く、分布外の問題が発生し、パフォーマンスが低下します。LLaVA-UHDフレームワークは、この課題に対処するために、ビジョントランスフォーマーの標準的な事前トレーニング設定に近い形状の小さい可変サイズのスライスにネイティブ解像度の画像を分割するモジュール化された視覚エンコーディング戦略を提示しています。可変サイズのスライスを使用することで、LLaVA-UHDフレームワークは、形状を歪めず、サイズを変更せず、パディングせずにネイティブ解像度の画像に完全に適応できるようになります。

さらに、多くの既存のLLMは、静的な解像度を画像スライスエンコーディングに実装しています。これは、ネイティブ解像度に完全に適応できないため、モデルのパフォーマンス、効率、正確性に悪影響を及ぼします。LLaVA-UHDフレームワークは、画像スライスをパーティション戦略によって定義されたアスペクト比でエンコーディングすることを提案しています。具体的には、LLaVA-UHDフレームワークは、元の画像をアスペクト比に応じて比例的に縮小し、ビジョントランスフォーマーの事前トレーニング設定に基づいて、パッチの数が最大化されるようにします。次に、LLaVA-UHDモデルは、ビジョントランスフォーマーの事前トレーニング設定に応じて、1次元の位置埋め込みシーケンスを2次元の形式に変換します。

圧縮レイヤー

LLMが高解像度画像を処理する際に直面する一般的な問題は、処理する視覚トークンの数が大幅に増加することです（例：LLaVA-1.5フレームワークは、解像度672×1008の単一の画像を処理する際に約3500の視覚トークンを生成します）。これは、計算リソースとコストの大きな部分を占めます。LLaVA-UHDモデルは、この課題に対処するために、画像スライスの視覚トークンを圧縮する共有パーシーバー・リサンプラー・レイヤーを実装しています。次に、LLaVA-UHDモデルは、視覚エンコーダーによって生成された画像トークンの出力を、クロスアテンションを介してクエリベクトルを使用してリサンプリングし、視覚トークンの数を低減します。一般的なMLPベースの視覚プロジェクション戦略と比較して、LLaVA-UHDによって実装されたパーシーバー・サンプリング・アプローチは、画像の解像度に関係なく、固定された視覚トークンの数を維持できるため、高解像度画像の処理と理解タスクに適しています。具体的には、LLaVA-UHDフレームワークは、解像度672×1008の画像をエンコードする際に、LLaVA-1.5フレームワークが解像度336×336の画像をエンコードする際に生成するトークンの数と同じ数のトークンを生成します。つまり、競合他社の約6倍の効率性を実現しています。

画像スライスの空間スキーマ

画像のパーティションは、動的に異なる画像にわたって実行されるため、大規模言語モデルに画像スライスの空間組織を通知することは必要な慣行です。LLaVA-UHDフレームワークは、スライス表現を整理するために2つの特殊トークンを使用する空間スキーマを設計および実装しています。この空間スキーマでは、LLaVA-UHDフレームワークは、スライス表現を1行で区切るために「、」を使用し、行間を区切るために「n」を使用します。

LLaVA-UHD : 実験と結果

LLaVA-UHDフレームワークは、一般的な視覚質問回答ベンチマーク、光学文字ベースの視覚質問回答ベンチマーク、ホールシネーション・ベンチマーク、包括的なベンチマークを含む9つの人気ベンチマークで評価されます。さらに、LLaVA-UHDフレームワークは、LLaVA-1.5、MiniGPT-v2、InstructBLIP、BLIP-2などの強力なベースラインと比較されます。

LLaVA-UHDフレームワークの9つの人気ベンチマークでのパフォーマンスは、以下の表にまとめられ、人気ベンチマークと比較されています。

上記の結果に基づいて、LLaVA-UHDフレームワークが強力なベースラインモデルを上回り、多くのデータでトレーニングされた強力な一般的なベースラインと、Fuyu-8B、Monkeyなどの大規模な計算を必要とするLLMを上回っていることがわかります。2つ目は、結果はLLaVA-UHDフレームワークがLLaVA-1.5アーキテクチャーを大幅に上回り、LLaVA-1.5は固定の336×336解像度をサポートする一方で、LLaVA-UHDフレームワークは任意のアスペクト比と同じ数の視覚トークンを持つ672×1088解像度の画像をサポートしていることを示しています。

最終的な考察

この記事では、LLaVA-UHDについて説明しました。LLaVA-UHDは、LLaVA-1.5とGPT-4Vフレームワークを代表的な例として取り、視覚エンコーディング戦略に根ざした体系的な欠陥を暴くことを試みた新しいアプローチです。LLaVA-UHDフレームワークは、マルチモーダルモデルであり、これらの課題に取り組むための試みです。LLaVA-UHDフレームワークは、高解像度および任意のアスペクト比の画像を認識できます。LLaVA-UHDフレームワークは、3つの重要なコンポーネントで構成されています。まず、ネイティブ解像度の画像を効率とエンコーディングを向上させるために、小さい可変サイズのスライスに分割する画像モジュール化戦略です。次に、視覚エンコーダーによって生成された画像トークンをさらに圧縮する圧縮モジュールです。最後に、大規模言語モデルにスライストークンを整理する空間スキーマです。包括的な実験結果は、LLaVA-UHDフレームワークが9つのベンチマークで最先端のLLMを上回ることができることを示しています。さらに、LLaVA-UHDフレームワークは、推論計算を94%しか使用せずに、6倍大きな解像度（672×1088）を持つ画像をサポートできます。