人工知能

Mini-Gemini: マルチモダリティビジョン言語モデルの潜在能力を掘り起こす

Published April 26, 2024

Updated April 4, 2026

Kunal Kejriwal

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

大規模言語モデルの進歩は、自然言語処理、またはNLPの開発を大幅に加速させました。トランスフォーマー・フレームワークの導入は、OPTやBERTを含む新しい言語モデルの開発を促進する重要なマイルストーンとなり、これらのモデルは深い言語理解を示しています。さらに、GPT、またはジェネレーティブ・プレトレーニング・トランスフォーマー・モデルが登場し、自己回帰モデリングによる新しいパラダイムを導入し、言語予測と生成のための強力な方法を確立しました。GPT-4、ChatGPT、Mixtral、LLaMAなどの言語モデルの出現により、複雑な言語処理タスクでのパフォーマンスが向上し、急速な進化が促進されています。既存の方法の中で、インストラクション・チューニングは、事前トレーニングされた大規模言語モデルの出力を改良するための重要なテクニックとして浮上しました。また、これらのモデルの視覚タスク用ツールとの統合は、モデルの適応性を強調し、将来のアプリケーションの扉を開きました。これらのアプリケーションは、従来のテキストベースのLLM処理を超え、多モーダル・インタラクションを含みます。

さらに、自然言語処理とコンピュータ・ビジョン・モデルの融合により、VLM、またはビジョン・言語・モデルが登場しました。これらのモデルは、言語と視覚のモデルを組み合わせて、クロスモーダルな理解と推論能力を実現します。視覚と言語のモデルの統合と出現は、言語処理と視覚的理解の両方を必要とするタスクの進歩に重要な役割を果たしています。CLIPのような革命的なモデルの出現は、ビジョン・タスクと言語モデルの間のギャップをさらに狭め、クロスモーダル・アプリケーションの実用性を実証しました。最近のフレームワークであるLLaMAやBLIPは、カスタマイズされたインストラクション・データを使用して、モデルの強力な能力を示す効率的な戦略を開発しています。さらに、大規模言語モデルの画像出力を組み合わせることは、最近の多モーダル・リサーチの焦点であり、最近の方法は、画像生成を直接行わずに、画像検索アプローチを使用して画像出力と交互のテキストを生成することができます。

以上のように、ビジョン言語モデルの基本的な推論と視覚的対話を促進する急速な進歩が見られるにもかかわらず、GPT-4のような高度なモデルとビジョン言語モデルの間には、まだ大きなパフォーマンス・ギャップが存在します。Mini-Geminiは、VLMの3つの側面、つまりVLMガイド生成、高品質データ、高解像度視覚トークンから、ビジョン言語モデルの潜在能力を掘り起こして、ビジョン言語モデルのパフォーマンスを向上させることを目指しています。視覚トークンを強化するために、Mini-Geminiフレームワークは、視覚トークンの数を増やさずに、高解像度の精製を行うための追加の視覚エンコーダーを提案しています。Mini-Geminiフレームワークはさらに、高品質のデータセットを構築して、画像の正確な理解と推論ベースの生成を促進することを目指しています。全体として、Mini-Geminiフレームワークは、ビジョン言語モデルの潜在能力を掘り起こし、既存のフレームワークを画像推論、理解、生成能力で同時に強化することを目指しています。この記事は、Mini-Geminiフレームワークを深く掘り下げて、メカニズム、方法論、フレームワークのアーキテクチャ、および最新のフレームワークとの比較を探究します。では、始めましょう。

Mini-Gemini: マルチモダリティVLMの加速

これまでの大規模言語モデルの進化により、注目すべきマルチモーダル能力が実現し、現在のビジョン言語モデルの重要な部分となっています。ただし、大規模言語モデルのマルチモーダル性能とビジョン言語モデルの間には、最近の研究が画像や動画を使用してビジョン言語モデルのパフォーマンスを向上させる方法を探求しているため、まだギャップが存在します。ビジョン・タスク自体では、画像解像度は、最小限の視覚的ホールシネーションで周囲の環境を明示的に表現するための重要な要素です。ギャップを埋めるために、研究者は、視覚的理解を向上させるために、視覚トークンの数を増やしたり、解像度を上げたりする方法で、現在のビジョン言語モデルのパフォーマンスを向上させるモデルを開発しています。視覚トークンの数を増やして、高解像度の画像を使用すると、視覚的理解が向上しますが、複数の画像を処理する場合、計算要件と関連するコストが増加することがあります。さらに、既存のモデルの能力、既存のデータの品質、適用可能性は、開発プロセスを加速させるには不十分であり、研究者は「ビジョン言語モデルの開発を許容可能なコストで加速する方法は？」と疑問に思うでしょう。

Mini-Geminiフレームワークは、この質問に答えるために、VLMの3つの側面、つまりVLMガイド生成、高品質データ、高解像度視覚トークンから、ビジョン言語モデルの潜在能力を掘り起こすことを目指しています。まず、Mini-Geminiフレームワークは、ConvNetアーキテクチャを実装して、高解像度の候補を効率的に生成し、視覚的詳細を強化しながら、視覚トークンの数を維持します。Mini-Geminiフレームワークは、公開されている高品質のデータセットを統合して、データの品質を向上させ、生成モデルや大規模言語モデルの最新のモデルと統合して、VLMのパフォーマンスを向上させ、ユーザー体験を改善することを目指しています。Mini-Geminiフレームワークによって実装された多面的な戦略により、ビジョン言語モデルの潜在的な能力を探究し、明らかなリソース制約の下で重大な進歩を達成します。

一般に、Mini-Geminiフレームワークは、テキストと画像の両方を入力および出力として処理できる、任意の入力から任意の出力へのパラダイムを使用しています。特に、Mini-Geminiフレームワークは、入力画像の視覚トークンを強化するための効率的なパイプラインを導入し、ツイン・エンコーダー・システムを特徴とします。最初のエンコーダーは、高解像度の画像用であり、2番目のエンコーダーは、低品質の視覚的埋め込み用です。推論中、エンコーダーは、注意メカニズムで動作します。低解像度のエンコーダーは、視覚的クエリを生成し、高解像度のエンコーダーは、参照用のキーと値を提供します。データの品質を向上させるために、Mini-Geminiフレームワークは、タスク指向のインストラクション、生成関連データ、高解像度のレスポンスを含む、公開されているリソースに基づいてさらに多くのデータを収集および生成します。増加した量と品質の向上により、モデルの全体的なパフォーマンスと能力が向上します。さらに、Mini-Geminiフレームワークは、ビジョン言語モデルの統合と生成モデルの統合により、同時にテキストと画像の生成をサポートします。

Mini-Gemini : 方法論とアーキテクチャ

Mini-Geminiフレームワークの核となる部分は、概念的に単純であり、3つのコンポーネントで構成されています。

フレームワークは、低解像度の視覚的埋め込みと高解像度の候補を提供するためのデュアル・ビジョン・エンコーダーを使用します。
フレームワークは、低解像度の視覚的クエリと高解像度の領域の間でパッチ・レベルでマイニングを行うためのパッチ・インフォ・マイニングを実装することを提案します。
Mini-Geminiフレームワークは、テキストと画像の両方の生成と理解のために、大規模言語モデルのテキストと画像を結合します。

デュアル・ビジョン・エンコーダー

Mini-Geminiフレームワークは、テキストと画像の両方の入力を処理できます。以下の画像に示すように、Mini-Geminiフレームワークは、対応する高解像度の画像から低解像度の画像を生成するために、バイリニア補間を使用してプロセスを開始します。

次に、フレームワークはこれらの画像を処理して、2つの並行した画像フローにマルチグリッドの視覚的埋め込みをエンコードします。特に、Mini-Geminiフレームワークは、低解像度のフローに対して従来のパイプラインを維持し、視覚的埋め込みをエンコードするために、CLIP事前トレーニングされたビジョン・トランスフォーマーを使用します。これにより、モデルは、大規模言語モデルの後のインタラクションのために、視覚的パッチ間の長距離関係を保存します。高解像度のフローに対して、Mini-Geminiフレームワークは、高解像度の画像処理のためのCNNまたは畳み込みニューラル・ネットワーク・ベースのエンコーダーを採用します。

パッチ・インフォ・マイニング

デュアル・ビジョン・エンコーダーがLR埋め込みとHR特徴を生成した後、Mini-Geminiフレームワークは、視覚トークンの潜在能力を拡大するために、パッチ・インフォ・マイニングを実装することを提案します。計算効率を維持するために、Mini-Geminiフレームワークは、低解像度の視覚的埋め込みをクエリとして使用し、HR特徴候補から関連する視覚的ヒントを取得することを目指します。フレームワークは、HR特徴マップをキーと値として使用します。

上記の画像に示すように、式は、視覚的ヒントの精製と合成のプロセスをカプセル化し、大規模言語モデルの後の処理のために高度な視覚トークンの生成につながります。プロセスにより、フレームワークは、HR特徴マップの対応するサブ領域にクエリごとにマイニングを制限することができ、ピクセル単位の特徴カウントにより、効率が向上します。この設計により、Mini-Geminiフレームワークは、視覚トークンの数を増やさずに、HR特徴の詳細を抽出することができ、計算の実行可能性と詳細の豊かさのバランスを維持します。

テキストと画像の生成

Mini-Geminiフレームワークは、視覚トークンと入力テキスト・トークンを、大規模言語モデルの入力として連結します。従来のビジョン言語モデルのように、Mini-Geminiフレームワークは、テキストのみまたはテキストと画像の両方の入力と出力をサポートし、任意の入力から任意の出力への推論を実行できます。これは、画像とテキストの理解と推論能力の優れた実現によるものであり、Mini-Geminiは、高品質の画像を生成することができます。最近の研究が生成モデルのテキスト埋め込みと大規模言語モデルの間のドメインギャップに焦点を当てているのとは異なり、Mini-Geminiフレームワークは、言語プロンプトのドメインでギャップを最適化することを試み、ユーザーの指示を潜在的画像を生成する高品質のプロンプトに翻訳します。さらに、インストラクション・ファインチューニングとクロスモダリティの整列のためのより良い理解のために、Mini-Geminiフレームワークは、公開されている高品質のデータセットからサンプルを収集し、GPT-4ターボ・フレームワークを使用して、画像生成をサポートする13Kのインストラクション・フォローデータセットを構築します。

Mini-Gemini : 実験と結果

パフォーマンスを評価するために、Mini-Geminiフレームワークは、HRビジョン・エンコーダーとして事前トレーニングされたConvNext-Lフレームワークを使用し、LRビジョン・エンコーダーとしてCLIP事前トレーニングされたビジョン・トランスフォーマーを使用します。トレーニングの効率を確保するために、Mini-Geminiフレームワークは、2つのビジョン・エンコーダーを固定し、パッチ・インフォ・マイニングのプロジェクターをすべてのステージで最適化し、インストラクション・チューニング・ステージで大規模言語モデルの最適化を実行します。

以下の表は、Mini-Geminiフレームワークのパフォーマンスを、さまざまな設定とプライベート・モデルを考慮して、最新のモデルと比較しています。観察すると、Mini-Geminiは、効率的なモデルであるGemma-2Bのカテゴリで一貫して、通常の解像度で既存のフレームワークを上回り、より大規模な大規模言語モデルの使用時にスケーラビリティを示しています。さらに、大規模言語モデルの使用時に、Mini-Geminiフレームワークは、より優れたパフォーマンスを示しています。

高解像度と拡張視覚トークンでのパフォーマンスを評価するために、実験は、LRビジョン・エンコーダーに対して672の入力サイズ、視覚エンコーダーに対して1536の入力サイズで実行されます。上記のように、Mini-Geminiフレームワークは、最新のフレームワークと比較して、優れたパフォーマンスを示しています。

さらに、Mini-Geminiフレームワークの視覚的理解能力を現実世界の設定で評価するために、開発者は、さまざまな推論と理解タスクにモデルを適用します。以下の画像に示すように、Mini-Geminiフレームワークは、パッチ・インフォ・マイニングと高品質のデータの実装により、幅広い複雑なタスクを解決することができます。しかし、さらに印象的なのは、Mini-Geminiフレームワークが、単なる認識能力を超えて、細かい要素を繊細に説明する能力を示していることです。

以下の図は、Mini-Geminiフレームワークの生成能力の包括的な評価を提供します。

ChatIllusionやAnyGPTなどの最近のモデルと比較して、Mini-Geminiフレームワークは、より強力なマルチモーダル理解能力を示し、入力指示と一致するテキストから画像のキャプションを生成し、概念的類似性が強い画像からテキストへの回答を生成します。さらに印象的なのは、Mini-Geminiフレームワークが、テキスト・トレーニング・データのみを使用して、強力なセマンティック解釈と画像テキストの整列能力を示す、多モーダルな人間の指示のみを使用して、高品質のコンテンツを生成する能力を示していることです。

最終的な考え

この記事では、Mini-Gemini、つまりマルチモーダリティ・ビジョン言語モデルのための強力でストリームライン化されたフレームワークについて説明しました。Mini-Geminiフレームワークの主な目的は、高品質のデータ、戦略的な設計、拡張された機能の範囲を使用して、ビジョン言語モデルの潜在能力を掘り起こすことです。Mini-Geminiは、VLMの3つの側面、つまりVLMガイド生成、高品質データ、高解像度視覚トークンから、ビジョン言語モデルの潜在能力を掘り起こして、ビジョン言語モデルのパフォーマンスを向上させることを目指しています。視覚トークンを強化するために、Mini-Geminiフレームワークは、視覚トークンの数を増やさずに、高解像度の精製を行うための追加の視覚エンコーダーを提案しています。Mini-Geminiフレームワークはさらに、高品質のデータセットを構築して、画像の正確な理解と推論ベースの生成を促進することを目指しています。全体として、Mini-Geminiフレームワークは、ビジョン言語モデルの潜在能力を掘り起こし、既存のフレームワークを画像推論、理解、生成能力で同時に強化することを目指しています。