スタブ Mini-Gemini: マルチモダリティ視覚言語モデルの可能性を発掘する - Unite.AI
私達と接続

Artificial Intelligence

Mini-Gemini: マルチモダリティ視覚言語モデルの可能性を発掘する

mm

公開済み

 on

Mini-Gemini: マルチモダリティ視覚言語モデルの可能性を発掘する

の進歩 大規模な言語モデル ~の開発を大幅に加速しました 自然言語処理、またはNLP。トランスフォーマー フレームワークの導入は、深い言語理解を示す OPT や BERT などの言語モデルの新しい波の開発を促進するマイルストーンであることが判明しました。さらに、GPT (Generative Pre-trained Transformer モデル) の開始により、自己回帰モデリングによる新しいパラダイムが導入され、言語の予測と生成のための堅牢な方法が確立されました。 GPT-4、ChatGPT、Mixtral、LLaMA などの言語モデルの出現により急速な進化がさらに促進され、各モデルは複雑な言語処理を伴うタスクでのパフォーマンスの向上を示しています。既存の手法の中でも、命令チューニングは、事前トレーニングされた大規模言語モデルの出力を洗練するための重要な手法として浮上しており、これらのモデルと視覚タスク用の特定のツールとの統合により、その適応性が強調され、将来のアプリケーションへの扉が開かれました。これらは、LLM の従来のテキストベースの処理をはるかに超えて、マルチモーダルな対話を含みます。

さらに、自然言語処理モデルとコンピューター ビジョン モデルの融合により、言語モデルと視覚モデルを組み合わせてクロスモーダルな理解と推論機能を実現する VLM (ビジョン言語モデル) が誕生しました。視覚モデルと言語モデルの統合と出現は、言語処理と視覚的理解の両方を必要とするタスクを前進させる上で重要な役割を果たしています。 CLIP のような革新的なモデルの出現により、視覚タスクと言語モデルの間のギャップがさらに埋められ、クロスモーダル アプリケーションの実現可能性と実用性が実証されました。 LLaMA や BLIP などの最近のフレームワークは、カスタマイズされた命令データを活用して、モデルの強力な機能を実証する効率的な戦略を考案します。さらに、大規模な言語モデルと画像出力を組み合わせることが最近のマルチモーダル研究の焦点となっており、最近の方法では、画像検索アプローチを利用して画像出力とインターリーブされたテキストを生成することで直接生成をバイパスできるようになりました。

そうは言っても、基本的な推論と視覚的な対話を容易にするビジョン言語モデルの急速な進歩にもかかわらず、GPT-4 のような高度なモデルとビジョン言語モデルの間には依然として大きなパフォーマンスのギャップが存在します。 Mini-Gemini は、VLM ガイドによる生成、高品質データ、高解像度ビジュアル トークンの XNUMX つの側面からパフォーマンス向上のための VLM の可能性を掘り起こすことにより、ビジョン言語モデルとより高度なモデルの間に存在するギャップを狭める試みです。ビジュアル トークンを強化するために、Mini-Gemini フレームワークは、ビジュアル トークンの数を増やすことなく、追加のビジュアル エンコーダを利用して高解像度の改良を行うことを提案しています。 Mini-Gemini フレームワークは、画像の正確な理解と推論に基づく生成を促進するために、高品質のデータセットをさらに構築します。全体として、Mini-Gemini フレームワークは、ビジョン言語モデルの可能性を発掘しようと試みており、既存のフレームワークにイメージ推論、理解、生成機能を同​​時に強化することを目指しています。この記事は、Mini-Gemini フレームワークを深くカバーすることを目的としており、最先端のフレームワークとの比較とともに、フレームワークのメカニズム、方法論、アーキテクチャを探ります。それでは始めましょう。 

Mini-Gemini: マルチモダリティ VLM の加速

長年にわたり、大規模な言語モデルは進化し、現在では驚くべきマルチモーダル機能を誇り、現在のビジョン言語モデルの重要な部分になりつつあります。ただし、大規模言語モデルのマルチモーダル パフォーマンスと視覚言語モデルの間にはギャップが存在し、画像やビデオを使用して視覚と大規模言語モデルを組み合わせる方法を模索する最近の研究が行われています。視覚タスク自体にとって、画像の解像度は、周囲の環境にもかかわらず、幻覚を最小限に抑えて明示的に行うための重要な要素です。このギャップを埋めるために、研究者たちは現在の視覚的理解を向上させるモデルを開発しています。 視覚言語モデル最も一般的な 2 つのアプローチは、解像度を上げることと、ビジュアル トークンの数を増やすことです。高解像度の画像で視覚的トークンの数を増やすと視覚的な理解が向上しますが、特に複数の画像を処理する場合、その向上には計算要件と関連コストの増加が伴うことがよくあります。さらに、既存のモデルの機能、既存データの品質、および適用性は、開発プロセスを加速するには依然として不十分であり、研究者には次のような疑問が残ります。許容可能なコストでビジョン言語モデルの開発を加速する方法"?

Mini-Gemini フレームワークは、VLM ガイドによる生成または拡張されたアプリケーション、高品質のデータ、高解像度のビジュアル トークンの 3 つの側面からビジョン言語モデルの可能性を探求することで、質問に答える試みです。まず、Mini-Gemini フレームワークは ConvNet アーキテクチャを実装して高解像度の候補を効率的に生成し、大規模な言語モデルの視覚的なトークン数を維持しながら視覚的な詳細を強化します。 Mini-Gemini フレームワークは、データの品質を向上させるために、公開されている高品質のデータセットを統合し、これらの拡張機能を最先端の生成言語モデルや大規模言語モデルと統合して、VLM のパフォーマンスを強化し、パフォーマンスを向上させます。ユーザーエクスペリエンス。 Mini-Gemini フレームワークによって実装された多面的な戦略により、ビジョン言語モデルの隠れた機能を探索できるようになり、明らかなリソースの制約にもかかわらず大幅な進歩を達成できます。 

一般に、Mini-Gemini フレームワークは、入力および出力としてテキストと画像の両方を処理できるため、any to any パラダイムを採用します。特に、Mini-Gemini フレームワークは、入力画像のビジュアル トークンを強化するための効率的なパイプラインを導入し、ツイン エンコーダで構成されるデュアル エンコーダ システムを特徴としています。最初のエンコーダは高解像度画像用で、2 番目のエンコーダは低解像度画像用です。高品質の視覚的な埋め込み。推論中、エンコーダーはアテンション メカニズムで動作し、低解像度エンコーダーが視覚的なクエリを生成し、高解像度エンコーダーが参照用のキーと値を提供します。データ品質を強化するために、Mini-Gemini フレームワークは、タスク指向の指示、生成関連データ、高解像度の応答などの公共リソースに基づいてより多くのデータを収集および生成し、量の増加と品質の向上により全体的なパフォーマンスと品質が向上します。モデルの機能。さらに、Mini-Gemini フレームワークは、ビジョン言語モデルと高度な生成モデルの統合の結果として、テキストと画像の同時生成をサポートします。 

Mini-Gemini : 方法論とアーキテクチャ

Mini-Gemini フレームワークの核心は概念的に単純で、3 つのコンポーネントで構成されています。 

  1. このフレームワークはデュアル ビジョン エンコーダを採用して、低解像度の視覚的埋め込みと高解像度の候補を提供します。 
  2. このフレームワークでは、パッチ情報マイニングを実装して、低解像度のビジュアル クエリと高解像度の領域の間でパッチ レベルでマイニングを実行することを提案しています。 
  3. Mini-Gemini フレームワークは、生成と理解の両方を同時に行うために、大規模な言語モデルを利用してテキストと画像を結合します。 

デュアルビジョンエンコーダ

Mini-Gemini フレームワークは、テキスト入力と画像入力の両方を処理でき、オプションでそれらを個別に処理することも、組み合わせて処理することもできます。次の図に示すように、Mini-Gemini フレームワークは、双線形補間を使用して、対応する高解像度画像から低解像度画像を生成することでプロセスを開始します。 

次に、フレームワークはこれらの画像を処理し、2 つの並列画像フローに埋め込まれたマルチグリッドのビジュアルにエンコードします。より具体的には、Mini-Gemini フレームワークは、低解像度フロー用の従来のパイプラインを維持し、CLIP で事前トレーニングされたビジュアル トランスフォーマーを採用してビジュアル エンベディングをエンコードし、後続の大規模言語でのインタラクションに備えてモデルがビジュアル パッチ間の長距離関係を保持することを容易にします。モデル。高解像度フローの場合、Mini-Gemini フレームワークは CNN または畳み込みニューラル ネットワーク ベースのエンコーダーを採用し、適応的かつ効率的な高解像度画像処理を実現します。 

パッチ情報マイニング

LR エンベディングと HR 機能を生成するデュアル ビジョン エンコーダーを使用して、Mini-Gemini フレームワークは、強化されたビジュアル トークンでビジョン言語モデルの可能性を拡張することを目的として、パッチ情報マイニングの実装を提案しています。大規模な言語モデルで効率を高めるためにビジュアル トークンの数を維持するために、Mini-Gemini フレームワークは低解像度のビジュアル エンベディングをクエリとして受け取り、HR 特徴候補から関連するビジュアル キューを取得することを目的としています。キーと値としての HR 機能マップ。

上の画像に示されているように、この数式は視覚的な手がかりを調整および合成するプロセスをカプセル化しています。これにより、後続の大規模言語モデル処理のための高度な視覚トークンの生成が行われます。このプロセスにより、フレームワークは各クエリのマイニングを、ピクセル単位の特徴数を使用して HR 特徴マップ内の対応するサブ領域に限定できるようになり、効率が向上します。この設計のおかげで、Mini-Gemini フレームワークは、ビジュアル トークンの数を増やすことなく HR 特徴の詳細を抽出することができ、計算の実行可能性と詳細の豊富さの間のバランスを維持できます。 

テキストと画像の生成

Mini-Gemini フレームワークは、自動回帰生成のための大規模言語モデルへの入力として、ビジュアル トークンと入力テキスト トークンを連結します。従来のビジョン言語モデルとは異なり、Mini-Gemini フレームワークは、入力および出力としてテキストのみだけでなくテキスト画像の生成、つまりあらゆる推論をサポートします。これは、この優れた画像テキストの理解と推論能力の結果です。 Mini-Gemini は高品質の画像を生成できます。生成モデルのテキスト埋め込みと大規模な言語モデルの間の領域のギャップに焦点を当てた最近の研究とは異なり、Mini-Gemini フレームワークは、ユーザーの指示をコンテキストに関連した画像を生成する高品質のプロンプトに変換することで、言語プロンプトの領域のギャップを最適化しようとします。潜在的な拡散モデルにおいて。さらに、命令の微調整とクロスモダリティの調整をより深く理解するために、Mini-Gemini フレームワークは、公的に利用可能な高品質のデータセットからサンプルを収集し、GPT-4 ターボ フレームワークを使用して、画像生成をサポートする 13K の命令次のデータセットをさらに構築します。 

Mini-Gemini : 実験と結果

パフォーマンスを評価するために、Mini-Gemini フレームワークは、HR ビジョン エンコーダー用の事前トレーニング済み ConvNext-L フレームワークと、事前トレーニング済みの CLIP を使用してインスタンス化されます。 ビジョントランスフォーマー LRビジョンエンコーダ用。トレーニング効率を確保するために、Mini-Gemini フレームワークは 2 つのビジョン エンコーダーを固定し、すべての段階でパッチ情報マイニングのプロジェクターを最適化し、命令調整段階自体で大規模な言語モデルを最適化します。 

次の表は、Mini-Gemini フレームワークのパフォーマンスを、さまざまな設定における最先端のモデルと比較しており、プライベート モデルも考慮しています。ご覧のとおり、Mini-Gemini は通常の解像度で一貫してさまざまな LLM にわたる既存のフレームワークを上回り、効率的なモデルのカテゴリーで Gemma-2B と構成された場合に優れたパフォーマンスを示します。さらに、より大きな言語モデルが採用されると、Mini-Gemini フレームワークのスケーラビリティが明らかになります。 

高解像度および拡張ビジュアル トークンでのパフォーマンスを評価するために、LR ビジョン エンコーダの入力サイズ 672、ビジュアル エンコーダの入力サイズ 1536 で実験が実行されます。前述したように、HR ビジュアル エンコーダーの主な目的は、高解像度の候補者情報を提供することです。ご覧のとおり、Mini-Gemini フレームワークは、最先端のフレームワークと比較した場合、優れたパフォーマンスを提供します。 

さらに、現実世界の設定における Mini-Gemini フレームワークの視覚的理解能力を評価するために、開発者は、次の図に示すように、モデルをさまざまな推論および理解タスクに適用します。ご覧のとおり、Mini-Gemini フレームワークは、パッチ情報マイニングの実装と高品質のデータのおかげで、さまざまな複雑なタスクを解決できます。しかし、さらに印象的なのは、Mini-Gemini フレームワークが単なる認識能力を超えて詳細への鋭い追加を示し、複雑な要素を複雑に記述しているという事実です。 

次の図は、Mini-Gemini フレームワークの生成能力の包括的な評価を示しています。 

ChatIllusion や AnyGPT などの最近のモデルと比較すると、Mini-Gemini フレームワークはより強力なマルチモーダル理解能力を実証し、 テキストから画像へ キャプションは入力指示とよりよく一致し、概念的な類似性がより高い画像とテキストの回答が得られます。さらに印象的なのは、Mini-Gemini フレームワークが、テキスト トレーニング データのみを使用したマルチモデルの人間による指示を使用して、高品質のコンテンツを生成する際に顕著な熟練を示しているという事実です。この機能は、Mini-Gemini の堅牢なセマンティック解釈と画像とテキストの位置合わせスキルを示しています。 

最終的な考え

この記事では、マルチモダリティ視覚言語モデルのための強力かつ合理化されたフレームワークである Mini-Gemini について説明しました。 Mini-Gemini フレームワークの主な目的は、高品質のデータ、フレームワークの戦略的設計、および拡張された機能範囲を使用して、ビジョン言語モデルの潜在的な機能を活用することです。 Mini-Gemini は、VLM ガイドによる生成、高品質データ、高解像度ビジュアル トークンの 3 つの側面からパフォーマンス向上のための VLM の可能性を掘り起こすことにより、ビジョン言語モデルとより高度なモデルの間に存在するギャップを狭める試みです。ビジュアル トークンを強化するために、Mini-Gemini フレームワークは、ビジュアル トークンの数を増やすことなく、追加のビジュアル エンコーダを利用して高解像度の改良を行うことを提案しています。 Mini-Gemini フレームワークは、画像の正確な理解と推論に基づく生成を促進するために、高品質のデータセットをさらに構築します。全体として、Mini-Gemini フレームワークは、ビジョン言語モデルの可能性を発掘しようと試みており、既存のフレームワークにイメージ推論、理解、生成機能を同​​時に強化することを目指しています。

「職業はエンジニア、心は作家」。 Kunal は、AI と ML に対する深い愛情と理解を備えたテクニカル ライターであり、魅力的で有益なドキュメントを通じてこれらの分野の複雑な概念を簡素化することに専念しています。