人工知能

ガイダンス指示に基づく画像編集をマルチモーダル大規模言語モデルで実現する

Published February 23, 2024

Updated April 4, 2026

Kunal Kejriwal

GUIDING INSTRUCTION-BASED IMAGE EDITING VIA MULTIMODAL LARGE LANGUAGE MODELS

ビジュアルデザインツールやビジョン言語モデルは、マルチメディア業界で広範囲にわたる応用を持っています。近年大きな進歩を遂げましたが、これらのツールを操作するには、まだその理解が必要です。アクセシビリティと制御を高めるために、マルチメディア業界は、伝統的な地域マスクや詳細な説明ではなく、テキスト指示またはコマンドを使用するテキスト指示または指示に基づく画像編集技術を採用しています。これらの技術により、より柔軟で制御された画像操作が可能になります。ただし、指示に基づく方法では、簡潔な指示が提供されることが多く、既存のモデルが完全に把握して実行するのが難しい場合があります。さらに、現実的な画像を作成する能力で知られる拡散モデルは、画像編集セクターで高く求められています。

また、マルチモーダル大規模言語モデル（MLLMs）は、視覚認識応答の生成やクロスモーダル理解を含むタスクで優れた性能を示しています。MLLMガイド画像編集（MGIE）は、MLLMsにインスパイアされた研究であり、MLLMsの能力を評価し、テキストまたはガイド付き指示を使用して編集を容易にする方法を分析します。このアプローチでは、明示的なガイダンスを提供することを学び、表現的な指示を導き出すことが含まれます。MGIE編集モデルは、視覚情報を理解し、エンドツーエンドのトレーニングを使用して編集を実行します。この記事では、MGIEについて深く掘り下げ、グローバル画像最適化、Photoshopスタイルの変更、ローカル編集への影響を評価します。また、表現的な指示に依存する指示に基づく画像編集タスクでのMGIEの重要性についても議論します。探索を始めましょう。

MGIEまたはMLLMガイド画像編集：紹介

マルチモーダル大規模言語モデルと拡散モデルは、現在最も広く使用されているAIおよびMLフレームワークの2つであり、その驚異的な生成能力によります。一方では、拡散モデルがあり、非常にリアルで視覚的に美しい画像を生成することで知られています。一方では、マルチモーダル大規模言語モデルがあり、テキスト、言語、スピーチ、画像/ビデオを含む幅広いコンテンツを生成する能力が優れています。

拡散モデルは、潜在的なクロスモーダルマップを交換して視覚操作を実行し、入力のキャプションの変更を反映します。また、ガイド付きマスクを使用して画像の特定の領域を編集することもできます。しかし、拡散モデルがマルチメディアアプリケーションで広く使用される主な理由は、詳細な説明や地域マスクではなく、テキスト指示またはコマンドを使用して編集を実行できるためです。次に、拡散モデルは、伝統的な説明や地域マスクではなく、テキスト指示またはコマンドを使用して編集を実行することを可能にします。さらに、拡散モデルは、画像編集タスクで広く使用されています。

一方で、大規模言語モデルは、テキスト要約、機械翻訳、テキスト生成、質問に答えるなどの多様な言語タスクで大きな進歩を遂げています。大規模言語モデルは、視覚的創造性と知識を備えた大規模で多様なトレーニングデータでトレーニングされるため、視覚言語タスクも実行できます。MLLMsを構築することで、マルチモーダル大規模言語モデルは、画像を自然な入力として使用し、適切な視覚認識応答を提供できます。

しかし、拡散モデルとMLLMフレームワークは画像編集タスクで広く使用されていますが、テキスト指示にはいくつかのガイダンス問題があり、全体的なパフォーマンスに影響を及ぼし、MGIEまたはMLLMガイド画像編集の開発につながります。MGIEは、拡散モデルとMLLMモデルで構成されるAIパワーのフレームワークです。

MGIEアーキテクチャでは、拡散モデルはエンドツーエンドでトレーニングされ、潜在的な目標の想像力で画像編集を実行します。一方、MLLMフレームワークは、正確で表現的な指示を予測することを学習します。拡散モデルとMLLMフレームワークはともに、視覚的導出の潜在的な想像力を活用して、人間のコマンドの曖昧さに対処し、画像のリアルな編集を実現します。

MGIEフレームワークは、2つの既存のアプローチから着想を得ています：指示に基づく画像編集とビジョン言語モデル。

指示に基づく画像編集は、人間のコマンドに従うことで視覚操作のアクセシビリティと制御を大幅に改善できます。指示に基づく画像編集に使用される主なフレームワークは2つあります：GANフレームワークと拡散モデルです。GANまたは生成対抗ネットワークは画像を変更できますが、特定のドメインに限定されているか、現実的な結果を生成していない可能性があります。一方、拡散モデルは、大規模なトレーニングでクロスモーダル注意マップを制御し、画像編集と変換を実行できます。指示に基づく編集は、地域マスクや詳細な説明に限定されずに、直接テキスト指示またはコマンドを受け取ります。しかし、提供された指示が曖昧または編集タスクの指示に十分に具体的でない可能性があります。

ビジョン言語モデルは、テキスト生成と汎化能力で知られており、多様なタスクで優れた性能を示しています。また、ロバストなテキスト理解を備えており、実行可能なプログラムまたは疑似コードを生成できます。大規模言語モデルのこの機能により、MLLMsは画像を認識し、視覚特徴の整列と指示の調整を使用して適切な視覚認識応答を生成できます。最近のモデルでは、MLLMsを使用して入力テキストまたはチャットに関連する画像を生成しています。しかし、MGIEとMLLMsまたはVLLMsを区別するのは、MGIEが画像編集機能を強化するためにMLLMsの能力を活用しているという点です。

MGIE：アーキテクチャと方法論

伝統的に、大規模言語モデルは自然言語処理の生成タスクに使用されてきました。しかし、MLLMsが主流になった以来、LLMsは画像入力を認識して視覚認識応答を提供する能力を備えるようになりました。通常、MLLMは事前トレーニングされたLLMから初期化され、視覚エンコーダーとアダプターを含み、視覚特徴を抽出して視覚特徴を言語モダリティに投影します。したがって、MLLMフレームワークは視覚入力を認識できますが、出力はまだテキストに限定されています。

提案されたMGIEフレームワークは、この問題を解決し、MLLMを使用して入力画像をテキスト指示に基づいて出力画像に編集することを目的としています。これを実現するために、MGIEフレームワークにはMLLMと拡散モデルが含まれています。また、MGIEフレームワークは、視覚と言語モダリティのギャップを埋めるために、特別な画像トークンをアーキテクチャに追加し、モダリティの変換に編集ヘッドを採用します。これらのモダリティは、MLLMからの潜在的な視覚的想像力を提供し、拡散モデルを編集タスクの実行に導きます。MGIEフレームワークは、視覚認識タスクのための合理的な画像編集を実行できます。

簡潔な表現的な指示

伝統的に、MLLMは、指示の調整と特徴の整列により、視覚関連の応答を提供できます。画像を編集するために、MGIEフレームワークは、画像とともにテキストプロンプトを主な言語入力として使用し、編集コマンドの詳細な説明を導き出します。ただし、これらの説明は長すぎるか、繰り返しの説明を含む可能性があり、意図が誤解される可能性があり、MGIEは、要約された出力を生成するために事前トレーニング済みの要約器を適用する必要があります。フレームワークは、明示的なガイダンスとしてこの簡潔で表現的な指示を扱い、教師強制を使用してクロスエントロピー損失でMLLMをトレーニングします。

表現的な指示を使用すると、テキスト指示よりも具体的なアイデアが得られ、フレームワークの効率がさらに高まります。また、MGIEフレームワークは、推論期間中に長い説明を生成するのではなく、簡潔な表現的な指示を導き出し、外部の要約に依存しません。したがって、MGIEフレームワークは、編集の意図の視覚的想像力を把握することができますが、言語モダリティに限定されます。このハードルを克服するために、MGIEモデルは、トレーニング可能なワードエンベッディングを使用して、表現的な指示の後に一定数の視覚トークンを追加し、MLLMが言語モデルのヘッドを使用してこれらを生成できるようにします。

潜在的な想像力による画像編集

次のステップでは、MGIEフレームワークは、画像指示を実際の視覚的ガイダンスに変換するために編集ヘッドを採用します。編集ヘッドは、MLLMからの視覚トークンのシーケンスを、シーケンスからシーケンスのモデルとして、意味のある潜在的な意味の編集ガイダンスにマッピングするのに役立ちます。具体的には、ワードエンベッディングへの変換は、視覚モダリティでの一般的な表現と見なされ、編集の意図のためにインスタンス認識視覚的想像力コンポーネントを使用します。さらに、視覚的想像力を使用して画像編集をガイドするために、MGIEフレームワークは、潜在的な変分オートエンコーダーと潜在的な空間でのノイズ削減拡散を含む潜在的な拡散モデルをアーキテクチャに埋め込みます。潜在的な拡散モデルの主な目的は、潜在的な入力を保存し、編集の指示に従う潜在的な目標を生成することです。拡散プロセスは、潜在的な目標に時間間隔を経てノイズを追加し、各タイムステップでノイズレベルが増加します。

MGIEの学習

次の図は、提案されたMGIEフレームワークの学習プロセスのアルゴリズムをまとめています。

観察すると、MLLMは、指示の損失を使用して簡潔な表現的な指示を導き出すことを学習します。入力画像指示からの潜在的な想像力を使用して、フレームワークはモダリティの編集ヘッドを変換し、潜在的な拡散モデルを編集タスクの合成に導きます。さらに、フレームワークは拡散のトレーニングに編集の損失を適用し、最後に、パラメータ効率的なエンドツーエンドのトレーニングの結果、多くの重みを凍結します。

MGIE：結果と評価

MGIEフレームワークは、IPr2Prデータセットを主な事前トレーニングデータとして使用し、GPT-3モデルから抽出された指示と、画像の合成のためにPrompt-to-Promptモデルを含む100万以上のCLIPフィルタリング済みデータを含みます。さらに、MGIEフレームワークは、CLIPテキストエンコーダーと拡散モデルを備えたInsPix2Pixフレームワークを、指示に基づく画像編集タスクのベースラインとして扱います。また、MGIEモデルは、指示のみの入力から表現的な指示を導き出すために採用されたLLMガイド画像編集モデルも考慮します。

定量的分析

次の図は、ゼロショット設定でモデルの編集結果をまとめています。GIERとEVRデータのPhotoshopスタイルの変更の場合、表現的な指示は、曖昧なコマンドではなく、具体的な目標を明らかにし、編集結果が編集の意図に似ていることを可能にします。

InsPix2Pixモデルと同じデータでトレーニングされたMGIEとLGIEですが、MGIEは大規模言語モデルを使用して詳細な説明を提供できますが、LGIEは単一のモダリティに限定されています。さらに、MGIEフレームワークは、画像へのアクセスを活用して、明示的な指示を導き出すことができるため、有意なパフォーマンスの向上を実現できます。

特定の目的の指示に基づく画像編集タスクのパフォーマンスを評価するために、開発者は各データセットで複数のモデルを微調整します。次の表にまとめられています。

観察すると、Photoshopスタイルの編集タスクのEVRとGIERに適応した後、モデルはパフォーマンスの向上を示しています。ただし、微調整によって表現的な指示がよりドメイン固有のものになるため、MGIEフレームワークは大幅なパフォーマンスの向上を経験し、微調整された大規模言語モデルの利点を活用して、ローカル変更とローカル最適化の両方で拡散モデルが具体的な編集シーンを示すことができます。また、視覚認識ガイダンスが編集の意図とより一致しているため、MGIEフレームワークは一貫してLGIEよりも優れた結果をもたらします。

次の図は、入力または真の目標画像と表現的な指示間のCLIPスコアを示しています。CLIPスコアが高いほど、指示が編集ソースに関連していることを示します。MGIEは、入力画像と出力画像の両方でLGIEモデルよりも高いCLIPスコアを持っていることが観察されます。

定性的結果

次の画像は、MGIEフレームワークの定性的分析をまとめています。

MGIEフレームワークは、画像へのアクセスを活用して編集タスクを完了し、編集の意図に合った明示的な視覚的想像力を提供します。一方、LGIEフレームワークは、単一のモダリティに限定されているため、画像の編集に誤ったまたは無関係な説明を導き出す可能性があります。

最終的な考え

この記事では、MGIEまたはMLLMガイド画像編集について説明しました。MGIEは、MLLMにインスパイアされた研究であり、MLLMの能力を評価し、テキストまたはガイド付き指示を使用して編集を容易にする方法を分析します。MGIE編集モデルは、視覚情報を把握し、エンドツーエンドのトレーニングを使用して編集または操作を実行します。MGIEフレームワークは、曖昧で簡潔な指示ではなく、明示的な視覚認識指示を生成し、合理的な画像編集を実現します。