人工知能

InstantID: ゼロショット・アイデンティティー保存生成を数秒で実現

Published March 12, 2024

Updated April 4, 2026

Kunal Kejriwal

AIを用いた画像生成技術は、DALL-E、GLIDE、Stable Diffusion、Imagenなどの大規模なテキストから画像の拡散モデルが登場して以来、過去数年で著しく成長を遂げてきました。これらの画像生成AIモデルは独自のアーキテクチャとトレーニング方法を持っていますが、すべて共通の焦点を持っています。カスタマイズされた画像生成を実現し、参照画像に基づいて一貫したキャラクターID、主題、スタイルを持つ画像を作成することを目的としています。画像生成AIモデルの優れた生成能力により、現代の画像生成AIフレームワークは、画像アニメーション、仮想現実、Eコマース、AIポートレートなど、さまざまな分野で応用されています。しかし、これらのフレームワークは、人間のオブジェクトの繊細なアイデンティティの詳細を保存しながらカスタマイズされた画像を生成することができないという課題を持っています。

繊細な詳細を保存しながらカスタマイズされた画像を生成することは、特に人間の顔のアイデンティティタスクで、高い忠実度と詳細、ニュアンスなセマンティクスが必要な場合に、非常に重要です。一般的なオブジェクト画像生成タスクと比較して、画像生成プロセスを導くために、テキストプロンプト、ランドマーク画像、顔画像を組み込むことで、画像の生成プロセスを導くために、弱い空間的条件と強いセマンティック条件を追加することで、顔の詳細な画像の詳細を保持することができます。

InstantIDフレームワークは、画像生成とパーソナライゼーションを、単一の参照画像で、高い忠実度で実現することができます。InstantIDフレームワークは、ゼロショット・アイデンティティー保存生成を実現するために、簡単なプラグアンドプレイモジュールを導入します。このモジュールは、単一の顔画像で画像のパーソナライゼーションを処理し、高い忠実度を維持することができます。

InstantID: ゼロショット・アイデンティティー保存画像生成

テキストから画像への拡散モデルは、画像生成技術の進歩に大きく貢献しています。これらのモデルの主な目的は、カスタマイズされた画像生成とパーソナライゼーションであり、参照画像を使用して一貫した主題、スタイル、キャラクターIDを持つ画像を作成することを目的としています。これらのフレームワークの能力は、画像アニメーション、AIポートレート生成、Eコマース、仮想現実、拡張現実など、さまざまな分野で応用されています。

しかし、これらのフレームワークは、人間のオブジェクトの繊細な詳細を保存しながらカスタマイズされた画像を生成することができないという課題を持っています。人間の顔のアイデンティティタスクでは、高い忠実度と詳細、ニュアンスなセマンティクスが必要です。一般的なオブジェクト画像生成タスクと比較して、画像生成プロセスを導くために、テキストプロンプト、ランドマーク画像、顔画像を組み込むことで、画像の生成プロセスを導くために、弱い空間的条件と強いセマンティック条件を追加することで、顔の詳細な画像の詳細を保持することができます。

InstantIDフレームワークは、ゼロショット・アイデンティティー保存画像生成を実現するために、簡単なプラグアンドプレイモジュールを導入します。このモジュールは、単一の顔画像で画像のパーソナライゼーションを処理し、高い忠実度を維持することができます。さらに、参照画像から顔のアイデンティティを保存するために、InstantIDフレームワークは、弱い空間的条件と強いセマンティック条件を導入することで、画像生成プロセスを導くために、テキストプロンプト、ランドマーク画像、顔画像を組み込むことができます。

InstantIDフレームワークは、以下の3つの特徴で、既存のテキストから画像への生成フレームワークと異なります。

互換性とプラグアンドプレイ性: InstantIDフレームワークは、UNetフレームワークの全パラメータをトレーニングするのではなく、軽量なアダプタをトレーニングします。したがって、InstantIDフレームワークは、既存の事前トレーニング済みモデルと互換性があり、プラグアンドプレイが可能です。

ファインチューニング不要: InstantIDフレームワークの方法では、ファインチューニングの必要性が排除されます。なぜなら、単一のフォワード伝播のみで推論が可能になるからです。これにより、モデルは実用的で経済的になります。
優れた性能: InstantIDフレームワークは、高い柔軟性と忠実度を示します。単一の参照画像のみを使用して、状態オブザートの性能を達成し、複数の参照画像に依存するトレーニングベースの方法と比較して優れています。

全体として、InstantIDフレームワークの貢献は、以下の点に分類できます。

InstantIDフレームワークは、事前トレーニング済みのテキストから画像への拡散モデルにアイデンティティ保存を実現するための革新的なアダプテーション方法です。効率と忠実度のギャップを埋めることを目的としています。
InstantIDフレームワークは、カスタムファインチューニング済みモデルと同様の拡散モデルアーキテクチャを使用して、事前トレーニング済みモデルでアイデンティティ保存を実現することができます。追加コストなしで、既存のモデルと互換性があります。

InstantID: 方法とアーキテクチャ

前述のように、InstantIDフレームワークは、事前トレーニング済みのテキストから画像への拡散モデルにアイデンティティ保存機能を追加するための軽量アダプタです。

アーキテクチャについて説明すると、InstantIDフレームワークは、Stable Diffusionモデルをベースにしています。これは、低次元の潜在空間で拡散プロセスを実行することで、高い計算効率を実現することで知られています。入力画像に対して、エンコーダは最初に画像を潜在的な表現にマッピングし、ダウンサンプリング係数と潜在的な次元で表現します。さらに、ノイズのある潜在的なノイズを除去するために、拡散プロセスでは、デノイジングUNetコンポーネントを採用します。条件は、事前トレーニング済みのCLIPテキストエンコーダコンポーネントを使用して生成されたテキストプロンプトの埋め込みです。

さらに、InstantIDフレームワークは、ControlNetコンポーネントを使用して、事前トレーニング済みの拡散モデルに空間的制御を追加することができます。ControlNetコンポーネントは、UNetアーキテクチャをStable Diffusionフレームワークから統合します。UNetコンポーネントのレプリカには、中間ブロックとエンコーダブロックにゼロの畳み込み層があります。Stable Diffusionモデルと比較して、ControlNetコンポーネントは、残差アイテムが異なる点で異なります。ControlNetコンポーネントは、ポーズ、深度マップ、スケッチなど、空間的条件情報をエンコードし、これらの残差をUNetブロックに追加して、元のネットワークに埋め込みます。

InstantIDフレームワークは、IP-AdapterまたはImage Prompt Adapterからも着想を得ています。これは、画像プロンプト機能を実現するための新しいアプローチを導入し、テキストプロンプトと並行して画像を入力プロンプトとして使用するために、軽量アダプティブモジュールとデカップルクロスアテンションコンポーネントを使用します。

方法

簡単に説明すると、InstantIDフレームワークは、単一の参照ID画像を使用して、さまざまなスタイルまたはポーズのカスタマイズされた画像を生成することを目的としています。以下の図は、InstantIDフレームワークの概要を示しています。

観察すると、InstantIDフレームワークには3つの重要なコンポーネントがあります:

ID埋め込みコンポーネントは、画像の顔の特徴の強いセマンティック情報を捉える。
軽量アダプタモジュールとデカップルクロスアテンションコンポーネントは、画像を視覚プロンプトとして使用することを容易にします。
IdentityNetコンポーネントは、参照画像から詳細な特徴をエンコードし、追加の空間的制御を使用します。

ID埋め込み

既存の方法、たとえばFaceStudio、PhotoMaker、IP-Adapterなどは、事前トレーニング済みのCLIP画像エンコーダを使用して視覚プロンプトを抽出しますが、InstantIDフレームワークは、アイデンティティ保存タスクでの忠実度とセマンティック詳細の強化に重点を置いています。CLIPコンポーネントの固有の制限は、弱く整列されたデータでトレーニングされたことにあるため、CLIPエンコーダのエンコードされた特徴は、主に色、スタイル、構成などの広いセマンティック情報を捉える。画像生成タスクでは、これらの特徴はテキスト埋め込みの一般的な補足として機能できますが、アイデンティティ保存タスクでは、強いセマンティクスと高い忠実度が必要なため、適していません。顔表現モデル、特に顔認識の分野での最近の研究は、顔表現の複雑なタスク、たとえば顔認識や再構築における効率を実証しています。InstantIDフレームワークは、事前トレーニング済みの顔モデルを使用して、参照画像から顔ID埋め込みを抽出し、画像生成を導くために使用します。

画像アダプタ

事前トレーニング済みのテキストから画像への拡散モデルの画像プロンプトタスクの能力は、特にテキストプロンプトで十分に説明できないシナリオで、テキストプロンプトを大幅に強化します。InstantIDフレームワークは、IP-Adapterモデルと同様の戦略を採用して、画像プロンプトを実現します。軽量アダプティブモジュールとデカップルクロスアテンションコンポーネントを使用して、画像を入力プロンプトとしてサポートします。ただし、CLIP埋め込みと比較して、InstantIDフレームワークは、セマンティックに豊かでより繊細なプロンプト統合を実現するために、ID埋め込みを画像プロンプトとして使用します。

IdentityNet

既存の方法は、画像プロンプトとテキストプロンプトを統合することができますが、InstantIDフレームワークは、これらの方法は粗い特徴を強化するだけで、アイデンティティ保存画像生成には不十分であると主張します。さらに、画像とテキストトークンをクロスアテンション層に直接追加すると、テキストトークンの制御が弱くなり、画像トークンの強さを強化しようとすると、テキストトークンの編集能力が損なわれる可能性があります。InstantIDフレームワークは、ControlNetを代替の特徴埋め込み方法として採用し、空間情報を入力として使用して、制御可能なモジュールを維持します。これにより、UNet設定と一致することができます。

InstantIDフレームワークは、伝統的なControlNetアーキテクチャに2つの変更を加えます。条件入力として、5つの顔のキーポイントを使用します。2つ目は、ControlNetアーキテクチャのクロスアテンション層の条件として、テキストプロンプトの代わりにID埋め込みを使用します。

トレーニングと推論

トレーニング段階で、InstantIDフレームワークは、IdentityNetとImage Adapterのパラメータを最適化しますが、事前トレーニング済みの拡散モデルのパラメータは凍結します。InstantIDパイプラインは、人間の被写体を特徴とする画像とテキストのペアでトレーニングされ、Stable Diffusionフレームワークで使用されるタスク固有の画像条件と同様のトレーニング目標を使用します。InstantIDトレーニング方法のハイライトは、画像アダプタ内の画像とテキストのクロスアテンション層の分離です。これにより、InstantIDフレームワークは、画像条件の重みを柔軟に、独立して調整することができます。したがって、よりターゲットを絞った制御と推論プロセスが可能になります。

InstantID: 実験と結果

InstantIDフレームワークは、Stable Diffusionモデルを実装し、LAION-Faceと呼ばれる、5,000万以上の画像とテキストのペアを含む大規模なオープンソースデータセットでトレーニングします。さらに、InstantIDフレームワークは、BLIP2モデルを使用して自動生成された10万以上の人間の画像を収集して、画像生成の品質を向上させます。InstantIDフレームワークは、主に単身の画像に焦点を当てて、事前トレーニング済みの顔モデルを使用して人間の画像から顔ID埋め込みを抽出し、トレーニング段階で事前トレーニング済みのテキストから画像へのモデルを凍結し、IdentityNetとImage Adapterのパラメータのみを更新します。

画像のみ生成

InstantIDモデルは、空のプロンプトを使用して、参照画像のみを使用して画像生成プロセスを導き、結果は以下の画像に示されます。

「空のプロンプト」生成は、InstantIDフレームワークが、アイデンティティ、年齢、表情などの豊富なセマンティック顔の特徴を強固に保持する能力を示しています。ただし、空のプロンプトを使用する場合、性別などの他のセマンティクスを正確に複製できない可能性があることに注意する必要があります。さらに、上の画像の2列目から4列目は、画像とプロンプトを使用し、生成された画像がテキスト制御能力の低下を示さないこと、およびアイデンティティの一貫性を維持することがわかります。最後に、5列目から9列目は、画像、プロンプト、空間制御を使用し、事前トレーニング済みの空間制御モデルと互換性があることを示しています。InstantIDモデルは、事前トレーニング済みのControlNetコンポーネントを使用して、柔軟に空間制御を導入することができます。

参照画像の数が生成された画像に大きな影響を与えることもわかります。InstantIDフレームワークは、単一の参照画像で良い結果を出すことができますが、複数の参照画像では、より高品質の画像が生成されます。InstantIDフレームワークは、ID埋め込みの平均を画像プロンプトとして使用するためです。進んで、単一の参照画像を使用したカスタマイズされた画像生成のための既存の方法と比較することが重要です。以下の図は、InstantIDフレームワークと既存の最先端モデルによる結果の比較を示しています。

InstantIDフレームワークは、ID埋め込みが豊富なセマンティック情報、たとえばアイデンティティ、年齢、性別を保持するため、顔の特徴を保存することができます。InstantIDフレームワークは、人間のアイデンティティを保存しながら、制御とスタイリッシュな柔軟性を維持することができるため、カスタマイズされた画像生成で既存のフレームワークを上回っていることがわかります。

最終的な考え

この記事では、画像生成のための拡散モデルベースのソリューションであるInstantIDについて説明しました。InstantIDは、プラグアンドプレイモジュールであり、単一の参照画像で、高い忠実度で、さまざまなスタイルの画像生成とパーソナライゼーションを処理することができます。InstantIDフレームワークは、ゼロショット・アイデンティティー保存画像生成を実現するために、単一の顔画像で画像のパーソナライゼーションを処理し、高い忠実度を維持することができます。