Artificial Intelligence

InstantID: ゼロショットでアイデンティティを保持しながら数秒で生成

公開済み

2ヶ月前

2024 年 3 月 12 日

AI を活用した画像生成テクノロジーは、DALL-E、GLIDE、Stable Diffusion、Imagen などの大規模なテキストから画像への拡散モデルが急速に登場して以来、ここ数年で目覚ましい成長を遂げてきました。画像生成 AI モデルは独自のアーキテクチャとトレーニング方法を持っているという事実にもかかわらず、共通の焦点を共有しています。それは、参照画像に基づいて一貫したキャラクター ID、主題、スタイルを持つ画像を作成することを目的とした、カスタマイズおよびパーソナライズされた画像生成です。最新の画像生成 AI フレームワークは、その優れた生成機能により、画像アニメーション、仮想現実、電子商取引、AI ポートレートなどの分野で応用されています。ただし、その優れた生成機能にもかかわらず、これらのフレームワークには共通のハードルがあります。そのほとんどは、人間のオブジェクトの微妙なアイデンティティの詳細を維持しながら、カスタマイズされた画像を生成することができません。

複雑な詳細を保持しながらカスタマイズされた画像を生成することは、主に粗いテクスチャと色に焦点を当てた一般的なオブジェクト画像生成タスクと比較して、高水準の忠実性と詳細性、および微妙なセマンティクスを必要とする人間の顔の識別タスクでは特に非常に重要です。さらに、近年では、LoRA、DreamBooth、Textual Inversion などのパーソナライズされた画像合成フレームワークが大幅に進歩しました。ただし、パーソナライズされた画像生成 AI モデルは、ストレージ要件が高く、複数の参照画像が必要で、多くの場合、長時間にわたる微調整プロセスが必要となるため、現実世界のシナリオでの展開にはまだ完全ではありません。一方で、既存の ID 埋め込みベースの手法は単一の前方参照のみを必要としますが、公開されている事前トレーニング済みモデルとの互換性がないか、多数のパラメーターにわたって過剰な微調整プロセスが必要になるか、高い値を維持できないかのいずれかです。顔の忠実度。

これらの課題に対処し、画像生成機能をさらに強化するために、この記事では、画像生成のための拡散モデルベースのソリューションである InstantID について説明します。 InstantID は、単一の参照画像を使用してさまざまなスタイルの画像生成とパーソナライゼーションを適切に処理し、高い忠実度を保証するプラグアンドプレイモジュールです。この記事の主な目的は、モデルのアーキテクチャ、トレーニングプロセス、およびアプリケーションシナリオを詳しく説明することで、InstantID フレームワークの技術的基盤とコンポーネントを読者に徹底的に理解してもらうことです。それでは始めましょう。

InstantID: ゼロショットでアイデンティティを保持する画像生成

テキストから画像への拡散モデルの出現は、画像生成技術の進歩に大きく貢献しました。これらのモデルの主な目的は、カスタマイズして個人的に生成し、1 つまたは複数の参照画像を使用して一貫した主題、スタイル、キャラクター ID を持つ画像を作成することです。一貫した画像を作成するこれらのフレームワークの機能により、画像アニメーション、AI ポートレート生成、電子商取引、仮想現実や拡張現実など、さまざまな業界で潜在的なアプリケーションが生み出されています。

ただし、その優れた能力にもかかわらず、これらのフレームワークは根本的な課題に直面しています。人間の被写体の複雑な詳細を正確に保存するカスタマイズされた画像を生成するのに苦労することがよくあります。人間の顔の同一性は、主に色や粗いテクスチャに焦点を当てた一般的なオブジェクトやスタイルと比較して、より高度な忠実度および詳細とともに、より高度なセマンティクスを必要とするため、固有の詳細を備えたカスタマイズされた画像を生成することは困難な作業であることは注目に値します。既存のテキストから画像へのモデルは、詳細なテキスト記述に依存しており、カスタマイズされた画像生成に対する強い意味的関連性を実現するのに苦労しています。さらに、一部の大規模な事前トレーニング済みテキストから画像へのフレームワークには、制御性を高めるために空間調整コントロールが追加されており、体のポーズ、深度マップ、ユーザーが描いたスケッチ、セマンティックセグメンテーションマップなどの要素を使用したきめ細かい構造制御が容易になります。ただし、これらの追加や機能強化にもかかわらず、これらのフレームワークは、生成されたイメージの参照イメージに対する部分的な忠実度しか達成できません。

これらのハードルを克服するために、InstantID フレームワークは、即時アイデンティティを保持した画像合成に焦点を当て、フレームワークが 1 つの顔画像のみを使用して画像のパーソナライゼーションを処理できるようにするシンプルなプラグアンドプレイモジュールを導入することで、効率と高忠実度の間のギャップを埋めることを試みています。高い忠実度を維持しながら。さらに、参照画像から顔の同一性を保持するために、InstantID フレームワークは、テキストプロンプト、ランドマーク画像、顔画像を組み込むことで画像生成プロセスをガイドする弱い空間条件と強力なセマンティック条件を追加することで、複雑な画像の詳細を保持する新しい顔エンコーダを実装します。。

InstantID フレームワークを既存のテキストから画像への生成フレームワークと区別する 3 つの特徴があります。

互換性とプラグイン可能性: UNet フレームワークの完全なパラメーターでトレーニングする代わりに、InstantID フレームワークは軽量アダプターのトレーニングに重点を置いています。その結果、InstantID フレームワークは、既存の事前トレーニング済みモデルと互換性があり、プラグイン可能です。

チューニング不要: InstantID フレームワークの方法論では、推論に 1 回の順伝播のみが必要なため、微調整の必要がなく、モデルが非常に実用的で微調整に経済的になります。
卓越した性能: InstantID フレームワークは、複数の参照画像に依存するトレーニングベースの方法に匹敵する、単一の参照画像のみを使用して最先端のパフォーマンスを提供できるため、高い柔軟性と忠実性を示します。

全体として、InstantID フレームワークの貢献は次の点に分類できます。

InstantID フレームワークは、効率と忠実度の間のギャップを埋めることを目的とした、事前トレーニングされたテキストから画像への拡散モデルのための革新的な ID 保存適応方法です。
InstantID フレームワークは、そのアーキテクチャで同じ拡散モデルを使用するカスタム微調整モデルと互換性があり、プラグイン可能であり、追加コストなしで事前トレーニングされたモデルで ID を保存できます。

InstantID: 方法論とアーキテクチャ

前述したように、InstantID フレームワークは、事前トレーニングされたテキストから画像への拡散モデルに ID 保存機能を簡単に提供する効率的な軽量アダプターです。

アーキテクチャについて言えば、InstantID フレームワークは安定拡散モデル、オートエンコーダーを使用してピクセル空間ではなく、低次元の潜在空間で高い計算効率で拡散プロセスを実行できることで有名です。入力画像の場合、エンコーダーはまず、ダウンサンプリング係数と潜在次元を使用して画像を潜在表現にマッピングします。さらに、ノイズの多い潜在、条件、および現在のタイムステップを持つ正規分布ノイズをノイズ除去するために、拡散プロセスではノイズ除去 UNet コンポーネントが採用されています。この条件は、事前トレーニングされた CLIP テキストエンコーダコンポーネントを使用して生成されたテキストプロンプトの埋め込みです。

さらに、InstantID フレームワークは、条件として事前トレーニングされた拡散モデルに空間制御を追加できる ControlNet コンポーネントも利用しており、テキストプロンプトの従来の機能をはるかに超えています。 ControlNet コンポーネントは、UNet コンポーネントのトレーニングされたレプリケーションを使用して、Stable Diffusion フレームワークの UNet アーキテクチャも統合します。 UNet コンポーネントのレプリカは、中間ブロックとエンコーダーブロック内のゼロ畳み込み層を特徴としています。類似点にもかかわらず、ControlNet コンポーネントは安定拡散モデルとは区別されます。両方とも後者の残りの項目が異なります。 ControlNet コンポーネントは、残差を UNet ブロックに追加することでポーズ、深度マップ、スケッチなどの空間条件情報をエンコードし、これらの残差を元のネットワークに埋め込みます。

InstantID フレームワークは、元のテキストを画像モデルに変更する必要なく、テキストプロンプトと並行して実行される画像プロンプト機能を実現する新しいアプローチを導入する IP アダプターまたは画像プロンプトアダプターからもインスピレーションを得ています。 IP アダプターコンポーネントは、追加のクロスアテンションレイヤーを使用して画像特徴を埋め込み、他のパラメータを変更しない独自の分離されたクロスアテンション戦略も採用しています。

方法論

簡単に概要を説明すると、InstantID フレームワークは、単一の参照 ID イメージのみを使用して、忠実度の高い、さまざまなスタイルやポーズを持つカスタマイズされたイメージを生成することを目的としています。次の図は、InstantID フレームワークの概要を簡単に示しています。

ご覧のとおり、InstantID フレームワークには 3 つの重要なコンポーネントがあります。

画像内の顔の特徴の堅牢な意味情報をキャプチャする ID 埋め込みコンポーネント。
視覚的なプロンプトとして画像を使用しやすくするために、分離されたクロスアテンションコンポーネントを備えた軽量の採用モジュール。
追加の空間制御を使用して参照画像から詳細な特徴をエンコードする IdentityNet コンポーネント。

ID埋め込み

FaceStudio、PhotoMaker、IP-Adapter など、視覚的なプロンプトを抽出するために事前にトレーニングされた CLIP 画像エンコーダーに依存する既存の方法とは異なり、InstantID フレームワークは、ID 保存タスクにおける忠実性の強化とより強力なセマンティクスの詳細に焦点を当てています。 CLIP コンポーネントの固有の制限は、主に弱くアライメントされたデータのトレーニングプロセスにあり、CLIP エンコーダーのエンコードされた機能は主に色、スタイル、構成などの広範で曖昧なセマンティック情報をキャプチャすることを意味することに注意してください。これらの機能はテキスト埋め込みの一般的な補足として機能しますが、強力なセマンティクスと高い忠実度を重視する正確な ID 保存タスクには適していません。さらに、特に顔認識を中心とした顔表現モデルの最近の研究では、顔の再構築や認識を含む複雑なタスクにおける顔表現の効率性が実証されています。これに基づいて、InstantID フレームワークは、事前トレーニングされた顔モデルを活用して、参照画像から顔 ID 埋め込みを検出および抽出し、画像生成用のモデルをガイドすることを目的としています。

イメージアダプター

の機能事前トレーニングされたテキストから画像への拡散モデル画像プロンプトタスクでは、特にテキストプロンプトでは適切に説明できないシナリオの場合に、テキストプロンプトが大幅に強化されます。 InstantID フレームワークは、画像プロンプト用の IP アダプターモデルで使用される戦略に似た戦略を採用しています。これは、画像を入力プロンプトとしてサポートするために、分離されたクロスアテンションコンポーネントと組み合わせた軽量の適応モジュールを導入します。ただし、粗く調整された CLIP 埋め込みとは対照的に、InstantID フレームワークは、意味的に豊かでより微妙なプロンプト統合を実現するために、画像プロンプトとして ID 埋め込みを採用することで分岐します。

アイデンティティネット

既存の方法では画像プロンプトをテキストプロンプトと統合できますが、InstantID フレームワークは、これらの方法は粗粒な特徴を強化するだけであり、ID を保持する画像生成には不十分な統合レベルであると主張しています。さらに、クロスアテンションレイヤーに画像トークンとテキストトークンを直接追加すると、テキストトークンの制御が弱くなる傾向があり、画像トークンの強度を高めようとすると、編集タスクにおけるテキストトークンの能力が損なわれる可能性があります。これらの課題に対処するために、InstantID フレームワークは、制御可能なモジュールへの入力として空間情報を利用する代替機能埋め込み方法である ControlNet を選択し、拡散モデルの UNet 設定との一貫性を維持できるようにします。

InstantID フレームワークは、従来の ControlNet アーキテクチャに 5 つの変更を加えています。条件付き入力の場合、InstantID フレームワークは、きめ細かい OpenPose 顔キーポイントの代わりに XNUMX つの顔キーポイントを選択します。 XNUMX 番目に、InstantID フレームワークは、ControlNet アーキテクチャのクロスアテンション層の条件として、テキストプロンプトの代わりに ID 埋め込みを使用します。

トレーニングと推論

トレーニングフェーズ中に、InstantID フレームワークは、事前トレーニングされた拡散モデルのパラメーターをフリーズしながら、IdentityNet とイメージアダプターのパラメーターを最適化します。 InstantID パイプライン全体は、人間の被写体を特徴とする画像とテキストのペアでトレーニングされ、タスク固有の画像条件を使用した安定拡散フレームワークで使用されるものと同様のトレーニング目標を採用します。 InstantID トレーニング方法のハイライトは、画像プロンプトアダプター内の画像とテキストのクロスアテンションレイヤー間の分離です。これにより、InstantID フレームワークがこれらの画像条件の重みを柔軟かつ独立して調整できるようになり、よりターゲットを絞った制御されたトレーニングが保証されます。推論とトレーニングのプロセス。

InstantID : 実験と結果

InstantID フレームワークは Stable Diffusion を実装し、50 万を超える画像とテキストのペアで構成される大規模なオープンソースデータセットである LAION-Face でトレーニングします。さらに、InstantID フレームワークは、BLIP10 モデルによって自動的に生成された自動化機能を使用して 2 万を超える人物画像を収集し、画像生成の品質をさらに高めます。 InstantID フレームワークは主に XNUMX 人の人物の画像に焦点を当てており、事前にトレーニングされた顔モデルを使用して人物の画像から顔 ID 埋め込みを検出および抽出し、トリミングされた顔データセットをトレーニングする代わりに、元の人物の画像をトレーニングします。さらに、トレーニング中、InstantID フレームワークは、事前トレーニングされたテキストから画像へのモデルをフリーズし、IdentityNet とイメージアダプターのパラメーターのみを更新します。

画像のみの生成

InstantID モデルは、空のプロンプトを使用して、参照イメージのみを使用してイメージ生成プロセスをガイドします。プロンプトを使用しない結果を次の図に示します。

上の画像に示されている「空のプロンプト」の生成は、アイデンティティ、年齢、表情などの豊富なセマンティックな顔の特徴を堅牢に維持する InstantID フレームワークの機能を示しています。ただし、空のプロンプトを使用すると、性別などの他のセマンティクスに関する結果を正確に再現できない可能性があることに注意してください。さらに、上の画像では、列 2 ～ 4 で画像とプロンプトが使用されており、生成された画像はテキストコントロール機能の低下を示さず、アイデンティティの一貫性も確保していることがわかります。最後に、列 5 ～ 9 では、画像、プロンプト、および空間コントロールを使用しており、事前トレーニングされた ControlNet コンポーネントを使用して、InstantID モデルが柔軟に空間コントロールを導入できるようにする、事前トレーニングされた空間制御モデルとモデルの互換性を示しています。

上の図に示されているように、参照イメージの数が生成されるイメージに大きな影響を与えることにも注目してください。 InstantID フレームワークは単一の参照画像を使用して良好な結果を提供できますが、InstantID フレームワークは画像プロンプトとして ID 埋め込みの平均値を取得するため、複数の参照画像を使用するとより高品質の画像が生成されます。次に、InstantID フレームワークを、単一の参照画像を使用してパーソナライズされた画像を生成する以前の方法と比較することが重要です。次の図は、InstantID フレームワークによって生成された結果と、単一参照のカスタマイズされたイメージ生成の既存の最先端モデルによって生成された結果を比較しています。

ご覧のとおり、InstantID フレームワークは、ID 埋め込みが本質的に ID、年齢、性別などの豊富なセマンティック情報を保持しているため、顔の特徴を保存できます。 InstantID フレームワークは、制御とスタイルの柔軟性を維持しながら人間のアイデンティティを維持できるため、カスタマイズされた画像生成において既存のフレームワークよりも優れていると言っても過言ではありません。

最終的な考え

この記事では、拡散モデルベースの画像生成ソリューションである InstantID について説明しました。 InstantID は、単一の参照画像を使用してさまざまなスタイルの画像生成とパーソナライゼーションを適切に処理し、高い忠実度を保証するプラグアンドプレイモジュールです。 InstantID フレームワークは、即時アイデンティティを保持した画像合成に焦点を当てており、フレームワークが高忠実度を維持しながら 1 つの顔画像のみを使用して画像のパーソナライゼーションを処理できるようにするシンプルなプラグアンドプレイモジュールを導入することで、効率と高忠実度の間のギャップを埋めることを試みています。