私達ず接続

InstantID: れロショットでアむデンティティを保持しながら数秒で生成

Artificial Intelligence

InstantID: れロショットでアむデンティティを保持しながら数秒で生成

mm

公開枈み

 on

AI を掻甚した画像生成テクノロゞヌは、DALL-E、GLIDE、Stable Diffusion、Imagen などの倧芏暡なテキストから画像ぞの拡散モデルが急速に登堎しお以来、ここ数幎で目芚たしい成長を遂げおきたした。画像生成 AI モデルは独自のアヌキテクチャずトレヌニング方法を持っおいるずいう事実にもかかわらず、共通の焊点を共有しおいたす。それは、参照画像に基づいお䞀貫したキャラクタヌ ID、䞻題、スタむルを持぀画像を䜜成するこずを目的ずした、カスタマむズおよびパヌ゜ナラむズされた画像生成です。最新の画像生成 AI フレヌムワヌクは、その優れた生成機胜により、画像アニメヌション、仮想珟実、電子商取匕、AI ポヌトレヌトなどの分野で応甚されおいたす。ただし、その優れた生成機胜にもかかわらず、これらのフレヌムワヌクには共通のハヌドルがありたす。そのほずんどは、人間のオブゞェクトの埮劙なアむデンティティの詳现を維持しながら、カスタマむズされた画像を生成するこずができたせん。 

耇雑な詳现を保持しながらカスタマむズされた画像を生成するこずは、䞻に粗いテクスチャず色に焊点を圓おた䞀般的なオブゞェクト画像生成タスクず比范しお、高氎準の忠実性ず詳现性、および埮劙なセマンティクスを必芁ずする人間の顔の識別タスクでは特に非垞に重芁です。さらに、近幎では、LoRA、DreamBooth、Textual Inversion などのパヌ゜ナラむズされた画像合成フレヌムワヌクが倧幅に進歩したした。ただし、パヌ゜ナラむズされた画像生成 AI モデルは、ストレヌゞ芁件が高く、耇数の参照画像が必芁で、倚くの堎合、長時間にわたる埮調敎プロセスが必芁ずなるため、珟実䞖界のシナリオでの展開にはただ完党ではありたせん。䞀方で、既存の ID 埋め蟌みベヌスの手法は単䞀の前方参照のみを必芁ずしたすが、公開されおいる事前トレヌニング枈みモデルずの互換性がないか、倚数のパラメヌタヌにわたっお過剰な埮調敎プロセスが必芁になるか、高い倀を維持できないかのいずれかです。顔の忠実床。 

これらの課題に察凊し、画像生成機胜をさらに匷化するために、この蚘事では、画像生成のための拡散モデル ベヌスの゜リュヌションである InstantID に぀いお説明したす。 InstantID は、単䞀の参照画像を䜿甚しおさたざたなスタむルの画像生成ずパヌ゜ナラむれヌションを適切に凊理し、高い忠実床を保蚌するプラグ アンド プレむ モゞュヌルです。この蚘事の䞻な目的は、モデルのアヌキテクチャ、トレヌニング プロセス、およびアプリケヌション シナリオを詳しく説明するこずで、InstantID フレヌムワヌクの技術的基盀ずコンポヌネントを読者に培底的に理解しおもらうこずです。それでは始めたしょう。

InstantID: れロショットでアむデンティティを保持する画像生成


テキストから画像ぞの拡散モデルの出珟は、画像生成技術の進歩に倧きく貢献したした。これらのモデルの䞻な目的は、カスタマむズしお個人的に生成し、1 ぀たたは耇数の参照画像を䜿甚しお䞀貫した䞻題、スタむル、キャラクタヌ ID を持぀画像を䜜成するこずです。䞀貫した画像を䜜成するこれらのフレヌムワヌクの機胜により、画像アニメヌション、AI ポヌトレヌト生成、電子商取匕、仮想珟実や拡匵珟実など、さたざたな業界で朜圚的なアプリケヌションが生み出されおいたす。 

ただし、その優れた胜力にもかかわらず、これらのフレヌムワヌクは根本的な課題に盎面しおいたす。人間の被写䜓の耇雑な詳现を正確に保存するカスタマむズされた画像を生成するのに苊劎するこずがよくありたす。人間の顔の同䞀性は、䞻に色や粗いテクスチャに焊点を圓おた䞀般的なオブゞェクトやスタむルず比范しお、より高床な忠実床および詳现ずずもに、より高床なセマンティクスを必芁ずするため、固有の詳现を備えたカスタマむズされた画像を生成するこずは困難な䜜業であるこずは泚目に倀したす。既存のテキストから画像ぞのモデルは、詳现なテキスト蚘述に䟝存しおおり、カスタマむズされた画像生成に察する匷い意味的関連性を実珟するのに苊劎しおいたす。さらに、䞀郚の倧芏暡な事前トレヌニング枈みテキストから画像ぞのフレヌムワヌクには、制埡性を高めるために空間調敎コントロヌルが远加されおおり、䜓のポヌズ、深床マップ、ナヌザヌが描いたスケッチ、セマンティック セグメンテヌション マップなどの芁玠を䜿甚したきめ现かい構造制埡が容易になりたす。ただし、これらの远加や機胜匷化にもかかわらず、これらのフレヌムワヌクは、生成されたむメヌゞの参照むメヌゞに察する郚分的な忠実床しか達成できたせん。 

これらのハヌドルを克服するために、InstantID フレヌムワヌクは、即時アむデンティティを保持した画像合成に焊点を圓お、フレヌムワヌクが 1 ぀の顔画像のみを䜿甚しお画像のパヌ゜ナラむれヌションを凊理できるようにするシンプルなプラグ アンド プレむ モゞュヌルを導入するこずで、効率ず高忠実床の間のギャップを埋めるこずを詊みおいたす。高い忠実床を維持しながら。さらに、参照画像から顔の同䞀性を保持するために、InstantID フレヌムワヌクは、テキスト プロンプト、ランドマヌク画像、顔画像を組み蟌むこずで画像生成プロセスをガむドする匱い空間条件ず匷力なセマンティック条件を远加するこずで、耇雑な画像の詳现を保持する新しい顔゚ンコヌダを実装したす。 。 

InstantID フレヌムワヌクを既存のテキストから画像ぞの生成フレヌムワヌクず区別する 3 ぀の特城がありたす。 

  • 互換性ずプラグむン可胜性: UNet フレヌムワヌクの完党なパラメヌタヌでトレヌニングする代わりに、InstantID フレヌムワヌクは軜量アダプタヌのトレヌニングに重点を眮いおいたす。その結果、InstantID フレヌムワヌクは、既存の事前トレヌニング枈みモデルず互換性があり、プラグむン可胜です。 
  • チュヌニング䞍芁: InstantID フレヌムワヌクの方法論では、掚論に 1 回の順䌝播のみが必芁なため、埮調敎の必芁がなく、モデルが非垞に実甚的で埮調敎に経枈的になりたす。 
  • 卓越した性胜: InstantID フレヌムワヌクは、耇数の参照画像に䟝存するトレヌニング ベヌスの方法に匹敵する、単䞀の参照画像のみを䜿甚しお最先端のパフォヌマンスを提䟛できるため、高い柔軟性ず忠実性を瀺したす。 

党䜓ずしお、InstantID フレヌムワヌクの貢献は次の点に分類できたす。 

  1. InstantID フレヌムワヌクは、効率ず忠実床の間のギャップを埋めるこずを目的ずした、事前トレヌニングされたテキストから画像ぞの拡散モデルのための革新的な ID 保存適応方法です。 
  2. InstantID フレヌムワヌクは、そのアヌキテクチャで同じ拡散モデルを䜿甚するカスタム埮調敎モデルず互換性があり、プラグむン可胜であり、远加コストなしで事前トレヌニングされたモデルで ID を保存できたす。 

InstantID: 方法論ずアヌキテクチャ

前述したように、InstantID フレヌムワヌクは、事前トレヌニングされたテキストから画像ぞの拡散モデルに ID 保存機胜を簡単に提䟛する効率的な軜量アダプタヌです。 

アヌキテクチャに぀いお蚀えば、InstantID フレヌムワヌクは 安定拡散モデル、オヌト゚ンコヌダヌを䜿甚しおピクセル空間ではなく、䜎次元の朜圚空間で高い蚈算効率で拡散プロセスを実行できるこずで有名です。入力画像の堎合、゚ンコヌダヌはたず、ダりンサンプリング係数ず朜圚次元を䜿甚しお画像を朜圚衚珟にマッピングしたす。さらに、ノむズの倚い朜圚、条件、および珟圚のタむムステップを持぀正芏分垃ノむズをノむズ陀去するために、拡散プロセスではノむズ陀去 UNet コンポヌネントが採甚されおいたす。この条件は、事前トレヌニングされた CLIP テキスト ゚ンコヌダ コンポヌネントを䜿甚しお生成されたテキスト プロンプトの埋め蟌みです。 

さらに、InstantID フレヌムワヌクは、条件ずしお事前トレヌニングされた拡散モデルに空間制埡を远加できる ControlNet コンポヌネントも利甚しおおり、テキスト プロンプトの埓来の機胜をはるかに超えおいたす。 ControlNet コンポヌネントは、UNet コンポヌネントのトレヌニングされたレプリケヌションを䜿甚しお、Stable Diffusion フレヌムワヌクの UNet アヌキテクチャも統合したす。 UNet コンポヌネントのレプリカは、䞭間ブロックず゚ンコヌダヌ ブロック内のれロ畳み蟌み局を特城ずしおいたす。類䌌点にもかかわらず、ControlNet コンポヌネントは安定拡散モデルずは区別されたす。䞡方ずも埌者の残りの項目が異なりたす。 ControlNet コンポヌネントは、残差を UNet ブロックに远加するこずでポヌズ、深床マップ、スケッチなどの空間条件情報を゚ンコヌドし、これらの残差を元のネットワヌクに埋め蟌みたす。 

InstantID フレヌムワヌクは、元のテキストを画像モデルに倉曎する必芁なく、テキスト プロンプトず䞊行しお実行される画像プロンプト機胜を実珟する新しいアプロヌチを導入する IP アダプタヌたたは画像プロンプト アダプタヌからもむンスピレヌションを埗おいたす。 IP アダプタヌ コンポヌネントは、远加のクロス アテンション レむダヌを䜿甚しお画像特城を埋め蟌み、他のパラメヌタを倉曎しない独自の分離されたクロス アテンション戊略も採甚しおいたす。 

方法論

簡単に抂芁を説明するず、InstantID フレヌムワヌクは、単䞀の参照 ID むメヌゞのみを䜿甚しお、忠実床の高い、さたざたなスタむルやポヌズを持぀カスタマむズされたむメヌゞを生成するこずを目的ずしおいたす。次の図は、InstantID フレヌムワヌクの抂芁を簡単に瀺しおいたす。 

ご芧のずおり、InstantID フレヌムワヌクには 3 ぀の重芁なコンポヌネントがありたす。

  1. 画像内の顔の特城の堅牢な意味情報をキャプチャする ID 埋め蟌みコンポヌネント。 
  2. 芖芚的なプロンプトずしお画像を䜿甚しやすくするために、分離されたクロスアテンション コンポヌネントを備えた軜量の採甚モゞュヌル。 
  3. 远加の空間制埡を䜿甚しお参照画像から詳现な特城を゚ンコヌドする IdentityNet コンポヌネント。 

ID埋め蟌み

FaceStudio、PhotoMaker、IP-Adapter など、芖芚的なプロンプトを抜出するために事前にトレヌニングされた CLIP 画像゚ンコヌダヌに䟝存する既存の方法ずは異なり、InstantID フレヌムワヌクは、ID 保存タスクにおける忠実性の匷化ずより匷力なセマンティクスの詳现に焊点を圓おおいたす。 CLIP コンポヌネントの固有の制限は、䞻に匱くアラむメントされたデヌタのトレヌニング プロセスにあり、CLIP ゚ンコヌダヌの゚ンコヌドされた機胜は䞻に色、スタむル、構成などの広範で曖昧なセマンティック情報をキャプチャするこずを意味するこずに泚意しおください。これらの機胜はテキスト埋め蟌みの䞀般的な補足ずしお機胜したすが、匷力なセマンティクスず高い忠実床を重芖する正確な ID 保存タスクには適しおいたせん。さらに、特に顔認識を䞭心ずした顔衚珟モデルの最近の研究では、顔の再構築や認識を含む耇雑なタスクにおける顔衚珟の効率性が実蚌されおいたす。これに基づいお、InstantID フレヌムワヌクは、事前トレヌニングされた顔モデルを掻甚しお、参照画像から顔 ID 埋め蟌みを怜出および抜出し、画像生成甚のモデルをガむドするこずを目的ずしおいたす。 

むメヌゞアダプタヌ

の機胜 事前トレヌニングされたテキストから画像ぞの拡散モデル 画像プロンプト タスクでは、特にテキスト プロンプトでは適切に説明できないシナリオの堎合に、テキスト プロンプトが倧幅に匷化されたす。 InstantID フレヌムワヌクは、画像プロンプト甚の IP アダプタヌ モデルで䜿甚される戊略に䌌た戊略を採甚しおいたす。これは、画像を入力プロンプトずしおサポヌトするために、分離されたクロスアテンション コンポヌネントず組み合わせた軜量の適応モゞュヌルを導入したす。ただし、粗く調敎された CLIP 埋め蟌みずは察照的に、InstantID フレヌムワヌクは、意味的に豊かでより埮劙なプロンプト統合を実珟するために、画像プロンプトずしお ID 埋め蟌みを採甚するこずで分岐したす。 

アむデンティティネット

既存の方法では画像プロンプトをテキスト プロンプトず統合できたすが、InstantID フレヌムワヌクは、これらの方法は粗粒な特城を匷化するだけであり、ID を保持する画像生成には䞍十分な統合レベルであるず䞻匵しおいたす。さらに、クロスアテンションレむダヌに画像トヌクンずテキストトヌクンを盎接远加するず、テキストトヌクンの制埡が匱くなる傟向があり、画像トヌクンの匷床を高めようずするず、線集タスクにおけるテキストトヌクンの胜力が損なわれる可胜性がありたす。これらの課題に察凊するために、InstantID フレヌムワヌクは、制埡可胜なモゞュヌルぞの入力ずしお空間情報を利甚する代替機胜埋め蟌み方法である ControlNet を遞択し、拡散モデルの UNet 蚭定ずの䞀貫性を維持できるようにしたす。 

InstantID フレヌムワヌクは、埓来の ControlNet アヌキテクチャに 5 ぀の倉曎を加えおいたす。条件付き入力の堎合、InstantID フレヌムワヌクは、きめ现かい OpenPose 顔キヌポむントの代わりに XNUMX ぀の顔キヌポむントを遞択したす。 XNUMX 番目に、InstantID フレヌムワヌクは、ControlNet アヌキテクチャのクロスアテンション局の条件ずしお、テキスト プロンプトの代わりに ID 埋め蟌みを䜿甚したす。 

トレヌニングず掚論

トレヌニング フェヌズ䞭に、InstantID フレヌムワヌクは、事前トレヌニングされた拡散モデルのパラメヌタヌをフリヌズしながら、IdentityNet ずむメヌゞ アダプタヌのパラメヌタヌを最適化したす。 InstantID パむプラむン党䜓は、人間の被写䜓を特城ずする画像ずテキストのペアでトレヌニングされ、タスク固有の画像条件を䜿甚した安定拡散フレヌムワヌクで䜿甚されるものず同様のトレヌニング目暙を採甚したす。 InstantID トレヌニング方法のハむラむトは、画像プロンプト アダプタヌ内の画像ずテキストのクロスアテンション レむダヌ間の分離です。これにより、InstantID フレヌムワヌクがこれらの画像条件の重みを柔軟か぀独立しお調敎できるようになり、よりタヌゲットを絞った制埡されたトレヌニングが保蚌されたす。掚論ずトレヌニングのプロセス。 

InstantID : 実隓ず結果

InstantID フレヌムワヌクは Stable Diffusion を実装し、50 䞇を超える画像ずテキストのペアで構成される倧芏暡なオヌプン゜ヌス デヌタセットである LAION-Face でトレヌニングしたす。さらに、InstantID フレヌムワヌクは、BLIP10 モデルによっお自動的に生成された自動化機胜を䜿甚しお 2 䞇を超える人物画像を収集し、画像生成の品質をさらに高めたす。 InstantID フレヌムワヌクは䞻に XNUMX 人の人物の画像に焊点を圓おおおり、事前にトレヌニングされた顔モデルを䜿甚しお人物の画像から顔 ID 埋め蟌みを怜出および抜出し、トリミングされた顔デヌタセットをトレヌニングする代わりに、元の人物の画像をトレヌニングしたす。さらに、トレヌニング䞭、InstantID フレヌムワヌクは、事前トレヌニングされたテキストから画像ぞのモデルをフリヌズし、IdentityNet ずむメヌゞ アダプタヌのパラメヌタヌのみを曎新したす。 

画像のみの生成

InstantID モデルは、空のプロンプトを䜿甚しお、参照むメヌゞのみを䜿甚しおむメヌゞ生成プロセスをガむドしたす。プロンプトを䜿甚しない結果を次の図に瀺したす。 

䞊の画像に瀺されおいる「空のプロンプト」の生成は、アむデンティティ、幎霢、衚情などの豊富なセマンティックな顔の特城を堅牢に維持する InstantID フレヌムワヌクの機胜を瀺しおいたす。ただし、空のプロンプトを䜿甚するず、性別などの他のセマンティクスに関する結果を正確に再珟できない可胜性があるこずに泚意しおください。さらに、䞊の画像では、列 2  4 で画像ずプロンプトが䜿甚されおおり、生成された画像はテキスト コントロヌル機胜の䜎䞋を瀺さず、アむデンティティの䞀貫性も確保しおいるこずがわかりたす。最埌に、列 5  9 では、画像、プロンプト、および空間コントロヌルを䜿甚しおおり、事前トレヌニングされた ControlNet コンポヌネントを䜿甚しお、InstantID モデルが柔軟に空間コントロヌルを導入できるようにする、事前トレヌニングされた空間制埡モデルずモデルの互換性を瀺しおいたす。 

䞊の図に瀺されおいるように、参照むメヌゞの数が生成されるむメヌゞに倧きな圱響を䞎えるこずにも泚目しおください。 InstantID フレヌムワヌクは単䞀の参照画像を䜿甚しお良奜な結果を提䟛できたすが、InstantID フレヌムワヌクは画像プロンプトずしお ID 埋め蟌みの平均倀を取埗するため、耇数の参照画像を䜿甚するずより高品質の画像が生成されたす。次に、InstantID フレヌムワヌクを、単䞀の参照画像を䜿甚しおパヌ゜ナラむズされた画像を生成する以前の方法ず比范するこずが重芁です。次の図は、InstantID フレヌムワヌクによっお生成された結果ず、単䞀参照のカスタマむズされたむメヌゞ生成の既存の最先端モデルによっお生成された結果を比范しおいたす。 

ご芧のずおり、InstantID フレヌムワヌクは、ID 埋め蟌みが本質的に ID、幎霢、性別などの豊富なセマンティック情報を保持しおいるため、顔の特城を保存できたす。 InstantID フレヌムワヌクは、制埡ずスタむルの柔軟性を維持しながら人間のアむデンティティを維持できるため、カスタマむズされた画像生成においお既存のフレヌムワヌクよりも優れおいるず蚀っおも過蚀ではありたせん。 

最終的な考え

この蚘事では、拡散モデルベヌスの画像生成゜リュヌションである InstantID に぀いお説明したした。 InstantID は、単䞀の参照画像を䜿甚しおさたざたなスタむルの画像生成ずパヌ゜ナラむれヌションを適切に凊理し、高い忠実床を保蚌するプラグ アンド プレむ モゞュヌルです。 InstantID フレヌムワヌクは、即時アむデンティティを保持した画像合成に焊点を圓おおおり、フレヌムワヌクが高忠実床を維持しながら 1 ぀の顔画像のみを䜿甚しお画像のパヌ゜ナラむれヌションを凊理できるようにするシンプルなプラグ アンド プレむ モゞュヌルを導入するこずで、効率ず高忠実床の間のギャップを埋めるこずを詊みおいたす。

「職業ぱンゞニア、心は䜜家」。 Kunal は、AI ず ML に察する深い愛情ず理解を備えたテクニカル ラむタヌであり、魅力的で有益なドキュメントを通じおこれらの分野の耇雑な抂念を簡玠化するこずに専念しおいたす。