スタブ EasyPhoto: パーソナル AI 写真ジェネレーター - Unite.AI
私達と接続

Artificial Intelligence

EasyPhoto: パーソナル AI 写真ジェネレーター

mm
更新中 on
EasyPhoto : パーソナル AI ポートレート ジェネレーター

安定拡散 Web ユーザー インターフェイス (SD-WebUI) は、Gradio ライブラリを利用してブラウザ インターフェイスを提供する安定拡散モデルの包括的なプロジェクトです。 今日は、エンド ユーザーが AI ポートレートや画像を生成できるようにする革新的な WebUI プラグインである EasyPhoto について説明します。 EasyPhoto WebUI プラグインは、さまざまなテンプレートを使用して AI ポートレートを作成し、さまざまな写真スタイルや複数の変更をサポートします。 さらに、EasyPhoto の機能をさらに強化するために、ユーザーは SDXL モデルを使用して画像を生成し、より満足のいく、正確で多様な結果を得ることができます。 さぁ、始めよう。

EasyPhotoと安定した普及の紹介

Stable Diffusion フレームワークは、開発者が入力テキストの説明に基づいてリアルな画像を生成するために使用する、人気のある堅牢な拡散ベースの生成フレームワークです。 Stable Diffusion フレームワークは、その機能のおかげで、イメージのアウトペイント、イメージのインペイント、イメージ間の変換など、幅広いアプリケーションを誇ります。 Stable Diffusion Web UI (SD-WebUI) は、このフレームワークの最も人気がありよく知られているアプリケーションの XNUMX つとして際立っています。 Gradio ライブラリに基づいて構築されたブラウザ インターフェイスを備えており、安定した拡散モデルにインタラクティブでユーザーフレンドリーなインターフェイスを提供します。 画像生成の制御と使いやすさをさらに強化するために、SD-WebUI には多数の Stable Diffusion アプリケーションが統合されています。

SD-WebUI フレームワークが提供する利便性のため、EasyPhoto フレームワークの開発者は、これを本格的なアプリケーションではなく Web プラグインとして作成することにしました。 多くの場合、同一性の損失が発生したり、画像に非現実的な特徴が導入されたりする既存の方法とは対照的に、EasyPhoto フレームワークは、安定拡散モデルの画像間機能を活用して、正確でリアルな画像を生成します。 ユーザーは、EasyPhoto フレームワークを WebUI 内の拡張機能として簡単にインストールできるため、より幅広いユーザーにとって使いやすさとアクセシビリティが向上します。 EasyPhoto フレームワークを使用すると、ユーザーは ID に基づいて、高品質で、 リアルなAIポートレート 入力 ID によく似ています。

まず、EasyPhoto フレームワークは、顔 LoRA または低ランク適応モデルをオンラインでトレーニングするためにいくつかの画像をアップロードしてデジタル ドッペルゲンガーを作成するようにユーザーに求めます。 LoRA フレームワークは、低ランク適応テクノロジーを利用して拡散モデルを迅速に微調整します。 このプロセスにより、ベースのモデルは特定のユーザーの ID 情報を理解できるようになります。 次に、トレーニングされたモデルは、干渉用のベースライン安定拡散モデルにマージおよび統合されます。 さらに、干渉プロセス中に、モデルは安定した拡散モデルを使用して干渉テンプレート内の顔領域を再ペイントしようとし、入力画像と出力画像の類似性がさまざまな ControlNet ユニットを使用して検証されます。 

また、EasyPhoto フレームワークは、境界アーティファクトやアイデンティティの喪失などの潜在的な問題に対処するために XNUMX 段階の拡散プロセスを導入し、ユーザーのアイデンティティを維持しながら、生成される画像の視覚的な不一致を最小限に抑えます。 さらに、EasyPhoto フレームワークの干渉パイプラインはポートレートの生成に限定されず、ユーザーの ID に関連するあらゆるものの生成にも使用できます。 これは、一度トレーニングすると、 LoRAモデル 特定のIDに対してさまざまなAI画像を生成できるため、仮想試着などの幅広い用途が可能です。 

EasyPhoto フレームワークを要約すると、

  1. 生成された画像の顔の忠実性を維持するために複数の LoRA モデルを組み込むことで LoRA モデルをトレーニングする新しいアプローチを提案します。 
  2. さまざまな強化学習手法を利用して、顔識別報酬の LoRA モデルを最適化します。これは、トレーニング画像と生成された結果の間の識別の類似性をさらに高めるのに役立ちます。 
  3. 審美性と類似性の高い AI 写真を生成することを目的とした、XNUMX 段階の修復ベースの拡散プロセスを提案します。 

EasyPhoto : アーキテクチャとトレーニング

次の図は、EasyPhoto AI フレームワークのトレーニング プロセスを示しています。 

ご覧のとおり、フレームワークは最初にユーザーにトレーニング画像の入力を求め、次に顔検出を実行して顔の位置を検出します。 フレームワークが顔を検出すると、顔の領域のみに焦点を当てた事前定義された特定の比率を使用して入力画像をトリミングします。 次に、フレームワークは肌の美化と顕著性検出モデルを展開して、クリーンで鮮明な顔トレーニング画像を取得します。 これら XNUMX つのモデルは、顔の視覚的な品質を向上させる上で重要な役割を果たし、また、背景情報が削除され、トレーニング イメージに主に顔が含まれていることを確認します。 最後に、フレームワークはこれらの処理された画像と入力プロンプトを使用して LoRA モデルをトレーニングし、ユーザー固有の顔の特徴をより効果的かつ正確に理解する機能を備えます。 

さらに、トレーニング段階中に、フレームワークには重要な検証ステップが含まれており、フレームワークはユーザー入力画像とトレーニング済み LoRA モデルによって生成された検証画像の間の顔 ID ギャップを計算します。 検証ステップは、LoRA モデルの融合を達成する上で重要な役割を果たす基本的なプロセスであり、最終的には 訓練された LoRA フレームワーク ドッペルゲンガー、つまりユーザーの正確なデジタル表現に変身します。 さらに、最適な face_id スコアを持つ検証画像が face_id 画像として選択され、この face_id 画像は干渉生成の同一性類似性を高めるために使用されます。 

次に、アンサンブル プロセスに基づいて、フレームワークは尤度推定を主な目的として LoRA モデルをトレーニングしますが、顔の同一性の類似性を維持することが下流の目的です。 この問題に取り組むために、EasyPhoto フレームワークは強化学習技術を利用して、下流の目標を直接最適化します。 その結果、LoRA モデルが学習する顔の特徴は、テンプレートで生成された結果間の類似性の向上につながる改善を示し、テンプレート間の一般化も示しています。 

干渉プロセス

次の図は、EasyPhoto フレームワークにおける個々のユーザー ID の干渉プロセスを示しており、XNUMX つの部分に分かれています。

  • 顔の前処理 ControlNet リファレンスと前処理された入力イメージを取得するため。 
  • 最初の拡散 これは、ユーザー入力に似た大まかな結果を生成するのに役立ちます。 
  • 二次拡散 これにより境界アーチファクトが修正され、画像がより正確になり、よりリアルに見えます。 

入力として、フレームワークは face_id 画像 (最適な face_id スコアを使用したトレーニング検証中に生成) と干渉テンプレートを受け取ります。 出力は、ユーザーの非常に詳細で正確かつ現実的なポートレートであり、推論テンプレートに基づいてユーザーのアイデンティティと固有の外観によく似ています。 これらのプロセスを詳しく見てみましょう。

顔の前処理

意識的な推論を行わずに干渉テンプレートに基づいて AI ポートレートを生成する方法は、SD モデルを使用して干渉テンプレートの顔領域を修復することです。 さらに、ControlNet フレームワークをプロセスに追加すると、ユーザー ID の保存が強化されるだけでなく、生成される画像間の類似性も強化されます。 ただし、地域の修復に ControlNet を直接使用すると、次のような潜在的な問題が発生する可能性があります。

  • 入力と生成された画像間の不一致: テンプレート イメージのキー ポイントが face_id イメージのキー ポイントと互換性がないことは明らかです。そのため、face_id イメージを参照として ControlNet を使用すると、出力に不整合が生じる可能性があります。 
  • Inpaint 領域の欠陥: 領域をマスクしてから新しい面で修復すると、特に修復境界に沿って顕著な欠陥が生じる可能性があり、生成されたイメージの信頼性に影響を与えるだけでなく、イメージのリアリズムにも悪影響を及ぼします。 
  • コントロールネットによるアイデンティティの喪失: トレーニング プロセスでは ControlNet フレームワークを利用しないため、干渉フェーズで ControlNet を使用すると、トレーニングされた LoRA モデルが入力ユーザー ID の ID を保持する能力に影響を与える可能性があります。 

上記の問題に取り組むために、EasyPhoto フレームワークは XNUMX つの手順を提案しています。 

  • 整列して貼り付け: EasyPhoto フレームワークは、顔貼り付けアルゴリズムを使用することで、顔 ID とテンプレートの間の顔のランドマーク間の不一致の問題に取り組むことを目的としています。 まず、モデルは、face_id とテンプレート画像の顔のランドマークを計算し、その後、モデルは、テンプレート画像の顔のランドマークを face_id 画像と位置合わせするために使用されるアフィン変換行列を決定します。 結果の画像は、face_id 画像と同じランドマークを保持し、テンプレート画像とも位置合わせされます。 
  • フェイスヒューズ: Face Fuse は、マスク修復の結果である境界アーティファクトを修正するために使用される新しいアプローチであり、ControlNet フレームワークを使用したアーティファクトの修正が含まれます。 この方法により、EasyPhoto フレームワークは調和のとれたエッジを確実に保持できるようになり、最終的には画像生成プロセスを導くことができます。 顔融合アルゴリズムは、ループ (グラウンド トゥルース ユーザー イメージ) イメージとテンプレートをさらに融合します。これにより、結果として得られる融合イメージのエッジ境界の安定化が向上し、最初の拡散段階での出力の強化につながります。 
  • ControlNet ガイドによる検証: LoRA モデルは ControlNet フレームワークを使用してトレーニングされていないため、推論プロセス中に ControlNet フレームワークを使用すると、LoRA モデルのアイデンティティを保持する機能に影響を与える可能性があります。 EasyPhoto の一般化機能を強化するために、このフレームワークは ControlNet フレームワークの影響を考慮し、さまざまな段階の LoRA モデルを組み込みます。 

最初の拡散

最初の拡散段階では、テンプレート画像を使用して、入力されたユーザー ID に似た一意の ID を持つ画像を生成します。 入力画像はユーザー入力画像とテンプレート画像を融合したものですが、調整されたフェイスマスクは入力マスクです。 画像生成の制御をさらに強化するために、EasyPhoto フレームワークには XNUMX つの ControlNet ユニットが統合されています。最初の ControlNet ユニットは融合された画像の制御に重点を置き、XNUMX 番目の ControlNet ユニットは融合された画像の色を制御し、最後の ControlNet ユニットはオープンポーズです。これには、テンプレート画像の顔の構造だけでなく、ユーザーの顔のアイデンティティも含まれます。

二次拡散

XNUMX 番目の拡散段階では、顔の境界付近のアーティファクトが洗練され、微調整されるとともに、ユーザーが画像内の特定の領域を柔軟にマスクして、その専用領域内での生成の効率を高めることができます。 この段階では、フレームワークは第 XNUMX 拡散段階で得られた出力画像とループ画像またはユーザーの画像の結果を融合し、第 XNUMX 拡散段階の入力画像を生成します。 全体として、第 XNUMX 拡散段階は、全体的な品質と、生成された画像の詳細を向上させる上で重要な役割を果たします。 

マルチユーザーID

EasyPhoto のハイライトの XNUMX つは、複数のユーザー ID の生成のサポートです。以下の図は、EasyPhoto フレームワークにおけるマルチ ユーザー ID の干渉プロセスのパイプラインを示しています。 

マルチユーザー ID 生成のサポートを提供するために、EasyPhoto フレームワークは最初に干渉テンプレートで顔検出を実行します。 これらの干渉テンプレートは多数のマスクに分割され、各マスクには顔が XNUMX つだけ含まれ、画像の残りの部分は白でマスクされます。これにより、マルチユーザー ID の生成が、個々のユーザー ID を生成する単純なタスクに分割されます。 フレームワークがユーザー ID 画像を生成すると、これらの画像は推論テンプレートにマージされ、テンプレート画像と生成された画像のシームレスな統合が容易になり、最終的に高品質の画像が得られます。 

実験と結果

EasyPhoto フレームワークについて理解できたので、次は EasyPhoto フレームワークのパフォーマンスを調べてみましょう。 

上の画像は EasyPhoto プラグインによって生成され、画像生成にはスタイル ベースの SD モデルが使用されます。 ご覧のとおり、生成された画像は現実的に見え、非常に正確です。 

上に追加された画像は、コミック スタイル ベースの SD モデルを使用して EasyPhoto フレームワークによって生成されます。 見てわかるように、漫画の写真と現実的な写真は非常に現実的に見え、ユーザーのプロンプトまたは要件に基づいて入力画像によく似ています。 

以下に追加された画像は、Multi-person テンプレートを使用して EasyPhoto フレームワークによって生成されました。 はっきりとわかるように、生成された画像は鮮明で正確で、元の画像に似ています。 

EasyPhoto の助けを借りて、ユーザーはさまざまな AI ポートレートを生成したり、保存されたテンプレートを使用して複数のユーザー ID を生成したり、SD モデルを使用して推論テンプレートを生成したりできるようになりました。 上に追加した画像は、EasyPhoto フレームワークが多様で高品質の AI 写真を生成できることを示しています。

まとめ

この記事では、EasyPhoto について説明しました。 斬新なWebUIプラグイン これにより、エンドユーザーは AI ポートレートと画像を生成できるようになります。 EasyPhoto WebUI プラグインは、任意のテンプレートを使用して AI ポートレートを生成します。EasyPhoto WebUI の現在の影響により、さまざまな写真スタイルと複数の変更がサポートされます。 さらに、EasyPhoto の機能をさらに強化するために、ユーザーは SDXL モデルを使用して画像を生成し、より満足のいく、正確で多様な画像を生成できる柔軟性を備えています。 EasyPhoto フレームワークは、高品質の画像出力を生成する事前トレーニングされた LoRA モデルと組み合わせた安定した拡散ベース モデルを利用します。

画像ジェネレーターに興味がありますか? のリストも提供します。 最高の AI ヘッドショット ジェネレーター最高の AI 画像ジェネレーター 使いやすく、技術的な専門知識は必要ありません。

「職業はエンジニア、心は作家」。 Kunal は、AI と ML に対する深い愛情と理解を備えたテクニカル ライターであり、魅力的で有益なドキュメントを通じてこれらの分野の複雑な概念を簡素化することに専念しています。