Connect with us

人工知能

EasyPhoto: あなたのパーソナルAI写真生成ツール

mm
EasyPhoto : Your Personal AI Portrait Generator

Stable Diffusion Webユーザーインターフェイス、またはSD-WebUIは、Stable DiffusionモデルをGradioライブラリを利用してブラウザインターフェイスを提供する包括的なプロジェクトです。今日、私たちは、EasyPhotoについて話します。EasyPhotoは、エンドユーザーがAIポートレートや画像を生成できる革新的なWebUIプラグインです。EasyPhoto WebUIプラグインは、さまざまなテンプレートを使用してAIポートレートを生成し、さまざまな写真スタイルや複数の修正をサポートしています。さらに、EasyPhotoの機能をさらに強化するために、ユーザーはSDXLモデルを使用して、より満足のいく、正確で、多様な結果を生成できます。始めましょう。

EasyPhotoとStable Diffusionの紹介

Stable Diffusionフレームワークは、開発者が入力テキスト説明に基づいてリアルな画像を生成するために使用される人気のある拡散ベースの生成フレームワークです。その能力により、Stable Diffusionフレームワークは、画像のアウトペイント、画像のインペイント、画像から画像への翻訳などの幅広いアプリケーションを備えています。Stable Diffusion Web UI、またはSD-WebUIは、このフレームワークの最も人気のあるアプリケーションの1つです。Gradioライブラリを使用して構築されたブラウザインターフェイスを備えており、Stable Diffusionモデルにインタラクティブでユーザーフレンドリーなインターフェイスを提供しています。画像生成の制御と使いやすさをさらに強化するために、SD-WebUIはさまざまなStable Diffusionアプリケーションを統合しています。

SD-WebUIフレームワークの提供する便利さにより、EasyPhotoフレームワークの開発者は、完全なアプリケーションではなく、WebプラグインとしてEasyPhotoを作成することにしました。既存の方法がしばしばアイデンティティの喪失や画像に非現実的な特徴を導入するのに対し、EasyPhotoフレームワークは、Stable Diffusionモデルの画像から画像への機能を利用して、正確でリアルな画像を生成します。ユーザーは、WebUI内でEasyPhotoフレームワークを簡単にインストールできます。つまり、より幅広いユーザーにとって、使いやすさとアクセシビリティが向上します。EasyPhotoフレームワークにより、ユーザーは、入力アイデンティティに近い、アイデンティティを導く、高品質でリアルなAIポートレートを生成できます。

まず、EasyPhotoフレームワークは、ユーザーにデジタル・ドッペルゲンガーを作成するように求めます。ユーザーは、オンラインでLoRAまたは低ランク適応モデルをトレーニングするために、いくつかの画像をアップロードします。LoRAフレームワークは、低ランク適応技術を使用して拡散モデルを迅速にファインチューニングします。このプロセスにより、ベースモデルは特定のユーザーのID情報を理解できるようになります。トレーニングされたモデルは、基準Stable Diffusionモデルに統合されて干渉に使用されます。さらに、干渉プロセス中に、モデルは安定した拡散モデルを使用して、干渉テンプレートの顔領域を再描画し、入力画像と出力画像の類似性を、さまざまなControlNetユニットを使用して検証します。

EasyPhotoフレームワークは、境界アーティファクトやアイデンティティの喪失などの潜在的な問題に対処するために、2段階の拡散プロセスを展開しています。したがって、生成された画像は視覚的な矛盾を最小限に抑えながら、ユーザーのアイデンティティを維持します。さらに、EasyPhotoフレームワークの干渉パイプラインは、ポートレートの生成のみに限定されていません。ユーザーのIDに関連するものを生成することもできます。これは、LoRAモデルを特定のIDにトレーニングすると、幅広いAI画像を生成でき、バーチャル・トライオンなどの幅広いアプリケーションが可能になることを意味します。

まとめると、EasyPhotoフレームワーク

  1. 画像生成で顔の忠実性を維持するために、複数のLoRAモデルを組み込む新しいアプローチを提案します。
  2. 顔のアイデンティティの報酬を直接最適化するために、強化学習方法を使用してLoRAモデルを最適化します。これにより、トレーニング画像と生成された結果の間のアイデンティティの類似性が向上します。
  3. 美的でリアルなAI写真を生成することを目的とした、2段階のインペイントベースの拡散プロセスを提案します。

EasyPhoto : アーキテクチャ & トレーニング

以下の図は、EasyPhoto AIフレームワークのトレーニングプロセスを示しています。

図からわかるように、フレームワークはまず、ユーザーにトレーニング画像の入力を求め、次に顔検出を実行して顔の位置を検出します。顔が検出されると、フレームワークは、顔領域のみに焦点を当てた事前定義された比率を使用して入力画像をトリミングします。次に、フレームワークは、スキン・ビューティフィケーションとサリエンシ検出モデルを使用して、クリーンでクリアな顔のトレーニング画像を取得します。これらのモデルは、顔の視覚的な品質を向上させ、背景情報が除去され、トレーニング画像が主に顔で構成されることを保証する上で重要な役割を果たします。最後に、フレームワークは、これらの処理済み画像と入力プロンプトを使用してLoRAモデルをトレーニングし、ユーザー固有の顔の特徴をより効果的に理解できるようにします。

さらに、トレーニング段階では、フレームワークは重要な検証ステップを含みます。このステップでは、フレームワークは、ユーザーの入力画像と、トレーニングされたLoRAモデルによって生成された検証画像の間の顔IDギャップを計算します。検証ステップは、LoRAモデルの融合を実現する上で重要な役割を果たすプロセスであり、最終的に、トレーニングされたLoRAフレームワークがユーザーのデジタル・ドッペルゲンガー、または正確なデジタル表現に変換されることを保証します。さらに、最適な顔IDスコアを持つ検証画像が、顔ID画像として選択され、この顔ID画像は、干渉生成のアイデンティティの類似性を向上させるために使用されます。

次に、アンサンブルプロセスに基づいて、フレームワークは、LoRAモデルのトレーニングを実行します。ここで、主な目的は、尤度推定であり、下流の目的は、顔のアイデンティティの類似性を維持することです。この問題に対処するために、EasyPhotoフレームワークは、下流の目的を直接最適化するために、強化学習技術を使用します。結果として、LoRAモデルによって学習される顔の特徴は、向上し、テンプレート生成結果とテンプレート間の類似性が向上し、テンプレート間の汎化が実現します。

干渉プロセス

以下の図は、EasyPhotoフレームワークの個々のユーザーIDの干渉プロセスを示しています。これは、3つのパートに分かれています

  • 顔の前処理: ControlNetリファレンスと前処理済み入力画像を取得するために使用されます。
  • 最初の拡散: ユーザーの入力に似た粗い結果を生成するために使用されます。
  • 2回目の拡散: 境界アーティファクトを修正し、画像をより正確でリアルなものにするために使用されます。

入力として、フレームワークは、トレーニング検証で生成された最適な顔IDスコアを持つ顔ID画像と、干渉テンプレートを受け取ります。出力は、ユーザーのアイデンティティとユニークな外見に近い、高度な詳細と正確でリアルなポートレートです。干渉テンプレートに基づいて、ユーザーのアイデンティティと外見を再現します。詳細を見てみましょう。

顔の前処理

意識的な推論なしで、干渉テンプレートに基づいてAIポートレートを生成する方法は、SDモデルを使用して干渉テンプレートの顔領域をインペイントすることです。さらに、ControlNetフレームワークをプロセスに追加すると、ユーザーのアイデンティティの保存と、生成された画像の類似性が向上します。しかし、ControlNetを直接地域インペイントに使用すると、次のような潜在的な問題が発生する可能性があります

  • 入力画像と生成画像の不一致: テンプレート画像の重要なポイントが、顔ID画像の重要なポイントと互換性がないため、顔ID画像をリファレンスとしてControlNetを使用すると、出力に不一致が生じる可能性があります。
  • インペイント領域の欠陥: 領域をマスクし、新しい顔でインペイントすると、特にインペイント境界沿いに目立つ欠陥が生じる可能性があります。これにより、生成された画像の信憑性とリアルさが影響を受ける可能性があります。
  • ControlNetによるアイデンティティの喪失: トレーニングプロセスでControlNetフレームワークが使用されていないため、干渉段階でControlNetを使用すると、トレーニングされたLoRAモデルのユーザーIDのアイデンティティを保存する能力が影響を受ける可能性があります。

上記の問題に対処するために、EasyPhotoフレームワークは、3つの手順を提案します。

  • アラインとペースト: 顔貼り付けアルゴリズムを使用して、顔IDとテンプレート画像の間の顔のランドマークの不一致を解決します。まず、モデルは、顔IDとテンプレート画像の顔のランドマークを計算し、次に、テンプレート画像の顔のランドマークを顔IDのランドマークと一致させるために使用されるアフィン変換マトリックスを決定します。結果として得られる画像は、顔ID画像のランドマークを保持し、テンプレート画像と一致しています。
  • 顔の融合: 顔の融合は、マスクインペイントによって生じる境界アーティファクトを修正するために使用される新しいアプローチです。この方法により、EasyPhotoフレームワークは、調和のとれたエッジを保存し、画像生成プロセスを導きます。顔の融合アルゴリズムは、ロープ(グラウンドトゥルースユーザー画像)画像とテンプレートを融合し、結果として得られる画像がエッジ境界の安定性を向上させ、最初の拡散段階でより良い出力をもたらします。
  • ControlNetガイドの検証: LoRAモデルのトレーニングにControlNetフレームワークが使用されていないため、推論プロセスで使用すると、LoRAモデルのアイデンティティを保存する能力が影響を受ける可能性があります。EasyPhotoフレームワークの汎化能力を向上させるために、ControlNetフレームワークの影響を考慮し、さまざまな段階からのLoRAモデルの統合を実現します。

最初の拡散

最初の拡散段階では、テンプレート画像を使用して、ユーザーの入力IDに似たユニークなIDを持つ画像を生成します。入力画像は、ユーザーの入力画像とテンプレート画像の融合であり、調整された顔マスクは入力マスクです。画像生成の制御をさらに強化するために、EasyPhotoフレームワークは、3つのControlNetユニットを統合します。最初のControlNetユニットは、融合画像の制御に焦点を当て、2番目のControlNetユニットは、融合画像の色の制御に焦点を当て、最終的なControlNetユニットは、置換画像のオープンポーズ(リアルタイムマルチパーソンヒューマンポーズ制御)であり、テンプレート画像の顔構造とユーザーの顔のアイデンティティの両方を含みます。

2回目の拡散

2回目の拡散段階では、顔の境界近くのアーティファクトを修正し、細化し、ユーザーは特定の画像領域をマスクして、その領域内の生成の有効性を向上させることができます。この段階では、フレームワークは、最初の拡散段階からの出力画像を、ロープ画像またはユーザーの画像の結果と融合して、2回目の拡散段階の入力画像を生成します。全体として、2回目の拡散段階は、生成された画像の品質と詳細を向上させる上で重要な役割を果たします。

複数のユーザーID

EasyPhotoの特徴の1つは、複数のユーザーIDを生成することをサポートしていることです。以下の図は、EasyPhotoフレームワークの複数のユーザーIDの干渉プロセスのパイプラインを示しています。

複数のユーザーIDの生成をサポートするために、EasyPhotoフレームワークは、まず、干渉テンプレートで顔検出を実行します。これらの干渉テンプレートは、各マスクに1つの顔のみが含まれ、画像の残りの部分が白でマスクされている、複数のマスクに分割されます。複数のユーザーIDの生成は、単純に個々のユーザーIDを生成するタスクに分解されます。フレームワークがユーザーID画像を生成すると、これらの画像は、テンプレート画像とシームレスに統合されて、最終的に、高品質の画像が生成されます。

実験と結果

EasyPhotoフレームワークのパフォーマンスを理解するために、実験と結果を見てみましょう。

上の画像は、EasyPhotoプラグインによって生成され、StyleベースのSDモデルを使用して画像を生成しています。観察すると、生成された画像はリアルで、正確であることがわかります。

上に追加された画像は、EasyPhotoフレームワークによって、コミックスタイルベースのSDモデルを使用して生成されました。コミック写真とリアルな写真は、ユーザーの入力画像に基づいて、ユーザーのプロンプトまたは要件に近いものであることがわかります。

下に追加された画像は、EasyPhotoフレームワークによって、マルチパーソンテンプレートを使用して生成されました。明らかに、生成された画像はクリアで、正確で、オリジナルの画像に似ています。

EasyPhotoを使用すると、ユーザーは、幅広いAIポートレートを生成したり、保存されたテンプレートを使用して複数のユーザーIDを生成したり、SDモデルを使用して推論テンプレートを生成したりできます。上に追加された画像は、EasyPhotoフレームワークが、多様で、高品質のAI画像を生成する能力を示しています。

結論

この記事では、EasyPhotoについて説明しました。EasyPhotoは、エンドユーザーがAIポートレートや画像を生成できる革新的なWebUIプラグインです。EasyPhoto WebUIプラグインは、任意のテンプレートを使用してAIポートレートを生成し、現在の意味では、さまざまな写真スタイルや複数の修正をサポートしています。さらに、EasyPhotoの機能をさらに強化するために、ユーザーはSDXLモデルを使用して、より満足のいく、正確で、多様な画像を生成できます。EasyPhotoフレームワークは、安定した拡散ベースモデルと事前トレーニングされたLoRAモデルを使用して、高品質の画像出力を生成します。

画像生成に興味がある場合は、ベストAIヘッドショットジェネレーターベストAI画像ジェネレーターのリストも提供しています。これらは、使用が簡単で、技術的な専門知識が不要です。

職業はエンジニア、心は作家。クナルは、AIとMLを深く愛し理解しているテクニカルライターで、これらの分野の複雑な概念を魅力的で情報の多いドキュメンテーションを通じて簡素化することに尽力しています。