Connect with us

EasyPhoto: Ihr persönlicher AI-Foto-Generator

Künstliche Intelligenz

EasyPhoto: Ihr persönlicher AI-Foto-Generator

mm
EasyPhoto : Your Personal AI Portrait Generator

Stable Diffusion Web-Benutzeroberfläche, oder SD-WebUI, ist ein umfassendes Projekt für Stable-Diffusion-Modelle, das die Gradio-Bibliothek nutzt, um eine Browser-Oberfläche bereitzustellen. Heute werden wir über EasyPhoto sprechen, ein innovatives WebUI-Plugin, das Endbenutzern ermöglicht, AI-Porträts und Bilder zu generieren. Das EasyPhoto-WebUI-Plugin erstellt AI-Porträts mithilfe verschiedener Vorlagen, unterstützt unterschiedliche Fotostile und mehrere Modifikationen. Darüber hinaus können Benutzer, um EasyPhotos Fähigkeiten weiter zu verbessern, Bilder mithilfe des SDXL-Modells generieren, um zufriedenstellendere, genauere und vielfältigere Ergebnisse zu erzielen. Lassen Sie uns beginnen.

Eine Einführung in EasyPhoto und Stable Diffusion

Die Stable-Diffusion-Architektur ist ein beliebtes und robustes diffusionsbasiertes Generierungsframework, das von Entwicklern verwendet wird, um realistische Bilder auf der Grundlage von Textbeschreibungen zu generieren. Dank seiner Fähigkeiten verfügt die Stable-Diffusion-Architektur über eine breite Palette von Anwendungen, einschließlich Bildausmalung, Bildinpainting und Bild-zu-Bild-Übersetzung. Die Stable-Diffusion-Web-Oberfläche, oder SD-WebUI, ragt als eine der bekanntesten und beliebtesten Anwendungen dieses Frameworks hervor. Sie verfügt über eine Browser-Oberfläche, die auf der Gradio-Bibliothek basiert und eine interaktive und benutzerfreundliche Oberfläche für Stable-Diffusion-Modelle bietet. Um die Kontrolle und Benutzerfreundlichkeit bei der Bildgenerierung weiter zu verbessern, integriert die SD-WebUI zahlreiche Stable-Diffusion-Anwendungen.

Aufgrund der Bequemlichkeit, die das SD-WebUI-Framework bietet, entschieden sich die Entwickler des EasyPhoto-Frameworks, es als Web-Plugin und nicht als eigenständige Anwendung zu erstellen. Im Gegensatz zu bestehenden Methoden, die oft unter Identitätsverlust oder der Einführung unrealistischer Merkmale in Bilder leiden, nutzt das EasyPhoto-Framework die Bild-zu-Bild-Fähigkeiten der Stable-Diffusion-Modelle, um genaue und realistische Bilder zu erzeugen. Benutzer können das EasyPhoto-Framework leicht als Erweiterung innerhalb der WebUI installieren, wodurch die Benutzerfreundlichkeit und Zugänglichkeit für eine breitere Benutzerschaft erhöht wird. Das EasyPhoto-Framework ermöglicht es Benutzern, identitätsgeführte, hochwertige und realistische AI-Porträts zu generieren, die dem Input-Identitätsmerkmal sehr ähnlich sind.

Zunächst fordert das EasyPhoto-Framework die Benutzer auf, ihre digitale Doppelgängerin durch das Hochladen einiger Bilder zu erstellen, um ein Gesichts-LoRA- oder Low-Rank-Adaptationsmodell online zu trainieren. Das LoRA-Framework feinjustiert die Diffusionsmodelle schnell, indem es die Low-Rank-Adaptationstechnologie nutzt. Dieser Prozess ermöglicht es dem Basismodell, die ID-Informationen bestimmter Benutzer zu verstehen. Die trainierten Modelle werden dann mit dem Basis-Stable-Diffusion-Modell für die Interferenz fusioniert und integriert. Darüber hinaus verwendet das Modell während des Interferenzprozesses die stabilen Diffusionsmodelle, um die Gesichtsregionen im Interferenztemplate zu übermalen, und die Ähnlichkeit zwischen den Input- und Output-Bildern wird mithilfe der verschiedenen ControlNet-Einheiten überprüft.

Das EasyPhoto-Framework setzt auch einen zweistufigen Diffusionsprozess ein, um potenzielle Probleme wie Randartefakte und Identitätsverlust zu bekämpfen, um sicherzustellen, dass die generierten Bilder visuelle Inkonsistenzen minimieren, während die Benutzeridentität beibehalten wird. Darüber hinaus ist die Interferenzpipeline im EasyPhoto-Framework nicht nur auf die Generierung von Porträts beschränkt, sondern kann auch zur Generierung von allem verwendet werden, was mit der Benutzer-ID verbunden ist. Dies bedeutet, dass Sie, sobald Sie das LoRA-Modell für eine bestimmte ID trainiert haben, eine breite Palette von AI-Bildern generieren können, und es somit weitreichende Anwendungen, einschließlich virtueller Anproben, haben kann.

Um zusammenzufassen, schlägt das EasyPhoto-Framework

  1. einen neuen Ansatz vor, um das LoRA-Modell zu trainieren, indem es mehrere LoRA-Modelle kombiniert, um die Gesichtstreue der generierten Bilder zu erhalten.
  2. verwendet verschiedene Verstärkungslernalgorithmen, um die LoRA-Modelle für Gesichtsidentitätsbelohnungen zu optimieren, was weiterhin dazu beiträgt, die Ähnlichkeit zwischen den Trainingsbildern und den generierten Ergebnissen zu erhöhen.
  3. schlägt einen dualen, auf Inpainting basierenden Diffusionsprozess vor, der darauf abzielt, AI-Fotos mit hoher Ästhetik und Ähnlichkeit zu generieren.

EasyPhoto: Architektur und Training

Die folgende Abbildung zeigt den Trainingsprozess des EasyPhoto-KI-Frameworks.

Wie zu sehen ist, fordert das Framework die Benutzer zunächst auf, die Trainingsbilder einzugeben und führt dann eine Gesichtserkennung durch, um die Gesichtspositionen zu erkennen. Sobald das Framework das Gesicht erkannt hat, beschneidet es das Inputbild mithilfe eines vordefinierten bestimmten Verhältnisses, das sich ausschließlich auf die Gesichtsregion konzentriert. Das Framework setzt dann ein Hautschönheits- und ein Saliency-Erkennungsmodell ein, um ein sauberes und klares Gesichtstrainingbild zu erhalten. Diese beiden Modelle spielen eine entscheidende Rolle bei der Verbesserung der visuellen Qualität des Gesichts und stellen sicher, dass die Hintergrundinformationen entfernt wurden und das Trainingsbild hauptsächlich das Gesicht enthält. Schließlich verwendet das Framework diese verarbeiteten Bilder und Input-Prompts, um das LoRA-Modell zu trainieren und es damit auszustatten, Benutzerspezifische Gesichtsmerkmale effektiver und genauer zu verstehen.

Darüber hinaus umfasst das Framework während der Trainingsphase einen kritischen Validierungsschritt, bei dem das Framework die Gesichts-ID-Lücke zwischen dem Benutzereingabebild und dem Verifizierungsbild berechnet, das durch das trainierte LoRA-Modell generiert wurde. Der Validierungsschritt ist ein grundlegender Prozess, der eine entscheidende Rolle bei der Fusion der LoRA-Modelle spielt und letztendlich sicherstellt, dass das trainierte LoRA-Framework in eine Doppelgängerin oder eine genaue digitale Darstellung des Benutzers transformiert. Darüber hinaus wird das Verifizierungsbild mit dem optimalen Face-ID-Score als Face-ID-Bild ausgewählt, und dieses Face-ID-Bild wird dann verwendet, um die Identitätssimilarität der Interferenzgenerierung zu verbessern.

Weiterhin, basierend auf dem Ensemble-Prozess, trainiert das Framework die LoRA-Modelle mit der Wahrscheinlichkeitsschätzung als primäres Ziel, während die Erhaltung der Gesichtsidentitätssimilarität das Downstream-Ziel ist. Um dieses Problem zu lösen, verwendet das EasyPhoto-Framework Verstärkungslernalgorithmen, um das Downstream-Ziel direkt zu optimieren.Infolgedessen zeigen die Gesichtsmerkmale, die die LoRA-Modelle lernen, eine Verbesserung, die zu einer erhöhten Ähnlichkeit zwischen den generierten Ergebnissen und der Vorlage führt und auch die Verallgemeinerung über Vorlagen demonstriert.

Interferenzprozess

Die folgende Abbildung zeigt den Interferenzprozess für eine einzelne Benutzer-ID im EasyPhoto-Framework und ist in drei Teile unterteilt

  • Gesichtsvorverarbeitung für die Erstellung der ControlNet-Referenz und des vorverarbeiteten Inputbildes.
  • Erste Diffusion, die dabei hilft, grobe Ergebnisse zu generieren, die dem Benutzereingabebild ähneln.
  • Zweite Diffusion, die die Randartefakte behebt, wodurch die Bilder genauer und realistischer erscheinen.

Für die Eingabe nimmt das Framework ein Face-ID-Bild (während der Trainingsvalidierung mit dem optimalen Face-ID-Score generiert) und ein Interferenztemplate. Die Ausgabe ist ein hochwertiges, genaues und realistisches Porträt des Benutzers, das der Identität und dem einzigartigen Aussehen des Benutzers auf der Grundlage des Interferenztemplates sehr ähnlich ist. Lassen Sie uns einen detaillierten Blick auf diese Prozesse werfen.

Gesichtsvorverarbeitung

Ein Weg, um ein AI-Porträt auf der Grundlage eines Interferenztemplates ohne bewusste Argumentation zu erstellen, besteht darin, das SD-Modell zu verwenden, um die Gesichtsregion im Interferenztemplate zu übermalen. Darüber hinaus kann die Hinzufügung des ControlNet-Frameworks zum Prozess nicht nur die Erhaltung der Benutzeridentität verbessern, sondern auch die Ähnlichkeit zwischen den generierten Bildern erhöhen. Allerdings kann die direkte Verwendung von ControlNet für regionale Übermalung potenzielle Probleme wie

  • Inkonsistenzen zwischen dem Input- und dem generierten Bild: Es ist offensichtlich, dass die Schlüsselpunkte im Template-Bild nicht mit den Schlüsselpunkten im Face-ID-Bild kompatibel sind, was bedeutet, dass die Verwendung von ControlNet mit dem Face-ID-Bild als Referenz zu einigen Inkonsistenzen in der Ausgabe führen kann.
  • Defekte in der Übermalregion: Das Maskieren einer Region und deren Übermalung mit einem neuen Gesicht kann zu erkennbaren Defekten führen, insbesondere entlang der Übermalungsgrenze, was nicht nur die Authentizität des generierten Bildes beeinträchtigt, sondern auch die Realistik des Bildes negativ beeinflusst.
  • Identitätsverlust durch Control Net: Da der Trainingsprozess das ControlNet-Framework nicht nutzt, kann die Verwendung von ControlNet während der Interferenzphase die Fähigkeit der trainierten LoRA-Modelle beeinträchtigen, die Benutzeridentität zu erhalten.

Um die oben genannten Probleme zu lösen, schlägt das EasyPhoto-Framework drei Verfahren vor.

  • Ausrichten und Einsetzen: Durch die Verwendung eines Gesichtseinsetzalgorithmus zielt das EasyPhoto-Framework darauf ab, das Problem der Fehlpassung zwischen den Gesichtsmerkmalen des Face-ID-Bildes und des Templates zu lösen. Zunächst berechnet das Modell die Gesichtsmerkmale des Face-ID-Bildes und des Template-Bildes, woraufhin das Modell die affine Transformationsmatrix bestimmt, die zur Ausrichtung der Gesichtsmerkmale des Template-Bildes mit dem Face-ID-Bild verwendet wird. Das resultierende Bild behält die gleichen Merkmale des Face-ID-Bildes bei und stimmt mit dem Template-Bild überein.
  • Gesichtsfusion: Gesichtsfusion ist ein neuer Ansatz, der zur Korrektur der Randartefakte verwendet wird, die durch Maskenübermalung entstehen, und er beinhaltet die Korrektur von Artefakten mithilfe des ControlNet-Frameworks. Die Methode ermöglicht es dem EasyPhoto-Framework, die Erhaltung harmonischer Kanten sicherzustellen und damit letztendlich den Bildgenerierungsprozess zu leiten. Der Gesichtsfusionsalgorithmus fusioniert das Roop-Bild (Benutzereingabebild) und das Template, wodurch das resultierende Fusionsbild eine bessere Stabilisierung der Kantenbereiche aufweist, was letztendlich zu einer verbesserten Ausgabe während der ersten Diffusionsphase führt.
  • ControlNet-gesteuerte Validierung: Da die LoRA-Modelle nicht mit dem ControlNet-Framework trainiert wurden, kann die Verwendung von ControlNet während des Inferenzprozesses die Fähigkeit der LoRA-Modelle beeinträchtigen, die Identitäten zu erhalten. Um die Verallgemeinerungsfähigkeiten von EasyPhoto zu verbessern, berücksichtigt das Framework den Einfluss des ControlNet-Frameworks und integriert LoRA-Modelle aus verschiedenen Stadien.

Erste Diffusion

Die erste Diffusionsphase verwendet das Template-Bild, um ein Bild mit einer einzigartigen ID zu generieren, die dem Benutzereingabebild ähnelt. Das Inputbild ist eine Fusion des Benutzereingabebildes und des Template-Bildes, während die justierte Gesichtsmaske die Inputmaske ist. Um die Kontrolle über die Bildgenerierung weiter zu erhöhen, integriert das EasyPhoto-Framework drei ControlNet-Einheiten, wobei die erste ControlNet-Einheit die Kontrolle der fusionierten Bilder fokussiert, die zweite ControlNet-Einheit die Farben des fusionierten Bildes steuert und die finale ControlNet-Einheit die OpenPose (Echtzeit-Mehrpersonen-Human-Pose-Steuerung) des ersetzten Bildes ist, das nicht nur die Gesichtsstruktur des Template-Bildes, sondern auch die Gesichtsidentität des Benutzers enthält.

Zweite Diffusion

In der zweiten Diffusionsphase werden die Artefakte in der Nähe der Gesichtsgrenze verfeinert und fein abgestimmt, wodurch den Benutzern auch die Flexibilität gegeben wird, eine bestimmte Region im Bild zu maskieren, um die Effektivität der Generierung in diesem spezifischen Bereich zu verbessern. In dieser Phase fusioniert das Framework das Outputbild, das aus der ersten Diffusionsphase erhalten wurde, mit dem Roop-Bild oder dem Ergebnis des Benutzereingabebildes, um so das Inputbild für die zweite Diffusionsphase zu generieren. Insgesamt spielt die zweite Diffusionsphase eine entscheidende Rolle bei der Verbesserung der Gesamtkualität und der Details des generierten Bildes.

Mehrere Benutzer-IDs

Einer der Höhepunkte von EasyPhoto ist seine Unterstützung für die Generierung mehrerer Benutzer-IDs, und die folgende Abbildung zeigt die Pipeline des Interferenzprozesses für mehrere Benutzer-IDs im EasyPhoto-Framework.

Um die Unterstützung für die Generierung mehrerer Benutzer-IDs zu ermöglichen, führt das EasyPhoto-Framework zunächst eine Gesichtserkennung im Interferenztemplate durch. Diese Interferenztemplates werden dann in mehrere Masken aufgeteilt, wobei jede Maske nur ein Gesicht enthält und der Rest des Bildes weiß maskiert ist, wodurch die Generierung mehrerer Benutzer-IDs in eine einfache Aufgabe der Generierung einzelner Benutzer-IDs umgewandelt wird. Sobald das Framework die Benutzer-ID-Bilder generiert, werden diese in das Interferenztemplate integriert, wodurch eine nahtlose Integration der Template-Bilder mit den generierten Bildern ermöglicht wird, was letztendlich zu einem hochwertigen Bild führt.

Experimente und Ergebnisse

Jetzt, da wir eine Vorstellung vom EasyPhoto-Framework haben, ist es Zeit, die Leistung des EasyPhoto-Frameworks zu erkunden.

Das obige Bild wird vom EasyPhoto-Plugin generiert und verwendet ein Style-basiertes SD-Modell für die Bildgenerierung. Wie zu sehen ist, sehen die generierten Bilder realistisch und sehr genau aus.

Das oben hinzugefügte Bild wird vom EasyPhoto-Framework unter Verwendung eines Comic-Style-basierten SD-Modells generiert. Wie zu sehen ist, sehen die Comic-Fotos und die realistischen Fotos sehr realistisch aus und ähneln dem Eingabebild sehr, basierend auf den Benutzerprompts oder Anforderungen.

Das unten hinzugefügte Bild wird vom EasyPhoto-Framework unter Verwendung eines Multi-Person-templates generiert. Wie klar zu sehen ist, sind die generierten Bilder klar, genau und ähneln dem Originalbild.

Mit Hilfe von EasyPhoto können Benutzer jetzt eine breite Palette von AI-Porträts generieren, mehrere Benutzer-IDs unter Verwendung von erhaltenen Templates generieren oder das SD-Modell verwenden, um Interferenztemplates zu generieren. Die oben hinzugefügten Bilder demonstrieren die Fähigkeit des EasyPhoto-Frameworks, vielfältige und hochwertige AI-Bilder zu produzieren.

Schlussfolgerung

In diesem Artikel haben wir über EasyPhoto gesprochen, ein neues WebUI-Plugin, das es Endbenutzern ermöglicht, AI-Porträts und Bilder zu generieren. Das EasyPhoto-WebUI-Plugin generiert AI-Porträts unter Verwendung von beliebigen Vorlagen und die aktuelle Ausprägung des EasyPhoto-WebUI unterstützt unterschiedliche Fotostile und mehrere Modifikationen. Darüber hinaus können Benutzer, um EasyPhotos Fähigkeiten weiter zu verbessern, Bilder unter Verwendung des SDXL-Modells generieren, um zufriedenstellendere, genauere und vielfältigere Bilder zu erzeugen. Das EasyPhoto-Framework nutzt ein stabiles Diffusionsbasismodell in Kombination mit einem vorgefertigten LoRA-Modell, das hochwertige Bildausgaben produziert.

Interessiert an Bildgeneratoren? Wir bieten auch eine Liste der Besten AI-Headshot-Generatoren und der Besten AI-Bildgeneratoren an, die einfach zu bedienen sind und keine technischen Kenntnisse erfordern.

Ein Ingenieur von Beruf, ein Schriftsteller von Herzen. Kunal ist ein technischer Schriftsteller mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Aufgabe widmet, komplexe Konzepte in diesen Bereichen durch seine ansprechenden und informativen Dokumentationen zu vereinfachen.