Sztuczna inteligencja
EasyPhoto: Twój osobisty generator zdjęć AI

Stable Diffusion Web User Interface, lub SD-WebUI, to kompleksowy projekt dla modeli Stable Diffusion, który wykorzystuje bibliotekę Gradio do zapewnienia interfejsu przeglądarki. Dziś porozmawiamy o EasyPhoto, innowacyjnym wtyczce WebUI, która umożliwia użytkownikom generowanie portretów i zdjęć AI. Wtyczka WebUI EasyPhoto tworzy portrety AI przy użyciu różnych szablonów, obsługując różne style zdjęć i wiele modyfikacji. Dodatkowo, aby jeszcze bardziej rozszerzyć możliwości EasyPhoto, użytkownicy mogą generować obrazy przy użyciu modelu SDXL w celu uzyskania bardziej satysfakcjonujących, dokładnych i różnorodnych wyników. Zaczynajmy.
Wprowadzenie do EasyPhoto i Stable Diffusion
Ramówka Stable Diffusion to popularna i wydajna ramówka generacji oparta na dyfuzji, wykorzystywana przez deweloperów do generowania realistycznych obrazów na podstawie opisów tekstowych. Dzięki swoim możliwościom, ramówka Stable Diffusion ma szeroki zakres zastosowań, w tym malowanie poza ramami, malowanie wewnątrz ram, oraz tłumaczenie obrazu na obraz. Interfejs sieciowy Stable Diffusion, lub SD-WebUI, wyróżnia się jako jeden z najbardziej popularnych i znanych zastosowań tej ramówki. Posiada on interfejs przeglądarki oparty na bibliotece Gradio, zapewniający interaktywny i przyjazny interfejs dla modeli Stable Diffusion. Aby jeszcze bardziej poprawić kontrolę i użyteczność w generowaniu obrazów, SD-WebUI integruje wiele aplikacji Stable Diffusion.
Dzięki wygodzie oferowanej przez ramówkę SD-WebUI, twórcy ramówki EasyPhoto zdecydowali się stworzyć ją jako wtyczkę sieciową, a nie jako samodzielną aplikację. W przeciwieństwie do istniejących metod, które często cierpią na utratę tożsamości lub wprowadzają nierzeczywiste cechy do obrazów, ramówka EasyPhoto wykorzystuje możliwości obrazu do obrazu modeli Stable Diffusion do produkcji dokładnych i realistycznych obrazów. Użytkownicy mogą łatwo zainstalować ramówkę EasyPhoto jako rozszerzenie wewnątrz WebUI, co zwiększa użyteczność i dostępność dla szerszego grona użytkowników. Ramówka EasyPhoto pozwala użytkownikom generować portrety AI kierowane przez tożsamość, o wysokiej jakości i realistyczne, które ściśle przypominają wprowadzoną tożsamość.
Po pierwsze, ramówka EasyPhoto prosi użytkowników o stworzenie swojego cyfrowego sobowtóra, przesyłając kilka obrazów do szkolenia modelu LoRA lub niskiej rangi adaptacji online. Ramówka LoRA szybko dostosowuje modele dyfuzji, wykorzystując technologię niskiej rangi adaptacji. Ten proces pozwala modelowi podstawowemu zrozumieć informacje o tożsamości konkretnych użytkowników. Uczone modele są następnie scalone i zintegrowane z modelem Stable Diffusion w celu interferencji. Ponadto, podczas procesu interferencji, model wykorzystuje stabilne modele dyfuzji w celu przemalowania regionów twarzy w szablonie interferencji, a podobieństwo między obrazem wejściowym a wyjściowym jest weryfikowane przy użyciu różnych jednostek ControlNet.
Ramówka EasyPhoto wdrożyła również dwuetapowy proces dyfuzji w celu rozwiązania potencjalnych problemów, takich jak artefakty graniczne i utrata tożsamości, co pozwala na generowanie obrazów, które minimalizują nieścisłości wizualne, jednocześnie zachowując tożsamość użytkownika. Ponadto, potok interferencji w ramówce EasyPhoto nie jest ograniczony tylko do generowania portretów, ale może być również wykorzystany do generowania wszystkiego, co jest związane z tożsamością użytkownika. Oznacza to, że po przeszkoleniu modelu LoRA dla określonej tożsamości, można wygenerować szeroki zakres obrazów AI, co może mieć szerokie zastosowania, w tym wirtualne przymiarki.
Podsumowując, ramówka EasyPhoto
- Proponuje nowatorskie podejście do szkolenia modelu LoRA, łącząc wiele modeli LoRA w celu zachowania wierności twarzy w generowanych obrazach.
- Wykorzystuje różne metody uczenia wzmocnionego w celu optymalizacji modeli LoRA dla nagród tożsamości twarzy, co pomaga w poprawie podobieństwa tożsamości między obrazami szkoleniowymi i wynikami.
- Proponuje dwuetapowy proces dyfuzji oparty na malowaniu, który ma na celu generowanie obrazów AI o wysokiej estetyce i podobieństwie.
EasyPhoto: Architektura i szkolenie
Poniższy rysunek przedstawia proces szkolenia ramówki EasyPhoto AI.

Jak widać, ramówka najpierw prosi użytkowników o wprowadzenie obrazów szkoleniowych, a następnie wykonuje wykrywanie twarzy w celu wykrycia lokalizacji twarzy. Po wykryciu twarzy, ramówka obcina obraz wejściowy przy użyciu określonego stosunku, który koncentruje się wyłącznie na regionie twarzy. Następnie ramówka wdrożyła model piękności skóry i model wykrywania istotności w celu uzyskania czystego i wyraźnego obrazu szkoleniowego twarzy. Te dwa modele odgrywają kluczową rolę w poprawie jakości wizualnej twarzy i zapewnieniu, że informacje tła zostały usunięte, a obraz szkoleniowy zawiera głównie twarz. Wreszcie, ramówka wykorzystuje te przetworzone obrazy i wprowadzone podpowiedzi do szkolenia modelu LoRA, nadając mu zdolność do lepszego zrozumienia cech twarzy użytkownika.
Ponadto, podczas fazy szkolenia, ramówka obejmuje krytyczny krok walidacji, w którym ramówka oblicza lukę tożsamości twarzy między obrazem wejściowym użytkownika a obrazem weryfikacyjnym wygenerowanym przez przeszkolony model LoRA. Krok walidacji jest podstawowym procesem, który odgrywa kluczową rolę w osiągnięciu fuzji modeli LoRA, co ostatecznie zapewnia, że przeszkolony model LoRA staje się sobowtórem, czyli dokładną cyfrową reprezentacją użytkownika. Dodatkowo, obraz weryfikacyjny z optymalnym wynikiem tożsamości twarzy zostanie wybrany jako obraz tożsamości twarzy, a ten obraz tożsamości twarzy zostanie następnie wykorzystany do poprawy podobieństwa tożsamości w generowaniu interferencji.
Przechodząc dalej, na podstawie procesu ensemble, ramówka szkoli modele LoRA z estymacją prawdopodobieństwa jako głównym celem, podczas gdy zachowanie podobieństwa tożsamości twarzy jest celem podrzędnym. Aby rozwiązać ten problem, ramówka EasyPhoto wykorzystuje techniki uczenia wzmocnionego w celu optymalizacji celu podrzędnego bezpośrednio. W rezultacie, cechy twarzy, które modele LoRA uczą, wykazują poprawę, co prowadzi do zwiększenia podobieństwa między wynikami generowanymi z szablonu i demonstruje uogólnienie na szablony.
Proces interferencji
Poniższy rysunek przedstawia proces interferencji dla pojedynczego identyfikatora użytkownika w ramówce EasyPhoto, który jest podzielony na trzy części
- Przetwarzanie twarzy w celu uzyskania odniesienia ControlNet i przetworzonego obrazu wejściowego.
- Pierwsza dyfuzja która pomaga w generowaniu wyników szkicowych, które przypominają wprowadzony przez użytkownika.
- Druga dyfuzja która naprawia artefakty graniczne, co sprawia, że obrazy są bardziej dokładne i wyglądają bardziej realistycznie.

Dla wejścia, ramówka przyjmuje obraz tożsamości twarzy (wygenerowany podczas walidacji szkolenia przy użyciu optymalnego wyniku tożsamości twarzy) i szablon interferencji. Wyjście to wysoko szczegółowy, dokładny i realistyczny portret użytkownika, który ściśle przypomina tożsamość i unikalny wygląd użytkownika na podstawie szablonu interferencji. Przejdźmy do szczegółów tych procesów.
Przetwarzanie twarzy
Sposób generowania portretu AI na podstawie szablonu interferencji bez świadomego rozumowania polega na użyciu modelu SD do malowania regionu twarzy w szablonie interferencji. Dodatkowo, dodanie ramówki ControlNet do procesu nie tylko poprawia zachowanie tożsamości użytkownika, ale także poprawia podobieństwo między generowanymi obrazami. Jednak użycie ControlNet bezpośrednio do malowania regionalnego może wprowadzić potencjalne problemy, takie jak
- Niespójność między obrazem wejściowym a wyjściowym: Jest oczywiste, że punkty kluczowe w obrazie szablonu nie są zgodne z punktami kluczowymi w obrazie tożsamości twarzy, dlatego użycie ControlNet z obrazem tożsamości twarzy jako odniesienia może prowadzić do pewnych nieścisłości w wyniku.
- Wady w regionie malowania: Maskowanie regionu, a następnie malowanie go nową twarzą, może prowadzić do zauważalnych wad, szczególnie wzdłuż granicy malowania, co nie tylko wpłynie na autentyczność wygenerowanego obrazu, ale także negatywnie wpłynie na realizm obrazu.
- Utrata tożsamości przez Control Net: Ponieważ proces szkolenia nie wykorzystuje ramówki ControlNet, użycie ControlNet podczas fazy interferencji może wpłynąć na zdolność przeszkolonych modeli LoRA do zachowania tożsamości użytkownika.
Aby rozwiązać wymienione powyżej problemy, ramówka EasyPhoto proponuje trzy procedury.
- Wklej i wyrównaj: Używając algorytmu wklejania twarzy, ramówka EasyPhoto stara się rozwiązać problem niezgodności między cechami twarzy między obrazem tożsamości twarzy a szablonem. Po pierwsze, model oblicza cechy twarzy obrazu tożsamości twarzy i szablonu, a następnie określa macierz transformacji afinicznej, która będzie użyta do wyrównania cech twarzy szablonu z obrazem tożsamości twarzy. Wynikowy obraz zachowuje te same punkty twarzy co obraz tożsamości twarzy i jest również wyrównany z szablonem.
- Fuzja twarzy: Fuzja twarzy to nowatorskie podejście, które służy do korekty artefaktów granicznych, wynikających z malowania maski, i polega na prostowaniu artefaktów przy użyciu ramówki ControlNet. Metoda ta pozwala ramówce EasyPhoto na zapewnienie harmonijnych krawędzi i ostatecznie kieruje procesem generowania obrazu. Algorytm fuzji twarzy łączy również obraz roop (obraz użytkownika) i szablon, co pozwala na lepsze stabilizowanie granic krawędzi, co z kolei prowadzi do poprawy wyniku w pierwszym etapie dyfuzji.
- Walidacja kierowana przez ControlNet: Ponieważ modele LoRA nie były szkolone przy użyciu ramówki ControlNet, użycie jej podczas fazy inferencji może wpłynąć na zdolność modelu LoRA do zachowania tożsamości. Aby poprawić możliwości ogólnych ramówki EasyPhoto, ramówka uwzględnia wpływ ramówki ControlNet i łączy modele LoRA z różnych etapów.
Pierwsza dyfuzja
Pierwszy etap dyfuzji wykorzystuje szablon obrazu do generowania obrazu z unikalną tożsamością, który przypomina tożsamość użytkownika. Obraz wejściowy jest połączeniem obrazu użytkownika i szablonu, natomiast maska twarzy jest wejściową maską. Aby jeszcze bardziej zwiększyć kontrolę nad generowaniem obrazu, ramówka EasyPhoto integruje trzy jednostki ControlNet, z których pierwsza jednostka ControlNet koncentruje się na kontroli połączonych obrazów, druga jednostka ControlNet kontroluje kolory połączonych obrazów, a ostatnia jednostka ControlNet to openpose (kontrola pozy wielu osób w czasie rzeczywistym) obrazu zastąpienia, który zawiera nie tylko strukturę twarzy szablonu, ale także tożsamość twarzy użytkownika.
Druga dyfuzja
W drugim etapie dyfuzji, artefakty w pobliżu granicy twarzy są rafinowane i dostosowywane, a użytkownicy mają również możliwość maskowania określonego regionu w obrazie w celu poprawy skuteczności generowania w tym dedykowanym obszarze. W tym etapie, ramówka łączy obraz wyjściowy z pierwszego etapu dyfuzji z obrazem roop lub wynikiem obrazu użytkownika, generując w ten sposób obraz wejściowy dla drugiego etapu dyfuzji. Ogólnie, drugi etap dyfuzji odgrywa kluczową rolę w poprawie jakości i szczegółów generowanego obrazu.
Wielu użytkowników
Jednym z największych atutów EasyPhoto jest jego obsługa generowania wielu tożsamości użytkowników, a poniższy rysunek przedstawia potok procesu interferencji dla wielu tożsamości użytkowników w ramówce EasyPhoto.

Aby zapewnić obsługę generowania wielu tożsamości użytkowników, ramówka EasyPhoto najpierw wykonuje wykrywanie twarzy w szablonie interferencji. Szablony interferencji są następnie podzielone na wiele masek, z których każda zawiera tylko jedną twarz, a reszta obrazu jest maskowana na biało, co sprawia, że generowanie wielu tożsamości użytkowników staje się prostym zadaniem generowania poszczególnych tożsamości użytkowników. Po wygenerowaniu obrazów tożsamości użytkowników, obrazy te są łączone z szablonem interferencji, co ułatwia płynną integrację szablonu z wygenerowanymi obrazami, co ostatecznie prowadzi do uzyskania wysokiej jakości obrazu.
Eksperymenty i wyniki
Teraz, gdy mamy już zrozumienie ramówki EasyPhoto, czas abyśmy przyjrzeli się wydajności ramówki EasyPhoto.

Powyższy obraz został wygenerowany przez wtyczkę EasyPhoto i wykorzystuje model Style-based SD do generowania obrazu. Jak widać, wygenerowane obrazy wyglądają realistycznie i są bardzo dokładne.

Powyższy obraz został wygenerowany przez ramówkę EasyPhoto przy użyciu modelu Comic Style-based SD. Jak widać, obrazy komiksowe i realistyczne wyglądają bardzo realistycznie i ściśle przypominają obraz wejściowy na podstawie podpowiedzi użytkownika lub wymagań.
Poniższy obraz został wygenerowany przez ramówkę EasyPhoto przy użyciu szablonu wielu osób. Jak widać, wygenerowane obrazy są klarowne, dokładne i przypominają oryginalny obraz.

Dzięki EasyPhoto, użytkownicy mogą teraz generować szeroki zakres portretów AI, generować wiele tożsamości użytkowników przy użyciu zachowanych szablonów lub wykorzystywać model SD do generowania szablonów interferencji. Powyższe obrazy demonstrują możliwości ramówki EasyPhoto w produkcji różnorodnych i wysokiej jakości obrazów AI.
Podsumowanie
W tym artykule porozmawialiśmy o EasyPhoto, nowatorskiej wtyczce WebUI, która pozwala użytkownikom generować portrety i obrazy AI. Wtyczka WebUI EasyPhoto generuje portrety AI przy użyciu dowolnych szablonów, a obecne implikacje wtyczki EasyPhoto obsługują różne style zdjęć i wiele modyfikacji. Dodatkowo, aby jeszcze bardziej rozszerzyć możliwości EasyPhoto, użytkownicy mają możliwość generowania obrazów przy użyciu modelu SDXL w celu uzyskania bardziej satysfakcjonujących, dokładnych i różnorodnych wyników. Ramówka EasyPhoto wykorzystuje stabilny model dyfuzji podstawowego połączonego z przeszkolonym modelem LoRA, który produkuje obrazy o wysokiej jakości.
Interesują Cię generatory obrazów? Oferujemy również listę najlepszych generatorów portretów AI i najlepszych generatorów obrazów AI, które są łatwe w użyciu i nie wymagają specjalistycznej wiedzy.












