Artificial Intelligence

EasyPhoto: Twój osobisty generator zdjęć AI

Zaktualizowano on 30 października 2023 r.

EasyPhoto: Twój osobisty generator portretów AI

Stabilna dyfuzja Web User Interface, w skrócie SD-WebUI, to kompleksowy projekt dla modeli Stable Diffusion, który wykorzystuje bibliotekę Gradio do zapewnienia interfejsu przeglądarki. Dzisiaj porozmawiamy o EasyPhoto, innowacyjnej wtyczce WebUI umożliwiającej użytkownikom końcowym generowanie portretów i obrazów AI. Wtyczka EasyPhoto WebUI tworzy portrety AI przy użyciu różnych szablonów, obsługując różne style zdjęć i wiele modyfikacji. Dodatkowo, aby jeszcze bardziej rozszerzyć możliwości programu EasyPhoto, użytkownicy mogą generować obrazy przy użyciu modelu SDXL w celu uzyskania bardziej zadowalających, dokładnych i zróżnicowanych wyników. Zaczynajmy.

Wprowadzenie do EasyPhoto i stabilnej dyfuzji

Struktura Stable Diffusion to popularna i solidna platforma generowania oparta na rozpowszechnianiu, używana przez programistów do generowania realistycznych obrazów na podstawie wejściowych opisów tekstowych. Dzięki swoim możliwościom framework Stable Diffusion oferuje szeroką gamę zastosowań, w tym malowanie obrazu, malowanie obrazu i tłumaczenie obrazu na obraz. Stable Diffusion Web UI, czyli SD-WebUI, wyróżnia się jako jedna z najpopularniejszych i najbardziej znanych aplikacji tego frameworka. Posiada interfejs przeglądarki zbudowany na bibliotece Gradio, zapewniający interaktywny i przyjazny dla użytkownika interfejs dla modeli Stable Diffusion. Aby jeszcze bardziej zwiększyć kontrolę i użyteczność w generowaniu obrazów, SD-WebUI integruje wiele aplikacji Stable Diffusion.

Ze względu na wygodę, jaką oferuje framework SD-WebUI, twórcy frameworku EasyPhoto zdecydowali się stworzyć go jako wtyczkę internetową, a nie pełnoprawną aplikację. W przeciwieństwie do istniejących metod, które często powodują utratę tożsamości lub wprowadzają nierealistyczne cechy do obrazów, środowisko EasyPhoto wykorzystuje możliwości przetwarzania obrazu na obraz modeli Stable Diffusion w celu tworzenia dokładnych i realistycznych obrazów. Użytkownicy mogą łatwo zainstalować środowisko EasyPhoto jako rozszerzenie w ramach WebUI, zwiększając przyjazność dla użytkownika i dostępność dla szerszego grona użytkowników. Struktura EasyPhoto pozwala użytkownikom generować wysokiej jakości i oparte na tożsamości zdjęcia realistyczne portrety AI które bardzo przypominają tożsamość wejściową.

Po pierwsze, platforma EasyPhoto prosi użytkowników o utworzenie swojego cyfrowego sobowtóra poprzez przesłanie kilku zdjęć w celu wyszkolenia modelu twarzy LoRA lub adaptacji niskiego rangi w Internecie. Struktura LoRA szybko dostraja modele dyfuzji, wykorzystując technologię adaptacji niskiej rangi. Proces ten pozwala modelowi opartemu na zrozumieniu informacji identyfikacyjnych określonych użytkowników. Wyszkolone modele są następnie łączone i integrowane z podstawowym modelem stabilnej dyfuzji pod kątem zakłóceń. Ponadto podczas procesu interferencji model wykorzystuje stabilne modele dyfuzji, próbując odmalować obszary twarzy w szablonie interferencji, a podobieństwo między obrazami wejściowymi i wyjściowymi jest weryfikowane za pomocą różnych jednostek ControlNet.

Struktura EasyPhoto wdraża również dwuetapowy proces rozpowszechniania, aby rozwiązać potencjalne problemy, takie jak artefakty graniczne i utrata tożsamości, zapewniając w ten sposób, że wygenerowane obrazy minimalizują niespójności wizualne, zachowując jednocześnie tożsamość użytkownika. Co więcej, potok zakłóceń w środowisku EasyPhoto nie ogranicza się tylko do generowania portretów, ale może być również używany do generowania wszystkiego, co jest powiązane z identyfikatorem użytkownika. Oznacza to, że po przeszkoleniu modelu LoRA dla konkretnego identyfikatora można wygenerować szeroką gamę obrazów AI, dzięki czemu może on mieć szerokie zastosowanie, w tym wirtualne przymiarki.

Podsumowując, framework EasyPhoto

Proponuje nowatorskie podejście do uczenia modelu LoRA poprzez włączenie wielu modeli LoRA w celu utrzymania wierności twarzy w generowanych obrazach.
Wykorzystuje różne metody uczenia się przez wzmacnianie w celu optymalizacji modeli LoRA pod kątem nagród związanych z tożsamością twarzy, co dodatkowo pomaga w zwiększaniu podobieństwa tożsamości między obrazami szkoleniowymi a wygenerowanymi wynikami.
Proponuje dwuetapowy proces dyfuzji oparty na farbie, którego celem jest generowanie zdjęć AI o wysokiej estetyce i podobieństwie.

EasyPhoto: Architektura i szkolenie

Poniższy rysunek przedstawia proces uczenia środowiska EasyPhoto AI.

Jak widać, framework najpierw prosi użytkowników o wprowadzenie obrazów szkoleniowych, a następnie przeprowadza detekcję twarzy w celu wykrycia lokalizacji twarzy. Gdy framework wykryje twarz, przycina obraz wejściowy przy użyciu wstępnie zdefiniowanego określonego współczynnika, który koncentruje się wyłącznie na obszarze twarzy. Następnie platforma wdraża model upiększania skóry i wykrywania istotności, aby uzyskać czysty i wyraźny obraz treningowy twarzy. Te dwa modele odgrywają kluczową rolę w poprawie jakości wizualnej twarzy, a także zapewniają, że informacje tła zostały usunięte, a obraz szkoleniowy zawierał głównie twarz. Wreszcie platforma wykorzystuje te przetworzone obrazy i podpowiedzi wejściowe do uczenia modelu LoRA, wyposażając go w ten sposób w możliwość skuteczniejszego i dokładniejszego rozumienia cech twarzy specyficznych dla użytkownika.

Co więcej, w fazie uczenia struktura obejmuje krytyczny etap walidacji, w którym struktura oblicza różnicę w identyfikatorze twarzy między obrazem wejściowym użytkownika a obrazem weryfikacyjnym wygenerowanym przez wyszkolony model LoRA. Etap walidacji to podstawowy proces, który odgrywa kluczową rolę w osiągnięciu fuzji modeli LoRA, ostatecznie zapewniając, że przeszkolony framework LoRA przekształca się w sobowtóra, czyli dokładną cyfrową reprezentację użytkownika. Dodatkowo obraz weryfikacyjny, który ma optymalny wynik face_id, zostanie wybrany jako obraz face_id, a ten obraz face_id zostanie następnie wykorzystany do zwiększenia podobieństwa tożsamości w wyniku generowania interferencji.

Idąc dalej, w oparciu o proces zespołowy, platforma szkoli modele LoRA, przy czym szacowanie prawdopodobieństwa jest celem głównym, podczas gdy zachowanie podobieństwa tożsamości twarzy jest celem dalszym. Aby rozwiązać ten problem, platforma EasyPhoto wykorzystuje techniki uczenia się przez wzmacnianie, aby bezpośrednio zoptymalizować dalszy cel. W rezultacie cechy twarzy, których uczą się modele LoRA, wykazują poprawę, co prowadzi do zwiększonego podobieństwa między wynikami wygenerowanymi przez szablon, a także demonstruje uogólnienie między szablonami.

Proces interferencji

Poniższy rysunek przedstawia proces ingerencji dla indywidualnego identyfikatora użytkownika w środowisku EasyPhoto i jest podzielony na trzy części

Wstępne przetwarzanie twarzy w celu uzyskania odniesienia ControlNet i wstępnie przetworzonego obrazu wejściowego.

Pierwsza dyfuzja pomaga to w generowaniu przybliżonych wyników przypominających dane wejściowe użytkownika.

Druga dyfuzja który naprawia artefakty graniczne, dzięki czemu obrazy są dokładniejsze i wydają się bardziej realistyczne.

Jako dane wejściowe struktura pobiera obraz face_id (wygenerowany podczas walidacji szkolenia przy użyciu optymalnego wyniku face_id) i szablon interferencji. Wynikiem jest bardzo szczegółowy, dokładny i realistyczny portret użytkownika, który bardzo przypomina tożsamość i niepowtarzalny wygląd użytkownika na podstawie szablonu wnioskowania. Przyjrzyjmy się szczegółowo tym procesom.

Wstępny proces twarzy

Sposobem na wygenerowanie portretu AI w oparciu o szablon interferencji bez świadomego rozumowania jest użycie modelu SD do odmalowania obszaru twarzy w szablonie interferencji. Dodatkowo dodanie do procesu platformy ControlNet nie tylko poprawia zachowanie tożsamości użytkownika, ale także zwiększa podobieństwo między generowanymi obrazami. Jednakże bezpośrednie użycie ControlNet do malowania regionalnego może spowodować potencjalne problemy, które mogą obejmować

Niespójność między danymi wejściowymi a wygenerowanym obrazem: Jest oczywiste, że kluczowe punkty na obrazie szablonu nie są kompatybilne z kluczowymi punktami na obrazie face_id, dlatego też użycie ControlNet z obrazem face_id jako odniesienia może prowadzić do pewnych niespójności w wynikach.

Wady w obszarze Inpaint: Zamaskowanie obszaru, a następnie zamalowanie go nowym licem może prowadzić do zauważalnych defektów, zwłaszcza wzdłuż granicy zamalowania, co nie tylko wpłynie na autentyczność wygenerowanego obrazu, ale także negatywnie wpłynie na realizm obrazu.
Utrata tożsamości przez sieć kontrolną: Ponieważ proces uczenia nie wykorzystuje struktury ControlNet, użycie ControlNet podczas fazy interferencji może mieć wpływ na zdolność wyszkolonych modeli LoRA do zachowania tożsamości wejściowego identyfikatora użytkownika.

Aby rozwiązać powyższe problemy, platforma EasyPhoto proponuje trzy procedury.

Wyrównaj i wklej: Wykorzystując algorytm wklejania twarzy, framework EasyPhoto ma na celu rozwiązanie problemu niedopasowania punktów orientacyjnych twarzy pomiędzy identyfikatorem twarzy a szablonem. Najpierw model oblicza punkty orientacyjne twarzy z obrazu face_id i obrazu szablonu, po czym model określa macierz transformacji afinicznej, która zostanie użyta do wyrównania punktów orientacyjnych twarzy na obrazie szablonu z obrazem face_id. Wynikowy obraz zachowuje te same punkty orientacyjne co obraz face_id, a także jest wyrównany z obrazem szablonu.

Bezpiecznik twarzowy: Face Fuse to nowatorskie podejście stosowane do korygowania artefaktów granicznych powstałych w wyniku malowania masek i polega na prostowaniu artefaktów za pomocą platformy ControlNet. Metoda ta pozwala frameworkowi EasyPhoto zapewnić zachowanie harmonijnych krawędzi, a tym samym ostatecznie kierować procesem generowania obrazu. Algorytm fuzji twarzy dodatkowo łączy obraz roop (obrazy użytkownika z prawdą podstawową) i szablon, co pozwala powstałemu połączonemu obrazowi wykazywać lepszą stabilizację granic krawędzi, co następnie prowadzi do zwiększonej wydajności podczas pierwszego etapu dyfuzji.
Walidacja prowadzona przez ControlNet: Ponieważ modele LoRA nie zostały przeszkolone przy użyciu platformy ControlNet, użycie ich podczas procesu wnioskowania może mieć wpływ na zdolność modelu LoRA do zachowania tożsamości. Aby zwiększyć możliwości uogólniania EasyPhoto, platforma uwzględnia wpływ platformy ControlNet i zawiera modele LoRA z różnych etapów.

Pierwsza dyfuzja

Pierwszy etap rozpowszechniania wykorzystuje obraz szablonowy do wygenerowania obrazu o unikalnym identyfikatorze przypominającym wejściowy identyfikator użytkownika. Obraz wejściowy jest połączeniem obrazu wejściowego użytkownika i obrazu szablonu, podczas gdy skalibrowana maska twarzowa jest maską wejściową. Aby jeszcze bardziej zwiększyć kontrolę nad generowaniem obrazu, struktura EasyPhoto integruje trzy jednostki ControlNet, gdzie pierwsza jednostka ControlNet koncentruje się na kontroli połączonych obrazów, druga jednostka ControlNet kontroluje kolory połączonego obrazu, a ostatnia jednostka ControlNet to pozycja otwarta (kontrola pozycji człowieka w czasie rzeczywistym przez wiele osób) zastąpionego obrazu, który zawiera nie tylko strukturę twarzy z szablonu obrazu, ale także tożsamość twarzy użytkownika.

Druga dyfuzja

Na drugim etapie dyfuzji artefakty w pobliżu krawędzi twarzy są udoskonalane i dostrajane, a także zapewniają użytkownikom elastyczność maskowania określonego obszaru obrazu w celu zwiększenia efektywności generowania w tym dedykowanym obszarze. Na tym etapie framework łączy obraz wyjściowy uzyskany z pierwszego etapu dyfuzji z obrazem roopa lub wynikiem obrazu użytkownika, generując w ten sposób obraz wejściowy dla drugiego etapu dyfuzji. Ogólnie rzecz biorąc, drugi etap dyfuzji odgrywa kluczową rolę w poprawie ogólnej jakości i szczegółów generowanego obrazu.

Identyfikatory wielu użytkowników

Jedną z najważniejszych cech EasyPhoto jest obsługa generowania wielu identyfikatorów użytkowników, a poniższy rysunek przedstawia przebieg procesu interferencji dla wielu identyfikatorów użytkowników w środowisku EasyPhoto.

Aby zapewnić obsługę generowania identyfikatorów wielu użytkowników, środowisko EasyPhoto najpierw wykrywa twarze na szablonie interferencji. Te szablony interferencji są następnie dzielone na liczne maski, z których każda zawiera tylko jedną twarz, a reszta obrazu jest maskowana na biało, co dzieli generowanie identyfikatorów wielu użytkowników na proste zadanie generowania indywidualnych identyfikatorów użytkowników. Gdy platforma wygeneruje obrazy identyfikatora użytkownika, obrazy te są scalane w szablon wnioskowania, ułatwiając w ten sposób bezproblemową integrację obrazów szablonów z wygenerowanymi obrazami, co ostatecznie skutkuje obrazem o wysokiej jakości.

Eksperymenty i wyniki

Teraz, gdy rozumiemy strukturę EasyPhoto, nadszedł czas, abyśmy zbadali wydajność platformy EasyPhoto.

Powyższy obraz jest generowany przez wtyczkę EasyPhoto i do generowania obrazu wykorzystuje model SD oparty na stylu. Jak można zauważyć, wygenerowane obrazy wyglądają realistycznie i są dość dokładne.

Obraz dodany powyżej jest generowany przez platformę EasyPhoto przy użyciu modelu SD opartego na Comic Style. Jak widać, zdjęcia komiksowe i zdjęcia realistyczne wyglądają całkiem realistycznie i bardzo przypominają obraz wejściowy na podstawie podpowiedzi lub wymagań użytkownika.

Obraz dodany poniżej został wygenerowany przez platformę EasyPhoto przy użyciu szablonu wieloosobowego. Jak wyraźnie widać, wygenerowane obrazy są wyraźne, dokładne i przypominają obraz oryginalny.

Za pomocą EasyPhoto użytkownicy mogą teraz generować szeroką gamę portretów AI lub generować wiele identyfikatorów użytkowników przy użyciu zachowanych szablonów lub używać modelu SD do generowania szablonów wnioskowania. Obrazy dodane powyżej pokazują możliwości platformy EasyPhoto w tworzeniu różnorodnych obrazów AI o wysokiej jakości.

Wnioski

W tym artykule rozmawialiśmy o EasyPhoto, a nowatorska wtyczka WebUI która umożliwia użytkownikom końcowym generowanie portretów i obrazów AI. Wtyczka EasyPhoto WebUI generuje portrety AI przy użyciu dowolnych szablonów, a obecne implikacje EasyPhoto WebUI obsługują różne style zdjęć i wiele modyfikacji. Dodatkowo, aby jeszcze bardziej rozszerzyć możliwości programu EasyPhoto, użytkownicy mają możliwość generowania obrazów przy użyciu modelu SDXL w celu generowania bardziej zadowalających, dokładnych i zróżnicowanych obrazów. Struktura EasyPhoto wykorzystuje stabilny model bazowy dyfuzji w połączeniu z wstępnie wytrenowanym modelem LoRA, który generuje wysokiej jakości obrazy wyjściowe.

Interesują Cię generatory obrazów? Podajemy także listę tzw Najlepsze generatory strzałów w głowę AI oraz Najlepsze generatory obrazów AI które są łatwe w użyciu i nie wymagają specjalistycznej wiedzy technicznej.

Powiązane tematy:łatwe zdjęcie

W przyszłym

ChatDev: Agenci komunikacyjni do tworzenia oprogramowania

Nie przegap

Strategiczna ekspansja Google w zakresie sztucznej inteligencji: zakład o wartości 2 miliardów dolarów na Anthropic

Kunal Kejriwal

„Inżynier z zawodu, pisarz z zamiłowania”. Kunal jest pisarzem technicznym, który głęboko kocha i rozumie sztuczną inteligencję i uczenie maszynowe, a którego celem jest upraszczanie złożonych koncepcji w tych dziedzinach poprzez swoją wciągającą i pouczającą dokumentację.

Zjednoczyć.AI

EasyPhoto: Twój osobisty generator zdjęć AI

Artificial Intelligence

EasyPhoto: Twój osobisty generator zdjęć AI

Spis treści

Wprowadzenie do EasyPhoto i stabilnej dyfuzji

EasyPhoto: Architektura i szkolenie