Umělá inteligence

EasyPhoto: Vaše osobní AI foto generátor

mm
EasyPhoto : Your Personal AI Portrait Generator

Stable Diffusion Webové uživatelské rozhraní, nebo SD-WebUI, je komplexní projekt pro modely Stable Diffusion, který využívá knihovnu Gradio k poskytování webového rozhraní. Dnes budeme mluvit o EasyPhoto, inovativním pluginu Webového uživatelského rozhraní, který umožňuje koncovým uživatelům generovat AI portréty a obrázky. Plugin Webového uživatelského rozhraní EasyPhoto vytváří AI portréty pomocí různých šablon, podporuje různé styly fotografií a několik úprav. Kromě toho, aby se dále zvýšily schopnosti EasyPhoto, uživatelé mohou generovat obrázky pomocí modelu SDXL pro více uspokojivé, přesné a rozmanité výsledky. Pojďme začít.

Úvod do EasyPhoto a Stable Diffusion

Rámec Stable Diffusion je populární a robustní generativní rámec založený na difuzi, který vývojáři používají k vytváření realistických obrázků na základě vstupních textových popisů. Díky svým schopnostem se rámec Stable Diffusion chlubí širokým rozsahem aplikací, včetně dokončování obrázků, vyplňování obrázků a překladů obrázků. Webové uživatelské rozhraní Stable Diffusion, nebo SD-WebUI, vyniká jako jedna z nejpopulárnějších a nejznámějších aplikací tohoto rámce. Má webové rozhraní postavené na knihovně Gradio, poskytující interaktivní a uživatelsky přívětivé rozhraní pro modely Stable Diffusion. Pro další zvýšení kontroly a uživatelské přívětivosti při generování obrázků integruje SD-WebUI řadu aplikací Stable Diffusion.

Díky pohodlí, které nabízí rámec SD-WebUI, vývojáři rámce EasyPhoto se rozhodli vytvořit jej jako webový plugin spíše než plnohodnotnou aplikaci. Na rozdíl od stávajících metod, které často trpí ztrátou identity nebo zavádějí nerealistické rysy do obrázků, rámec EasyPhoto využívá schopnosti obrázku k obrázku modelů Stable Diffusion k vytváření přesných a realistických obrázků. Uživatelé mohou snadno nainstalovat rámec EasyPhoto jako rozšíření v rámci Webového uživatelského rozhraní, čímž se zvyšuje uživatelská přívětivost a dostupnost pro širší okruh uživatelů. Rámec EasyPhoto umožňuje uživatelům generovat identitu-váděné, vysoce kvalitní a realistické AI portréty, které se velmi podobají vstupní identitě.

Nejprve rámec EasyPhoto požádá uživatele, aby vytvořili svůj digitální dvojník nahráním několika obrázků pro školení face LoRA nebo Low-Rank Adaptation modelu online. Rámec LoRA rychle doladí difuzní modely pomocí technologie nízké úrovně adaptace. Tento proces umožňuje základnímu modelu pochopit ID informace konkrétních uživatelů. Školené modely jsou poté sloučeny a integrovány do základního modelu Stable Diffusion pro interference. Kromě toho, během procesu interference, model používá stabilní difuzní modely v pokusu o přemalební obličejových oblastí v interference šabloně, a podobnost mezi vstupními a výstupními obrázky je ověřena pomocí různých jednotek ControlNet. 

Rámec EasyPhoto také nasazuje dvoufázový difuzní proces, aby řešil potenciální problémy, jako jsou hranice artefaktů a ztráta identity, a tím zajišťuje, že generované obrázky minimalizují vizuální nesrovnalosti, zatímco zachovávají identitu uživatele. Kromě toho, interference potrubí v rámci EasyPhoto není omezeno pouze na generování portrétů, ale může být také použito k generování čehokoli, co je související s ID uživatele. To znamená, že jednou, když jste vyškolili model LoRA pro konkrétní ID, můžete generovat širokou škálu AI obrázků, a tak může mít široké aplikace, včetně virtuálních zkoušek. 

Shrnutí, rámec EasyPhoto

  1. Navrhuje novou metodu pro školení modelu LoRA tím, že zahrnuje několik modelů LoRA, aby se zachovala obličejová věrnost generovaných obrázků. 
  2. Používá různé metody učení s posilováním, aby optimalizoval modely LoRA pro obličejové identifikační odměny, které dále pomáhají při zlepšování podobnosti identit mezi trénovacími obrázky a generovanými výsledky. 
  3. Navrhuje dvoufázový proces difuzního malování, který má za cíl generovat AI fotografie s vysokou estetikou a podobností. 

EasyPhoto: Architektura a školení

Následující obrázek demonstruje proces školení rámce EasyPhoto AI. 

Jak je vidět, rámec nejprve požádá uživatele, aby vložili trénovací obrázky, a poté provede detekci obličeje, aby detekoval umístění obličeje. Jakmile rámec detekuje obličej, ořízne vstupní obrázek pomocí předem stanoveného konkrétního poměru, který se soustředí pouze na obličejovou oblast. Rámec poté nasazuje model krásy pleti a model detekce saliency, aby získal čistý a jasný trénovací obrázek obličeje. Tyto dva modely hrají zásadní roli při zlepšování vizuální kvality obličeje a také zajišťují, že pozadí bylo odstraněno a trénovací obrázek obsahuje převážně obličej. Nakonec rámec používá tyto zpracované obrázky a vstupní podněty k školení modelu LoRA, a tím vybavuje model schopností pochopit uživatelsky specifické obličejové rysy efektivněji a přesněji. 

Kromě toho, během fáze školení, rámec zahrnuje kritickou validační krok, ve kterém rámec vypočítá obličejovou mezeru mezi uživatelským vstupním obrázkem a ověřovacím obrázkem, který byl vygenerován školeným modelem LoRA. Validační krok je zásadním procesem, který hraje klíčovou roli při dosažení fúze modelů LoRA, konečném zajištění, že školený rámec LoRA se transformuje na dvojníka, nebo přesnou digitální reprezentaci uživatele. Kromě toho, ověřovací obrázek, který má optimální skóre obličeje, bude vybrán jako obrázek obličeje, a tento obrázek obličeje bude poté použit ke zlepšení podobnosti identity při generování interference. 

Pokračujeme, na základě procesu souboru, rámec školuje modely LoRA s odhadem pravděpodobnosti jako primárním cílem, zatímco zachování podobnosti obličejové identity je cílem downstream. Pro řešení tohoto problému, rámec EasyPhoto používá techniky učení s posilováním, aby optimalizoval cíl downstream přímo. Jako výsledek, obličejové rysy, které modely LoRA naučí, ukazují zlepšení, které vede ke zlepšení podobnosti mezi šablonou generovaných výsledků, a také demonstruje generalizaci napříč šablonami. 

Proces interference

Následující obrázek demonstruje proces interference pro jednotlivou uživatelskou ID v rámci EasyPhoto, a je rozdělen do tří částí

  • Face Preprocess pro získání referenční ControlNet a zpracovaného vstupního obrázku. 
  • First Diffusion, který pomáhá při generování hrubých výsledků, které se podobají uživatelskému vstupu. 
  • Second Diffusion, který opravuje artefakty hranic, a tím dělá obrázky více přesnými a realističtějšími. 

Pro vstup, rámec bere obrázek obličeje (vygenerovaný během validační fáze školení pomocí optimálního skóre obličeje), a šablonu interference. Výstup je vysoce detailní, přesný a realistický portrét uživatele, a velmi se podobá identitě a jedinečné podobě uživatele na základě interference šablony. Pojďme se podívat na tyto procesy podrobněji.

Face Preprocess

Způsob, jak generovat AI portrét na základě interference šablony bez vědomého uvažování, je použít model SD k doplnění obličejové oblasti v interference šabloně. Kromě toho, přidání rámce ControlNet do procesu nejen zlepšuje zachování uživatelské identity, ale také zlepšuje podobnost mezi generovanými obrázky. Nicméně, použití ControlNet přímo pro regionální doplnění může zavést potenciální problémy, které mohou zahrnovat

  • Nesrovnalost mezi vstupním a generovaným obrázkem: Je zřejmé, že klíčové body v šabloně obrázku nejsou kompatibilní s klíčovými body v obrázku obličeje, a proto použití ControlNet s obrázkem obličeje jako referencí může vést k některým nesrovnalostem ve výstupu. 
  • Defekty v oblasti doplnění: Maskování oblasti a poté doplnění ji novým obličejem může vést k viditelným defektům, zejména podél hranice doplnění, které nejen ovlivní autenticitu generovaného obrázku, ale také negativně ovlivní realističnost obrázku. 
  • Ztráta identity Control Net: Protože proces školení nevyužívá rámec ControlNet, použití ControlNet během fáze interference může ovlivnit schopnost školených modelů LoRA zachovat vstupní uživatelskou ID identitu. 

Pro řešení problémů uvedených výše, rámec EasyPhoto navrhuje tři postupy. 

  • Align and Paste: Použitím algoritmu vkládání obličeje, rámec EasyPhoto se snaží řešit problém nesrovnalosti mezi obličejovými znaky mezi obrázkem obličeje a šablonou. Nejprve model vypočítá obličejové znaky obrázku obličeje a šablony, a poté určí afinní transformační matici, která bude použita k zarovnání obličejových znaků šablony s obrázkem obličeje. Výsledný obrázek zachovává stejné znaky obrázku obličeje a zarovnává se s šablonou. 
  • Face Fuse: Face Fuse je novátorský přístup, který se používá k opravě artefaktů hranic, které jsou výsledkem maskování a doplnění, a zahrnuje korekci artefaktů pomocí rámce ControlNet. Metoda umožňuje rámcu EasyPhoto zajistit zachování harmonických hranic, a tím nakonec řídí proces generování obrázku. Algoritmus fúze obličeje dále spojuje obrázek roop (skutečný uživatelský obrázek) a šablonu, což umožňuje výslednému spojenému obrázku vykazovat lepší stabilizaci hranic, která vede k lepšímu výstupu během první fáze difuze. 
  • ControlNet řízená validace: Protože modely LoRA nebyly školeny pomocí rámce ControlNet, použití během fáze interference může ovlivnit schopnost modelu LoRA zachovat identitu. Pro zlepšení schopností generalizace EasyPhoto, rámec zvažuje vliv rámce ControlNet a zahrnuje modely LoRA z různých fází. 

First Diffusion

První fáze difuze používá šablonu obrázku k generování obrázku s jedinečnou ID, která se podobá vstupní uživatelské ID. Vstupní obrázek je fúzí uživatelského vstupního obrázku a šablony, zatímco kalibrovaná obličejová maska je vstupní maskou. Pro další zvýšení kontroly nad generováním obrázků, rámec EasyPhoto integruje tři jednotky ControlNet, kde první jednotka ControlNet se zaměřuje na kontrolu spojených obrázků, druhá jednotka ControlNet řídí barvy spojeného obrázku, a konečná jednotka ControlNet je openpose (reálná multi-osoba kontrola lidské pozice) nahrazeného obrázku, který nejen obsahuje obličejovou strukturu šablony, ale také obličejovou identitu uživatele.

Druhá difuze

Ve druhé fázi difuze jsou artefakty poblíž hranice obličeje rafinovány a jemně laděny, a uživatelům je poskytována flexibilita maskovat konkrétní oblast v obrázku, aby se zvýšila účinnost generování v této oblasti. V této fázi, rámec spojuje výstupní obrázek získaný z první fáze difuze s obrázkem roop nebo výsledkem uživatelského obrázku, a tím generuje vstupní obrázek pro druhou fázi difuze. Celkově, druhá fáze difuze hraje zásadní roli při zlepšování celkové kvality a detailů generovaného obrázku. 

Multi User IDs

Jednou z hlavních výhod EasyPhoto je jeho podpora generování více uživatelských ID, a níže uvedený obrázek demonstruje potrubí interference pro více uživatelských ID v rámci EasyPhoto. 

Pro podporu generování více uživatelských ID, rámec EasyPhoto nejprve provede detekci obličeje na interference šabloně. Tyto interference šablony jsou poté rozděleny do několika masek, kde každá maska obsahuje pouze jeden obličej, a zbytek obrázku je maskován bílou barvou, a tím se rozdělí generování více uživatelských ID na jednoduchou úlohu generování individuálních uživatelských ID. Jakmile rámec vygeneruje obrázky uživatelských ID, tyto obrázky jsou spojeny do interference šablony, a tím se ermögňují bezproblémové integrace šablon obrázků s generovanými obrázky, které nakonec vedou k vysoce kvalitnímu obrázku. 

Experimenty a výsledky

Nyní, když máme pochopení rámce EasyPhoto, je čas prozkoumat výkon rámce EasyPhoto. 

Níže uvedený obrázek je vygenerován pluginem EasyPhoto, a používá model Style-based SD pro generování obrázku. Jak je vidět, generované obrázky vypadají realisticky a jsou poměrně přesné. 

Obrázek níže je vygenerován rámcem EasyPhoto pomocí modelu Comic Style-based SD. Jak je vidět, komiksové fotografie a realistické fotografie vypadají poměrně realisticky a velmi se podobají vstupnímu obrázku na základě uživatelských podnětů nebo požadavků. 

Obrázek níže je vygenerován rámcem EasyPhoto pomocí víceosobní šablony. Jak je vidět, generované obrázky jsou čisté, přesné a se velmi podobají původnímu obrázku. 

S pomocí EasyPhoto, uživatelé mohou nyní generovat širokou škálu AI portrétů, nebo generovat více uživatelských ID pomocí uchovaných šablon, nebo použít model SD k generování interference šablon. Níže uvedené obrázky demonstrují schopnost rámce EasyPhoto při produkci rozmanitých a vysoce kvalitních AI obrázků.

Závěr

V tomto článku, jsme mluvili o EasyPhoto, novém pluginu Webového uživatelského rozhraní, který umožňuje koncovým uživatelům generovat AI portréty a obrázky. Plugin Webového uživatelského rozhraní EasyPhoto generuje AI portréty pomocí libovolných šablon, a současné implikace pluginu Webového uživatelského rozhraní EasyPhoto podporují různé styly fotografií a několik úprav. Kromě toho, aby se dále zvýšily schopnosti EasyPhoto, uživatelé mají flexibilitu generovat obrázky pomocí modelu SDXL pro více uspokojivé, přesné a rozmanité výsledky. Rámec EasyPhoto využívá stabilní difuzní základní model spojený s předem trénovaným modelem LoRA, který produkuje vysoce kvalitní výstupní obrázky.

Zajímá vás generátory obrázků? Nabízíme také seznam nejlepších generátorů AI portrétů a nejlepších generátorů AI obrázků, které jsou snadno použitelné a nevyžadují žádné technické znalosti.

Inženýr z povolání, spisovatel ze srdce. Kunal je technický spisovatel s hlubokou láskou a porozuměním pro AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím svých přitažlivých a informačních dokumentací.