Umělá inteligence

EasyPhoto: Váš osobní generátor fotografií AI

aktualizováno on Října 30, 2023

EasyPhoto: Váš osobní generátor portrétů AI

Stabilní difúze Web User Interface neboli SD-WebUI je komplexní projekt pro modely Stable Diffusion, který využívá knihovnu Gradio k poskytování rozhraní prohlížeče. Dnes budeme hovořit o EasyPhoto, inovativním pluginu WebUI, který umožňuje koncovým uživatelům generovat AI portréty a obrázky. Plugin EasyPhoto WebUI vytváří portréty AI pomocí různých šablon, které podporují různé styly fotografií a různé úpravy. Pro další vylepšení funkcí EasyPhoto mohou uživatelé generovat obrázky pomocí modelu SDXL pro uspokojivější, přesnější a rozmanitější výsledky. Pojďme začít.

Úvod do EasyPhoto a stabilní difúze

Rámec Stable Diffusion je populární a robustní rámec pro generování založený na difúzi, který používají vývojáři ke generování realistických obrázků na základě vstupních textových popisů. Díky svým schopnostem se framework Stable Diffusion může pochlubit širokou škálou aplikací, včetně překreslování obrázků, překreslování obrázků a překladu z obrázku na obrázek. Webové uživatelské rozhraní Stable Diffusion neboli SD-WebUI vyniká jako jedna z nejpopulárnějších a nejznámějších aplikací tohoto rámce. Obsahuje rozhraní prohlížeče postavené na knihovně Gradio, které poskytuje interaktivní a uživatelsky přívětivé rozhraní pro modely Stable Diffusion. Pro další zlepšení kontroly a použitelnosti při generování obrázků integruje SD-WebUI četné aplikace Stable Diffusion.

Vzhledem k pohodlí, které nabízí framework SD-WebUI, se vývojáři frameworku EasyPhoto rozhodli vytvořit jej spíše jako webový plugin než jako plnohodnotnou aplikaci. Na rozdíl od stávajících metod, které často trpí ztrátou identity nebo zavádějí do obrázků nerealistické rysy, framework EasyPhoto využívá schopnosti modelů Stable Diffusion pro vytváření přesných a realistických obrázků. Uživatelé mohou snadno nainstalovat rámec EasyPhoto jako rozšíření v rámci webového uživatelského rozhraní, což zvyšuje uživatelskou přívětivost a dostupnost pro širší okruh uživatelů. Rámec EasyPhoto umožňuje uživatelům vytvářet vysoce kvalitní a řízené identitou realistické AI portréty které se velmi podobají vstupní identitě.

Za prvé, rámec EasyPhoto žádá uživatele, aby vytvořili svého digitálního doppelgangera nahráním několika obrázků pro online trénování modelu LoRA nebo Low-Rank Adaptation. Rámec LoRA rychle dolaďuje modely difúze pomocí adaptační technologie nízké úrovně. Tento proces umožňuje založenému modelu porozumět informacím ID konkrétních uživatelů. Trénované modely jsou poté sloučeny a integrovány do základního modelu stabilní difúze pro interferenci. Kromě toho během procesu interference používá model stabilní difúzní modely ve snaze překreslit obličejové oblasti v interferenční šabloně a podobnost mezi vstupními a výstupními obrázky se ověřuje pomocí různých jednotek ControlNet.

Rámec EasyPhoto také nasazuje dvoufázový proces šíření k řešení potenciálních problémů, jako jsou hraniční artefakty a ztráta identity, čímž je zajištěno, že generované obrázky minimalizují vizuální nekonzistence při zachování identity uživatele. Interferenční potrubí v rámci EasyPhoto se navíc neomezuje pouze na generování portrétů, ale lze jej také použít ke generování čehokoli, co souvisí s ID uživatele. To znamená, že jakmile trénujete Model LoRA pro konkrétní ID můžete generovat širokou škálu obrázků AI, a proto může mít široké aplikace včetně virtuálních zkoušek.

Stručně řečeno, rámec EasyPhoto

Navrhuje nový přístup k trénování modelu LoRA začleněním více modelů LoRA pro zachování věrnosti obličeje generovaných snímků.
Využívá různé metody učení se zesílením k optimalizaci modelů LoRA pro odměny za identitu obličeje, což dále pomáhá při zlepšování podobnosti identit mezi tréninkovými obrázky a generovanými výsledky.
Navrhuje dvoufázový proces šíření založený na inpaintu, jehož cílem je generovat AI fotografie s vysokou estetikou a podobností.

EasyPhoto: Architektura a školení

Následující obrázek ukazuje tréninkový proces frameworku EasyPhoto AI.

Jak je vidět, framework nejprve požádá uživatele, aby vložili tréninkové obrázky, a poté provede detekci obličeje, aby detekoval umístění obličeje. Jakmile rám detekuje obličej, ořízne vstupní obraz pomocí předem definovaného specifického poměru, který se zaměřuje pouze na oblast obličeje. Rámec pak nasadí model zkrášlení pleti a detekce nápadnosti, aby získal čistý a jasný obraz tréninku obličeje. Tyto dva modely hrají klíčovou roli při zlepšování vizuální kvality obličeje a také zajišťují, že byly odstraněny informace na pozadí a tréninkový obrázek obsahuje převážně obličej. A konečně, framework používá tyto zpracované obrázky a vstupní výzvy k trénování modelu LoRA, a tak jej vybavuje schopností lépe a přesněji porozumět uživatelským specifickým charakteristikám obličeje.

Kromě toho, během trénovací fáze, rámec zahrnuje kritický krok ověření, ve kterém framework vypočítá mezeru ID obličeje mezi obrázkem zadaným uživatelem a ověřovacím obrázkem, který byl vygenerován trénovaným modelem LoRA. Validační krok je základní proces, který hraje klíčovou roli při dosažení fúze modelů LoRA, což v konečném důsledku zajišťuje, že vyškolený rámec LoRA transformuje do doppelganger, nebo přesná digitální reprezentace uživatele. Navíc ověřovací obraz, který má optimální skóre face_id, bude vybrán jako obraz face_id a tento obraz face_id bude poté použit pro zvýšení podobnosti identity generování interference.

Postupně, na základě souborového procesu, rámec trénuje modely LoRA, přičemž primárním cílem je odhad pravděpodobnosti, zatímco následným cílem je zachování podobnosti identity obličeje. K vyřešení tohoto problému využívá rámec EasyPhoto techniky učení zesílení k přímé optimalizaci následného cíle. Výsledkem je, že rysy obličeje, které se modely LoRA učí, vykazují zlepšení, které vede k větší podobnosti mezi výsledky generovanými šablonami, a také demonstruje zobecnění napříč šablonami.

Interferenční proces

Následující obrázek ukazuje proces interference pro jednotlivé ID uživatele v rámci EasyPhoto a je rozdělen do tří částí

Předzpracování obličeje pro získání reference ControlNet a předzpracovaného vstupního obrazu.

První difúze což pomáhá při generování hrubých výsledků, které se podobají vstupu uživatele.

Druhá difúze která opravuje hraniční artefakty, čímž jsou obrazy přesnější a vypadají realističtěji.

Pro vstup bere framework obrázek face_id (vygenerovaný během ověřování trénování pomocí optimálního skóre face_id) a šablonu interference. Výstupem je vysoce detailní, přesný a realistický portrét uživatele a velmi se podobá identitě a jedinečnému vzhledu uživatele na základě předlohy odvodit. Pojďme se na tyto procesy podrobně podívat.

Předzpracování obličeje

Způsob, jak vytvořit portrét AI na základě interferenční šablony bez vědomého uvažování, je použít model SD k dokreslení oblasti obličeje v interferenční šabloně. Přidání rámce ControlNet do procesu navíc nejen zlepšuje zachování identity uživatele, ale také zvyšuje podobnost mezi generovanými obrázky. Použití ControlNet přímo pro regionální malování však může způsobit potenciální problémy, které mohou zahrnovat

Nesoulad mezi vstupem a vygenerovaným obrázkem: Je zřejmé, že klíčové body v obrázku šablony nejsou kompatibilní s klíčovými body v obrázku face_id, a proto použití ControlNet s obrázkem face_id jako reference může vést k určitým nesrovnalostem ve výstupu.

Závady v oblasti Inpaint: Maskování oblasti a její následné vymalování novou tváří může vést ke znatelným defektům, zejména podél hranice malby, které nejen ovlivní autenticitu vytvořeného obrazu, ale také negativně ovlivní realističnost obrazu.
Ztráta identity kontrolní sítí: Protože trénovací proces nevyužívá rámec ControlNet, použití ControlNet během fáze interference může ovlivnit schopnost trénovaných modelů LoRA zachovat identitu vstupního ID uživatele.

Pro řešení výše uvedených problémů navrhuje rámec EasyPhoto tři postupy.

Zarovnat a vložit: Pomocí algoritmu vkládání obličeje se rámec EasyPhoto snaží vyřešit problém nesouladu mezi orientačními body obličeje mezi ID obličeje a šablonou. Nejprve model vypočítá orientační body obličeje pro face_id a obrázek šablony, načež model určí matici afinní transformace, která bude použita k zarovnání orientačních bodů obličeje obrázku šablony s obrázkem face_id. Výsledný obrázek si zachová stejné orientační body jako obrázek face_id a také se zarovná s obrázkem šablony.

Obličejová pojistka: Face Fuse je nový přístup, který se používá ke korekci hraničních artefaktů, které jsou výsledkem malování masky, a zahrnuje opravu artefaktů pomocí rámce ControlNet. Metoda umožňuje frameworku EasyPhoto zajistit zachování harmonických hran, a tím v konečném důsledku vést proces generování obrazu. Algoritmus fúze obličeje dále spojuje obraz roop (uživatelské obrázky pozemní pravdy) a šablonu, což umožňuje výslednému fúzovanému obrazu vykazovat lepší stabilizaci okrajových hranic, což pak vede k lepšímu výstupu během první fáze difúze.
Validace řízená ControlNet: Vzhledem k tomu, že modely LoRA nebyly trénovány pomocí rámce ControlNet, jeho použití během procesu odvození může ovlivnit schopnost modelu LoRA zachovat identity. Aby se zlepšily možnosti zobecnění EasyPhoto, rámec zvažuje vliv rámce ControlNet a zahrnuje modely LoRA z různých fází.

První difúze

První fáze difúze používá obrázek šablony ke generování obrázku s jedinečným ID, které se podobá vstupnímu ID uživatele. Vstupní obrázek je sloučením uživatelského vstupního obrázku a obrázku šablony, zatímco kalibrovaná obličejová maska je vstupní maskou. K dalšímu zvýšení kontroly nad generováním obrazu integruje rámec EasyPhoto tři jednotky ControlNet, kde první jednotka ControlNet se zaměřuje na kontrolu sloučených obrazů, druhá jednotka ControlNet řídí barvy sloučeného obrazu a poslední jednotka ControlNet je openpose. (kontrola lidské pozice v reálném čase) nahrazeného obrázku, který obsahuje nejen obličejovou strukturu obrázku šablony, ale také obličejovou identitu uživatele.

Druhá difúze

Ve druhé fázi difúze jsou artefakty poblíž hranice obličeje zjemněny a doladěny spolu s tím, že uživatelům poskytují flexibilitu maskovat konkrétní oblast v obraze ve snaze zvýšit efektivitu generování v této vyhrazené oblasti. V této fázi kostra spojuje výstupní obraz získaný z prvního stupně difúze s obrazem sítě nebo výsledkem obrazu uživatele, čímž se generuje vstupní obraz pro druhý stupeň difúze. Celkově druhý stupeň difúze hraje klíčovou roli při zlepšování celkové kvality a detailů generovaného obrazu.

Více ID uživatelů

Jednou z předností EasyPhoto je jeho podpora pro generování více uživatelských ID a níže uvedený obrázek ukazuje průběh procesu interference pro více uživatelských ID v rámci EasyPhoto.

Aby byla zajištěna podpora pro generování ID pro více uživatelů, framework EasyPhoto nejprve provádí detekci obličeje na šabloně interference. Tyto interferenční šablony jsou pak rozděleny do mnoha masek, kde každá maska obsahuje pouze jednu tvář a zbytek obrazu je maskován bílou barvou, čímž se generování ID pro více uživatelů rozdělí na jednoduchý úkol generování ID jednotlivých uživatelů. Jakmile framework vygeneruje obrázky ID uživatele, jsou tyto obrázky sloučeny do inferenční šablony, což usnadňuje bezproblémovou integraci obrázků šablony s vygenerovanými obrázky, což nakonec vede k vysoce kvalitnímu obrázku.

Experimenty a výsledky

Nyní, když jsme pochopili rámec EasyPhoto, je čas prozkoumat výkon rámce EasyPhoto.

Výše uvedený obrázek je generován zásuvným modulem EasyPhoto a pro generování obrázku používá model SD založený na stylu. Jak je vidět, generované obrázky vypadají realisticky a jsou docela přesné.

Obrázek přidaný výše je generován rámcem EasyPhoto pomocí modelu SD založeného na Comic Style. Jak je vidět, komické fotografie a realistické fotografie vypadají docela realisticky a velmi se podobají vstupnímu obrázku na základě pokynů nebo požadavků uživatele.

Obrázek přidaný níže byl vygenerován rámcem EasyPhoto pomocí šablony pro více osob. Jak je jasně vidět, vytvořené obrázky jsou jasné, přesné a podobají se původnímu obrázku.

S pomocí EasyPhoto mohou nyní uživatelé generovat širokou škálu portrétů AI nebo generovat více uživatelských ID pomocí zachovaných šablon nebo použít model SD ke generování inferenčních šablon. Obrázky přidané výše demonstrují schopnost rámce EasyPhoto vytvářet různorodé a vysoce kvalitní obrázky AI.

Proč investovat do čističky vzduchu?

V tomto článku jsme hovořili o společnosti EasyPhoto, a nový plugin WebUI který umožňuje koncovým uživatelům vytvářet portréty a obrázky AI. Plugin EasyPhoto WebUI generuje AI portréty pomocí libovolných šablon a aktuální implikace EasyPhoto WebUI podporuje různé styly fotografií a více úprav. Kromě toho, pro další vylepšení funkcí EasyPhoto, mají uživatelé možnost generovat obrázky pomocí modelu SDXL, aby generovali uspokojivější, přesnější a rozmanitější obrázky. Rámec EasyPhoto využívá stabilní difúzní základní model spojený s předem připraveným modelem LoRA, který produkuje vysoce kvalitní obrazové výstupy.

Zajímají vás generátory obrázků? Poskytujeme také seznam Nejlepší generátory AI Headshot a Nejlepší generátory obrázků AI které se snadno používají a nevyžadují žádné technické znalosti.

Související témata:easyphoto

Nahoru Další

ChatDev: Komunikativní agenti pro vývoj softwaru

Nenechte si ujít

Strategická expanze společnosti Google v oblasti umělé inteligence: Sázka 2 miliardy dolarů na Anthropic

Kunal Kejriwal

„Povoláním inženýr, srdcem spisovatel“. Kunal je technický spisovatel s hlubokou láskou a porozuměním AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím své poutavé a informativní dokumentace.

Unite.AI

EasyPhoto: Váš osobní generátor fotografií AI

Umělá inteligence

EasyPhoto: Váš osobní generátor fotografií AI

Obsah

Úvod do EasyPhoto a stabilní difúze

EasyPhoto: Architektura a školení