Umelá inteligencia

EasyPhoto: Váš osobný generátor fotografií AI

Aktualizované on Októbra 30, 2023

EasyPhoto: Váš osobný generátor portrétov AI

Stabilná difúzia Web User Interface alebo SD-WebUI je komplexný projekt pre modely Stable Diffusion, ktorý využíva knižnicu Gradio na poskytovanie rozhrania prehliadača. Dnes budeme hovoriť o EasyPhoto, inovatívnom doplnku WebUI, ktorý umožňuje koncovým používateľom vytvárať portréty a obrázky AI. Doplnok EasyPhoto WebUI vytvára portréty AI pomocou rôznych šablón, ktoré podporujú rôzne štýly fotografií a viaceré úpravy. Okrem toho, na ďalšie vylepšenie možností EasyPhoto, môžu používatelia vytvárať obrázky pomocou modelu SDXL pre uspokojivejšie, presnejšie a rozmanitejšie výsledky. Poďme začať.

Úvod do EasyPhoto a stabilnej difúzie

Rámec Stable Diffusion je populárny a robustný rámec generovania založený na difúzii, ktorý používajú vývojári na generovanie realistických obrázkov na základe popisov vstupného textu. Rámec Stable Diffusion sa vďaka svojim schopnostiam môže pochváliť širokou škálou aplikácií, vrátane prekresľovania obrázkov, prekresľovania obrázkov a prekladu z obrázku na obrázok. Webové používateľské rozhranie Stable Diffusion alebo SD-WebUI vyniká ako jedna z najpopulárnejších a najznámejších aplikácií tohto rámca. Obsahuje rozhranie prehliadača postavené na knižnici Gradio, ktoré poskytuje interaktívne a užívateľsky prívetivé rozhranie pre modely Stable Diffusion. Na ďalšie zlepšenie ovládania a použiteľnosti pri generovaní obrázkov SD-WebUI integruje množstvo aplikácií Stable Diffusion.

Vzhľadom na pohodlie, ktoré ponúka rámec SD-WebUI, sa vývojári rámca EasyPhoto rozhodli vytvoriť ho ako webový doplnok a nie ako plnohodnotnú aplikáciu. Na rozdiel od existujúcich metód, ktoré často trpia stratou identity alebo zavádzajú do obrázkov nerealistické vlastnosti, rámec EasyPhoto využíva schopnosti modelov Stable Diffusion pre vytváranie presných a realistických obrázkov. Používatelia si môžu jednoducho nainštalovať rámec EasyPhoto ako rozšírenie v rámci webového používateľského rozhrania, čím sa zvýši užívateľská prívetivosť a dostupnosť pre širší okruh používateľov. Rámec EasyPhoto umožňuje používateľom vytvárať vysokokvalitné a riadené identitou realistické portréty AI ktoré sa veľmi podobajú vstupnej identite.

Po prvé, rámec EasyPhoto žiada používateľov, aby si vytvorili svojho digitálneho doppelgangera nahraním niekoľkých obrázkov na online trénovanie modelu LoRA alebo Low-Rank Adaptation. Rámec LoRA rýchlo dolaďuje modely difúzie pomocou technológie prispôsobenia nízkej úrovne. Tento proces umožňuje založenému modelu porozumieť ID informácií konkrétnych používateľov. Trénované modely sú potom zlúčené a integrované do základného modelu stabilnej difúzie pre interferenciu. Okrem toho počas procesu interferencie model používa stabilné modely difúzie v snahe prekresliť oblasti tváre v interferenčnej šablóne a podobnosť medzi vstupnými a výstupnými obrázkami sa overuje pomocou rôznych jednotiek ControlNet.

Rámec EasyPhoto tiež využíva dvojstupňový proces šírenia na riešenie potenciálnych problémov, ako sú hraničné artefakty a strata identity, čím sa zabezpečí, že generované obrázky minimalizujú vizuálne nezrovnalosti pri zachovaní identity používateľa. Okrem toho, interferenčné potrubie v rámci EasyPhoto nie je obmedzené len na generovanie portrétov, ale môže sa použiť aj na generovanie čohokoľvek, čo súvisí s ID používateľa. To znamená, že akonáhle trénujete Model LoRA pre konkrétne ID môžete generovať širokú škálu obrázkov AI, a preto môže mať rozsiahle aplikácie vrátane virtuálnych testov.

Stručne povedané, rámec EasyPhoto

Navrhuje nový prístup k trénovaniu modelu LoRA začlenením viacerých modelov LoRA, aby sa zachovala vernosť tváre vytvorených obrázkov.
Využíva rôzne metódy učenia sa posilňovania na optimalizáciu modelov LoRA pre odmeny za identitu tváre, čo ďalej pomáha zvyšovať podobnosť identít medzi tréningovými obrázkami a vygenerovanými výsledkami.
Navrhuje dvojfázový proces šírenia založený na inpaintoch, ktorého cieľom je vytvárať fotografie AI s vysokou estetikou a podobnosťou.

EasyPhoto: Architektúra a školenia

Nasledujúci obrázok znázorňuje tréningový proces rámca EasyPhoto AI.

Ako je možné vidieť, rámec najprv požiada používateľov, aby vložili tréningové obrázky, a potom vykoná detekciu tváre na zistenie polohy tváre. Keď rám rozpozná tvár, oreže vstupný obrázok pomocou vopred definovaného špecifického pomeru, ktorý sa zameriava výlučne na oblasť tváre. Rámec potom nasadí model skrášľovania pleti a detekcie nápadnosti, aby sa získal čistý a jasný obraz tréningu tváre. Tieto dva modely zohrávajú kľúčovú úlohu pri zlepšovaní vizuálnej kvality tváre a tiež zabezpečujú, že informácie na pozadí boli odstránené a tréningový obrázok obsahuje prevažne tvár. Nakoniec rámec používa tieto spracované obrázky a vstupné výzvy na trénovanie modelu LoRA, a tak ho vybavuje schopnosťou efektívnejšie a presnejšie porozumieť charakteristikám tváre špecifickým pre používateľa.

Okrem toho počas tréningovej fázy rámec zahŕňa kritický krok overenia, v ktorom rámec vypočítava medzeru ID tváre medzi obrázkom zadaným používateľom a verifikačným obrázkom, ktorý bol vygenerovaný natrénovaným modelom LoRA. Validačný krok je základným procesom, ktorý hrá kľúčovú úlohu pri dosiahnutí fúzie modelov LoRA, čím sa v konečnom dôsledku zabezpečí, vyškolený rámec LoRA premení na dvojníka alebo presné digitálne zobrazenie používateľa. Okrem toho sa ako obrázok face_id vyberie verifikačný obrázok, ktorý má optimálne skóre face_id, a tento obrázok face_id sa potom použije na zvýšenie podobnosti identity generovania interferencií.

Postupujúc ďalej, na základe procesu súboru, rámec trénuje modely LoRA, pričom odhad pravdepodobnosti je primárnym cieľom, zatiaľ čo zachovanie podobnosti identity tváre je následným cieľom. Na vyriešenie tohto problému používa rámec EasyPhoto techniky učenia sa posilňovania na priamu optimalizáciu následného cieľa. Výsledkom je, že rysy tváre, ktoré sa modely LoRA naučia, vykazujú zlepšenie, ktoré vedie k väčšej podobnosti medzi výsledkami generovanými šablónou, a tiež demonštruje zovšeobecnenie medzi šablónami.

Proces rušenia

Nasledujúci obrázok znázorňuje proces rušenia pre jednotlivé User ID v rámci EasyPhoto a je rozdelený do troch častí

Predspracovanie tváre na získanie referencie ControlNet a predspracovaného vstupného obrazu.

Prvá difúzia pomáha pri vytváraní hrubých výsledkov, ktoré sa podobajú vstupu používateľa.

Druhá difúzia ktorý opravuje hraničné artefakty, čím sa obrázky presnejšie a realistickejšie.

Pre vstup rámec berie obrázok face_id (vygenerovaný počas overovania tréningu pomocou optimálneho skóre face_id) a šablónu interferencie. Výstupom je vysoko podrobný, presný a realistický portrét používateľa a veľmi sa podobá identite a jedinečnému vzhľadu používateľa na základe šablóny odvodenia. Pozrime sa na tieto procesy podrobne.

Predspracovanie tváre

Spôsob, ako vytvoriť portrét AI na základe interferenčnej šablóny bez vedomého uvažovania, je použiť model SD na vykreslenie oblasti tváre v interferenčnej šablóne. Okrem toho pridanie rámca ControlNet do procesu nielen zlepšuje zachovanie identity používateľa, ale tiež zvyšuje podobnosť medzi vytvorenými obrázkami. Priame používanie siete ControlNet na regionálne maľovanie však môže spôsobiť potenciálne problémy, ktoré môžu zahŕňať

Nekonzistentnosť medzi vstupom a vygenerovaným obrázkom: Je zrejmé, že kľúčové body v obrázku šablóny nie sú kompatibilné s kľúčovými bodmi v obrázku face_id, a preto používanie siete ControlNet s obrázkom face_id ako referencie môže viesť k určitým nezrovnalostiam vo výstupe.

Chyby v oblasti Inpaint: Maskovanie oblasti a jej následné vymaľovanie novou tvárou môže viesť k viditeľným chybám, najmä pozdĺž hranice vyfarbenia, ktoré nielenže ovplyvnia autenticitu vytvoreného obrazu, ale negatívne ovplyvnia aj realizmus obrazu.
Strata identity kontrolnou sieťou: Keďže tréningový proces nevyužíva rámec ControlNet, používanie ControlNet počas fázy rušenia môže ovplyvniť schopnosť trénovaných modelov LoRA zachovať identitu vstupného ID používateľa.

Na riešenie vyššie uvedených problémov rámec EasyPhoto navrhuje tri postupy.

Zarovnať a prilepiť: Pomocou algoritmu vkladania tváre sa rámec EasyPhoto zameriava na riešenie problému nesúladu medzi orientačnými bodmi tváre medzi ID tváre a šablónou. Najprv model vypočíta orientačné body tváre pre face_id a obrázok šablóny, na základe čoho model určí maticu afinnej transformácie, ktorá sa použije na zarovnanie orientačných bodov tváre obrázka šablóny s obrázkom face_id. Výsledný obrázok si zachová rovnaké orientačné body ako obrázok face_id a tiež sa zarovná s obrázkom šablóny.

Tvárová poistka: Face Fuse je nový prístup, ktorý sa používa na korekciu hraničných artefaktov, ktoré sú výsledkom maľovania masky, a zahŕňa opravu artefaktov pomocou rámca ControlNet. Metóda umožňuje frameworku EasyPhoto zabezpečiť zachovanie harmonických hrán, a tak v konečnom dôsledku riadiť proces generovania obrazu. Algoritmus tvárovej fúzie ďalej spája obraz roop (obrázky používateľa základne pravdy) a šablónu, čo umožňuje, aby výsledný spojený obraz vykazoval lepšiu stabilizáciu okrajov, čo potom vedie k lepšiemu výstupu počas prvej fázy difúzie.
Validácia riadená ControlNet: Keďže modely LoRA neboli trénované pomocou rámca ControlNet, jeho použitie počas procesu odvodzovania môže ovplyvniť schopnosť modelu LoRA zachovať identity. Aby sa zlepšili možnosti zovšeobecnenia EasyPhoto, rámec zohľadňuje vplyv rámca ControlNet a zahŕňa modely LoRA z rôznych stupňov.

Prvá difúzia

Prvá fáza difúzie používa obrázok šablóny na vygenerovanie obrázka s jedinečným ID, ktoré sa podobá vstupnému ID používateľa. Vstupný obrázok je fúziou používateľského vstupného obrázka a obrázka šablóny, zatiaľ čo kalibrovaná tvárová maska je vstupnou maskou. Aby sa ešte viac zvýšila kontrola nad generovaním obrázkov, rámec EasyPhoto integruje tri jednotky ControlNet, kde prvá jednotka ControlNet sa zameriava na kontrolu spojených obrázkov, druhá jednotka ControlNet riadi farby spojeného obrázka a posledná jednotka ControlNet je otvorená. (kontrola ľudskej pozície v reálnom čase) nahradeného obrázka, ktorý obsahuje nielen štruktúru tváre obrázka šablóny, ale aj identitu tváre používateľa.

Druhá difúzia

V druhej fáze difúzie sa artefakty v blízkosti okraja tváre zjemnia a doladia spolu s tým, že používateľom poskytnú flexibilitu na maskovanie konkrétnej oblasti na obrázku v snahe zvýšiť efektivitu generovania v rámci tejto vyhradenej oblasti. V tejto fáze kostra spája výstupný obraz získaný z prvého difúzneho stupňa s obrazovým obrazom alebo výsledkom užívateľského obrazu, čím sa generuje vstupný obraz pre druhý stupeň difúzie. Celkovo hrá druhý stupeň difúzie kľúčovú úlohu pri zvyšovaní celkovej kvality a detailov generovaného obrazu.

ID viacerých používateľov

Jedným z vrcholov EasyPhoto je jeho podpora pre generovanie viacerých ID používateľov a obrázok nižšie ukazuje priebeh procesu rušenia pre ID viacerých používateľov v rámci EasyPhoto.

Aby sa zabezpečila podpora pre generovanie ID viacerých používateľov, rámec EasyPhoto najskôr vykoná detekciu tváre na šablóne interferencie. Tieto interferenčné šablóny sú potom rozdelené do mnohých masiek, kde každá maska obsahuje iba jednu tvár a zvyšok obrazu je maskovaný bielou farbou, čím sa generovanie ID pre viacerých používateľov rozdeľuje na jednoduchú úlohu generovania ID jednotlivých používateľov. Keď rámec vygeneruje obrázky ID používateľa, tieto obrázky sa zlúčia do inferenčnej šablóny, čím sa uľahčí bezproblémová integrácia obrázkov šablón s vygenerovanými obrázkami, čo nakoniec vedie k vysokokvalitnému obrázku.

Experimenty a výsledky

Teraz, keď sme pochopili rámec EasyPhoto, je čas, aby sme preskúmali výkon rámca EasyPhoto.

Vyššie uvedený obrázok je generovaný doplnkom EasyPhoto a na generovanie obrázka používa model SD založený na štýle. Ako je možné pozorovať, vytvorené obrázky vyzerajú realisticky a sú celkom presné.

Obrázok pridaný vyššie je generovaný rámcom EasyPhoto pomocou modelu SD založeného na komiksovom štýle. Ako je vidieť, komické fotografie a realistické fotografie vyzerajú celkom realisticky a veľmi sa podobajú vstupnému obrázku na základe pokynov alebo požiadaviek používateľa.

Obrázok pridaný nižšie bol vygenerovaný rámcom EasyPhoto použitím šablóny pre viacero osôb. Ako je jasne vidieť, vytvorené obrázky sú jasné, presné a podobajú sa pôvodnému obrázku.

S pomocou EasyPhoto môžu teraz používatelia generovať širokú škálu portrétov AI alebo generovať viacero ID používateľov pomocou zachovaných šablón alebo použiť model SD na generovanie inferenčných šablón. Obrázky pridané vyššie demonštrujú schopnosť rámca EasyPhoto vytvárať rôznorodé a vysokokvalitné obrázky AI.

záver

V tomto článku sme hovorili o EasyPhoto, a nový doplnok WebUI ktorý umožňuje koncovým používateľom vytvárať portréty a obrázky AI. Doplnok EasyPhoto WebUI generuje portréty AI pomocou ľubovoľných šablón a súčasné dôsledky rozhrania EasyPhoto WebUI podporujú rôzne štýly fotografií a viaceré úpravy. Navyše, na ďalšie vylepšenie možností EasyPhoto majú používatelia flexibilitu pri vytváraní obrázkov pomocou modelu SDXL, aby sa vytvorili uspokojivejšie, presnejšie a rôznorodejšie obrázky. Rámec EasyPhoto využíva stabilný difúzny základný model spojený s vopred pripraveným modelom LoRA, ktorý vytvára vysokokvalitné obrazové výstupy.

Máte záujem o generátory obrázkov? Ponúkame tiež zoznam Najlepšie generátory AI Headshot a Najlepšie generátory obrázkov AI ktoré sa ľahko používajú a nevyžadujú žiadne technické znalosti.

Súvisiace témy:easyphoto

Nasledujúci

ChatDev: Komunikatívni agenti pre vývoj softvéru

Nenechajte si ujsť

Strategická expanzia spoločnosti Google v oblasti AI: stávka 2 miliardy dolárov na Anthropic

Kunal Kejriwal

"Povolaním inžinier, srdcom spisovateľ." Kunal je technický spisovateľ s hlbokou láskou a porozumením AI a ML, ktorý sa venuje zjednodušovaniu zložitých konceptov v týchto oblastiach prostredníctvom svojej pútavej a informatívnej dokumentácie.

Spojte sa.AI

EasyPhoto: Váš osobný generátor fotografií AI

Umelá inteligencia

EasyPhoto: Váš osobný generátor fotografií AI

Obsah

Úvod do EasyPhoto a stabilnej difúzie

EasyPhoto: Architektúra a školenia