Inteligenta Artificiala

EasyPhoto: Generatorul tău personal de fotografii AI

Actualizat on Octombrie 30, 2023

EasyPhoto : Generatorul tău personal de portrete AI

Difuzie stabilă Web User Interface, sau SD-WebUI, este un proiect cuprinzător pentru modele Stable Diffusion care utilizează biblioteca Gradio pentru a oferi o interfață de browser. Astăzi, vom vorbi despre EasyPhoto, un plugin inovator WebUI care permite utilizatorilor finali să genereze portrete și imagini AI. Pluginul EasyPhoto WebUI creează portrete AI folosind diferite șabloane, care acceptă diferite stiluri de fotografie și mai multe modificări. În plus, pentru a îmbunătăți și mai mult capacitățile EasyPhoto, utilizatorii pot genera imagini folosind modelul SDXL pentru rezultate mai satisfăcătoare, precise și diverse. Sa incepem.

O introducere în EasyPhoto și Stable Diffusion

Cadrul Stable Diffusion este un cadru de generare popular și robust, bazat pe difuzie, utilizat de dezvoltatori pentru a genera imagini realiste pe baza descrierilor de text introduse. Datorită capacităților sale, cadrul Stable Diffusion se mândrește cu o gamă largă de aplicații, inclusiv desenarea imaginii, pictura în interiorul imaginii și traducerea imagine-la-imagine. Stable Diffusion Web UI, sau SD-WebUI, se remarcă ca una dintre cele mai populare și cunoscute aplicații ale acestui cadru. Dispune de o interfață de browser construită pe biblioteca Gradio, oferind o interfață interactivă și ușor de utilizat pentru modelele Stable Diffusion. Pentru a îmbunătăți și mai mult controlul și capacitatea de utilizare în generarea de imagini, SD-WebUI integrează numeroase aplicații Stable Diffusion.

Datorită confortului oferit de cadrul SD-WebUI, dezvoltatorii cadrului EasyPhoto au decis să îl creeze ca un plugin web, mai degrabă decât o aplicație cu drepturi depline. Spre deosebire de metodele existente care suferă adesea de pierderea identității sau introduc caracteristici nerealiste în imagini, cadrul EasyPhoto folosește capacitățile imagine-la-imagine ale modelelor Stable Diffusion pentru a produce imagini precise și realiste. Utilizatorii pot instala cu ușurință cadrul EasyPhoto ca extensie în WebUI, sporind ușurința de utilizare și accesibilitatea pentru o gamă mai largă de utilizatori. Cadrul EasyPhoto permite utilizatorilor să genereze ghidate de identitate, de înaltă calitate și portrete realiste AI care seamănă mult cu identitatea de intrare.

În primul rând, cadrul EasyPhoto le cere utilizatorilor să-și creeze doppelgangerul digital prin încărcarea câtorva imagini pentru a antrena online un model LoRA sau Low-Rank Adaptation. Cadrul LoRA ajustează rapid modelele de difuzie prin utilizarea tehnologiei de adaptare de rang scăzut. Acest proces permite modelului bazat să înțeleagă informațiile de identificare ale anumitor utilizatori. Modelele antrenate sunt apoi fuzionate și integrate în modelul de bază de difuzie stabilă pentru interferență. Mai mult, în timpul procesului de interferență, modelul utilizează modele stabile de difuzie în încercarea de a revopsi regiunile faciale din șablonul de interferență, iar asemănarea dintre imaginile de intrare și de ieșire sunt verificate folosind diferitele unități ControlNet.

Cadrul EasyPhoto implementează, de asemenea, un proces de difuzie în două etape pentru a aborda probleme potențiale, cum ar fi artefactele la graniță și pierderea identității, asigurându-se astfel că imaginile generate minimizează inconsecvențele vizuale, păstrând în același timp identitatea utilizatorului. În plus, conducta de interferență în cadrul EasyPhoto nu se limitează doar la generarea de portrete, dar poate fi folosită și pentru a genera orice are legătură cu ID-ul utilizatorului. Acest lucru implică faptul că, odată ce antrenați modelul LoRA pentru un anumit ID, puteți genera o gamă largă de imagini AI și, astfel, poate avea aplicații larg răspândite, inclusiv încercări virtuale.

Rezumă, cadrul EasyPhoto

Propune o abordare nouă pentru antrenarea modelului LoRA prin încorporarea mai multor modele LoRA pentru a menține fidelitatea facială a imaginilor generate.
Utilizează diverse metode de învățare de întărire pentru a optimiza modelele LoRA pentru recompensele de identitate facială, ceea ce ajută în continuare la îmbunătățirea similarității identităților dintre imaginile de antrenament și rezultatele generate.
Propune un proces de difuzie în două etape, bazat pe vopsire, care urmărește să genereze fotografii AI cu o estetică ridicată și asemănări.

EasyPhoto: Arhitectură și formare

Următoarea figură demonstrează procesul de instruire al cadrului EasyPhoto AI.

După cum se poate vedea, cadrul cere mai întâi utilizatorilor să introducă imaginile de antrenament, apoi efectuează detectarea feței pentru a detecta locațiile feței. Odată ce cadrul detectează fața, decupează imaginea de intrare folosind un raport specific predefinit care se concentrează numai pe regiunea feței. Cadrul implementează apoi un model de înfrumusețare a pielii și un model de detectare a proeminentei pentru a obține o imagine de antrenament curată și clară a feței. Aceste două modele joacă un rol crucial în îmbunătățirea calității vizuale a feței și, de asemenea, asigură că informațiile de fundal au fost îndepărtate, iar imaginea de antrenament conține predominant fața. În cele din urmă, cadrul utilizează aceste imagini procesate și solicitări de intrare pentru a antrena modelul LoRA și, astfel, îl echipează cu capacitatea de a înțelege caracteristicile faciale specifice utilizatorului mai eficient și mai precis.

În plus, în timpul fazei de instruire, cadrul include un pas critic de validare, în care cadrul calculează decalajul de identificare a feței dintre imaginea de intrare de utilizator și imaginea de verificare care a fost generată de modelul LoRA antrenat. Etapa de validare este un proces fundamental care joacă un rol cheie în realizarea fuziunii modelelor LoRA, asigurând în cele din urmă că cadru LoRA instruit se transformă într-un doppelganger sau într-o reprezentare digitală exactă a utilizatorului. În plus, imaginea de verificare care are scorul optim face_id va fi selectată ca imagine face_id, iar această imagine face_id va fi apoi utilizată pentru a spori asemănarea identității generată de interferență.

Continuând, pe baza procesului de ansamblu, cadrul antrenează modelele LoRA, estimarea probabilității fiind obiectivul principal, în timp ce păstrarea similarității identității faciale este obiectivul din aval. Pentru a rezolva această problemă, cadrul EasyPhoto utilizează tehnici de învățare prin consolidare pentru a optimiza direct obiectivul din aval. Ca rezultat, trăsăturile faciale pe care modelele LoRA le învață afișează îmbunătățiri care duce la o similaritate sporită între rezultatele generate de șablon și demonstrează, de asemenea, generalizarea între șabloane.

Proces de interferență

Figura următoare demonstrează procesul de interferență pentru un ID de utilizator individual în cadrul EasyPhoto și este împărțită în trei părți

Preprocesarea feței pentru obținerea referinței ControlNet și a imaginii de intrare preprocesate.

Prima Difuzie care ajută la generarea de rezultate brute care seamănă cu intrarea utilizatorului.

A doua Difuzie care fixează artefactele limită, făcând astfel imaginile mai precise și să pară mai realiste.

Pentru intrare, cadrul preia o imagine face_id (generată în timpul validării antrenamentului folosind scorul optim face_id) și un șablon de interferență. Rezultatul este un portret extrem de detaliat, precis și realist al utilizatorului și seamănă foarte mult cu identitatea și aspectul unic al utilizatorului pe baza șablonului de deducere. Să aruncăm o privire detaliată asupra acestor procese.

Preprocesul feței

O modalitate de a genera un portret AI bazat pe un șablon de interferență fără un raționament conștient este de a folosi modelul SD pentru a picta regiunea facială în șablonul de interferență. În plus, adăugarea cadrului ControlNet la proces nu numai că îmbunătățește păstrarea identității utilizatorului, dar îmbunătățește și asemănarea dintre imaginile generate. Cu toate acestea, utilizarea ControlNet direct pentru pictura regională poate introduce probleme potențiale care pot include

Incoerență între intrare și imaginea generată: Este evident că punctele cheie din imaginea șablonului nu sunt compatibile cu punctele cheie din imaginea face_id, motiv pentru care utilizarea ControlNet cu imaginea face_id ca referință poate duce la unele inconsecvențe în rezultat.

Defecte în regiunea Inpaint: Mascarea unei regiuni și apoi încorporarea acesteia cu o nouă față poate duce la defecte vizibile, în special de-a lungul limitei de vopsire, care nu numai că vor afecta autenticitatea imaginii generate, dar vor afecta negativ și realismul imaginii.
Pierderea identității prin rețea de control: Deoarece procesul de instruire nu folosește cadrul ControlNet, utilizarea ControlNet în timpul fazei de interferență poate afecta capacitatea modelelor LoRA antrenate de a păstra identitatea ID-ului utilizatorului de intrare.

Pentru a aborda problemele menționate mai sus, cadrul EasyPhoto propune trei proceduri.

Aliniați și lipiți: Utilizând un algoritm de lipire a feței, cadrul EasyPhoto își propune să abordeze problema nepotrivirii dintre reperele faciale dintre id-ul feței și șablon. În primul rând, modelul calculează reperele faciale ale face_id și ale imaginii șablon, după care modelul determină matricea de transformare afină care va fi utilizată pentru a alinia reperele faciale ale imaginii șablon cu imaginea face_id. Imaginea rezultată păstrează aceleași repere ale imaginii face_id și, de asemenea, se aliniază cu imaginea șablon.

Face Fuse: Face Fuse este o abordare nouă care este utilizată pentru a corecta artefactele de limită care sunt rezultatul pictării măștii și implică rectificarea artefactelor folosind cadrul ControlNet. Metoda permite cadrului EasyPhoto să asigure păstrarea marginilor armonioase și astfel să ghideze în cele din urmă procesul de generare a imaginii. Algoritmul de fuziune a feței fuzionează în continuare imaginea roop (imaginile utilizatorului de adevăr la sol) și șablonul, ceea ce permite imaginii fuzionate rezultată să prezinte o mai bună stabilizare a limitelor marginilor, ceea ce duce apoi la o ieșire îmbunătățită în timpul primei etape de difuzie.
Validare ghidată ControlNet: Deoarece modelele LoRA nu au fost antrenate folosind cadrul ControlNet, utilizarea acestuia în timpul procesului de inferență ar putea afecta capacitatea modelului LoRA de a păstra identitățile. Pentru a îmbunătăți capacitățile de generalizare ale EasyPhoto, cadrul ia în considerare influența cadrului ControlNet și încorporează modele LoRA din diferite etape.

Prima Difuzie

Prima etapă de difuzare folosește imaginea șablon pentru a genera o imagine cu un id unic care seamănă cu id-ul utilizatorului de intrare. Imaginea de intrare este o fuziune a imaginii de intrare a utilizatorului și a imaginii șablon, în timp ce masca facială calibrată este masca de intrare. Pentru a crește și mai mult controlul asupra generării imaginilor, cadrul EasyPhoto integrează trei unități ControlNet în care prima unitate ControlNet se concentrează pe controlul imaginilor topite, a doua unitate ControlNet controlează culorile imaginii topite, iar unitatea ControlNet finală este deschisă. (control în timp real al poziției umane pentru mai multe persoane) al imaginii înlocuite care conține nu numai structura facială a imaginii șablon, ci și identitatea facială a utilizatorului.

A doua Difuzie

În a doua etapă de difuzie, artefactele din apropierea limitei feței sunt rafinate și reglate fin, oferind utilizatorilor flexibilitatea de a masca o anumită regiune din imagine în încercarea de a spori eficiența generării în acea zonă dedicată. În această etapă, cadrul fuzionează imaginea de ieșire obținută din prima etapă de difuzie cu imaginea roop sau rezultatul imaginii utilizatorului, generând astfel imaginea de intrare pentru a doua etapă de difuzie. În general, a doua etapă de difuzie joacă un rol crucial în îmbunătățirea calității generale și a detaliilor imaginii generate.

ID-uri multiple de utilizator

Unul dintre punctele importante ale EasyPhoto este suportul său pentru generarea de ID-uri multiple de utilizator, iar figura de mai jos demonstrează procesul de interferență pentru ID-uri de utilizatori multipli în cadrul EasyPhoto.

Pentru a oferi suport pentru generarea ID-urilor multi-utilizator, cadrul EasyPhoto efectuează mai întâi detectarea feței pe șablonul de interferență. Aceste șabloane de interferență sunt apoi împărțite în numeroase măști, în care fiecare mască conține o singură față, iar restul imaginii este mascată în alb, împărțind astfel generarea de ID-uri multi-utilizator într-o sarcină simplă de a genera ID-uri individuale de utilizator. Odată ce cadrul generează imaginile de identificare a utilizatorului, aceste imagini sunt îmbinate în șablonul de inferență, facilitând astfel o integrare perfectă a imaginilor șablon cu imaginile generate, care are ca rezultat o imagine de înaltă calitate.

Experimente și rezultate

Acum că înțelegem cadrul EasyPhoto, este timpul să explorăm performanța cadrului EasyPhoto.

Imaginea de mai sus este generată de pluginul EasyPhoto și folosește un model SD bazat pe stil pentru generarea imaginii. După cum se poate observa, imaginile generate arată realiste și sunt destul de precise.

Imaginea adăugată mai sus este generată de cadrul EasyPhoto folosind un model SD bazat pe Comic Style. După cum se poate vedea, fotografiile comice și fotografiile realiste arată destul de realiste și seamănă foarte mult cu imaginea de intrare pe baza solicitărilor sau cerințelor utilizatorului.

Imaginea adăugată mai jos a fost generată de cadrul EasyPhoto prin utilizarea unui șablon pentru mai multe persoane. După cum se vede clar, imaginile generate sunt clare, precise și seamănă cu imaginea originală.

Cu ajutorul EasyPhoto, utilizatorii pot genera acum o gamă largă de portrete AI sau pot genera mai multe ID-uri de utilizator folosind șabloane păstrate sau pot folosi modelul SD pentru a genera șabloane de inferență. Imaginile adăugate mai sus demonstrează capacitatea cadrului EasyPhoto de a produce imagini AI diverse și de înaltă calitate.

Concluzie

În acest articol, am vorbit despre EasyPhoto, a nou plugin WebUI care permite utilizatorilor finali să genereze portrete și imagini AI. Pluginul EasyPhoto WebUI generează portrete AI folosind șabloane arbitrare, iar implicațiile actuale ale EasyPhoto WebUI acceptă diferite stiluri de fotografie și modificări multiple. În plus, pentru a îmbunătăți și mai mult capacitățile EasyPhoto, utilizatorii au flexibilitatea de a genera imagini folosind modelul SDXL pentru a genera imagini mai satisfăcătoare, mai precise și mai diverse. Cadrul EasyPhoto utilizează un model de bază de difuzie stabil cuplat cu un model LoRA preantrenat care produce imagini de înaltă calitate.

Vă interesează generatoarele de imagini? De asemenea, oferim o listă a Cele mai bune generatoare de capturi AI si Cele mai bune generatoare de imagini AI care sunt ușor de utilizat și nu necesită expertiză tehnică.

Subiecte asemănătoare:easyphoto

Urmeaza

ChatDev: Agenți de comunicare pentru dezvoltarea software

Nu ratați

Expansiunea strategică a Google în IA: un pariu de 2 miliarde de dolari pe Anthropic

Kunal Kejriwal

„Un inginer de profesie, un scriitor pe de rost”. Kunal este un scriitor tehnic cu o dragoste și o înțelegere profundă a AI și ML, dedicat simplificării conceptelor complexe din aceste domenii prin documentația sa captivantă și informativă.

Unite.AI

EasyPhoto: Generatorul tău personal de fotografii AI

Inteligenta Artificiala

EasyPhoto: Generatorul tău personal de fotografii AI

Cuprins

O introducere în EasyPhoto și Stable Diffusion

EasyPhoto: Arhitectură și formare