Intel·ligència Artificial

EasyPhoto: el vostre generador personal de fotos d'IA

actualitzat on Octubre 30, 2023

EasyPhoto: el vostre generador personal de retrats d'IA

Difusió estable La interfície d'usuari web, o SD-WebUI, és un projecte complet per a models de difusió estable que utilitza la biblioteca Gradio per proporcionar una interfície de navegador. Avui parlarem d'EasyPhoto, un connector innovador de WebUI que permet als usuaris finals generar retrats i imatges d'IA. El connector EasyPhoto WebUI crea retrats amb IA mitjançant diverses plantilles, que admeten diferents estils de fotos i múltiples modificacions. A més, per millorar encara més les capacitats d'EasyPhoto, els usuaris poden generar imatges utilitzant el model SDXL per obtenir resultats més satisfactoris, precisos i diversos. Anem a començar.

Una introducció a EasyPhoto i Stable Diffusion

El marc de difusió estable és un marc de generació basat en difusió popular i robust utilitzat pels desenvolupadors per generar imatges realistes basades en descripcions de text d'entrada. Gràcies a les seves capacitats, el marc Stable Diffusion compta amb una àmplia gamma d'aplicacions, com ara la pintura d'imatges, la pintura d'imatges i la traducció d'imatge a imatge. La Stable Diffusion Web UI, o SD-WebUI, destaca com una de les aplicacions més populars i conegudes d'aquest framework. Disposa d'una interfície de navegador integrada a la biblioteca Gradio, que proporciona una interfície interactiva i fàcil d'utilitzar per als models de difusió estable. Per millorar encara més el control i la usabilitat en la generació d'imatges, SD-WebUI integra nombroses aplicacions de difusió estable.

A causa de la comoditat que ofereix el marc SD-WebUI, els desenvolupadors del marc EasyPhoto van decidir crear-lo com a connector web en lloc d'una aplicació completa. A diferència dels mètodes existents que sovint pateixen pèrdua d'identitat o introdueixen característiques poc realistes a les imatges, el marc EasyPhoto aprofita les capacitats d'imatge a imatge dels models Stable Diffusion per produir imatges precises i realistes. Els usuaris poden instal·lar fàcilment el marc d'EasyPhoto com una extensió dins de la WebUI, millorant la facilitat d'ús i l'accessibilitat per a un ventall més ampli d'usuaris. El marc d'EasyPhoto permet als usuaris generar una identitat guiada, d'alta qualitat i retrats realistes d'IA que s'assemblen molt a la identitat d'entrada.

En primer lloc, el marc EasyPhoto demana als usuaris que creïn el seu doppelganger digital penjant unes quantes imatges per entrenar un model de cara LoRA o Adaptació de baix rang en línia. El marc LoRA afina ràpidament els models de difusió fent ús de tecnologia d'adaptació de baix rang. Aquest procés permet que el model basat entengui la informació d'identificació d'usuaris específics. A continuació, els models entrenats es fusionen i s'integren al model de difusió estable de referència per a la interferència. A més, durant el procés d'interferència, el model utilitza models de difusió estables en un intent de repintar les regions facials a la plantilla d'interferència, i la similitud entre les imatges d'entrada i de sortida es verifica mitjançant les diferents unitats ControlNet.

El marc EasyPhoto també implementa un procés de difusió en dues etapes per abordar problemes potencials com els artefactes de límit i la pèrdua d'identitat, assegurant així que les imatges generades minimitzin les inconsistències visuals mantenint la identitat de l'usuari. A més, la canalització d'interferències en el marc EasyPhoto no només es limita a generar retrats, sinó que també es pot utilitzar per generar qualsevol cosa que estigui relacionada amb l'identificador de l'usuari. Això implica que un cop entrenes el Model LoRA per a una identificació concreta, podeu generar una àmplia gamma d'imatges d'IA i, per tant, pot tenir aplicacions generalitzades, incloses proves virtuals.

En resum, el marc EasyPhoto

Proposa un nou enfocament per entrenar el model LoRA incorporant múltiples models LoRA per mantenir la fidelitat facial de les imatges generades.
Fa ús de diversos mètodes d'aprenentatge de reforç per optimitzar els models LoRA per a recompenses d'identitat facial que ajuden encara més a millorar la similitud d'identitats entre les imatges d'entrenament i els resultats generats.
Proposa un procés de difusió basat en pintura en dues etapes que té com a objectiu generar fotos d'IA amb una gran estètica i semblança.

EasyPhoto : Arquitectura i Formació

La figura següent mostra el procés d'entrenament del marc EasyPhoto AI.

Com es pot veure, el marc demana primer als usuaris que introdueixin les imatges d'entrenament i després realitza la detecció de cares per detectar les ubicacions de la cara. Un cop el marc detecta la cara, retalla la imatge d'entrada utilitzant una proporció específica predefinida que se centra únicament en la regió facial. A continuació, el marc desplega un model d'embelliment de la pell i un model de detecció de saliència per obtenir una imatge d'entrenament facial neta i clara. Aquests dos models tenen un paper crucial a l'hora de millorar la qualitat visual de la cara i també garanteixen que s'ha eliminat la informació de fons i que la imatge d'entrenament conté principalment la cara. Finalment, el marc utilitza aquestes imatges processades i indicacions d'entrada per entrenar el model LoRA i, així, equipar-lo amb la capacitat d'entendre les característiques facials específiques de l'usuari de manera més eficaç i precisa.

A més, durant la fase d'entrenament, el marc inclou un pas de validació crític, en què el marc calcula la bretxa d'identificació facial entre la imatge d'entrada de l'usuari i la imatge de verificació que va generar el model LoRA entrenat. El pas de validació és un procés fonamental que juga un paper clau per aconseguir la fusió dels models LoRA, assegurant en última instància que el marc LoRA entrenat es transforma en un doppelganger, o una representació digital precisa de l'usuari. A més, la imatge de verificació que tingui la puntuació de face_id òptima es seleccionarà com a imatge de face_id, i aquesta imatge de face_id s'utilitzarà per millorar la semblança d'identitat de la generació d'interferències.

Seguint, basant-se en el procés de conjunt, el marc entrena els models LoRA amb l'estimació de la probabilitat com a objectiu principal, mentre que preservar la similitud de la identitat facial és l'objectiu posterior. Per fer front a aquest problema, el marc EasyPhoto fa ús de tècniques d'aprenentatge de reforç per optimitzar directament l'objectiu aigües avall. Com a resultat, les característiques facials que aprenen els models LoRA mostren una millora que condueix a una similitud millorada entre els resultats generats per la plantilla i també demostra la generalització entre plantilles.

Procés d'interferència

La figura següent mostra el procés d'interferència per a un ID d'usuari individual al marc EasyPhoto i es divideix en tres parts

Preprocés de cara per obtenir la referència ControlNet i la imatge d'entrada preprocessada.

Primera difusió que ajuda a generar resultats gruixuts que s'assemblen a l'entrada de l'usuari.

Segona difusió que arregla els artefactes de límit, fent que les imatges siguin més precises i apareguin més realistes.

Per a l'entrada, el marc pren una imatge face_id (generada durant la validació de l'entrenament mitjançant la puntuació òptima de face_id) i una plantilla d'interferència. La sortida és un retrat molt detallat, precís i realista de l'usuari, i s'assembla molt a la identitat i l'aspecte únic de l'usuari a partir de la plantilla d'inferir. Fem una ullada detallada a aquests processos.

Preprocés de cara

Una manera de generar un retrat d'IA basat en una plantilla d'interferència sense raonament conscient és utilitzar el model SD per pintar la regió facial a la plantilla d'interferència. A més, afegir el marc ControlNet al procés no només millora la preservació de la identitat de l'usuari, sinó que també millora la similitud entre les imatges generades. Tanmateix, utilitzar ControlNet directament per a la pintura regional pot introduir problemes potencials que poden incloure

Incoherència entre l'entrada i la imatge generada: És evident que els punts clau de la imatge de la plantilla no són compatibles amb els punts clau de la imatge face_id, per això utilitzar ControlNet amb la imatge face_id com a referència pot provocar algunes inconsistències en la sortida.

Defectes a la regió d'Inpaint: Enmascarar una regió i després pintar-la amb una cara nova pot provocar defectes notables, especialment al llarg del límit de la pintura, que no només afectaran l'autenticitat de la imatge generada, sinó que també afectaran negativament el realisme de la imatge.
Pèrdua d'identitat per xarxa de control: Com que el procés d'entrenament no utilitza el marc de ControlNet, l'ús de ControlNet durant la fase d'interferència pot afectar la capacitat dels models LoRA entrenats de preservar la identitat de l'usuari d'entrada.

Per abordar els problemes esmentats anteriorment, el marc EasyPhoto proposa tres procediments.

Alinear i enganxar: Mitjançant l'ús d'un algorisme d'enganxament facial, el marc d'EasyPhoto té com a objectiu abordar el problema del desajust entre les fites facials entre l'identificador de la cara i la plantilla. En primer lloc, el model calcula les fites facials del face_id i la imatge de plantilla, després de la qual cosa el model determina la matriu de transformació afí que s'utilitzarà per alinear les fites facials de la imatge de plantilla amb la imatge de face_id. La imatge resultant conserva els mateixos punts de referència de la imatge face_id i també s'alinea amb la imatge de la plantilla.

Fusible facial: Face Fuse és un enfocament nou que s'utilitza per corregir els artefactes de límit que són el resultat de la pintura de màscara, i implica la rectificació d'artefactes mitjançant el marc ControlNet. El mètode permet que el marc d'EasyPhoto garanteixi la preservació de les vores harmonioses i, en definitiva, guiï el procés de generació d'imatges. L'algoritme de fusió facial fusiona encara més la imatge de roop (imatges d'usuari de la veritat del sòl) i la plantilla, que permet que la imatge fusionada resultant mostri una millor estabilització dels límits de les vores, cosa que condueix a una sortida millorada durant la primera etapa de difusió.
Validació guiada per ControlNet: Com que els models LoRA no es van entrenar amb el marc ControlNet, utilitzar-lo durant el procés d'inferència podria afectar la capacitat del model LoRA de preservar les identitats. Per tal de millorar les capacitats de generalització d'EasyPhoto, el marc considera la influència del marc ControlNet i incorpora models LoRA de diferents etapes.

Primera difusió

La primera etapa de difusió utilitza la imatge de plantilla per generar una imatge amb un identificador únic que s'assembla a l'identificador d'usuari d'entrada. La imatge d'entrada és una fusió de la imatge d'entrada de l'usuari i la imatge de la plantilla, mentre que la màscara facial calibrada és la màscara d'entrada. Per augmentar encara més el control sobre la generació d'imatges, el marc EasyPhoto integra tres unitats ControlNet on la primera unitat ControlNet se centra en el control de les imatges fusionades, la segona unitat ControlNet controla els colors de la imatge fusionada i la unitat ControlNet final és la unitat oberta. (control de la posició humana multipersona en temps real) de la imatge substituïda que no només conté l'estructura facial de la imatge de plantilla, sinó també la identitat facial de l'usuari.

Segona difusió

En la segona etapa de difusió, els artefactes propers al límit de la cara es perfeccionen i s'afinan alhora que ofereixen als usuaris la flexibilitat d'emmascarar una regió específica de la imatge en un intent de millorar l'efectivitat de la generació dins d'aquesta àrea dedicada. En aquesta etapa, el marc fusiona la imatge de sortida obtinguda de la primera etapa de difusió amb la imatge de roop o el resultat de la imatge de l'usuari, generant així la imatge d'entrada per a la segona etapa de difusió. En general, la segona etapa de difusió té un paper crucial per millorar la qualitat general i els detalls de la imatge generada.

ID de múltiples usuaris

Un dels aspectes més destacats d'EasyPhoto és el seu suport per generar múltiples identificadors d'usuari, i la figura següent mostra el procés d'interferència per a identificadors de múltiples usuaris al marc EasyPhoto.

Per proporcionar suport per a la generació d'identificadors multiusuari, el marc EasyPhoto primer realitza la detecció de cares a la plantilla d'interferències. Aquestes plantilles d'interferència es divideixen després en nombroses màscares, on cada màscara conté només una cara, i la resta de la imatge s'emmascara en blanc, trencant així la generació d'identificadors multiusuari en una tasca senzilla de generar identificadors d'usuari individuals. Una vegada que el marc genera les imatges d'identificació d'usuari, aquestes imatges es fusionen a la plantilla d'inferència, facilitant així una integració perfecta de les imatges de la plantilla amb les imatges generades, que finalment es tradueix en una imatge d'alta qualitat.

Experiments i resultats

Ara que ja entenem el marc d'EasyPhoto, és hora que explorem el rendiment del marc EasyPhoto.

La imatge anterior la genera el connector EasyPhoto i utilitza un model SD basat en estil per a la generació d'imatges. Com es pot observar, les imatges generades semblen realistes i són bastant precises.

La imatge afegida anteriorment la genera el marc EasyPhoto mitjançant un model SD basat en Comic Style. Com es pot veure, les fotos còmiques i les fotos realistes semblen bastant realistes i s'assemblen molt a la imatge d'entrada en funció de les indicacions o requisits de l'usuari.

La imatge que s'afegeix a continuació ha estat generada pel marc EasyPhoto fent servir una plantilla per a diverses persones. Com es pot veure clarament, les imatges generades són clares, precises i s'assemblen a la imatge original.

Amb l'ajuda d'EasyPhoto, els usuaris ara poden generar una àmplia gamma de retrats d'IA, o generar diversos identificadors d'usuari mitjançant plantilles conservades, o utilitzar el model SD per generar plantilles d'inferència. Les imatges afegides anteriorment demostren la capacitat del marc EasyPhoto per produir imatges d'IA diverses i d'alta qualitat.

Conclusió

En aquest article, hem parlat d'EasyPhoto, a nou connector WebUI que permet als usuaris finals generar retrats i imatges d'IA. El connector EasyPhoto WebUI genera retrats d'IA mitjançant plantilles arbitràries, i les implicacions actuals de l'EasyPhoto WebUI admeten diferents estils de fotos i múltiples modificacions. A més, per millorar encara més les capacitats d'EasyPhoto, els usuaris tenen la flexibilitat de generar imatges utilitzant el model SDXL per generar imatges més satisfactòries, precises i diverses. El marc d'EasyPhoto utilitza un model de base de difusió estable juntament amb un model LoRA preentrenat que produeix imatges d'alta qualitat.

T'interessen els generadors d'imatges? També oferim una llista dels Millors generadors de tirs al cap d'IA i la Millors generadors d'imatges d'IA que són fàcils d'utilitzar i no requereixen coneixements tècnics.

Temes relacionats:easyphoto

Fins a la propera

ChatDev: Agents comunicatius per al desenvolupament de programari

No et perdis

Expansió estratègica de Google en IA: una aposta de 2 milions de dòlars a l'antròpic

Kunal Kejriwal

"Enginyer de professió, escriptor de memòria". Kunal és un escriptor tècnic amb un profund amor i comprensió de la IA i el ML, dedicat a simplificar conceptes complexos en aquests camps mitjançant la seva documentació atractiva i informativa.

Unite.AI

EasyPhoto: el vostre generador personal de fotos d'IA

Intel·ligència Artificial

EasyPhoto: el vostre generador personal de fotos d'IA

Taula de continguts

Una introducció a EasyPhoto i Stable Diffusion

EasyPhoto : Arquitectura i Formació