stomp EasyPhoto: Jou persoonlike KI-fotogenerator - Unite.AI
Verbinding met ons

Kunsmatige Intelligensie

EasyPhoto: Jou persoonlike KI-fotogenerator

mm
Opgedateer on
EasyPhoto: Jou persoonlike KI-portretgenerator

Stabiele verspreiding Webgebruikerskoppelvlak, of SD-WebUI, is 'n omvattende projek vir stabiele verspreidingsmodelle wat die Gradio-biblioteek gebruik om 'n blaaierkoppelvlak te verskaf. Vandag gaan ons praat oor EasyPhoto, 'n innoverende WebUI-inprop wat eindgebruikers in staat stel om KI-portrette en -beelde te genereer. Die EasyPhoto WebUI-inprop skep KI-portrette deur verskillende sjablone te gebruik, wat verskillende fotostyle en veelvuldige wysigings ondersteun. Boonop, om EasyPhoto se vermoëns verder te verbeter, kan gebruikers beelde genereer deur die SDXL-model te gebruik vir meer bevredigende, akkurate en diverse resultate. Laat ons begin.

'n Inleiding tot EasyPhoto en stabiele verspreiding

Die Stable Diffusion-raamwerk is 'n gewilde en robuuste diffusie-gebaseerde generasieraamwerk wat deur ontwikkelaars gebruik word om realistiese beelde te genereer gebaseer op insette teksbeskrywings. Danksy sy vermoëns spog die Stable Diffusion-raamwerk met 'n wye reeks toepassings, insluitend beeld-uitverf, beeld-inverf en beeld-na-beeld-vertaling. Die Stable Diffusion Web UI, of SD-WebUI, staan ​​uit as een van die gewildste en bekendste toepassings van hierdie raamwerk. Dit beskik oor 'n blaaier-koppelvlak wat op die Gradio-biblioteek gebou is, wat 'n interaktiewe en gebruikersvriendelike koppelvlak vir Stabiele Diffusion-modelle bied. Om beheer en bruikbaarheid in beeldgenerering verder te verbeter, integreer SD-WebUI talle Stabiele Diffusion-toepassings.

As gevolg van die gerief wat die SD-WebUI-raamwerk bied, het die ontwikkelaars van die EasyPhoto-raamwerk besluit om dit as 'n webinprop eerder as 'n volwaardige toepassing te skep. In teenstelling met bestaande metodes wat dikwels aan identiteitsverlies ly of onrealistiese kenmerke in beelde inbring, gebruik die EasyPhoto-raamwerk die beeld-tot-beeld-vermoëns van die Stable Diffusion-modelle om akkurate en realistiese beelde te produseer. Gebruikers kan maklik die EasyPhoto-raamwerk installeer as 'n uitbreiding binne die WebUI, wat gebruikersvriendelikheid en toeganklikheid vir 'n groter verskeidenheid gebruikers verbeter. Die EasyPhoto-raamwerk stel gebruikers in staat om identiteitsgeleide, hoë kwaliteit en realistiese KI-portrette wat baie ooreenstem met die insetidentiteit.

Eerstens vra die EasyPhoto-raamwerk gebruikers om hul digitale dubbelganger te skep deur 'n paar beelde op te laai om 'n gesig LoRA of Low-Rank Adaptation model aanlyn op te lei. Die LoRA-raamwerk verfyn die verspreidingsmodelle vinnig deur van laerangaanpassingstegnologie gebruik te maak. Hierdie proses laat die gebaseerde model toe om die ID-inligting van spesifieke gebruikers te verstaan. Die opgeleide modelle word dan saamgevoeg en geïntegreer in die basislyn Stabiele Diffusie-model vir inmenging. Verder, tydens die interferensieproses, gebruik die model stabiele diffusiemodelle in 'n poging om die gesigstreke in die interferensie-sjabloon oor te verf, en die ooreenkoms tussen die inset- en die uitsetbeelde word geverifieer met behulp van die verskillende ControlNet-eenhede. 

Die EasyPhoto-raamwerk ontplooi ook 'n twee-stadium verspreidingsproses om potensiële kwessies soos grensartefakte en identiteitsverlies aan te pak, om sodoende te verseker dat die beelde wat gegenereer word, visuele teenstrydighede tot die minimum beperk terwyl die gebruiker se identiteit behou word. Verder is die interferensie-pyplyn in die EasyPhoto-raamwerk nie net beperk tot die generering van portrette nie, maar dit kan ook gebruik word om enigiets te genereer wat verband hou met die gebruiker se ID. Dit impliseer dat sodra jy die oplei LoRA-model vir 'n spesifieke ID kan jy 'n wye verskeidenheid KI-prente genereer, en dit kan dus wydverspreide toepassings hê, insluitend virtuele probeerslae. 

Om op te som, die EasyPhoto-raamwerk

  1. Stel 'n nuwe benadering voor om die LoRA-model op te lei deur verskeie LoRA-modelle in te sluit om die gesiggetrouheid van die gegenereerde beelde te handhaaf. 
  2. Maak gebruik van verskeie versterkingsleermetodes om die LoRA-modelle vir gesigsidentiteitbelonings te optimaliseer wat verder help om die ooreenkoms van identiteite tussen die opleidingsbeelde en die resultate wat gegenereer word, te verbeter. 
  3. Stel 'n dubbelstadium-inverf-gebaseerde diffusieproses voor wat daarop gemik is om KI-foto's met hoë estetika en ooreenkomste te genereer. 

EasyPhoto : Argitektuur en opleiding

Die volgende figuur demonstreer die opleidingsproses van die EasyPhoto KI-raamwerk. 

Soos gesien kan word, vra die raamwerk eers die gebruikers om die opleidingsbeelde in te voer, en voer dan gesigbespeuring uit om die gesigsliggings op te spoor. Sodra die raamwerk die gesig bespeur, sny dit die insetbeeld met 'n voorafbepaalde spesifieke verhouding wat uitsluitlik op die gesigstreek fokus. Die raamwerk ontplooi dan 'n vel verfraaiing en 'n opvallende opsporing model om 'n skoon en duidelike gesig opleiding beeld te verkry. Hierdie twee modelle speel 'n deurslaggewende rol in die verbetering van die visuele kwaliteit van die gesig, en verseker ook dat die agtergrondinligting verwyder is, en die oefenbeeld hoofsaaklik die gesig bevat. Laastens gebruik die raamwerk hierdie verwerkte beelde en insette-aanwysings om die LoRA-model op te lei, en sodoende toe te rus met die vermoë om gebruikerspesifieke gesigskenmerke meer effektief en akkuraat te verstaan. 

Verder, tydens die opleidingsfase, sluit die raamwerk 'n kritieke valideringstap in, waarin die raamwerk die gesig-ID-gaping tussen die gebruikerinsetbeeld en die verifikasiebeeld wat deur die opgeleide LoRA-model gegenereer is, bereken. Die valideringstap is 'n fundamentele proses wat 'n sleutelrol speel in die samesmelting van die LoRA-modelle, wat uiteindelik verseker dat die opgeleide LoRA-raamwerk verander in 'n dubbelganger, of 'n akkurate digitale voorstelling van die gebruiker. Daarbenewens sal die verifikasiebeeld wat die optimale face_id-telling het as die face_id-beeld gekies word, en hierdie face_id-beeld sal dan gebruik word om die identiteitsooreenkoms van die interferensie-generering te verbeter. 

Deur voort te beweeg, gebaseer op die ensemble-proses, lei die raamwerk die LoRA-modelle op met waarskynlikheidskatting as die primêre doelwit, terwyl die behoud van gesigsidentiteit-ooreenkoms die stroomaf-doelwit is. Om hierdie kwessie aan te pak, maak die EasyPhoto-raamwerk gebruik van versterkingsleertegnieke om die stroomafdoelwit direk te optimaliseer. As gevolg hiervan, vertoon die gelaatstrekke wat die LoRA-modelle leer verbetering wat lei tot 'n groter ooreenkoms tussen die sjabloon-gegenereerde resultate, en demonstreer ook die veralgemening oor sjablone. 

Inmengingsproses

Die volgende figuur demonstreer die steuringsproses vir 'n individuele gebruiker-ID in die EasyPhoto-raamwerk, en is in drie dele verdeel

  • Gesig Voorverwerking vir die verkryging van die ControlNet-verwysing en die voorafverwerkte invoerbeeld. 
  • Eerste diffusie wat help om growwe resultate te genereer wat soos die gebruikerinvoer lyk. 
  • Tweede diffusie wat die grensartefakte regmaak, en sodoende die beelde meer akkuraat maak en meer realisties voorkom. 

Vir die insette neem die raamwerk 'n face_id-beeld (gegenereer tydens opleidingsbekragtiging met behulp van die optimale face_id-telling), en 'n interferensie-sjabloon. Die uitset is 'n hoogs gedetailleerde, akkurate en realistiese portret van die gebruiker, en stem baie ooreen met die identiteit en unieke voorkoms van die gebruiker op grond van die afleidingssjabloon. Kom ons kyk in detail na hierdie prosesse.

Gesigvoorproses

'n Manier om 'n KI-portret te genereer gebaseer op 'n interferensie-sjabloon sonder bewuste redenering, is om die SD-model te gebruik om die gesigstreek in die interferensie-sjabloon te verf. Daarbenewens verbeter die toevoeging van die ControlNet-raamwerk by die proses nie net die behoud van gebruikersidentiteit nie, maar verhoog dit ook die ooreenkoms tussen die beelde wat gegenereer word. Die gebruik van ControlNet direk vir streekverf kan egter potensiële kwessies veroorsaak wat kan insluit

  • Inkonsekwentheid tussen die invoer en die gegenereerde beeld: Dit is duidelik dat die sleutelpunte in die sjabloonbeeld nie versoenbaar is met die sleutelpunte in die face_id-beeld nie, en daarom kan die gebruik van ControlNet met die face_id-beeld as verwysing tot 'n paar teenstrydighede in die uitvoer lei. 
  • Defekte in die Inpaint-streek: Om 'n streek te masker, en dit dan met 'n nuwe gesig te verf, kan lei tot merkbare defekte, veral langs die inverfgrens wat nie net die egtheid van die beeld wat gegenereer word, sal beïnvloed nie, maar ook die realisme van die beeld negatief sal beïnvloed. 
  • Identiteitsverlies deur Control Net: Aangesien die opleidingsproses nie die ControlNet-raamwerk gebruik nie, kan die gebruik van ControlNet tydens die interferensiefase die vermoë van die opgeleide LoRA-modelle beïnvloed om die invoergebruiker-ID-identiteit te bewaar. 

Om die kwessies wat hierbo genoem is aan te pak, stel die EasyPhoto-raamwerk drie prosedures voor. 

  • Belyn en plak: Deur 'n gesigplak-algoritme te gebruik, poog die EasyPhoto-raamwerk om die kwessie van wanverhouding tussen gesiglandmerke tussen die gesig-ID en die sjabloon aan te pak. Eerstens bereken die model die gesiglandmerke van die face_id en die sjabloonbeeld, waarna die model die affiene transformasiematriks bepaal wat gebruik sal word om die gesiglandmerke van die sjabloonbeeld met die face_id-beeld in lyn te bring. Die resulterende prent behou dieselfde landmerke van die face_id-beeld, en pas ook by die sjabloonprent. 
  • Face Fuse: Face Fuse is 'n nuwe benadering wat gebruik word om die grensartefakte reg te stel wat 'n gevolg is van maskerinverf, en dit behels die regstelling van artefakte deur die ControlNet-raamwerk te gebruik. Die metode laat die EasyPhoto-raamwerk toe om die behoud van harmonieuse rande te verseker, en sodoende uiteindelik die proses van beeldgenerering te lei. Die gesigsamesmeltingsalgoritme smelt verder die roop (grondwaarheid gebruikerbeelde) beeld en die sjabloon saam, wat die gevolglike saamgesmelte beeld toelaat om beter stabilisering van die randgrense te vertoon, wat dan lei tot 'n verbeterde uitset tydens die eerste diffusiestadium. 
  • ControlNet geleide validering: Aangesien die LoRA-modelle nie opgelei is deur die ControlNet-raamwerk te gebruik nie, kan die gebruik daarvan tydens die afleidingsproses die vermoë van die LoRA-model om die identiteite te bewaar, beïnvloed. Ten einde die veralgemeningsvermoëns van EasyPhoto te verbeter, neem die raamwerk die invloed van die ControlNet-raamwerk in ag, en inkorporeer LoRA-modelle van verskillende stadiums. 

Eerste diffusie

Die eerste verspreidingstadium gebruik die sjabloonbeeld om 'n beeld te genereer met 'n unieke ID wat soos die invoergebruiker-ID lyk. Die invoerbeeld is 'n samesmelting van die gebruikerinvoerbeeld en die sjabloonbeeld, terwyl die gekalibreerde gesigmasker die invoermasker is. Om die beheer oor beeldgenerering verder te verhoog, integreer die EasyPhoto-raamwerk drie ControlNet-eenhede waar die eerste ControlNet-eenheid op die beheer van die saamgesmelte beelde fokus, die tweede ControlNet-eenheid die kleure van die saamgesmelte beeld beheer, en die finale ControlNet-eenheid die oopposisie is. (intydse multi-persoon menslike posbeheer) van die vervangde beeld wat nie net die gesigstruktuur van die sjabloonbeeld bevat nie, maar ook die gesigsidentiteit van die gebruiker.

Tweede diffusie

In die tweede diffusiestadium word die artefakte naby die grens van die gesig verfyn en verfyn, tesame met die verskaffing van die buigsaamheid aan gebruikers om 'n spesifieke streek in die beeld te masker in 'n poging om die effektiwiteit van generering binne daardie toegewyde area te verbeter. In hierdie stadium versmelt die raamwerk die uitsetbeeld wat vanaf die eerste diffusiestadium verkry is, met die toubeeld of die resultaat van die gebruiker se beeld, en genereer dus die insetbeeld vir die tweede diffusiestadium. In die algemeen speel die tweede diffusiestadium 'n deurslaggewende rol in die verbetering van die algehele kwaliteit, en die besonderhede van die gegenereerde beeld. 

Multi gebruiker ID's

Een van EasyPhoto se hoogtepunte is sy ondersteuning vir die generering van veelvuldige gebruiker-ID's, en die figuur hieronder demonstreer die pyplyn van die steuringsproses vir multigebruiker-ID's in die EasyPhoto-raamwerk. 

Om ondersteuning te bied vir multi-gebruiker ID generasie, voer die EasyPhoto raamwerk eers gesigbespeuring op die interferensie sjabloon uit. Hierdie interferensie-sjablone word dan in talle maskers verdeel, waar elke masker slegs een gesig bevat, en die res van die beeld is in wit gemasker, wat dus die generering van multigebruiker-ID's opbreek in 'n eenvoudige taak om individuele gebruiker-ID's te genereer. Sodra die raamwerk die gebruiker-ID-beelde genereer, word hierdie beelde saamgevoeg in die afleidingssjabloon, wat sodoende 'n naatlose integrasie van die sjabloonbeelde met die gegenereerde beelde vergemaklik, wat uiteindelik 'n hoë-gehalte beeld tot gevolg het. 

Eksperimente en resultate

Noudat ons 'n begrip van die EasyPhoto-raamwerk het, is dit tyd dat ons die werkverrigting van die EasyPhoto-raamwerk ondersoek. 

Die bogenoemde prent word gegenereer deur die EasyPhoto-inprop, en dit gebruik 'n stylgebaseerde SD-model vir die prentgenerering. Soos dit waargeneem kan word, lyk die gegenereerde beelde realisties en is dit redelik akkuraat. 

Die prent wat hierbo bygevoeg is, word gegenereer deur die EasyPhoto-raamwerk met behulp van 'n Comic Style-gebaseerde SD-model. Soos gesien kan word, lyk die komiese foto's en die realistiese foto's redelik realisties, en stem baie ooreen met die insetbeeld op grond van die gebruikersaanwysings of vereistes. 

Die prent wat hieronder bygevoeg word, is gegenereer deur die EasyPhoto-raamwerk deur die gebruik van 'n Multi-Person-sjabloon. Soos dit duidelik gesien kan word, is die beelde wat gegenereer word duidelik, akkuraat en lyk dit soos die oorspronklike beeld. 

Met behulp van EasyPhoto kan gebruikers nou 'n wye verskeidenheid KI-portrette genereer, of veelvuldige gebruiker-ID's genereer deur bewaarde sjablone te gebruik, of die SD-model gebruik om afleidingssjablone te genereer. Die beelde wat hierbo bygevoeg is, demonstreer die vermoë van die EasyPhoto-raamwerk in die vervaardiging van diverse en hoëgehalte KI-prente.

Gevolgtrekking

In hierdie artikel het ons gepraat oor EasyPhoto, a nuwe WebUI-inprop wat eindgebruikers in staat stel om KI-portrette en -beelde te genereer. Die EasyPhoto WebUI-inprop genereer KI-portrette met behulp van arbitrêre sjablone, en die huidige implikasies van die EasyPhoto WebUI ondersteun verskillende fotostyle en veelvuldige wysigings. Boonop, om EasyPhoto se vermoëns verder te verbeter, het gebruikers die buigsaamheid om beelde te genereer deur die SDXL-model te gebruik om meer bevredigende, akkurate en diverse beelde te genereer. Die EasyPhoto-raamwerk gebruik 'n stabiele diffusiebasismodel tesame met 'n voorafopgeleide LoRA-model wat hoë kwaliteit beelduitsette lewer.

Stel u belang in beeldopwekkers? Ons verskaf ook 'n lys van die Beste AI Headshot Generators en die Beste AI-beeldopwekkers wat maklik is om te gebruik en geen tegniese kundigheid vereis nie.

"'n Ingenieur van beroep, 'n skrywer uit sy kop". Kunal is 'n tegniese skrywer met 'n diep liefde en begrip van KI en ML, toegewy aan die vereenvoudiging van komplekse konsepte in hierdie velde deur sy boeiende en insiggewende dokumentasie.