stub EasyPhoto: Din personlige AI-fotogenerator - Unite.AI
Kontakt med oss

Kunstig intelligens

EasyPhoto: Din personlige AI-fotogenerator

mm
oppdatert on
EasyPhoto : Din personlige AI-portrettgenerator

Stabil diffusjon Web User Interface, eller SD-WebUI, er et omfattende prosjekt for stabile diffusjonsmodeller som bruker Gradio-biblioteket til å tilby et nettlesergrensesnitt. I dag skal vi snakke om EasyPhoto, en innovativ WebUI-plugin som gjør det mulig for sluttbrukere å generere AI-portretter og bilder. EasyPhoto WebUI-pluginen lager AI-portretter ved hjelp av forskjellige maler, som støtter forskjellige fotostiler og flere modifikasjoner. I tillegg, for å forbedre EasyPhotos evner ytterligere, kan brukere generere bilder ved å bruke SDXL-modellen for mer tilfredsstillende, nøyaktige og varierte resultater. La oss begynne.

En introduksjon til EasyPhoto og stabil diffusjon

Stable Diffusion-rammeverket er et populært og robust diffusjonsbasert generasjonsrammeverk som brukes av utviklere for å generere realistiske bilder basert på tekstbeskrivelser. Takket være sine evner, har Stable Diffusion-rammeverket et bredt spekter av applikasjoner, inkludert bildeutmaling, bildemaling og bilde-til-bilde-oversettelse. Stable Diffusion Web UI, eller SD-WebUI, skiller seg ut som en av de mest populære og kjente applikasjonene til dette rammeverket. Den har et nettlesergrensesnitt bygget på Gradio-biblioteket, og gir et interaktivt og brukervennlig grensesnitt for Stable Diffusion-modeller. For ytterligere å forbedre kontroll og brukervennlighet i bildegenerering, integrerer SD-WebUI en rekke stabile diffusjonsapplikasjoner.

På grunn av bekvemmeligheten som tilbys av SD-WebUI-rammeverket, bestemte utviklerne av EasyPhoto-rammeverket seg for å lage det som en nettplugin i stedet for en fullverdig applikasjon. I motsetning til eksisterende metoder som ofte lider av identitetstap eller introduserer urealistiske funksjoner i bilder, utnytter EasyPhoto-rammeverket bilde-til-bilde-funksjonene til Stable Diffusion-modellene for å produsere nøyaktige og realistiske bilder. Brukere kan enkelt installere EasyPhoto-rammeverket som en utvidelse i WebUI, noe som øker brukervennligheten og tilgjengeligheten for et bredere spekter av brukere. EasyPhoto-rammeverket lar brukere generere identitetsveiledet, høykvalitets og realistiske AI-portretter som likner inndataidentiteten.

For det første ber EasyPhoto-rammeverket brukere om å lage sin digitale doppelganger ved å laste opp noen få bilder for å trene en LoRA- eller Low-Rank Adaptation-modell på nettet. LoRA-rammeverket finjusterer raskt diffusjonsmodellene ved å bruke lavrangert tilpasningsteknologi. Denne prosessen lar den baserte modellen forstå ID-informasjonen til spesifikke brukere. De trente modellene blir deretter slått sammen og integrert i den grunnleggende stabile diffusjonsmodellen for interferens. Videre, under interferensprosessen, bruker modellen stabile diffusjonsmodeller i et forsøk på å male ansiktsområdene på nytt i interferensmalen, og likheten mellom inngangs- og utgangsbildene verifiseres ved hjelp av de ulike ControlNet-enhetene. 

EasyPhoto-rammeverket implementerer også en to-trinns diffusjonsprosess for å takle potensielle problemer som grenseartefakter og identitetstap, og sikrer dermed at bildene som genereres minimerer visuelle inkonsekvenser samtidig som brukerens identitet opprettholdes. Videre er interferensrørledningen i EasyPhoto-rammeverket ikke bare begrenset til å generere portretter, men den kan også brukes til å generere alt som er relatert til brukerens ID. Dette innebærer at når du først trener LoRA-modell for en bestemt ID kan du generere et bredt utvalg av AI-bilder, og dermed kan den ha utbredte applikasjoner inkludert virtuelle prøveversjoner. 

For å oppsummere, EasyPhoto-rammeverket

  1. Foreslår en ny tilnærming for å trene LoRA-modellen ved å inkorporere flere LoRA-modeller for å opprettholde ansiktstroheten til bildene som genereres. 
  2. Bruker ulike forsterkende læringsmetoder for å optimalisere LoRA-modellene for ansiktsidentitetsbelønninger som ytterligere bidrar til å øke likheten mellom identiteter mellom treningsbildene og resultatene som genereres. 
  3. Foreslår en to-trinns inpaint-basert diffusjonsprosess som tar sikte på å generere AI-bilder med høy estetikk og likhet. 

EasyPhoto : Arkitektur og opplæring

Følgende figur viser opplæringsprosessen til EasyPhoto AI-rammeverket. 

Som det kan sees, ber rammeverket først brukerne om å legge inn treningsbildene, og deretter utfører ansiktsdeteksjon for å oppdage ansiktsplasseringene. Når rammeverket oppdager ansiktet, beskjærer det inndatabildet ved å bruke et forhåndsdefinert spesifikt forhold som kun fokuserer på ansiktsområdet. Rammeverket implementerer deretter en hudforskjønnings- og en fremtredende deteksjonsmodell for å oppnå et rent og tydelig ansiktstreningsbilde. Disse to modellene spiller en avgjørende rolle for å forbedre den visuelle kvaliteten på ansiktet, og sikrer også at bakgrunnsinformasjonen er fjernet, og at treningsbildet hovedsakelig inneholder ansiktet. Til slutt bruker rammeverket disse bearbeidede bildene og inndatameldingene for å trene LoRA-modellen, og dermed utstyre den med evnen til å forstå brukerspesifikke ansiktsegenskaper mer effektivt og nøyaktig. 

Videre, i løpet av opplæringsfasen, inkluderer rammeverket et kritisk valideringstrinn, der rammeverket beregner ansikts-ID-gapet mellom brukerinndatabildet og verifiseringsbildet som ble generert av den trente LoRA-modellen. Valideringstrinnet er en grunnleggende prosess som spiller en nøkkelrolle i å oppnå fusjonen av LoRA-modellene, og til slutt sikre at trent LoRA-rammeverk forvandles til en doppelganger, eller en nøyaktig digital representasjon av brukeren. I tillegg vil bekreftelsesbildet som har den optimale face_id-poengsummen velges som face_id-bildet, og dette face_id-bildet vil deretter bli brukt til å forbedre identitetslikheten til interferensgenereringen. 

Med utgangspunkt i ensembleprosessen trener rammeverket LoRA-modellene med sannsynlighetsestimering som hovedmålet, mens å bevare ansiktsidentitetslikhet er nedstrømsmålet. For å takle dette problemet bruker EasyPhoto-rammeverket bruk av forsterkende læringsteknikker for å optimalisere nedstrømsmålet direkte. Som et resultat viser ansiktstrekkene som LoRA-modellene lærer, forbedringer som fører til en forbedret likhet mellom malgenererte resultater, og demonstrerer også generaliseringen på tvers av maler. 

Interferensprosess

Følgende figur viser interferensprosessen for en individuell bruker-ID i EasyPhoto-rammeverket, og er delt inn i tre deler

  • Ansiktsforbehandling for å hente ControlNet-referansen og det forhåndsbehandlede inngangsbildet. 
  • Første diffusjon som hjelper til med å generere grove resultater som ligner brukerinndata. 
  • Andre diffusjon som fikser grenseartefaktene, og dermed gjør bildene mer nøyaktige og fremstår mer realistiske. 

For input tar rammeverket et face_id-bilde (generert under treningsvalidering ved å bruke den optimale face_id-poengsummen), og en interferensmal. Utgangen er et svært detaljert, nøyaktig og realistisk portrett av brukeren, og ligner godt på identiteten og det unike utseendet til brukeren på grunnlag av antydningsmalen. La oss se nærmere på disse prosessene.

Face PreProcess

En måte å generere et AI-portrett basert på en interferensmal uten bevisst resonnement er å bruke SD-modellen til å male ansiktsregionen i interferensmalen. I tillegg forbedrer det å legge til ControlNet-rammeverket til prosessen ikke bare bevaringen av brukeridentiteten, men øker også likheten mellom bildene som genereres. Men å bruke ControlNet direkte for regional maling kan introdusere potensielle problemer som kan inkludere

  • Inkonsistens mellom inndata og det genererte bildet: Det er tydelig at nøkkelpunktene i malbildet ikke er kompatible med nøkkelpunktene i face_id-bildet, og derfor kan bruk av ControlNet med face_id-bildet som referanse føre til noen inkonsekvenser i utdataene. 
  • Defekter i Inpaint-regionen: Maskering av et område, og deretter innmaling av det med et nytt ansikt, kan føre til merkbare defekter, spesielt langs malingsgrensen som ikke bare vil påvirke ektheten til bildet som genereres, men også negativt påvirke realismen til bildet. 
  • Identitetstap av kontrollnett: Siden opplæringsprosessen ikke bruker ControlNet-rammeverket, kan bruk av ControlNet i interferensfasen påvirke evnen til de trente LoRA-modellene til å bevare input-bruker-ID-identiteten. 

For å takle problemene nevnt ovenfor, foreslår EasyPhoto-rammeverket tre prosedyrer. 

  • Juster og lim inn: Ved å bruke en ansiktslimingsalgoritme, tar EasyPhoto-rammeverket sikte på å takle problemet med misforhold mellom ansikts landemerker mellom ansikts-ID og mal. Først beregner modellen ansiktslandmerkene til face_id og malbildet, hvoretter modellen bestemmer den affine transformasjonsmatrisen som skal brukes til å justere ansiktslandmerkene til malbildet med face_id-bildet. Det resulterende bildet beholder de samme landemerkene som face_id-bildet, og justeres også med malbildet. 
  • Ansiktssikring: Face Fuse er en ny tilnærming som brukes til å korrigere grenseartefakter som er et resultat av maskeinnfarging, og den involverer retting av artefakter ved hjelp av ControlNet-rammeverket. Metoden lar EasyPhoto-rammeverket sikre bevaring av harmoniske kanter, og dermed til slutt veilede prosessen med bildegenerering. Ansiktsfusjonsalgoritmen smelter ytterligere sammen roop (ground truth brukerbilder)-bildet og malen, som lar det resulterende sammensmeltede bildet vise bedre stabilisering av kantgrensene, som deretter fører til en forbedret utgang under det første diffusjonsstadiet. 
  • ControlNet guidet validering: Siden LoRA-modellene ikke ble trent ved å bruke ControlNet-rammeverket, kan bruk av det under slutningsprosessen påvirke LoRA-modellens evne til å bevare identitetene. For å forbedre generaliseringsmulighetene til EasyPhoto, vurderer rammeverket innflytelsen til ControlNet-rammeverket, og inkluderer LoRA-modeller fra forskjellige stadier. 

Første diffusjon

Det første diffusjonsstadiet bruker malbildet til å generere et bilde med en unik id som ligner inndatabruker-ID. Inndatabildet er en sammensmelting av brukerinndatabildet og malbildet, mens den kalibrerte ansiktsmasken er inngangsmasken. For ytterligere å øke kontrollen over bildegenerering, integrerer EasyPhoto-rammeverket tre ControlNet-enheter der den første ControlNet-enheten fokuserer på kontrollen av de smeltede bildene, den andre ControlNet-enheten kontrollerer fargene på det smeltede bildet, og den endelige ControlNet-enheten er den åpne posisjonen. (sanntidskontroll av flere personer i menneskelig stilling) av det erstattede bildet som ikke bare inneholder ansiktsstrukturen til malbildet, men også ansiktsidentiteten til brukeren.

Andre diffusjon

I det andre diffusjonsstadiet blir artefaktene nær grensen til ansiktet raffinert og finjustert sammen med å gi brukerne fleksibiliteten til å maskere et spesifikt område i bildet i et forsøk på å forbedre effektiviteten til generering innenfor det dedikerte området. I dette stadiet smelter rammeverket sammen utgangsbildet som er oppnådd fra det første diffusjonstrinnet med takbildet eller resultatet av brukerens bilde, og genererer dermed inngangsbildet for det andre diffusjonstrinnet. Totalt sett spiller det andre diffusjonsstadiet en avgjørende rolle for å forbedre den generelle kvaliteten og detaljene i det genererte bildet. 

Multibruker-IDer

Et av høydepunktene til EasyPhoto er støtten for generering av flere bruker-IDer, og figuren nedenfor viser rørledningen for interferensprosessen for multibruker-IDer i EasyPhoto-rammeverket. 

For å gi støtte for generering av multi-user ID, utfører EasyPhoto-rammeverket først ansiktsdeteksjon på interferensmalen. Disse interferensmalene deles deretter opp i en rekke masker, der hver maske inneholder bare ett ansikt, og resten av bildet er maskert i hvitt, og dermed bryter generasjonen av flerbruker-ID til en enkel oppgave med å generere individuelle bruker-IDer. Når rammeverket genererer bruker-ID-bildene, flettes disse bildene inn i slutningsmalen, og letter dermed en sømløs integrasjon av malbildene med de genererte bildene, som til slutt resulterer i et bilde av høy kvalitet. 

Eksperimenter og resultater

Nå som vi har en forståelse av EasyPhoto-rammeverket, er det på tide for oss å utforske ytelsen til EasyPhoto-rammeverket. 

Bildet ovenfor er generert av EasyPhoto-plugin, og det bruker en stilbasert SD-modell for bildegenerering. Som det kan observeres, ser de genererte bildene realistiske ut og er ganske nøyaktige. 

Bildet som er lagt til ovenfor er generert av EasyPhoto-rammeverket ved å bruke en Comic Style-basert SD-modell. Som det kan sees, ser de komiske bildene og de realistiske bildene ganske realistiske ut, og ligner godt på inngangsbildet på grunnlag av brukerens spørsmål eller krav. 

Bildet som er lagt til nedenfor er generert av EasyPhoto-rammeverket ved å bruke en flerpersonsmal. Som det tydelig kan sees, er bildene som genereres klare, nøyaktige og ligner originalbildet. 

Ved hjelp av EasyPhoto kan brukere nå generere et bredt spekter av AI-portretter, eller generere flere bruker-IDer ved å bruke bevarte maler, eller bruke SD-modellen til å generere slutningsmaler. Bildene som er lagt til ovenfor demonstrerer evnen til EasyPhoto-rammeverket til å produsere forskjellige AI-bilder av høy kvalitet.

konklusjonen

I denne artikkelen har vi snakket om EasyPhoto, en ny WebUI-plugin som lar sluttbrukere generere AI-portretter og bilder. EasyPhoto WebUI-pluginen genererer AI-portretter ved hjelp av vilkårlige maler, og de nåværende implikasjonene av EasyPhoto WebUI støtter forskjellige fotostiler og flere modifikasjoner. I tillegg, for å forbedre EasyPhotos muligheter ytterligere, har brukere fleksibiliteten til å generere bilder ved hjelp av SDXL-modellen for å generere mer tilfredsstillende, nøyaktige og mangfoldige bilder. EasyPhoto-rammeverket bruker en stabil diffusjonsbasemodell kombinert med en forhåndsopplært LoRA-modell som produserer høykvalitets bilder.

Interessert i bildegeneratorer? Vi gir også en liste over Beste AI Headshot Generatorer og Beste AI-bildegeneratorer som er enkle å bruke og ikke krever teknisk ekspertise.

"En ingeniør av yrke, en forfatter utenat". Kunal er en teknisk forfatter med en dyp kjærlighet og forståelse for AI og ML, dedikert til å forenkle komplekse konsepter på disse feltene gjennom sin engasjerende og informative dokumentasjon.