stub EasyPhoto: jūsų asmeninis AI nuotraukų generatorius – Unite.AI
Susisiekti su mumis

Dirbtinis intelektas

EasyPhoto: jūsų asmeninis AI nuotraukų generatorius

mm
Atnaujinta on
EasyPhoto: jūsų asmeninis AI portretų generatorius

Stabili difuzija Žiniatinklio vartotojo sąsaja arba SD-WebUI yra išsamus stabilaus sklaidos modelių projektas, kuriame naudojama Gradio biblioteka naršyklės sąsajai pateikti. Šiandien kalbėsime apie „EasyPhoto“ – naujovišką „WebUI“ papildinį, leidžiantį galutiniams vartotojams kurti AI portretus ir vaizdus. „EasyPhoto WebUI“ papildinys sukuria AI portretus naudodamas įvairius šablonus, palaikančius skirtingus nuotraukų stilius ir daugybę modifikacijų. Be to, norėdami dar labiau pagerinti „EasyPhoto“ galimybes, vartotojai gali generuoti vaizdus naudodami SDXL modelį, kad gautų labiau patenkinamus, tikslesnius ir įvairesnius rezultatus. Pradėkime.

„EasyPhoto“ ir „Stable Diffusion“ įvadas

„Stable Diffusion“ sistema yra populiari ir patikima difuzijos pagrindu sukurta generavimo sistema, kurią kūrėjai naudoja tikroviškiems vaizdams generuoti pagal įvesties teksto aprašymus. Dėl savo galimybių „Stable Diffusion“ sistema gali pasigirti daugybe pritaikymų, įskaitant vaizdo dažymą, vaizdų dažymą ir vaizdo vertimą į vaizdą. Stable Diffusion Web UI arba SD-WebUI išsiskiria kaip viena populiariausių ir žinomiausių šios sistemos taikomųjų programų. Jame yra naršyklės sąsaja, sukurta Gradio bibliotekoje, suteikianti interaktyvią ir patogią sąsają stabilios difuzijos modeliams. Siekdama dar labiau pagerinti vaizdų generavimo valdymą ir naudojimą, SD-WebUI integruoja daugybę stabilios difuzijos programų.

Dėl SD-WebUI sistemos patogumo, EasyPhoto sistemos kūrėjai nusprendė sukurti ją kaip žiniatinklio įskiepį, o ne visavertę programą. Skirtingai nuo esamų metodų, kurie dažnai kenčia nuo tapatybės praradimo arba į vaizdus įtraukia nerealių ypatybių, „EasyPhoto“ sistema išnaudoja „Stable Diffusion“ modelių vaizdo į vaizdą galimybes, kad būtų sukurti tikslūs ir tikroviški vaizdai. Vartotojai gali lengvai įdiegti „EasyPhoto“ sistemą kaip „WebUI“ naudotojo sąsajos plėtinį, padidindami patogumą ir prieinamumą didesniam vartotojų ratui. „EasyPhoto“ sistema leidžia vartotojams kurti pagal tapatybę, aukštos kokybės ir tikroviški AI portretai kurie labai panašūs į įvesties tapatybę.

Pirma, „EasyPhoto“ sistema prašo vartotojų sukurti savo skaitmeninį „doppelganger“ įkeliant keletą vaizdų, kad būtų galima išmokyti veido LoRA arba žemo rango prisitaikymo modelį internete. „LoRA“ sistema greitai sureguliuoja difuzijos modelius, naudodama žemo rango pritaikymo technologiją. Šis procesas leidžia pagrįstam modeliui suprasti konkrečių vartotojų ID informaciją. Tada apmokyti modeliai sujungiami ir integruojami į bazinį stabilios difuzijos modelį, kad būtų išvengta trukdžių. Be to, trikdžių proceso metu modelis naudoja stabilios difuzijos modelius, bandydamas perdažyti veido sritis trikdžių šablone, o įvesties ir išvesties vaizdų panašumas patikrinamas naudojant įvairius „ControlNet“ įrenginius. 

„EasyPhoto“ sistemoje taip pat įdiegtas dviejų etapų sklaidos procesas, siekiant išspręsti galimas problemas, pvz., sienų artefaktus ir tapatybės praradimą, taip užtikrinant, kad sukurti vaizdai sumažintų vizualinius neatitikimus, išlaikant vartotojo tapatybę. Be to, „EasyPhoto“ sistemos trukdžių vamzdynas neapsiriboja portretų generavimu, bet taip pat gali būti naudojamas generuoti bet ką, kas yra susiję su vartotojo ID. Tai reiškia, kad kai tik treniruositės LoRA modelis tam tikram ID galite sugeneruoti daugybę AI paveikslėlių, todėl jis gali turėti plačiai paplitusias programas, įskaitant virtualius bandymus. 

Apibendrinant, „EasyPhoto“ sistema

  1. Siūlo naują metodą, kaip mokyti LoRA modelį, įtraukiant kelis LoRA modelius, kad būtų išlaikytas sukuriamų vaizdų tikslumas. 
  2. Naudoja įvairius sustiprinimo mokymosi metodus, kad optimizuotų LoRA modelius veido tapatybės apdovanojimams, kurie dar labiau padeda sustiprinti tapatybių panašumą tarp mokomųjų vaizdų ir sugeneruotų rezultatų. 
  3. Siūlomas dviejų etapų dažais pagrįsta difuzijos procesas, kurio tikslas – sukurti aukštos estetikos ir panašumo AI nuotraukas. 

EasyPhoto: Architektūra ir mokymai

Toliau pateiktame paveikslėlyje parodytas „EasyPhoto AI“ sistemos mokymo procesas. 

Kaip matyti, sistema pirmiausia prašo vartotojų įvesti mokymo vaizdus, ​​o tada atlieka veido aptikimą, kad nustatytų veido vietas. Kai sistema aptinka veidą, ji apkarpo įvesties vaizdą naudodama iš anksto nustatytą konkretų santykį, kuris sutelkiamas tik į veido sritį. Tada sistema naudoja odos gražinimo ir iškilumo aptikimo modelį, kad gautų švarų ir aiškų veido mokymo vaizdą. Šie du modeliai atlieka lemiamą vaidmenį gerinant veido vizualinę kokybę, taip pat užtikrina, kad foninė informacija būtų pašalinta, o treniruočių vaizde daugiausia būtų veidas. Galiausiai, sistema naudoja šiuos apdorotus vaizdus ir įvesties raginimus, kad išmokytų LoRA modelį ir taip suteiktų jam galimybę efektyviau ir tiksliau suprasti vartotojo specifines veido savybes. 

Be to, mokymo etape sistema apima kritinį patvirtinimo veiksmą, kurio metu sistema apskaičiuoja veido ID tarpą tarp vartotojo įvesto vaizdo ir patvirtinimo vaizdo, kurį sugeneravo apmokytas LoRA modelis. Patvirtinimo žingsnis yra esminis procesas, kuris atlieka pagrindinį vaidmenį siekiant LoRA modelių suliejimo, galiausiai užtikrinant, kad apmokyta LoRA sistema transformuojasi į dupelgangerį arba tikslią skaitmeninę vartotojo atvaizdą. Be to, patvirtinimo vaizdas, turintis optimalų face_id balą, bus pasirinktas kaip face_id vaizdas, o šis face_id vaizdas bus naudojamas siekiant pagerinti trukdžių generavimo tapatybės panašumą. 

Remiantis ansamblio procesu, sistema treniruoja LoRA modelius, kurių pagrindinis tikslas yra tikimybės įvertinimas, o veido tapatybės panašumo išsaugojimas yra tolesnis tikslas. Kad išspręstų šią problemą, „EasyPhoto“ sistema naudoja sustiprinimo mokymosi metodus, kad tiesiogiai optimizuotų paskesnį tikslą. Dėl to veido bruožai, kuriuos išmoksta LoRA modeliai, yra patobulinti, o tai padidina šablono sugeneruotų rezultatų panašumą, taip pat parodo šablonų apibendrinimą. 

Trukdžių procesas

Toliau pateiktame paveikslėlyje parodytas atskiro vartotojo ID trikdžių procesas „EasyPhoto“ sistemoje ir yra padalintas į tris dalis.

  • Veido išankstinis apdorojimas Norėdami gauti ControlNet nuorodą ir iš anksto apdorotą įvesties vaizdą. 
  • Pirmoji difuzija kuri padeda generuoti grubius rezultatus, panašius į vartotojo įvestį. 
  • Antroji difuzija fiksuoja ribinius artefaktus, todėl vaizdai tampa tikslesni ir atrodo tikroviškesni. 

Įvesties sistema paima face_id vaizdą (sugeneruotą mokymo patvirtinimo metu naudojant optimalų face_id balą) ir trukdžių šabloną. Išvestis yra labai detalus, tikslus ir tikroviškas vartotojo portretas, labai panašus į vartotojo tapatybę ir unikalią išvaizdą pagal išvados šabloną. Išsamiai pažvelkime į šiuos procesus.

Veido išankstinis procesas

Vienas iš būdų sukurti dirbtinio intelekto portretą, pagrįstą trikdžių šablonu be sąmoningo samprotavimo, yra naudoti SD modelį veido sričiai nupiešti trukdžių šablone. Be to, „ControlNet“ sistemos įtraukimas į procesą ne tik pagerina vartotojo tapatybės išsaugojimą, bet ir padidina sugeneruotų vaizdų panašumą. Tačiau naudojant ControlNet tiesiogiai regioniniam piešimui, gali kilti galimų problemų, kurios gali apimti

  • Neatitikimas tarp įvesties ir sugeneruoto vaizdo: Akivaizdu, kad pagrindiniai šablono vaizdo taškai nesuderinami su pagrindiniais face_id vaizdo taškais, todėl naudojant ControlNet su face_id vaizdu kaip nuoroda gali atsirasti tam tikrų išvesties neatitikimų. 
  • Dažų srities defektai: Užmaskavus sritį, o vėliau nudažius ją nauju veidu, gali atsirasti pastebimų defektų, ypač palei dažų ribą, kurie ne tik paveiks sukurto vaizdo autentiškumą, bet ir neigiamai paveiks vaizdo tikroviškumą. 
  • Tapatybės praradimas naudojant kontrolės tinklą: Kadangi mokymo procese nenaudojama „ControlNet“ sistema, „ControlNet“ naudojimas trukdžių fazės metu gali turėti įtakos apmokytų LoRA modelių gebėjimui išsaugoti įvesties vartotojo ID tapatybę. 

Siekiant išspręsti aukščiau paminėtas problemas, „EasyPhoto“ sistemoje siūlomos trys procedūros. 

  • Lygiuoti ir įklijuoti: Naudodama veido įklijavimo algoritmą, „EasyPhoto“ sistema siekia išspręsti veido ID ir šablono veido orientyrų neatitikimo problemą. Pirma, modelis apskaičiuoja veido_id ir šablono vaizdo veido orientyrus, po to modelis nustato afininės transformacijos matricą, kuri bus naudojama šablono vaizdo veido orientyrams sulygiuoti su face_id vaizdu. Gautame vaizde išlaikomi tie patys face_id vaizdo orientyrai ir taip pat sulygiuotas su šablono vaizdu. 
  • Veido saugiklis: „Face Fuse“ yra naujas metodas, naudojamas ištaisyti ribinius artefaktus, atsirandančius dėl kaukės dažymo, ir tai apima artefaktų taisymą naudojant „ControlNet“ sistemą. Šis metodas leidžia „EasyPhoto“ sistemai užtikrinti harmoningų kraštų išsaugojimą ir galiausiai nukreipti vaizdo generavimo procesą. Veido suliejimo algoritmas toliau sujungia „roop“ (pagrindinės tiesos naudotojo vaizdų) vaizdą ir šabloną, o tai leidžia gautam sulietam vaizdui geriau stabilizuoti kraštų ribas, o tai suteikia patobulintą išvestį per pirmąjį difuzijos etapą. 
  • „ControlNet“ patvirtinimas: Kadangi LoRA modeliai nebuvo mokomi naudojant ControlNet sistemą, jos naudojimas išvados proceso metu gali turėti įtakos LoRA modelio gebėjimui išsaugoti tapatybes. Siekiant pagerinti „EasyPhoto“ apibendrinimo galimybes, sistemoje atsižvelgiama į „ControlNet“ sistemos įtaką ir įtraukiami skirtingų etapų LoRA modeliai. 

Pirmoji difuzija

Pirmajame sklaidos etape naudojamas šablono vaizdas, kad būtų sukurtas vaizdas su unikaliu ID, kuris panašus į įvestą vartotojo ID. Įvesties vaizdas yra vartotojo įvesto vaizdo ir šablono vaizdo sintezė, o kalibruota veido kaukė yra įvesties kaukė. Kad būtų dar labiau valdomas vaizdų generavimas, „EasyPhoto“ sistemoje integruoti trys „ControlNet“ įrenginiai, kur pirmasis „ControlNet“ įrenginys sutelktas į sulietų vaizdų valdymą, antrasis „ControlNet“ įrenginys valdo sujungto vaizdo spalvas, o paskutinis „ControlNet“ įrenginys yra atviras. (realaus laiko kelių asmenų žmogaus pozos valdymas) pakeistą vaizdą, kuriame yra ne tik šablono vaizdo veido struktūra, bet ir vartotojo veido tapatybė.

Antroji difuzija

Antrajame sklaidos etape artefaktai, esantys netoli veido ribos, yra patobulinami ir tiksliai suderinami, taip pat suteikiant vartotojams galimybę lanksčiai užmaskuoti konkrečią vaizdo sritį, siekiant padidinti generavimo efektyvumą toje tam skirtoje srityje. Šiame etape sistema sulieja išvesties vaizdą, gautą iš pirmos difuzijos etapo, su „Roop“ vaizdu arba vartotojo vaizdo rezultatu, taip generuodama įvesties vaizdą antrajam difuzijos etapui. Apskritai, antrasis difuzijos etapas vaidina lemiamą vaidmenį gerinant bendrą sukurto vaizdo kokybę ir detales. 

Kelių naudotojų ID

Vienas iš „EasyPhoto“ akcentų yra kelių vartotojų ID generavimo palaikymas, o toliau pateiktame paveikslėlyje parodytas kelių naudotojų ID trukdžių procesas „EasyPhoto“ sistemoje. 

Siekdama palaikyti kelių vartotojų ID generavimą, „EasyPhoto“ sistema pirmiausia atlieka veido aptikimą trikdžių šablone. Tada šie trukdžių šablonai suskaidomi į daugybę kaukių, kur kiekvienoje kaukėje yra tik vienas veidas, o likusi dalis užmaskuota balta spalva, todėl kelių naudotojų ID generavimas suskaidomas į paprastą užduotį generuoti individualius vartotojo ID. Kai sistema sugeneruoja vartotojo ID vaizdus, ​​​​šie vaizdai sujungiami į išvados šabloną, taip palengvinant sklandų šablono vaizdų integravimą su sugeneruotais vaizdais, todėl galiausiai gaunamas aukštos kokybės vaizdas. 

Eksperimentai ir rezultatai

Dabar, kai suprantame „EasyPhoto“ sistemą, atėjo laikas ištirti „EasyPhoto“ sistemos našumą. 

Aukščiau pateiktą vaizdą generuoja „EasyPhoto“ įskiepis, o vaizdo generavimui naudojamas stilius pagrįstas SD modelis. Kaip galima pastebėti, sukurti vaizdai atrodo tikroviški ir yra gana tikslūs. 

Aukščiau pridėtas vaizdas sukurtas naudojant „EasyPhoto“ sistemą, naudojant „Comic Style“ pagrįstą SD modelį. Kaip matyti, komiškos nuotraukos ir tikroviškos nuotraukos atrodo gana tikroviškos ir labai panašios į įvestą vaizdą pagal vartotojo raginimus ar reikalavimus. 

Toliau pridėtas vaizdas buvo sukurtas naudojant „EasyPhoto“ sistemą, naudojant kelių asmenų šabloną. Kaip aiškiai matyti, sukurti vaizdai yra aiškūs, tikslūs ir primena originalų vaizdą. 

Naudodamiesi „EasyPhoto“, vartotojai dabar gali generuoti daugybę AI portretų arba generuoti kelis vartotojo ID naudodami išsaugotus šablonus arba naudoti SD modelį išvadų šablonams generuoti. Aukščiau pateikti vaizdai parodo „EasyPhoto“ sistemos galimybes kurti įvairias ir aukštos kokybės AI nuotraukas.

Išvada

Šiame straipsnyje mes kalbėjome apie EasyPhoto, a naujas WebUI papildinys kuri leidžia galutiniams vartotojams kurti AI portretus ir vaizdus. „EasyPhoto WebUI“ papildinys generuoja AI portretus naudodamas savavališkus šablonus, o dabartinės „EasyPhoto WebUI“ reikšmės palaiko skirtingus nuotraukų stilius ir daugybę modifikacijų. Be to, norėdami dar labiau pagerinti „EasyPhoto“ galimybes, vartotojai turi galimybę lanksčiai generuoti vaizdus naudodami SDXL modelį, kad būtų sukurti labiau patenkinami, tikslesni ir įvairesni vaizdai. „EasyPhoto“ sistema naudoja stabilų difuzijos bazinį modelį kartu su iš anksto paruoštu LoRA modeliu, kuris sukuria aukštos kokybės vaizdo išvestį.

Domina vaizdų generatoriai? Taip pat pateikiame sąrašą Geriausi AI galvos smūgių generatoriai ir Geriausi AI vaizdo generatoriai kuriuos lengva naudoti ir nereikia jokių techninių žinių.

„Iš profesijos inžinierius, iš širdies – rašytojas“. Kunal yra techninis rašytojas, giliai mylintis ir suprantantis dirbtinį intelektą ir ML, siekiantis supaprastinti sudėtingas sąvokas šiose srityse, pasitelkdamas patrauklią ir informatyvią dokumentaciją.