Inteligjenca artificiale

EasyPhoto: Gjeneratori juaj personal i fotografive me AI

Përditësuar on Tetor 30, 2023

EasyPhoto: Gjeneratori juaj personal i portreteve të AI

Difuzion i qëndrueshëm Ndërfaqja e përdoruesit në ueb, ose SD-WebUI, është një projekt gjithëpërfshirës për modelet e Difuzionit të Qëndrueshëm që përdor bibliotekën Gradio për të ofruar një ndërfaqe shfletuesi. Sot, ne do të flasim për EasyPhoto, një shtojcë inovative WebUI që u mundëson përdoruesve të fundit të gjenerojnë portrete dhe imazhe të AI. Shtojca EasyPhoto WebUI krijon portrete të AI duke përdorur shabllone të ndryshëm, duke mbështetur stile të ndryshme fotografish dhe modifikime të shumta. Për më tepër, për të përmirësuar më tej aftësitë e EasyPhoto, përdoruesit mund të gjenerojnë imazhe duke përdorur modelin SDXL për rezultate më të kënaqshme, të sakta dhe të larmishme. Le të fillojmë.

Një hyrje në EasyPhoto dhe Difuzion i qëndrueshëm

Korniza Stable Diffusion është një kornizë gjenerimi popullore dhe e fuqishme e bazuar në difuzion, e përdorur nga zhvilluesit për të gjeneruar imazhe realiste bazuar në përshkrimet e tekstit hyrës. Falë aftësive të tij, kuadri Stable Diffusion krenohet me një gamë të gjerë aplikacionesh, duke përfshirë pikturimin jashtë, pikturimin e imazhit brenda dhe përkthimin nga imazhi në imazh. Stable Diffusion Web UI, ose SD-WebUI, shquhet si një nga aplikacionet më të njohura dhe më të njohura të këtij kuadri. Ai përmban një ndërfaqe shfletuesi të ndërtuar në bibliotekën Gradio, duke ofruar një ndërfaqe interaktive dhe miqësore për përdoruesit për modelet e Difuzionit të Qëndrueshëm. Për të përmirësuar më tej kontrollin dhe përdorshmërinë në gjenerimin e imazheve, SD-WebUI integron shumë aplikacione të Difuzionit të Qëndrueshëm.

Për shkak të komoditetit të ofruar nga kuadri SD-WebUI, zhvilluesit e kornizës EasyPhoto vendosën ta krijojnë atë si një shtojcë ueb dhe jo si një aplikacion të plotë. Në kontrast me metodat ekzistuese që shpesh vuajnë nga humbja e identitetit ose futin veçori joreale në imazhe, korniza EasyPhoto përdor aftësitë imazh-për-imazh të modeleve të Difuzionit të qëndrueshëm për të prodhuar imazhe të sakta dhe realiste. Përdoruesit mund të instalojnë lehtësisht kuadrin EasyPhoto si një shtesë brenda WebUI, duke rritur lehtësinë e përdorimit dhe aksesin për një gamë më të gjerë përdoruesish. Korniza EasyPhoto i lejon përdoruesit të gjenerojnë të udhëhequr nga identiteti, me cilësi të lartë dhe portrete realiste të AI që i ngjajnë shumë identitetit të hyrjes.

Së pari, korniza EasyPhoto u kërkon përdoruesve të krijojnë doppelganger-in e tyre dixhital duke ngarkuar disa imazhe për të trajnuar një model LoRA të fytyrës ose një model Adaptimi me gradë të ulët në internet. Korniza LoRA rregullon shpejt modelet e difuzionit duke përdorur teknologjinë e përshtatjes së nivelit të ulët. Ky proces lejon modelin e bazuar të kuptojë informacionin e ID-së së përdoruesve të veçantë. Modelet e trajnuara më pas bashkohen dhe integrohen në modelin bazë të Difuzionit të Qëndrueshëm për ndërhyrje. Për më tepër, gjatë procesit të ndërhyrjes, modeli përdor modele të qëndrueshme të difuzionit në një përpjekje për të rilyer zonat e fytyrës në shabllonin e ndërhyrjes dhe ngjashmëria midis imazheve hyrëse dhe dalëse verifikohet duke përdorur njësitë e ndryshme ControlNet.

Korniza EasyPhoto vendos gjithashtu një proces difuzioni me dy faza për të trajtuar çështjet e mundshme si artefaktet e kufirit dhe humbja e identitetit, duke siguruar kështu që imazhet e krijuara të minimizojnë mospërputhjet vizuale duke ruajtur identitetin e përdoruesit. Për më tepër, tubacioni i ndërhyrjes në kornizën EasyPhoto nuk është i kufizuar vetëm në gjenerimin e portreteve, por mund të përdoret gjithashtu për të gjeneruar çdo gjë që lidhet me ID-në e përdoruesit. Kjo nënkupton që sapo të stërviteni Modeli LoRA për një ID të caktuar, ju mund të gjeneroni një gamë të gjerë fotografish të AI, dhe kështu mund të ketë aplikacione të përhapura duke përfshirë provat virtuale.

Për ta përmbledhur, kuadri EasyPhoto

Propozon një qasje të re për të trajnuar modelin LoRA duke përfshirë modele të shumta LoRA për të ruajtur besnikërinë e fytyrës së imazheve të krijuara.
Përdor metoda të ndryshme të të mësuarit përforcues për të optimizuar modelet LoRA për shpërblimet e identitetit të fytyrës që ndihmon më tej në rritjen e ngjashmërisë së identiteteve midis imazheve të trajnimit dhe rezultateve të gjeneruara.
Propozon një proces difuzioni të bazuar në bojë me dy faza që synon të gjenerojë foto me AI me estetikë dhe ngjashmëri të lartë.

EasyPhoto: Arkitekturë dhe Trajnim

Figura e mëposhtme tregon procesin e trajnimit të kornizës EasyPhoto AI.

Siç mund të shihet, korniza fillimisht u kërkon përdoruesve të futin imazhet e trajnimit dhe më pas kryen zbulimin e fytyrës për të zbuluar vendndodhjet e fytyrës. Sapo korniza zbulon fytyrën, ai pret imazhin hyrës duke përdorur një raport specifik të paracaktuar që fokusohet vetëm në zonën e fytyrës. Korniza më pas vendos një zbukurim të lëkurës dhe një model zbulimi të spikatur për të marrë një imazh të pastër dhe të qartë të stërvitjes së fytyrës. Këto dy modele luajnë një rol vendimtar në rritjen e cilësisë vizuale të fytyrës dhe gjithashtu sigurojnë që informacioni i sfondit të jetë hequr dhe imazhi i stërvitjes të përmbajë kryesisht fytyrën. Së fundi, korniza përdor këto imazhe të përpunuara dhe udhëzime hyrëse për të trajnuar modelin LoRA, duke e pajisur kështu atë me aftësinë për të kuptuar në mënyrë më efektive dhe të saktë karakteristikat specifike të fytyrës të përdoruesit.

Për më tepër, gjatë fazës së trajnimit, korniza përfshin një hap kritik të vërtetimit, në të cilin korniza llogarit hendekun e ID-së së fytyrës midis imazhit të hyrjes së përdoruesit dhe imazhit të verifikimit që u krijua nga modeli i trajnuar LoRA. Hapi i vlefshmërisë është një proces themelor që luan një rol kyç në arritjen e bashkimit të modeleve LoRA, duke siguruar përfundimisht që kornizë e trajnuar e LoRA transformohet në një doppelganger, ose një paraqitje të saktë dixhitale të përdoruesit. Për më tepër, imazhi i verifikimit që ka rezultatin optimal të face_id do të zgjidhet si imazhi face_id dhe ky imazh face_id do të përdoret më pas për të përmirësuar ngjashmërinë e identitetit të gjenerimit të ndërhyrjeve.

Duke ecur përpara, bazuar në procesin e ansamblit, korniza trajnon modelet LoRA me vlerësimin e gjasave që është objektivi kryesor, ndërsa ruajtja e ngjashmërisë së identitetit të fytyrës është objektivi në rrjedhën e poshtme. Për të trajtuar këtë çështje, korniza EasyPhoto përdor teknikat e të mësuarit përforcues për të optimizuar drejtpërdrejt objektivin e poshtëm. Si rezultat, tiparet e fytyrës që modelet LoRA mësojnë shfaqin përmirësime që çojnë në një ngjashmëri të zgjeruar midis rezultateve të krijuara nga shabllonet dhe gjithashtu demonstrojnë përgjithësimin midis shablloneve.

Procesi i ndërhyrjes

Figura e mëposhtme tregon procesin e ndërhyrjes për një ID individual të përdoruesit në kornizën EasyPhoto dhe është e ndarë në tre pjesë

Paraprocesi i fytyrës për marrjen e referencës ControlNet, dhe imazhin hyrës të parapërpunuar.

Difuzioni i parë që ndihmon në gjenerimin e rezultateve të përafërta që ngjajnë me hyrjen e përdoruesit.

Difuzioni i dytë që rregullon artefaktet kufitare, duke i bërë kështu imazhet më të sakta dhe të duken më realiste.

Për hyrjen, korniza merr një imazh face_id (të krijuar gjatë vërtetimit të trajnimit duke përdorur rezultatin optimal të face_id) dhe një shabllon ndërhyrjeje. Prodhimi është një portret shumë i detajuar, i saktë dhe realist i përdoruesit dhe i ngjan shumë identitetit dhe pamjes unike të përdoruesit në bazë të shabllonit të përfundimit. Le t'i hedhim një vështrim të detajuar këtyre proceseve.

Paraprocesi i fytyrës

Një mënyrë për të gjeneruar një portret të AI bazuar në një shabllon ndërhyrjeje pa arsyetim të vetëdijshëm është përdorimi i modelit SD për të pikturuar zonën e fytyrës në shabllonin e ndërhyrjes. Për më tepër, shtimi i kornizës ControlNet në proces jo vetëm që rrit ruajtjen e identitetit të përdoruesit, por gjithashtu rrit ngjashmërinë midis imazheve të krijuara. Megjithatë, përdorimi i ControlNet drejtpërdrejt për pikturimin rajonal mund të sjellë probleme të mundshme që mund të përfshijnë

Mospërputhja midis hyrjes dhe imazhit të krijuar: Është e qartë se pikat kyçe në imazhin e shabllonit nuk janë në përputhje me pikat kryesore në imazhin face_id, prandaj përdorimi i ControlNet me imazhin face_id si referencë mund të çojë në disa mospërputhje në dalje.

Defektet në rajonin Inpaint: Maskimi i një rajoni dhe më pas lyerja e tij me një fytyrë të re mund të çojë në defekte të dukshme, veçanërisht përgjatë kufirit të pikturës që jo vetëm do të ndikojë në origjinalitetin e imazhit të krijuar, por gjithashtu do të ndikojë negativisht në realizmin e imazhit.
Humbja e identitetit nga rrjeti i kontrollit: Meqenëse procesi i trajnimit nuk përdor kornizën ControlNet, përdorimi i ControlNet gjatë fazës së ndërhyrjes mund të ndikojë në aftësinë e modeleve të trajnuara LoRA për të ruajtur identitetin e hyrjes së id-it të përdoruesit.

Për të trajtuar çështjet e përmendura më sipër, korniza EasyPhoto propozon tre procedura.

Rreshtoni dhe ngjitni: Duke përdorur një algoritëm të ngjitjes së fytyrës, korniza EasyPhoto synon të trajtojë çështjen e mospërputhjes midis shenjave të fytyrës midis ID-së së fytyrës dhe shabllonit. Së pari, modeli llogarit pikat referuese të fytyrës të face_id dhe imazhit të shabllonit, pas së cilës modeli përcakton matricën e transformimit afin që do të përdoret për të lidhur pikat referuese të fytyrës të imazhit të shabllonit me imazhin face_id. Imazhi që rezulton ruan të njëjtat pika referimi të imazhit face_id, dhe gjithashtu përputhet me imazhin e shabllonit.

Siguresa e fytyrës: Face Fuse është një qasje e re që përdoret për të korrigjuar artefaktet kufitare që janë rezultat i pikturimit të maskës dhe përfshin korrigjimin e objekteve duke përdorur kornizën ControlNet. Metoda lejon kornizën EasyPhoto të sigurojë ruajtjen e skajeve harmonike, dhe kështu përfundimisht të udhëheqë procesin e gjenerimit të imazhit. Algoritmi i shkrirjes së fytyrës bashkon më tej imazhin roop (imazhet e përdoruesit të vërtetës tokësore) dhe shabllonin, që lejon që imazhi i shkrirë që rezulton të shfaqë stabilizim më të mirë të kufijve të skajeve, gjë që më pas çon në një dalje të përmirësuar gjatë fazës së parë të difuzionit.
Vleresimi i drejtuar nga ControlNet: Meqenëse modelet LoRA nuk u trajnuan duke përdorur kornizën ControlNet, përdorimi i tij gjatë procesit të konkluzionit mund të ndikojë në aftësinë e modelit LoRA për të ruajtur identitetet. Për të përmirësuar aftësitë e përgjithësimit të EasyPhoto, korniza merr në konsideratë ndikimin e kornizës ControlNet dhe përfshin modele LoRA nga faza të ndryshme.

Difuzioni i parë

Faza e parë e difuzionit përdor imazhin e shabllonit për të gjeneruar një imazh me një ID unike që i ngjan ID-së hyrëse të përdoruesit. Imazhi i hyrjes është një shkrirje e imazhit të hyrjes së përdoruesit dhe imazhit të shabllonit, ndërsa maska e kalibruar e fytyrës është maska hyrëse. Për të rritur më tej kontrollin mbi gjenerimin e imazheve, korniza EasyPhoto integron tre njësi ControlNet ku njësia e parë ControlNet fokusohet në kontrollin e imazheve të bashkuara, njësia e dytë ControlNet kontrollon ngjyrat e imazhit të shkrirë dhe njësia përfundimtare ControlNet është e hapur. (kontrolli i pozës njerëzore me shumë persona në kohë reale) i imazhit të zëvendësuar që përmban jo vetëm strukturën e fytyrës së imazhit të shabllonit, por edhe identitetin e fytyrës së përdoruesit.

Difuzioni i dytë

Në fazën e dytë të difuzionit, artefaktet pranë kufirit të fytyrës rafinohen dhe rregullohen mirë së bashku duke u ofruar përdoruesve fleksibilitetin për të maskuar një rajon specifik në imazh në një përpjekje për të rritur efektivitetin e gjenerimit brenda asaj zone të dedikuar. Në këtë fazë, korniza bashkon imazhin dalës të marrë nga faza e parë e difuzionit me imazhin roop ose rezultatin e imazhit të përdoruesit, duke gjeneruar kështu imazhin hyrës për fazën e dytë të difuzionit. Në përgjithësi, faza e dytë e difuzionit luan një rol vendimtar në rritjen e cilësisë së përgjithshme dhe detajeve të imazhit të krijuar.

ID me shumë përdorues

Një nga pikat kryesore të EasyPhoto është mbështetja e tij për gjenerimin e ID-ve të shumëfishta të përdoruesve, dhe figura më poshtë tregon rrjedhën e procesit të ndërhyrjes për ID-të e shumë përdoruesve në kornizën EasyPhoto.

Për të ofruar mbështetje për gjenerimin e ID-së me shumë përdorues, korniza EasyPhoto kryen fillimisht zbulimin e fytyrës në shabllonin e ndërhyrjes. Këto shabllone të ndërhyrjes më pas ndahen në maska të shumta, ku secila maskë përmban vetëm një fytyrë, dhe pjesa tjetër e imazhit maskohet në të bardhë, duke e ndarë kështu gjenerimin e ID-ve me shumë përdorues në një detyrë të thjeshtë të gjenerimit të ID-ve individuale të përdoruesve. Pasi korniza gjeneron imazhet e ID-së së përdoruesit, këto imazhe shkrihen në shabllonin e konkluzionit, duke lehtësuar kështu një integrim pa probleme të imazheve të shabllonit me imazhet e krijuara, që përfundimisht rezulton në një imazh me cilësi të lartë.

Eksperimentet dhe rezultatet

Tani që kemi kuptuar kornizën EasyPhoto, është koha që ne të eksplorojmë performancën e kornizës EasyPhoto.

Imazhi i mësipërm është krijuar nga shtojca EasyPhoto dhe përdor një model SD të bazuar në stil për gjenerimin e imazhit. Siç mund të vërehet, imazhet e krijuara duken realiste dhe janë mjaft të sakta.

Imazhi i shtuar më sipër është krijuar nga korniza EasyPhoto duke përdorur një model SD të bazuar në stilin komik. Siç mund të shihet, fotot komike dhe ato realiste duken mjaft realiste dhe i ngjajnë shumë imazhit të hyrjes në bazë të kërkesave ose kërkesave të përdoruesit.

Imazhi i shtuar më poshtë është krijuar nga korniza EasyPhoto duke përdorur një shabllon me shumë persona. Siç mund të shihet qartë, imazhet e krijuara janë të qarta, të sakta dhe ngjajnë me imazhin origjinal.

Me ndihmën e EasyPhoto, përdoruesit tani mund të gjenerojnë një gamë të gjerë portretesh të AI, ose të gjenerojnë ID të shumta përdoruesish duke përdorur shabllone të ruajtura, ose të përdorin modelin SD për të gjeneruar shabllone konkluzionesh. Imazhet e shtuara më sipër demonstrojnë aftësinë e kornizës EasyPhoto për të prodhuar fotografi të ndryshme dhe me cilësi të lartë të AI.

Përfundim

Në këtë artikull, ne kemi folur për EasyPhoto, a shtojcë e re WebUI që lejon përdoruesit fundorë të gjenerojnë portrete dhe imazhe të AI. Shtojca EasyPhoto WebUI gjeneron portrete të AI duke përdorur shabllone arbitrare dhe implikimet aktuale të EasyPhoto WebUI mbështet stile të ndryshme fotografish dhe modifikime të shumta. Për më tepër, për të përmirësuar më tej aftësitë e EasyPhoto, përdoruesit kanë fleksibilitetin për të gjeneruar imazhe duke përdorur modelin SDXL për të gjeneruar imazhe më të kënaqshme, të sakta dhe të larmishme. Korniza EasyPhoto përdor një model bazë difuzioni të qëndrueshëm të shoqëruar me një model LoRA të paratrajnuar që prodhon dalje imazhi me cilësi të lartë.

Të interesuar për gjeneratorët e imazhit? Ne gjithashtu ofrojmë një listë të Gjeneratorët më të mirë të AI Headshot dhe Gjeneruesit më të mirë të imazhit të AI që janë të lehta për t'u përdorur dhe nuk kërkojnë ekspertizë teknike.

Temat e ngjashme:foto e lehtë

E rradhes

ChatDev: Agjentë komunikues për zhvillimin e softuerit

Mos e humbas

Zgjerimi strategjik i Google në AI: Një bast prej 2 miliardë dollarësh në Anthropic

Kunal Kejriwal

“Me profesion inxhinier, me zemër shkrimtar”. Kunal është një shkrimtar teknik me një dashuri dhe kuptim të thellë të AI dhe ML, i përkushtuar ndaj thjeshtimit të koncepteve komplekse në këto fusha përmes dokumentacionit të tij tërheqës dhe informues.

Bashkohu.AI

EasyPhoto: Gjeneratori juaj personal i fotografive me AI

Inteligjenca artificiale

EasyPhoto: Gjeneratori juaj personal i fotografive me AI

Përmbajtje

Një hyrje në EasyPhoto dhe Difuzion i qëndrueshëm

EasyPhoto: Arkitekturë dhe Trajnim