Mesterséges Intelligencia

EasyPhoto: Személyes mesterséges intelligencia-képgenerátor

korszerűsített on Október 30, 2023

EasyPhoto: Személyes mesterséges intelligencia-portrégenerátor

Stabil diffúzió A webes felhasználói felület vagy az SD-WebUI egy átfogó projekt a Stable Diffusion modellekhez, amely a Gradio könyvtárat használja böngészőfelület biztosítására. Ma az EasyPhoto-ról fogunk beszélni, egy innovatív WebUI beépülő modulról, amely lehetővé teszi a végfelhasználók számára, hogy mesterséges intelligencia portrékat és képeket készítsenek. Az EasyPhoto WebUI beépülő modul AI portrékat készít különféle sablonok segítségével, támogatva a különböző fotóstílusokat és többféle módosítást. Ezenkívül az EasyPhoto képességeinek továbbfejlesztése érdekében a felhasználók az SDXL-modell használatával képeket hozhatnak létre a kielégítőbb, pontosabb és változatosabb eredmények érdekében. Kezdjük.

Az EasyPhoto és a stabil diffúzió bevezetése

A Stable Diffusion keretrendszer egy népszerű és robusztus diffúzió alapú generálási keretrendszer, amelyet a fejlesztők használnak valósághű képek generálására bemeneti szöveges leírások alapján. Lehetőségeinek köszönhetően a Stable Diffusion keretrendszer számos alkalmazással büszkélkedhet, beleértve a képkifestést, a képbefestést és a képről képre fordítást. A Stable Diffusion Web UI vagy SD-WebUI a keretrendszer egyik legnépszerűbb és legismertebb alkalmazásaként tűnik ki. A Gradio könyvtárra épülő böngészőfelülettel rendelkezik, amely interaktív és felhasználóbarát felületet biztosít a Stable Diffusion modellekhez. A képgenerálás vezérlésének és használhatóságának további javítása érdekében az SD-WebUI számos Stable Diffusion alkalmazást integrál.

Az SD-WebUI keretrendszer nyújtotta kényelem miatt az EasyPhoto keretrendszer fejlesztői úgy döntöttek, hogy webbővítményként hozzák létre, nem pedig teljes értékű alkalmazásként. Ellentétben a meglévő módszerekkel, amelyek gyakran szenvednek identitásvesztéstől, vagy irreális elemeket visznek be a képekbe, az EasyPhoto keretrendszer kihasználja a Stable Diffusion modellek kép-kép képességeit, hogy pontos és valósághű képeket készítsen. A felhasználók egyszerűen telepíthetik az EasyPhoto keretrendszert a WebUI-n belüli kiterjesztésként, ami javítja a felhasználóbarátságot és a hozzáférést a felhasználók szélesebb köre számára. Az EasyPhoto keretrendszer lehetővé teszi a felhasználók számára, hogy személyazonosság-vezérelt, kiváló minőségű és valósághű AI portrék amelyek nagyon hasonlítanak a bemeneti azonosságra.

Először is, az EasyPhoto keretrendszer arra kéri a felhasználókat, hogy készítsék el digitális doppelgangerjüket néhány kép feltöltésével, hogy megtanítsák az arc LoRA vagy alacsony rangú adaptációs modelljét online. A LoRA keretrendszer gyorsan finomhangolja a diffúziós modelleket az alacsony rangú adaptációs technológia felhasználásával. Ez a folyamat lehetővé teszi az alapú modell számára, hogy megértse bizonyos felhasználók azonosító információit. A betanított modelleket ezután összevonják és integrálják az alapszintű stabil diffúziós modellbe az interferencia érdekében. Továbbá az interferenciafolyamat során a modell stabil diffúziós modelleket használ, hogy megpróbálja újrafesteni az interferenciasablon arcrégióit, és a bemeneti és a kimeneti képek közötti hasonlóságot a különböző ControlNet egységek segítségével ellenőrzik.

Az EasyPhoto keretrendszer egy kétlépcsős diffúziós folyamatot is alkalmaz az olyan lehetséges problémák megoldására, mint a határmenti műtermékek és az identitásvesztés, így biztosítva, hogy az előállított képek minimálisra csökkentsék a vizuális inkonzisztenciákat, miközben megőrzik a felhasználó személyazonosságát. Ezen túlmenően az EasyPhoto keretrendszerben az interferencia-folyamat nemcsak portrék létrehozására korlátozódik, hanem bármi, ami a felhasználói azonosítóhoz kapcsolódik, generálására is használható. Ez azt jelenti, hogy miután a vonat a LoRA modell egy adott azonosítóhoz mesterséges intelligencia-képek széles skáláját állíthatja elő, és így széles körben elterjedt alkalmazásai lehetnek, beleértve a virtuális kipróbálásokat.

Összefoglalva, az EasyPhoto keretrendszer

Újszerű megközelítést javasol a LoRA-modell betanításához, több LoRA-modell beépítésével a létrehozott képek archűségének megőrzése érdekében.
Különféle megerősítő tanulási módszereket használ a LoRA modellek optimalizálására az arcidentitás jutalmaihoz, ami tovább segíti az azonosságok hasonlóságát a képzési képek és a generált eredmények között.
Kétlépcsős festékalapú diffúziós eljárást javasol, amelynek célja magas esztétikus és hasonló AI-fotók létrehozása.

EasyPhoto: Építészet és képzés

A következő ábra az EasyPhoto AI keretrendszer betanítási folyamatát mutatja be.

Mint látható, a keretrendszer először arra kéri a felhasználókat, hogy adják meg a képzési képeket, majd arcfelismerést hajt végre az arcok helyének észlelésére. Amint a keretrendszer észleli az arcot, levágja a bemeneti képet egy előre meghatározott arányt használva, amely kizárólag az arcterületre fókuszál. A keretrendszer ezután egy bőrszépítő és egy feltűnést keltő modellt alkalmaz, hogy tiszta és tiszta arctréningképet kapjon. Ez a két modell döntő szerepet játszik az arc vizuális minőségének javításában, valamint biztosítja, hogy a háttérinformációkat eltávolítsák, és a tréningkép túlnyomórészt az arcot tartalmazza. Végül, a keretrendszer ezeket a feldolgozott képeket és beviteli utasításokat használja a LoRA modell betanításához, és ezáltal felvértezi azt a felhasználó-specifikus arctulajdonságok hatékonyabb és pontosabb megértésének képességével.

Ezenkívül a képzési szakaszban a keretrendszer tartalmaz egy kritikus érvényesítési lépést, amelyben a keretrendszer kiszámítja a felhasználói bemeneti kép és a betanított LoRA modell által generált ellenőrző kép közötti arcazonosító rést. A validálási lépés egy alapvető folyamat, amely kulcsszerepet játszik a LoRA-modellek egyesülésének elérésében, végső soron biztosítva, hogy a betanított LoRA keretrendszer doppelgangerré, vagyis a felhasználó pontos digitális reprezentációjává alakul át. Ezenkívül az optimális face_id pontszámmal rendelkező ellenőrző kép lesz kiválasztva face_id képként, és ezt a face_id képet fogja használni az interferenciagenerálás azonosságának javítására.

Tovább haladva, az ensemble folyamat alapján a keretrendszer a LoRA modelleket képezi, amelynek elsődleges célja a valószínűségbecslés, míg az arcidentitás hasonlóságának megőrzése a downstream cél. A probléma megoldása érdekében az EasyPhoto keretrendszer megerősítő tanulási technikákat alkalmaz a downstream cél közvetlen optimalizálására. Ennek eredményeként a LoRA-modellek által megtanult arcvonások megjelenítési javulását eredményezik, ami fokozott hasonlóságot eredményez a sablon által generált eredmények között, és bemutatja a sablonok közötti általánosítást is.

Interferencia folyamat

Az alábbi ábra az EasyPhoto keretrendszerben található egyedi felhasználói azonosítók interferencia folyamatát mutatja be, és három részre oszlik

Arc előkezelés a ControlNet referencia és az előfeldolgozott bemeneti kép beszerzéséhez.

Első diffúzió ami segít a felhasználói bevitelhez hasonló durva eredmények létrehozásában.

Második diffúzió amely rögzíti a határértékeket, így a képeket pontosabbá és valósághűbbé teszi.

A bemenethez a keretrendszer egy face_id képet (amelyet az optimális face_id pontszámot használó betanítási érvényesítés során generál) és egy interferenciasablont. A kimenet rendkívül részletes, pontos és valósághű portré a felhasználóról, és nagyon hasonlít a felhasználó identitására és egyedi megjelenésére a következtetési sablon alapján. Nézzük meg részletesen ezeket a folyamatokat.

Face PreProcess

Az interferenciasablonon alapuló mesterséges intelligencia-portré létrehozásának egyik módja tudatos érvelés nélkül, ha az SD-modellt befestjük az arcterületre az interferenciasablonba. Ezenkívül a ControlNet keretrendszer hozzáadása a folyamathoz nemcsak a felhasználói identitás megőrzését javítja, hanem a létrehozott képek közötti hasonlóságot is. A ControlNet közvetlen regionális festéshez való használata azonban potenciális problémákat okozhat, amelyek magukban foglalhatják

Inkonzisztencia a bemenet és a generált kép között: Nyilvánvaló, hogy a sablonkép kulcspontjai nem kompatibilisek a face_id kép kulcspontjaival, ezért a ControlNet és a face_id kép referenciaként való használata bizonyos inkonzisztenciákhoz vezethet a kimenetben.

Hibák az Inpaint régióban: Egy régió elfedése, majd új arccal való festése észrevehető hibákhoz vezethet, különösen a festékhatár mentén, amelyek nemcsak a létrehozott kép hitelességét, hanem a kép valósághűségét is negatívan befolyásolják.
Identitásvesztés a Control Net által: Mivel a betanítási folyamat nem használja a ControlNet keretrendszert, a ControlNet használata az interferencia fázisban befolyásolhatja a betanított LoRA modellek azon képességét, hogy megőrizzék a bemeneti felhasználói azonosítót.

A fent említett problémák megoldására az EasyPhoto keretrendszer három eljárást javasol.

Igazítás és beillesztés: Az arcbeillesztési algoritmus használatával az EasyPhoto keretrendszer célja az arcazonosító és a sablon közötti eltérések problémája. Először a modell kiszámítja a face_id és a sablonkép arcvonalait, majd a modell meghatározza azt az affin transzformációs mátrixot, amelyet a sablonkép arcvonalainak a face_id képpel való összehangolására használ. Az eredményül kapott kép megtartja a face_id kép ugyanazokat a tereptárgyakat, és igazodik a sablonképhez.

Arc biztosíték: A Face Fuse egy újszerű megközelítés, amelyet a maszkfestésből származó határműtermékek kijavítására használnak, és magában foglalja a műtermékek kijavítását a ControlNet keretrendszer segítségével. A módszer lehetővé teszi az EasyPhoto keretrendszer számára, hogy biztosítsa a harmonikus élek megőrzését, és ezáltal végső soron a képalkotás folyamatát. Az arcfúziós algoritmus tovább olvasztja a roop (földi igazság felhasználói képek) képet és a sablont, ami lehetővé teszi, hogy az eredményül kapott egyesített kép jobban stabilizálja az élhatárokat, ami az első diffúziós szakaszban fokozott kimenetet eredményez.
ControlNet vezérelt érvényesítés: Mivel a LoRA modelleket nem a ControlNet keretrendszerrel képezték ki, a következtetési folyamat során történő használata befolyásolhatja a LoRA modell azon képességét, hogy megőrizze az azonosságokat. Az EasyPhoto általánosítási képességeinek javítása érdekében a keretrendszer figyelembe veszi a ControlNet keretrendszer hatását, és különböző szakaszokból származó LoRA modelleket tartalmaz.

Első diffúzió

Az első diffúziós szakasz a sablonképet használja a bemeneti felhasználói azonosítóhoz hasonló egyedi azonosítójú kép létrehozásához. A bemeneti kép a felhasználói beviteli kép és a sablonkép fúziója, míg a kalibrált arcmaszk a bemeneti maszk. A képgenerálás szabályozásának további növelése érdekében az EasyPhoto keretrendszer három ControlNet egységet integrál, ahol az első ControlNet egység az egyesített képek vezérlésére összpontosít, a második ControlNet egység az egyesített kép színeit vezérli, az utolsó ControlNet egység pedig a nyílt pozíciójú. (valós idejű többszemélyes emberi pózvezérlés) a lecserélt képre, amely nemcsak a sablonkép arcszerkezetét tartalmazza, hanem a felhasználó arcának identitását is.

Második diffúzió

A második diffúziós szakaszban az arc határvonala közelében lévő műtermékeket finomítják és finomhangolják, és rugalmasságot biztosítanak a felhasználóknak a kép egy adott részének elfedésére, hogy ezzel növeljék a generálás hatékonyságát az adott területen belül. Ebben a szakaszban a keret összeolvasztja az első diffúziós szakaszból kapott kimeneti képet a roop képpel vagy a felhasználó képének eredményével, így generálja a bemeneti képet a második diffúziós szakaszhoz. Összességében a második diffúziós szakasz döntő szerepet játszik az általános minőség és a generált kép részleteinek javításában.

Több felhasználói azonosító

Az EasyPhoto egyik csúcspontja a több felhasználói azonosító létrehozásának támogatása, az alábbi ábra pedig az EasyPhoto keretrendszerben található több felhasználói azonosítók interferenciájának folyamatát mutatja be.

A többfelhasználós azonosító létrehozásának támogatása érdekében az EasyPhoto keretrendszer először arcfelismerést hajt végre az interferenciasablonon. Ezeket az interferencia-sablonokat ezután számos maszkra osztják fel, ahol minden maszk csak egy arcot tartalmaz, a kép többi részét pedig fehérre maszkolják, így a többfelhasználós azonosító generálása egy egyszerű feladatra, egyedi felhasználói azonosítók generálására szakad. Miután a keretrendszer létrehozza a felhasználói azonosító képeket, ezek a képek egyesülnek a következtetési sablonba, így megkönnyítve a sablonképek zökkenőmentes integrációját a generált képekkel, ami végül jó minőségű képet eredményez.

Kísérletek és eredmények

Most, hogy megértettük az EasyPhoto keretrendszert, itt az ideje, hogy megvizsgáljuk az EasyPhoto keretrendszer teljesítményét.

A fenti képet az EasyPhoto bővítmény generálja, és stílus alapú SD-modellt használ a képgeneráláshoz. Amint látható, a generált képek valósághűek és meglehetősen pontosak.

A fent hozzáadott képet az EasyPhoto keretrendszer hozta létre egy Comic Style alapú SD-modell segítségével. Mint látható, a képregényfotók és a valósághű fotók meglehetősen valósághűnek tűnnek, és a felhasználói utasítások vagy követelmények alapján nagyon hasonlítanak a bevitt képre.

Az alább hozzáadott képet az EasyPhoto keretrendszer hozta létre egy Multi-Person sablon használatával. Amint az jól látható, a keletkezett képek tiszták, pontosak és hasonlítanak az eredeti képre.

Az EasyPhoto segítségével a felhasználók ma már mesterséges intelligencia-portrék széles skáláját állíthatják elő, vagy több felhasználói azonosítót generálhatnak megőrzött sablonok segítségével, vagy használhatják az SD-modellt következtetési sablonok létrehozására. A fent hozzáadott képek bemutatják az EasyPhoto keretrendszer azon képességét, hogy változatos és kiváló minőségű mesterséges intelligencia képeket készítsen.

Következtetés

Ebben a cikkben az EasyPhoto-ról, a újszerű WebUI bővítmény amely lehetővé teszi a végfelhasználók számára, hogy mesterséges intelligencia portrékat és képeket készítsenek. Az EasyPhoto WebUI beépülő modul tetszőleges sablonok segítségével mesterséges intelligencia portrékat állít elő, és az EasyPhoto WebUI jelenlegi hatásai különböző fotóstílusokat és többszörös módosításokat támogatnak. Ezenkívül az EasyPhoto képességeinek továbbfejlesztése érdekében a felhasználók rugalmasan hozhatnak létre képeket az SDXL modell használatával, így kielégítőbb, pontosabb és változatosabb képeket készíthetnek. Az EasyPhoto keretrendszer egy stabil diffúziós alapmodellt használ, amely egy előre betanított LoRA modellel párosul, amely kiváló minőségű képkimeneteket produkál.

Érdekelnek a képgenerátorok? Listát is adunk a A legjobb AI fejlövés-generátorok és a A legjobb AI képgenerátorok amelyek könnyen használhatóak és nem igényelnek műszaki szakértelmet.

Kapcsolódó témák:easyphoto

Up Next

ChatDev: Kommunikációs ügynökök szoftverfejlesztéshez

Ne hagyd ki

A Google stratégiai terjeszkedése a mesterséges intelligencia területén: 2 milliárd dolláros fogadás az Anthropicra

Kunal Kejriwal

"Szakmailag mérnök, szívből író". Kunal egy műszaki író, aki mélyen szereti és érti az AI-t és az ML-t, és elkötelezett a komplex fogalmak egyszerűsítése ezeken a területeken lebilincselő és informatív dokumentációi révén.

Egyesül.AI

EasyPhoto: Személyes mesterséges intelligencia-képgenerátor

Mesterséges Intelligencia

EasyPhoto: Személyes mesterséges intelligencia-képgenerátor

Tartalomjegyzék

Az EasyPhoto és a stabil diffúzió bevezetése

EasyPhoto: Építészet és képzés