Artificiell intelligens
EasyPhoto: Din personliga AI-foto-generator

Stable Diffusion Web-användargränssnitt, eller SD-WebUI, är ett omfattande projekt för Stable Diffusion-modeller som använder Gradio-biblioteket för att tillhandahålla ett webbgränssnitt. Idag ska vi prata om EasyPhoto, en innovativ WebUI-plugin som möjliggör för slutanvändare att generera AI-porträtt och bilder. EasyPhoto WebUI-plugin genererar AI-porträtt med hjälp av godtyckliga mallar, som stöder olika fotostilar och flera modifieringar. Dessutom, för att ytterligare förbättra EasyPhotos funktioner, kan användare generera bilder med hjälp av SDXL-modellen för att generera mer tillfredsställande, exakta och varierade bilder. Låt oss börja.
En introduktion till EasyPhoto och Stable Diffusion
Stable Diffusion-ramverket är ett populärt och robust diffusionsbaserat genereringsramverk som används av utvecklare för att generera realistiska bilder baserat på inmatade textbeskrivningar. Tack vare dess förmågor, har Stable Diffusion-ramverket en bred tillämpning, inklusive bildutpainting, bildinpainting och bild-till-bild-översättning. Stable Diffusion Web UI, eller SD-WebUI, är en av de mest kända och populära tillämpningarna av detta ramverk. Det har ett webbgränssnitt byggt på Gradio-biblioteket, som tillhandahåller ett interaktivt och användarvänligt gränssnitt för Stable Diffusion-modeller. För att ytterligare förbättra kontrollen och användbarheten vid bildgenerering, integrerar SD-WebUI flera Stable Diffusion-applikationer.
På grund av den bekvämlighet som SD-WebUI-ramverket erbjuder, beslutade utvecklarna av EasyPhoto-ramverket att skapa det som en webbplugin istället för en fullständig applikation. I motsats till befintliga metoder som ofta lider av identitetsförlust eller introducerar orealistiska funktioner i bilderna, utnyttjar EasyPhoto-ramverket bild-till-bild-förmågan hos Stable Diffusion-modellerna för att producera exakta och realistiska bilder. Användare kan enkelt installera EasyPhoto-ramverket som en tilläggsfunktion inom WebUI, vilket förbättrar användarvänligheten och tillgängligheten för en bredare användargrupp. EasyPhoto-ramverket tillåter användare att generera identitetsguiderade, högkvalitativa och realistiska AI-porträtt som nära liknar den inmatade identiteten.
Först ber EasyPhoto-ramverket användarna att skapa sin digitala doppelgängare genom att ladda upp några bilder för att träna en ansikts LoRA eller Low-Rank Adaptation-modell online. LoRA-ramverket finjusterar snabbt diffusionsmodellerna genom att använda låg-rank-adaptationsteknologi. Denna process tillåter basmodellen att förstå ID-informationen för specifika användare. De tränade modellerna kombineras sedan och integreras i den underliggande Stable Diffusion-modellen för interferens. Dessutom, under interferensprocessen, använder modellen stabila diffusionsmodeller i ett försök att om måla ansiktsområdena i interferensmallen, och likheten mellan indata- och utdatabilderna verifieras med hjälp av olika ControlNet-enheter.
EasyPhoto-ramverket använder också en tvåstegs diffusionsprocess för att hantera potentiella problem som gränsartefakter och identitetsförlust, vilket säkerställer att de genererade bilderna minimerar visuella inkonsekvenser samtidigt som användarens identitet behålls. Dessutom är interferenspipelinen i EasyPhoto-ramverket inte begränsad till att generera porträtt, utan kan också användas för att generera allt som är relaterat till användarens ID. Detta innebär att när du tränar LoRA-modellen för en specifik ID, kan du generera en mängd olika AI-bilder, och därmed kan det ha en bred tillämpning, inklusive virtuell provning.
För att sammanfatta, EasyPhoto-ramverket
- Föreslår en ny approach för att träna LoRA-modellen genom att kombinera flera LoRA-modeller för att behålla ansiktsfideliteten hos de genererade bilderna.
- Använder olika förstärkningsinlärningsmetoder för att optimera LoRA-modellerna för ansiktsidentitetsbelöningar, vilket ytterligare hjälper till att förbättra likheten mellan träningsbilderna och de genererade resultaten.
- Föreslår en dubbelstegs inpaint-baserad diffusionsprocess som syftar till att generera AI-foton med hög estetik och likhet.
EasyPhoto: Arkitektur och Träning
Följande figur visar träningsprocessen för EasyPhoto AI-ramverket.

Som det kan ses, ber ramverket först användarna att mata in träningsbilderna, och sedan utföra ansiktsdetektering för att upptäcka ansiktsplatser. När ramverket upptäcker ansiktet, beskär det inmatade bilderna med hjälp av ett fördefinierat specifikt förhållande som fokuserar enbart på ansiktsområdet. Ramverket använder sedan en hudförskönings- och en saliensdetekteringsmodell för att få en ren och tydlig ansiktsbild. Dessa två modeller spelar en avgörande roll för att förbättra den visuella kvaliteten på ansiktet och säkerställa att bakgrundsinformationen har tagits bort, och träningsbilden består främst av ansiktet. Slutligen använder ramverket dessa bearbetade bilder och inmatade kommandon för att träna LoRA-modellen, och därmed utrusta den med förmågan att förstå användarspecifika ansiktsdrag mer effektivt och exakt.
Dessutom, under träningsfasen, inkluderar ramverket ett kritiskt valideringssteg, där ramverket beräknar ansikts-ID-avståndet mellan användarens inmatade bild och den verifieringsbild som genererades av den tränade LoRA-modellen. Valideringssteget är en grundläggande process som spelar en avgörande roll för att uppnå fusionen av LoRA-modellerna, vilket slutligen säkerställer att den tränade LoRA-ramverket omvandlas till en doppelgängare, eller en exakt digital representation av användaren. Dessutom kommer den verifieringsbild som har den optimala ansikts-ID-poängen att väljas som ansikts-ID-bilden, och denna ansikts-ID-bild kommer att användas för att förbättra identitetssimilariteten hos interferensgenereringen.
Vidare, baserat på ensembleprocessen, tränar ramverket LoRA-modellerna med sannolikhetsuppskattning som det primära målet, medan bevarande av ansiktsidentitetssimilaritet är det nedströmsmål. För att hantera detta problem, använder EasyPhoto-ramverket förstärkningsinlärningstekniker för att optimera det nedströmsmål direkt.Som ett resultat, visar de ansiktsdrag som LoRA-modellerna lär sig en förbättring som leder till en förbättrad likhet mellan mallgenererade resultat, och visar också generalisering över mallar.
Interferensprocess
Följande figur visar interferensprocessen för en enskild användar-ID i EasyPhoto-ramverket, och är indelad i tre delar
- Ansiktsförbehandling för att erhålla ControlNet-referensen och den förbehandlade inmatade bilden.
- Första diffusionsprocessen som hjälper till att generera grova resultat som liknar användarens inmatade data.
- Andra diffusionsprocessen som fixar gränsartefakter, vilket gör att bilderna blir mer exakta och verkar mer realistiska.

För inmatningen, tar ramverket en ansikts-ID-bild (genererad under träningsvalidering med den optimala ansikts-ID-poängen) och en interferensmall. Utmatningen är en högdetaljerad, exakt och realistisk porträtt av användaren, och liknar nära identiteten och det unika utseendet hos användaren baserat på interferensmallen. Låt oss ta en närmare titt på dessa processer.
Ansiktsförbehandling
Ett sätt att generera ett AI-porträtt baserat på en interferensmall utan medveten resonemang är att använda SD-modellen för att inpainta ansiktsområdet i interferensmallen. Dessutom, genom att lägga till ControlNet-ramverket i processen, förbättras inte bara bevarandet av användaridentitet, utan också likheten mellan de genererade bilderna. Men, att använda ControlNet direkt för regional inpainting kan introducera potentiella problem som
- Inkonsistens mellan inmatad och genererad bild: Det är uppenbart att nyckelpunkterna i mallbilden inte är kompatibla med nyckelpunkterna i ansikts-ID-bilden, varför användning av ControlNet med ansikts-ID-bilden som referens kan leda till vissa inkonsistenser i utmatningen.
- Defekter i inpaint-området: Att maskera ett område och sedan inpainta det med ett nytt ansikte kan leda till märkbara defekter, särskilt längs inpaint-gränsen, vilket inte bara påverkar autenticiteten hos den genererade bilden, utan också realismen i bilden.
- Identitetsförlust genom Control Net: Eftersom träningsprocessen inte använder ControlNet-ramverket, kan användning av ControlNet under interferensfasen påverka förmågan hos de tränade LoRA-modellerna att bevara användar-ID-identiteten.
För att hantera problemen ovan, föreslår EasyPhoto-ramverket tre procedurer.
- Justera och klistra in: Genom att använda en ansiktsklistringsalgoritm, syftar EasyPhoto-ramverket till att hantera problemet med mismatch mellan ansiktslandmärken mellan ansikts-ID och mall. Först beräknar modellen ansiktslandmärkena för ansikts-ID och mallbilden, varefter modellen bestämmer den affina transformationsmatrisen som ska användas för att justera ansiktslandmärkena i mallbilden med ansikts-ID-bilden. Den resulterande bilden behåller samma landmärken som ansikts-ID-bilden och justeras också med mallbilden.
- Ansiktsfusion: Ansiktsfusion är en ny approach som används för att korrigera gränsartefakter som är ett resultat av maskininpainting, och det innefattar rättning av artefakter med hjälp av ControlNet-ramverket. Metoden tillåter EasyPhoto-ramverket att säkerställa bevarandet av harmoniska kanter och därmed guida processen för bildgenerering. Ansiktsfusionsalgoritmen fusionerar också roop-bilden (användarbild) och mallen, vilket möjliggör en sömlös integration av mallbilden med de genererade bilderna, vilket slutligen resulterar i en högkvalitetsbild.
- ControlNet-styrd validering: Eftersom LoRA-modellerna inte tränades med ControlNet-ramverket, kan användning av ControlNet under inferensfasen påverka förmågan hos LoRA-modellen att bevara identiteterna. För att förbättra generaliseringsförmågan hos EasyPhoto, beaktar ramverket inflytandet från ControlNet-ramverket och integrerar LoRA-modeller från olika stadier.
Första diffusionsprocessen
Den första diffusionsprocessen använder mallbilden för att generera en bild med en unik ID som liknar användarens inmatade ID. Inmatningsbilden är en fusion av användarens inmatade bild och mallbilden, medan den justerade ansiktsmasken är inmatningsmasken. För att ytterligare öka kontrollen över bildgenerering, integrerar EasyPhoto-ramverket tre ControlNet-enheter, där den första ControlNet-enheten fokuserar på kontrollen av de fusionerade bilderna, den andra ControlNet-enheten kontrollerar färgerna på de fusionerade bilderna, och den sista ControlNet-enheten är openpose (real-tid multi-person human pose control) för den ersatta bilden, som inte bara innehåller ansiktsstrukturen i mallbilden, utan också ansiktsidentiteten hos användaren.
Andra diffusionsprocessen
I den andra diffusionsprocessen raffineras artefakterna nära ansiktsgränsen och finjusteras, samtidigt som användarna ges möjlighet att maskera ett specifikt område i bilden i ett försök att förbättra effektiviteten hos genereringen inom det dedikerade området. I denna fas fusionerar ramverket utmatningsbilden från den första diffusionsprocessen med roop-bilden eller resultatet av användarens bild, vilket genererar inmatningsbilden för den andra diffusionsprocessen. Sammantaget spelar den andra diffusionsprocessen en avgörande roll för att förbättra den övergripande kvaliteten och detaljerna i de genererade bilderna.
Flera användar-ID
En av EasyPhotos höjdpunkter är dess stöd för att generera flera användar-ID, och figuren nedan visar pipeline för interferensprocessen för flera användar-ID i EasyPhoto-ramverket.

För att tillhandahålla stöd för generering av flera användar-ID, utför EasyPhoto-ramverket först ansiktsdetektering på interferensmallen. Dessa interferensmallar delas sedan in i flera masker, där varje mask innehåller endast ett ansikte, och resten av bilden maskeras i vitt, vilket bryter ner genereringen av flera användar-ID till en enkel uppgift att generera enskilda användar-ID. När ramverket har genererat användar-ID-bilderna, kombineras dessa bilder i interferensmallen, vilket möjliggör en sömlös integration av mallbilden med de genererade bilderna, vilket slutligen resulterar i en högkvalitetsbild.
Experiment och Resultat
Nu när vi har en förståelse för EasyPhoto-ramverket, är det dags för oss att utforska prestandan hos EasyPhoto-ramverket.

Den ovan genererade bilden är skapad av EasyPhoto-pluginen, och den använder en Style-baserad SD-modell för bildgenerering. Som det kan ses, ser de genererade bilderna realistiska och exakta ut.

Den ovan tillagda bilden är genererad av EasyPhoto-ramverket med hjälp av en Comic Style-baserad SD-modell. Som det kan ses, ser seriebilderna och de realistiska bilderna mycket realistiska ut och liknar nära inmatade bilden baserat på användarens kommandon eller krav.
Den ovan tillagda bilden har genererats av EasyPhoto-ramverket med hjälp av en Multi-Person-mall. Som det kan tydligt ses, är de genererade bilderna tydliga, exakta och liknar den ursprungliga bilden.

Med hjälp av EasyPhoto, kan användare nu generera en mängd olika AI-porträtt, eller generera flera användar-ID med hjälp av bevarade mallar, eller använda SD-modellen för att generera interferensmallar. De ovan tillagda bilderna visar EasyPhoto-ramverkets förmåga att producera varierade och högkvalitativa AI-bilder.
Slutsats
I denna artikel har vi talat om EasyPhoto, en ny WebUI-plugin som tillåter slutanvändare att generera AI-porträtt och bilder. EasyPhoto WebUI-plugin genererar AI-porträtt med hjälp av godtyckliga mallar, som stöder olika fotostilar och flera modifieringar. Dessutom, för att ytterligare förbättra EasyPhotos funktioner, kan användare generera bilder med hjälp av SDXL-modellen för att generera mer tillfredsställande, exakta och varierade bilder. EasyPhoto-ramverket använder en stabil diffusionsbasmodell kombinerad med en förtränad LoRA-modell som producerar högkvalitativa bildutmatningar.
Intresserad av bildgenerering? Vi tillhandahåller också en lista över de bästa AI-headshot-generatörerna och de bästa AI-bildgeneratörerna som är lätta att använda och kräver ingen teknisk expertis.












