Artificiell intelligens

EasyPhoto: Din personliga AI-fotogenerator

Uppdaterad on Oktober 30, 2023

EasyPhoto : Din personliga AI-porträttgenerator

Stabil diffusion Web User Interface, eller SD-WebUI, är ett omfattande projekt för Stable Diffusion-modeller som använder Gradio-biblioteket för att tillhandahålla ett webbläsargränssnitt. Idag ska vi prata om EasyPhoto, ett innovativt WebUI-plugin som gör det möjligt för slutanvändare att generera AI-porträtt och bilder. EasyPhoto WebUI-plugin skapar AI-porträtt med hjälp av olika mallar, som stöder olika fotostilar och flera modifieringar. Dessutom, för att förbättra EasyPhotos möjligheter ytterligare, kan användare skapa bilder med SDXL-modellen för mer tillfredsställande, exakta och varierande resultat. Låt oss börja.

En introduktion till EasyPhoto och stabil spridning

Stable Diffusion-ramverket är ett populärt och robust diffusionsbaserat generationsramverk som används av utvecklare för att generera realistiska bilder baserade på indatatextbeskrivningar. Tack vare dess möjligheter kan ramverket Stable Diffusion ståta med ett brett utbud av applikationer, inklusive ommålning av bilder, målning av bilder och översättning av bild till bild. Stable Diffusion Web UI, eller SD-WebUI, framstår som en av de mest populära och välkända applikationerna i detta ramverk. Den har ett webbläsargränssnitt byggt på Gradio-biblioteket, vilket ger ett interaktivt och användarvänligt gränssnitt för stabila diffusionsmodeller. För att ytterligare förbättra kontrollen och användbarheten vid bildgenerering, integrerar SD-WebUI många stabila diffusionsapplikationer.

På grund av den bekvämlighet som SD-WebUI-ramverket erbjuder, beslutade utvecklarna av EasyPhoto-ramverket att skapa det som ett webbplugin snarare än en fullfjädrad applikation. I motsats till befintliga metoder som ofta lider av identitetsförlust eller introducerar orealistiska funktioner i bilder, utnyttjar EasyPhoto-ramverket bild-till-bild-kapaciteten hos stabila diffusionsmodeller för att producera korrekta och realistiska bilder. Användare kan enkelt installera EasyPhoto-ramverket som en förlängning inom WebUI, vilket förbättrar användarvänligheten och tillgängligheten för ett bredare spektrum av användare. EasyPhoto-ramverket tillåter användare att skapa identitetsstyrda, högkvalitativa och realistiska AI-porträtt som liknar ingångsidentiteten.

För det första ber EasyPhoto-ramverket användare att skapa sina digitala dubbelgångare genom att ladda upp några bilder för att träna en LoRA- eller Low-Rank Adaptation-modell online. LoRA-ramverket finjusterar snabbt spridningsmodellerna genom att använda sig av lågrankad anpassningsteknik. Denna process gör det möjligt för den baserade modellen att förstå ID-informationen för specifika användare. De tränade modellerna slås sedan samman och integreras i baslinjemodellen för stabil diffusion för störningar. Vidare, under interferensprocessen, använder modellen stabila diffusionsmodeller i ett försök att måla om ansiktsregionerna i interferensmallen, och likheten mellan ingångs- och utdatabilderna verifieras med de olika ControlNet-enheterna.

EasyPhoto-ramverket implementerar också en diffusionsprocess i två steg för att hantera potentiella problem som gränsartefakter och identitetsförlust, vilket säkerställer att bilderna som genereras minimerar visuella inkonsekvenser samtidigt som användarens identitet bibehålls. Dessutom är interferenspipelinen i EasyPhoto-ramverket inte bara begränsad till att generera porträtt, utan den kan också användas för att generera allt som är relaterat till användarens ID. Detta innebär att när du tränar LoRA-modell för ett visst ID kan du generera ett brett utbud av AI-bilder, och därför kan det ha utbredda applikationer inklusive virtuella försök.

För att sammanfatta, EasyPhoto-ramverket

Föreslår ett nytt tillvägagångssätt för att träna LoRA-modellen genom att införliva flera LoRA-modeller för att bibehålla ansiktstroheten hos de genererade bilderna.
Använder olika metoder för inlärning av förstärkning för att optimera LoRA-modellerna för ansiktsidentitetsbelöningar som ytterligare hjälper till att förstärka likheten mellan identiteter mellan träningsbilderna och de resultat som genereras.
Föreslår en tvåstegs inpaint-baserad diffusionsprocess som syftar till att generera AI-foton med hög estetik och likhet.

EasyPhoto : Arkitektur & Utbildning

Följande figur visar träningsprocessen för EasyPhoto AI-ramverket.

Som det kan ses ber ramverket först användarna att mata in träningsbilderna och utför sedan ansiktsdetektering för att detektera ansiktsplatserna. När ramverket detekterar ansiktet beskär det inmatningsbilden med ett fördefinierat specifikt förhållande som enbart fokuserar på ansiktsområdet. Ramverket distribuerar sedan en hudförsköning och en framträdande detekteringsmodell för att få en ren och tydlig ansiktsträningsbild. Dessa två modeller spelar en avgörande roll för att förbättra den visuella kvaliteten på ansiktet, och ser också till att bakgrundsinformationen har tagits bort och att träningsbilden till övervägande del innehåller ansiktet. Slutligen använder ramverket dessa bearbetade bilder och inmatningsuppmaningar för att träna LoRA-modellen och på så sätt utrusta den med förmågan att förstå användarspecifika ansiktsegenskaper mer effektivt och exakt.

Dessutom, under utbildningsfasen, innehåller ramverket ett kritiskt valideringssteg, där ramverket beräknar gapet för ansikts-ID mellan användarens indatabild och verifieringsbilden som genererades av den tränade LoRA-modellen. Valideringssteget är en grundläggande process som spelar en nyckelroll för att uppnå sammansmältningen av LoRA-modellerna, vilket i slutändan säkerställer att utbildade LoRA-ramverk förvandlas till en dubbelgångare, eller en korrekt digital representation av användaren. Dessutom kommer verifieringsbilden som har den optimala face_id-poängen att väljas som face_id-bilden, och denna face_id-bild kommer sedan att användas för att förbättra identitetslikheten för interferensgenereringen.

Genom att gå vidare, baserat på ensembleprocessen, tränar ramverket LoRA-modellerna med sannolikhetsuppskattning som det primära målet, medan bevarande av ansiktsidentitetslikhet är nedströmsmålet. För att lösa detta problem använder EasyPhoto-ramverket sig av förstärkningsinlärningstekniker för att optimera nedströmsmålet direkt. Som ett resultat visar ansiktsdragen som LoRA-modellerna lär sig förbättringar som leder till en ökad likhet mellan de mallgenererade resultaten och visar även generaliseringen mellan mallar.

Interferensprocess

Följande figur visar störningsprocessen för ett individuellt användar-ID i EasyPhoto-ramverket och är uppdelad i tre delar

Ansiktsförbehandling för att erhålla ControlNet-referensen och den förbehandlade ingångsbilden.

Första diffusion som hjälper till att generera grova resultat som liknar användarinmatningen.

Andra diffusion som fixar gränsartefakterna, vilket gör bilderna mer exakta och verkar mer realistiska.

För inmatningen tar ramverket en face_id-bild (genererad under träningsvalidering med den optimala face_id-poängen), och en interferensmall. Resultatet är ett mycket detaljerat, korrekt och realistiskt porträtt av användaren, och påminner mycket om användarens identitet och unika utseende baserat på infermallen. Låt oss ta en detaljerad titt på dessa processer.

Face PreProcess

Ett sätt att skapa ett AI-porträtt baserat på en interferensmall utan medvetna resonemang är att använda SD-modellen för att måla in ansiktsområdet i interferensmallen. Att lägga till ControlNet-ramverket i processen förbättrar inte bara bevarandet av användaridentitet, utan ökar också likheten mellan de genererade bilderna. Att använda ControlNet direkt för regional målning kan dock introducera potentiella problem som kan inkludera

Inkonsekvens mellan ingången och den genererade bilden: Det är uppenbart att nyckelpunkterna i mallbilden inte är kompatibla med nyckelpunkterna i face_id-bilden, varför användning av ControlNet med face_id-bilden som referens kan leda till vissa inkonsekvenser i utdata.

Defekter i Inpaint-regionen: Att maskera ett område och sedan måla det med ett nytt ansikte kan leda till märkbara defekter, särskilt längs med målningsgränsen, som inte bara påverkar äktheten hos den skapade bilden, utan också negativt påverkar bildens realism.
Identitetsförlust av kontrollnätet: Eftersom träningsprocessen inte använder ControlNet-ramverket, kan användning av ControlNet under interferensfasen påverka förmågan hos de tränade LoRA-modellerna att bevara den inmatade användar-id-identiteten.

För att ta itu med de problem som nämns ovan, föreslår EasyPhoto-ramverket tre procedurer.

Justera och klistra in: Genom att använda en algoritm för att klistra in ansiktet, syftar EasyPhoto-ramverket till att ta itu med problemet med bristande överensstämmelse mellan landmärken för ansiktet mellan ansikts-ID och mall. Först beräknar modellen ansiktslandmärkena för face_id och mallbilden, varefter modellen bestämmer den affina transformationsmatris som kommer att användas för att anpassa ansiktslandmärkena för mallbilden med face_id-bilden. Den resulterande bilden behåller samma landmärken som face_id-bilden och anpassas även till mallbilden.

Ansiktssäkring: Face Fuse är ett nytt tillvägagångssätt som används för att korrigera gränsartefakter som är ett resultat av maskinmålning, och det involverar korrigering av artefakter med ControlNet-ramverket. Metoden gör det möjligt för EasyPhoto-ramverket att säkerställa bevarandet av harmoniska kanter och därmed i slutändan vägleda processen för bildgenerering. Ansiktsfusionsalgoritmen förenar ytterligare bilden av roop (ground truth user images) och mallen, vilket gör att den resulterande sammansmälta bilden kan uppvisa bättre stabilisering av kantgränserna, vilket sedan leder till en förbättrad utdata under det första diffusionssteget.
ControlNet guidad validering: Eftersom LoRA-modellerna inte tränades med ControlNet-ramverket, kan användningen av det under slutledningsprocessen påverka LoRA-modellens förmåga att bevara identiteterna. För att förbättra generaliseringsförmågan hos EasyPhoto tar ramverket hänsyn till inflytandet från ControlNet-ramverket och inkluderar LoRA-modeller från olika stadier.

Första diffusion

Det första spridningssteget använder mallbilden för att generera en bild med ett unikt ID som liknar inmatat användar-ID. Inmatningsbilden är en sammanslagning av användarens inmatningsbild och mallbilden, medan den kalibrerade ansiktsmasken är ingångsmasken. För att ytterligare öka kontrollen över bildgenerering, integrerar EasyPhoto-ramverket tre ControlNet-enheter där den första ControlNet-enheten fokuserar på kontrollen av de sammansmälta bilderna, den andra ControlNet-enheten kontrollerar färgerna på den sammansmälta bilden och den sista ControlNet-enheten är den öppna positionen. (realtidskontroll av mänskliga poser för flera personer) av den ersatta bilden som inte bara innehåller mallbildens ansiktsstruktur utan även användarens ansiktsidentitet.

Andra diffusion

I det andra diffusionssteget förfinas och finjusteras artefakterna nära ansiktets gräns samtidigt som användarna får flexibiliteten att maskera ett specifikt område i bilden i ett försök att förbättra effektiviteten av genereringen inom det dedikerade området. I detta steg smälter ramverket den utgående bilden som erhålls från det första diffusionssteget med ropbilden eller resultatet av användarens bild, och genererar sålunda ingångsbilden för det andra diffusionssteget. Sammantaget spelar det andra diffusionssteget en avgörande roll för att förbättra den övergripande kvaliteten och detaljerna i den genererade bilden.

Fleranvändar-ID

En av EasyPhotos höjdpunkter är dess stöd för att generera flera användar-ID:n, och bilden nedan visar pipelinen för störningsprocessen för multianvändar-ID:n i EasyPhoto-ramverket.

För att ge stöd för generering av fleranvändar-ID, utför EasyPhoto-ramverket först ansiktsdetektering på interferensmallen. Dessa interferensmallar delas sedan upp i ett flertal masker, där varje mask endast innehåller ett ansikte, och resten av bilden är maskerad i vitt, vilket bryter upp genereringen av fleranvändar-ID till en enkel uppgift att generera individuella användar-ID:n. När ramverket genererar användar-ID-bilderna slås dessa bilder samman i slutledningsmallen, vilket underlättar en sömlös integration av mallbilderna med de genererade bilderna, vilket i slutändan resulterar i en bild av hög kvalitet.

Experiment och resultat

Nu när vi har en förståelse för EasyPhoto-ramverket är det dags för oss att utforska prestandan för EasyPhoto-ramverket.

Ovanstående bild genereras av EasyPhoto-plugin, och den använder en stilbaserad SD-modell för bildgenereringen. Som det kan observeras ser de genererade bilderna realistiska ut och är ganska exakta.

Bilden som läggs till ovan genereras av EasyPhoto-ramverket med hjälp av en Comic Style-baserad SD-modell. Som det kan ses ser de komiska bilderna och de realistiska bilderna ganska realistiska ut och påminner mycket om ingångsbilden på grundval av användarens uppmaningar eller krav.

Bilden som läggs till nedan har skapats av EasyPhoto-ramverket genom att använda en Multi-Person-mall. Som det tydligt kan ses är bilderna som genereras tydliga, korrekta och liknar originalbilden.

Med hjälp av EasyPhoto kan användare nu generera ett brett utbud av AI-porträtt, eller generera flera användar-ID:n med hjälp av bevarade mallar, eller använda SD-modellen för att generera inferensmallar. Bilderna som lagts till ovan visar EasyPhoto-ramverkets förmåga att producera olika AI-bilder av hög kvalitet.

Slutsats

I den här artikeln har vi pratat om EasyPhoto, en nya WebUI-plugin som tillåter slutanvändare att generera AI-porträtt och bilder. EasyPhoto WebUI-pluginen genererar AI-porträtt med godtyckliga mallar, och de nuvarande implikationerna av EasyPhoto WebUI stöder olika fotostilar och flera modifieringar. Dessutom, för att ytterligare förbättra EasyPhotos möjligheter, har användare flexibiliteten att generera bilder med SDXL-modellen för att generera mer tillfredsställande, exakta och mångsidiga bilder. EasyPhoto-ramverket använder en stabil diffusionsbasmodell i kombination med en förtränad LoRA-modell som producerar högkvalitativa bilder.

Intresserad av bildgeneratorer? Vi tillhandahåller också en lista över Bästa AI Headshot Generatorer och Bästa AI-bildgeneratorer som är lätta att använda och kräver ingen teknisk expertis.

Relaterade ämnen:easyphoto

Strax

ChatDev: Kommunikativa agenter för mjukvaruutveckling

Missa inte

Googles strategiska expansion inom AI: En satsning på 2 miljarder dollar på Anthropic

Kunal Kejriwal

"En ingenjör till yrket, en författare utantill". Kunal är en teknisk skribent med en djup kärlek och förståelse för AI och ML, dedikerad till att förenkla komplexa koncept inom dessa områden genom sin engagerande och informativa dokumentation.

Unite.AI

EasyPhoto: Din personliga AI-fotogenerator

Artificiell intelligens

EasyPhoto: Din personliga AI-fotogenerator

Innehållsförteckning

En introduktion till EasyPhoto och stabil spridning

EasyPhoto : Arkitektur & Utbildning