Artificial Intelligence

EasyPhoto: uw persoonlijke AI-fotogenerator

Bijgewerkt on 30 oktober 2023

EasyPhoto: uw persoonlijke AI-portretgenerator

Stabiele diffusie Web User Interface, of SD-WebUI, is een uitgebreid project voor stabiele diffusiemodellen dat gebruikmaakt van de Gradio-bibliotheek om een browserinterface te bieden. Vandaag gaan we het hebben over EasyPhoto, een innovatieve WebUI-plug-in waarmee eindgebruikers AI-portretten en -afbeeldingen kunnen genereren. De EasyPhoto WebUI-plug-in maakt AI-portretten met behulp van verschillende sjablonen, die verschillende fotostijlen en meerdere aanpassingen ondersteunen. Om de mogelijkheden van EasyPhoto verder te verbeteren, kunnen gebruikers bovendien afbeeldingen genereren met behulp van het SDXL-model voor bevredigendere, nauwkeurigere en diversere resultaten. Laten we beginnen.

Een inleiding tot EasyPhoto en stabiele diffusie

Het Stable Diffusion-framework is een populair en robuust op diffusie gebaseerd generatieframework dat door ontwikkelaars wordt gebruikt om realistische afbeeldingen te genereren op basis van invoertekstbeschrijvingen. Dankzij de mogelijkheden beschikt het Stable Diffusion-framework over een breed scala aan toepassingen, waaronder image outpainting, image inpainting en image-to-image vertaling. De Stable Diffusion Web UI, of SD-WebUI, valt op als een van de meest populaire en bekende applicaties van dit raamwerk. Het beschikt over een browserinterface die is gebouwd op de Gradio-bibliotheek en biedt een interactieve en gebruiksvriendelijke interface voor stabiele diffusiemodellen. Om de controle en bruikbaarheid bij het genereren van afbeeldingen verder te verbeteren, integreert SD-WebUI talrijke Stable Diffusion-toepassingen.

Vanwege het gemak dat het SD-WebUI-framework biedt, hebben de ontwikkelaars van het EasyPhoto-framework besloten om het als een webplug-in te maken in plaats van als een volwaardige applicatie. In tegenstelling tot bestaande methoden die vaak last hebben van identiteitsverlies of onrealistische kenmerken in afbeeldingen introduceren, maakt het EasyPhoto-framework gebruik van de beeld-naar-beeld-mogelijkheden van de Stable Diffusion-modellen om nauwkeurige en realistische beelden te produceren. Gebruikers kunnen het EasyPhoto-framework eenvoudig installeren als een uitbreiding binnen de WebUI, waardoor de gebruiksvriendelijkheid en toegankelijkheid voor een breder scala aan gebruikers wordt vergroot. Met het EasyPhoto-framework kunnen gebruikers identiteitsgestuurde, hoogwaardige en realistische AI-portretten die sterk lijken op de invoeridentiteit.

Ten eerste vraagt het EasyPhoto-framework gebruikers om hun digitale dubbelganger te creëren door een paar afbeeldingen te uploaden om online een LoRA- of Low-Rank Adaptation-model te trainen. Het LoRA-framework verfijnt de diffusiemodellen snel door gebruik te maken van laagwaardige aanpassingstechnologie. Dankzij dit proces kan het gebaseerde model de ID-informatie van specifieke gebruikers begrijpen. De getrainde modellen worden vervolgens samengevoegd en geïntegreerd in het stabiele diffusiebasismodel voor interferentie. Bovendien gebruikt het model tijdens het interferentieproces stabiele diffusiemodellen in een poging om de gezichtsgebieden in het interferentiesjabloon opnieuw te schilderen, en wordt de gelijkenis tussen de invoer- en uitvoerbeelden geverifieerd met behulp van de verschillende ControlNet-eenheden.

Het EasyPhoto-framework maakt ook gebruik van een diffusieproces in twee fasen om potentiële problemen zoals grensartefacten en identiteitsverlies aan te pakken, waardoor ervoor wordt gezorgd dat de gegenereerde afbeeldingen visuele inconsistenties minimaliseren met behoud van de identiteit van de gebruiker. Bovendien is de interferentiepijplijn in het EasyPhoto-framework niet alleen beperkt tot het genereren van portretten, maar kan deze ook worden gebruikt om alles te genereren dat verband houdt met de ID van de gebruiker. Dit houdt in dat zodra je de LoRA-model voor een bepaalde ID kun je een breed scala aan AI-afbeeldingen genereren, en dus kan het wijdverspreide toepassingen hebben, waaronder virtuele try-ons.

Samenvattend: het EasyPhoto-framework

Stelt een nieuwe aanpak voor om het LoRA-model te trainen door meerdere LoRA-modellen op te nemen om de gezichtsgetrouwheid van de gegenereerde beelden te behouden.
Maakt gebruik van verschillende versterkende leermethoden om de LoRA-modellen voor gezichtsidentiteitsbeloningen te optimaliseren, wat verder helpt bij het vergroten van de gelijkenis van identiteiten tussen de trainingsbeelden en de gegenereerde resultaten.
Stelt een op inpaint gebaseerd diffusieproces in twee fasen voor dat tot doel heeft AI-foto's te genereren met een hoge esthetiek en gelijkenis.

EasyPhoto: Architectuur en opleiding

De volgende afbeelding demonstreert het trainingsproces van het EasyPhoto AI-framework.

Zoals u kunt zien, vraagt het raamwerk de gebruikers eerst om de trainingsbeelden in te voeren en voert vervolgens gezichtsdetectie uit om de gezichtslocaties te detecteren. Zodra het raamwerk het gezicht detecteert, wordt het invoerbeeld bijgesneden met behulp van een vooraf gedefinieerde specifieke verhouding die uitsluitend op het gezichtsgebied is gericht. Het raamwerk gebruikt vervolgens een model voor huidverfraaiing en opvallendheidsdetectie om een schoon en helder gezichtstrainingsbeeld te verkrijgen. Deze twee modellen spelen een cruciale rol bij het verbeteren van de visuele kwaliteit van het gezicht en zorgen er ook voor dat de achtergrondinformatie wordt verwijderd en dat het trainingsbeeld voornamelijk het gezicht bevat. Ten slotte gebruikt het raamwerk deze verwerkte beelden en invoerprompts om het LoRA-model te trainen, en het zo uit te rusten met de mogelijkheid om gebruikersspecifieke gezichtskenmerken effectiever en nauwkeuriger te begrijpen.

Bovendien omvat het raamwerk tijdens de trainingsfase een kritische validatiestap, waarbij het raamwerk de gezichts-ID-kloof berekent tussen het gebruikersinvoerbeeld en het verificatiebeeld dat is gegenereerd door het getrainde LoRA-model. De validatiestap is een fundamenteel proces dat een sleutelrol speelt bij het bereiken van de fusie van de LoRA-modellen, en er uiteindelijk voor zorgt dat de getraind LoRA-framework transformeert in een dubbelganger, of een nauwkeurige digitale weergave van de gebruiker. Bovendien zal het verificatiebeeld met de optimale face_id-score worden geselecteerd als het face_id-beeld, en dit face_id-beeld zal vervolgens worden gebruikt om de identiteitsovereenkomst van de interferentiegeneratie te verbeteren.

Op basis van het ensembleproces traint het raamwerk de LoRA-modellen, waarbij waarschijnlijkheidsschatting het primaire doel is, terwijl het behouden van de gelijkenis van de gezichtsidentiteit het verdere doel is. Om dit probleem aan te pakken, maakt het EasyPhoto-framework gebruik van versterkende leertechnieken om de downstream-doelstelling direct te optimaliseren. Als gevolg hiervan vertonen de gelaatstrekken die de LoRA-modellen leren een verbetering die leidt tot een grotere gelijkenis tussen de door de sjabloon gegenereerde resultaten, en toont ook de generalisatie tussen sjablonen aan.

Interferentieproces

De volgende afbeelding demonstreert het interferentieproces voor een individuele gebruikers-ID in het EasyPhoto-framework en is verdeeld in drie delen

Gezicht voorbewerken voor het verkrijgen van de ControlNet-referentie en het voorbewerkte invoerbeeld.

Eerste verspreiding dat helpt bij het genereren van grove resultaten die lijken op de gebruikersinvoer.

Tweede verspreiding dat de grensartefacten corrigeert, waardoor de afbeeldingen nauwkeuriger worden en realistischer lijken.

Voor de invoer gebruikt het raamwerk een face_id-afbeelding (gegenereerd tijdens trainingsvalidatie met behulp van de optimale face_id-score) en een interferentiesjabloon. De output is een zeer gedetailleerd, nauwkeurig en realistisch portret van de gebruiker en komt sterk overeen met de identiteit en het unieke uiterlijk van de gebruiker op basis van het infer-sjabloon. Laten we deze processen eens gedetailleerd bekijken.

Gezichtsvoorproces

Een manier om zonder bewuste redenering een AI-portret te genereren op basis van een interferentiesjabloon, is door het SD-model te gebruiken om het gezichtsgebied in de interferentiesjabloon in te tekenen. Bovendien verbetert het toevoegen van het ControlNet-framework aan het proces niet alleen het behoud van de gebruikersidentiteit, maar verbetert het ook de gelijkenis tussen de gegenereerde afbeeldingen. Het rechtstreeks gebruiken van ControlNet voor regionale inpainting kan echter potentiële problemen met zich meebrengen

Inconsistentie tussen de invoer en het gegenereerde beeld: Het is duidelijk dat de sleutelpunten in de sjabloonafbeelding niet compatibel zijn met de sleutelpunten in de face_id-afbeelding. Daarom kan het gebruik van ControlNet met de face_id-afbeelding als referentie tot enkele inconsistenties in de uitvoer leiden.

Defecten in de Inpaint-regio: Het maskeren van een gebied en het vervolgens inkleuren met een nieuw gezicht kan leiden tot merkbare gebreken, vooral langs de inpaint-grens, die niet alleen de authenticiteit van het gegenereerde beeld zullen beïnvloeden, maar ook het realisme van het beeld negatief zullen beïnvloeden.
Identiteitsverlies door Control Net: Omdat het trainingsproces geen gebruik maakt van het ControlNet-framework, kan het gebruik van ControlNet tijdens de interferentiefase van invloed zijn op het vermogen van de getrainde LoRA-modellen om de ingevoerde gebruikers-id-identiteit te behouden.

Om de hierboven genoemde problemen aan te pakken, stelt het EasyPhoto-framework drie procedures voor.

Uitlijnen en plakken: Door gebruik te maken van een face-paste-algoritme wil het EasyPhoto-framework het probleem van de discrepantie tussen gezichtsherkenningspunten tussen de gezichts-ID en de sjabloon aanpakken. Eerst berekent het model de gezichtsoriëntatiepunten van de face_id en de sjabloonafbeelding, waarna het model de affiene transformatiematrix bepaalt die zal worden gebruikt om de gezichtsoriëntatiepunten van de sjabloonafbeelding uit te lijnen met de face_id-afbeelding. De resulterende afbeelding behoudt dezelfde oriëntatiepunten als de face_id-afbeelding en wordt ook uitgelijnd met de sjabloonafbeelding.

Gezichtszekering: Face Fuse is een nieuwe aanpak die wordt gebruikt om de grensartefacten te corrigeren die het resultaat zijn van het inschilderen van maskers, en het omvat de rectificatie van artefacten met behulp van het ControlNet-framework. Dankzij deze methode kan het EasyPhoto-framework zorgen voor het behoud van harmonieuze randen en zo uiteindelijk het proces van beeldgeneratie begeleiden. Het facefusion-algoritme combineert verder het roop-beeld (grondwaarheidsgebruikersafbeeldingen) en de sjabloon, waardoor het resulterende gefuseerde beeld een betere stabilisatie van de randgrenzen kan vertonen, wat vervolgens leidt tot een verbeterde output tijdens de eerste diffusiefase.
ControlNet begeleide validatie: Omdat de LoRA-modellen niet zijn getraind met behulp van het ControlNet-framework, kan het gebruik ervan tijdens het inferentieproces van invloed zijn op het vermogen van het LoRA-model om de identiteiten te behouden. Om de generalisatiemogelijkheden van EasyPhoto te verbeteren, houdt het raamwerk rekening met de invloed van het ControlNet-raamwerk en bevat het LoRA-modellen uit verschillende stadia.

Eerste verspreiding

De eerste diffusiefase gebruikt de sjabloonafbeelding om een afbeelding te genereren met een unieke ID die lijkt op de ingevoerde gebruikers-ID. Het invoerbeeld is een samensmelting van het gebruikersinvoerbeeld en het sjabloonbeeld, terwijl het gekalibreerde gezichtsmasker het invoermasker is. Om de controle over het genereren van afbeeldingen verder te vergroten, integreert het EasyPhoto-framework drie ControlNet-eenheden waarbij de eerste ControlNet-eenheid zich richt op de controle van de gefuseerde afbeeldingen, de tweede ControlNet-eenheid de kleuren van de gefuseerde afbeelding bestuurt en de laatste ControlNet-eenheid de openpose is. (real-time menselijke posecontrole voor meerdere personen) van de vervangen afbeelding die niet alleen de gezichtsstructuur van de sjabloonafbeelding bevat, maar ook de gezichtsidentiteit van de gebruiker.

Tweede verspreiding

In de tweede diffusiefase worden de artefacten nabij de grens van het gezicht verfijnd en verfijnd, waardoor gebruikers de flexibiliteit krijgen om een specifiek gebied in het beeld te maskeren in een poging de effectiviteit van de generatie binnen dat specifieke gebied te vergroten. In deze fase combineert het raamwerk het uitvoerbeeld verkregen uit de eerste diffusiefase met het groepsbeeld of het resultaat van het beeld van de gebruiker, waardoor het invoerbeeld voor de tweede diffusiefase wordt gegenereerd. Over het geheel genomen speelt de tweede diffusiefase een cruciale rol bij het verbeteren van de algehele kwaliteit en de details van het gegenereerde beeld.

Multi-gebruikers-ID's

Een van de hoogtepunten van EasyPhoto is de ondersteuning voor het genereren van meerdere gebruikers-ID's, en de onderstaande afbeelding toont de pijplijn van het interferentieproces voor meerdere gebruikers-ID's in het EasyPhoto-framework.

Om ondersteuning te bieden voor het genereren van ID's voor meerdere gebruikers, voert het EasyPhoto-framework eerst gezichtsdetectie uit op de interferentiesjabloon. Deze interferentiesjablonen worden vervolgens opgesplitst in talloze maskers, waarbij elk masker slechts één gezicht bevat en de rest van het beeld in het wit wordt gemaskeerd, waardoor het genereren van meerdere gebruikers-ID's wordt opgebroken in een eenvoudige taak van het genereren van individuele gebruikers-ID's. Zodra het raamwerk de gebruikers-ID-afbeeldingen genereert, worden deze afbeeldingen samengevoegd in de inferentiesjabloon, waardoor een naadloze integratie van de sjabloonafbeeldingen met de gegenereerde afbeeldingen wordt vergemakkelijkt, wat uiteindelijk resulteert in een afbeelding van hoge kwaliteit.

Experimenten en resultaten

Nu we inzicht hebben in het EasyPhoto-framework, is het tijd om de prestaties van het EasyPhoto-framework te onderzoeken.

De bovenstaande afbeelding wordt gegenereerd door de EasyPhoto-plug-in en gebruikt een op stijl gebaseerd SD-model voor het genereren van afbeeldingen. Zoals u kunt zien, zien de gegenereerde afbeeldingen er realistisch uit en zijn ze behoorlijk nauwkeurig.

De hierboven toegevoegde afbeelding wordt gegenereerd door het EasyPhoto-framework met behulp van een op Comic Style gebaseerd SD-model. Zoals u kunt zien, zien de stripfoto's en de realistische foto's er behoorlijk realistisch uit en lijken ze sterk op de invoerafbeelding op basis van de gebruikersprompts of vereisten.

De hieronder toegevoegde afbeelding is gegenereerd door het EasyPhoto-framework door gebruik te maken van een Multi-Person-sjabloon. Zoals duidelijk te zien is, zijn de gegenereerde afbeeldingen duidelijk en nauwkeurig en lijken ze op de originele afbeelding.

Met behulp van EasyPhoto kunnen gebruikers nu een breed scala aan AI-portretten genereren, of meerdere gebruikers-ID's genereren met behulp van bewaarde sjablonen, of het SD-model gebruiken om gevolgtrekkingssjablonen te genereren. De hierboven toegevoegde afbeeldingen demonstreren de mogelijkheden van het EasyPhoto-framework bij het produceren van diverse en hoogwaardige AI-foto's.

Conclusie

In dit artikel hebben we het gehad over EasyPhoto, een nieuwe WebUI-plug-in waarmee eindgebruikers AI-portretten en afbeeldingen kunnen genereren. De EasyPhoto WebUI-plug-in genereert AI-portretten met behulp van willekeurige sjablonen, en de huidige implicaties van de EasyPhoto WebUI ondersteunen verschillende fotostijlen en meerdere aanpassingen. Om de mogelijkheden van EasyPhoto verder te verbeteren, hebben gebruikers bovendien de flexibiliteit om afbeeldingen te genereren met behulp van het SDXL-model om bevredigender, nauwkeurigere en diversere afbeeldingen te genereren. Het EasyPhoto-framework maakt gebruik van een stabiel diffusiebasismodel in combinatie met een vooraf getraind LoRA-model dat beelduitvoer van hoge kwaliteit produceert.

Geïnteresseerd in beeldgeneratoren? We bieden ook een lijst met de Beste AI Headshot-generatoren en Beste AI-beeldgeneratoren die gemakkelijk te gebruiken zijn en geen technische expertise vereisen.

Gerelateerde onderwerpen:makkelijke foto

ChatDev: communicatieve agenten voor softwareontwikkeling

Mis het niet

De strategische uitbreiding van Google op het gebied van AI: een inzet van $ 2 miljard op Anthropic

Kunal Kejriwal

"Een ingenieur van beroep, een schrijver in hart en nieren". Kunal is een technisch schrijver met een diepe liefde voor en begrip van AI en ML, toegewijd aan het vereenvoudigen van complexe concepten op deze gebieden door middel van zijn boeiende en informatieve documentatie.

Verenig.AI

EasyPhoto: uw persoonlijke AI-fotogenerator

Artificial Intelligence

EasyPhoto: uw persoonlijke AI-fotogenerator

Inhoudsopgave

Een inleiding tot EasyPhoto en stabiele diffusie

EasyPhoto: Architectuur en opleiding