talon EasyPhoto : votre générateur de photos personnel IA - Unite.AI
Suivez nous sur

Intelligence artificielle

EasyPhoto : votre générateur de photos personnel IA

mm
Le kit de préparation mis à jour on
EasyPhoto : votre générateur personnel de portraits IA

Diffusion stable L'interface utilisateur Web, ou SD-WebUI, est un projet complet pour les modèles de diffusion stable qui utilise la bibliothèque Gradio pour fournir une interface de navigateur. Aujourd'hui, nous allons parler d'EasyPhoto, un plugin WebUI innovant permettant aux utilisateurs finaux de générer des portraits et des images IA. Le plugin EasyPhoto WebUI crée des portraits IA à l'aide de divers modèles, prenant en charge différents styles de photo et plusieurs modifications. De plus, pour améliorer encore les capacités d'EasyPhoto, les utilisateurs peuvent générer des images à l'aide du modèle SDXL pour des résultats plus satisfaisants, précis et diversifiés. Commençons.

Une introduction à EasyPhoto et à la diffusion stable

Le framework Stable Diffusion est un framework de génération basé sur la diffusion populaire et robuste utilisé par les développeurs pour générer des images réalistes basées sur des descriptions de texte d'entrée. Grâce à ses capacités, le framework Stable Diffusion offre un large éventail d'applications, notamment l'impression d'images, l'inpainting d'images et la traduction d'image à image. L'interface utilisateur Web de diffusion stable, ou SD-WebUI, se distingue comme l'une des applications les plus populaires et les plus connues de ce framework. Il dispose d'une interface de navigateur construite sur la bibliothèque Gradio, fournissant une interface interactive et conviviale pour les modèles de diffusion stable. Pour améliorer encore le contrôle et la convivialité de la génération d’images, SD-WebUI intègre de nombreuses applications Stable Diffusion.

En raison de la commodité offerte par le framework SD-WebUI, les développeurs du framework EasyPhoto ont décidé de le créer comme un plugin Web plutôt que comme une application à part entière. Contrairement aux méthodes existantes qui souffrent souvent de perte d'identité ou introduisent des caractéristiques irréalistes dans les images, le framework EasyPhoto exploite les capacités d'image à image des modèles de diffusion stable pour produire des images précises et réalistes. Les utilisateurs peuvent facilement installer le framework EasyPhoto en tant qu'extension au sein de l'interface Web, améliorant ainsi la convivialité et l'accessibilité à un plus large éventail d'utilisateurs. Le framework EasyPhoto permet aux utilisateurs de générer des images guidées par l'identité, de haute qualité et portraits IA réalistes qui ressemblent beaucoup à l’identité d’entrée.

Tout d'abord, le framework EasyPhoto demande aux utilisateurs de créer leur sosie numérique en téléchargeant quelques images pour former en ligne un modèle de visage LoRA ou d'adaptation de bas rang. Le cadre LoRA affine rapidement les modèles de diffusion en utilisant une technologie d'adaptation de bas rang. Ce processus permet au modèle basé de comprendre les informations d'identification d'utilisateurs spécifiques. Les modèles formés sont ensuite fusionnés et intégrés dans le modèle de base de diffusion stable pour les interférences. De plus, pendant le processus d'interférence, le modèle utilise des modèles de diffusion stables pour tenter de repeindre les régions du visage dans le modèle d'interférence, et la similarité entre les images d'entrée et de sortie est vérifiée à l'aide des différentes unités ControlNet. 

Le framework EasyPhoto déploie également un processus de diffusion en deux étapes pour résoudre les problèmes potentiels tels que les artefacts de limites et la perte d'identité, garantissant ainsi que les images générées minimisent les incohérences visuelles tout en préservant l'identité de l'utilisateur. De plus, le pipeline d'interférences dans le framework EasyPhoto ne se limite pas seulement à générer des portraits, mais il peut également être utilisé pour générer tout ce qui est lié à l'identité de l'utilisateur. Cela implique qu'une fois que vous avez formé le Modèle LoRA pour un identifiant particulier, vous pouvez générer un large éventail d’images IA, et ainsi avoir des applications répandues, y compris des essais virtuels. 

Pour résumer, le framework EasyPhoto

  1. Propose une nouvelle approche pour entraîner le modèle LoRA en incorporant plusieurs modèles LoRA pour maintenir la fidélité faciale des images générées. 
  2. Utilise diverses méthodes d'apprentissage par renforcement pour optimiser les modèles LoRA pour les récompenses d'identité faciale, ce qui contribue encore à améliorer la similarité des identités entre les images d'entraînement et les résultats générés. 
  3. Propose un processus de diffusion basé sur l'inpaint en deux étapes qui vise à générer des photos IA avec une esthétique et une ressemblance élevées. 

EasyPhoto : Architecture & Formation

La figure suivante montre le processus de formation du framework EasyPhoto AI. 

Comme on peut le voir, le framework demande d'abord aux utilisateurs de saisir les images de formation, puis effectue une détection de visage pour détecter l'emplacement des visages. Une fois que le framework détecte le visage, il recadre l'image d'entrée en utilisant un rapport spécifique prédéfini qui se concentre uniquement sur la région du visage. Le framework déploie ensuite un modèle d'embellissement de la peau et de détection de saillance pour obtenir une image d'entraînement du visage propre et claire. Ces deux modèles jouent un rôle crucial dans l'amélioration de la qualité visuelle du visage, et garantissent également que les informations d'arrière-plan ont été supprimées et que l'image d'entraînement contient principalement le visage. Enfin, le framework utilise ces images traitées et ces invites de saisie pour entraîner le modèle LoRA, lui donnant ainsi la capacité de comprendre plus efficacement et plus précisément les caractéristiques faciales spécifiques à l'utilisateur. 

De plus, pendant la phase de formation, le framework comprend une étape de validation critique, dans laquelle le framework calcule l'écart d'identification du visage entre l'image saisie par l'utilisateur et l'image de vérification générée par le modèle LoRA formé. L'étape de validation est un processus fondamental qui joue un rôle clé dans la réalisation de la fusion des modèles LoRA, garantissant à terme que les cadre LoRA formé se transforme en un sosie ou en une représentation numérique précise de l'utilisateur. De plus, l'image de vérification qui a le score face_id optimal sera sélectionnée comme image face_id, et cette image face_id sera ensuite utilisée pour améliorer la similarité d'identité de la génération d'interférences. 

En progressant, sur la base du processus d'ensemble, le cadre entraîne les modèles LoRA, l'estimation de la vraisemblance étant l'objectif principal, tandis que la préservation de la similarité de l'identité faciale est l'objectif en aval. Pour résoudre ce problème, le framework EasyPhoto utilise des techniques d'apprentissage par renforcement pour optimiser directement l'objectif en aval. En conséquence, les caractéristiques du visage apprises par les modèles LoRA affichent une amélioration qui conduit à une similarité accrue entre les résultats générés par le modèle, et démontre également la généralisation entre les modèles. 

Processus d'interférence

La figure suivante montre le processus d'interférence pour un ID utilisateur individuel dans le cadre EasyPhoto et est divisée en trois parties.

  • Prétraitement du visage pour obtenir la référence ControlNet et l’image d’entrée prétraitée. 
  • Première diffusion cela aide à générer des résultats grossiers qui ressemblent à la saisie de l'utilisateur. 
  • Deuxième diffusion qui corrige les artefacts de limite, rendant ainsi les images plus précises et plus réalistes. 

Pour l'entrée, le framework prend une image face_id (générée lors de la validation de la formation en utilisant le score face_id optimal) et un modèle d'interférence. Le résultat est un portrait très détaillé, précis et réaliste de l'utilisateur, et ressemble étroitement à l'identité et à l'apparence unique de l'utilisateur sur la base du modèle d'inférence. Examinons en détail ces processus.

Prétraitement du visage

Un moyen de générer un portrait IA basé sur un modèle d’interférence sans raisonnement conscient consiste à utiliser le modèle SD pour peindre la région du visage dans le modèle d’interférence. De plus, l'ajout du framework ControlNet au processus améliore non seulement la préservation de l'identité de l'utilisateur, mais améliore également la similarité entre les images générées. Cependant, l'utilisation directe de ControlNet pour l'inpainting régional peut introduire des problèmes potentiels pouvant inclure

  • Incohérence entre l'entrée et l'image générée : Il est évident que les points clés de l'image modèle ne sont pas compatibles avec les points clés de l'image face_id, c'est pourquoi l'utilisation de ControlNet avec l'image face_id comme référence peut entraîner des incohérences dans la sortie. 
  • Défauts dans la région Inpaint : Masquer une région, puis la peindre avec un nouveau visage peut entraîner des défauts visibles, en particulier le long de la limite de peinture, qui auront non seulement un impact sur l'authenticité de l'image générée, mais affecteront également négativement le réalisme de l'image. 
  • Perte d'identité par Control Net : Étant donné que le processus de formation n'utilise pas le framework ControlNet, l'utilisation de ControlNet pendant la phase d'interférence peut affecter la capacité des modèles LoRA formés à préserver l'identité de l'identifiant utilisateur d'entrée. 

Pour résoudre les problèmes mentionnés ci-dessus, le framework EasyPhoto propose trois procédures. 

  • Aligner et coller : En utilisant un algorithme de collage de visage, le framework EasyPhoto vise à résoudre le problème de l'inadéquation des repères faciaux entre l'identifiant du visage et le modèle. Tout d'abord, le modèle calcule les repères faciaux de face_id et de l'image modèle, après quoi le modèle détermine la matrice de transformation affine qui sera utilisée pour aligner les repères faciaux de l'image modèle avec l'image face_id. L'image résultante conserve les mêmes repères que l'image face_id et s'aligne également sur l'image modèle. 
  • Fusible facial : Face Fuse est une nouvelle approche utilisée pour corriger les artefacts de limites résultant de l'inpainting de masque, et elle implique la rectification des artefacts à l'aide du framework ControlNet. La méthode permet au framework EasyPhoto d'assurer la préservation des bords harmonieux, et ainsi de guider finalement le processus de génération d'images. L'algorithme de fusion de visage fusionne en outre l'image roop (images utilisateur de vérité terrain) et le modèle, ce qui permet à l'image fusionnée résultante de présenter une meilleure stabilisation des limites des bords, ce qui conduit ensuite à une sortie améliorée lors de la première étape de diffusion. 
  • Validation guidée ControlNet : Étant donné que les modèles LoRA n'ont pas été formés à l'aide du framework ControlNet, son utilisation pendant le processus d'inférence pourrait affecter la capacité du modèle LoRA à préserver les identités. Afin d'améliorer les capacités de généralisation d'EasyPhoto, le framework prend en compte l'influence du framework ControlNet et intègre des modèles LoRA de différentes étapes. 

Première diffusion

La première étape de diffusion utilise l'image modèle pour générer une image avec un identifiant unique qui ressemble à l'identifiant utilisateur d'entrée. L'image d'entrée est une fusion de l'image d'entrée utilisateur et de l'image modèle, tandis que le masque facial calibré est le masque de saisie. Pour augmenter encore le contrôle sur la génération d'images, le framework EasyPhoto intègre trois unités ControlNet où la première unité ControlNet se concentre sur le contrôle des images fusionnées, la deuxième unité ControlNet contrôle les couleurs de l'image fusionnée et l'unité ControlNet finale est la pose ouverte. (contrôle de pose humaine multi-personnes en temps réel) de l'image remplacée qui contient non seulement la structure faciale de l'image modèle, mais également l'identité faciale de l'utilisateur.

Deuxième diffusion

Lors de la deuxième étape de diffusion, les artefacts proches de la limite du visage sont affinés et ajustés, tout en offrant aux utilisateurs la possibilité de masquer une région spécifique de l'image dans le but d'améliorer l'efficacité de la génération dans cette zone dédiée. À ce stade, le framework fusionne l'image de sortie obtenue à partir de la première étape de diffusion avec l'image du groupe ou le résultat de l'image de l'utilisateur, générant ainsi l'image d'entrée pour la deuxième étape de diffusion. Dans l'ensemble, la deuxième étape de diffusion joue un rôle crucial dans l'amélioration de la qualité globale et des détails de l'image générée. 

ID multi-utilisateurs

L'un des points forts d'EasyPhoto est sa prise en charge de la génération de plusieurs identifiants utilisateur, et la figure ci-dessous montre le pipeline du processus d'interférence pour les identifiants multi-utilisateurs dans le cadre EasyPhoto. 

Pour prendre en charge la génération d'ID multi-utilisateurs, le framework EasyPhoto effectue d'abord la détection des visages sur le modèle d'interférence. Ces modèles d'interférence sont ensuite divisés en plusieurs masques, où chaque masque contient un seul visage et le reste de l'image est masqué en blanc, divisant ainsi la génération d'ID multi-utilisateurs en une tâche simple de génération d'ID utilisateur individuels. Une fois que le framework génère les images d'identification utilisateur, ces images sont fusionnées dans le modèle d'inférence, facilitant ainsi une intégration transparente des images modèles avec les images générées, ce qui aboutit finalement à une image de haute qualité. 

Expériences et résultats

Maintenant que nous comprenons le framework EasyPhoto, il est temps pour nous d'explorer les performances du framework EasyPhoto. 

L'image ci-dessus est générée par le plugin EasyPhoto et utilise un modèle SD basé sur le style pour la génération d'image. Comme on peut le constater, les images générées semblent réalistes et assez précises. 

L'image ajoutée ci-dessus est générée par le framework EasyPhoto à l'aide d'un modèle SD basé sur Comic Style. Comme on peut le voir, les photos comiques et les photos réalistes semblent assez réalistes et ressemblent étroitement à l'image d'entrée sur la base des invites ou des exigences de l'utilisateur. 

L'image ajoutée ci-dessous a été générée par le framework EasyPhoto en utilisant un modèle multi-personne. Comme on peut le voir clairement, les images générées sont claires, précises et ressemblent à l’image originale. 

Avec l'aide d'EasyPhoto, les utilisateurs peuvent désormais générer un large éventail de portraits IA, générer plusieurs identifiants utilisateur à l'aide de modèles préservés, ou utiliser le modèle SD pour générer des modèles d'inférence. Les images ajoutées ci-dessus démontrent la capacité du framework EasyPhoto à produire des images IA diverses et de haute qualité.

Conclusion

Dans cet article, nous avons parlé d'EasyPhoto, un nouveau plugin WebUI qui permet aux utilisateurs finaux de générer des portraits et des images IA. Le plugin EasyPhoto WebUI génère des portraits IA à l'aide de modèles arbitraires, et les implications actuelles d'EasyPhoto WebUI prennent en charge différents styles de photo et plusieurs modifications. De plus, pour améliorer encore les capacités d'EasyPhoto, les utilisateurs ont la possibilité de générer des images à l'aide du modèle SDXL afin de générer des images plus satisfaisantes, plus précises et plus diversifiées. Le framework EasyPhoto utilise un modèle de base de diffusion stable couplé à un modèle LoRA pré-entraîné qui produit des sorties d'images de haute qualité.

Intéressé par les générateurs d’images ? Nous fournissons également une liste des Meilleurs générateurs de headshots IA et par Meilleurs générateurs d'images IA qui sont faciles à utiliser et ne nécessitent aucune expertise technique.

« Ingénieur de profession, écrivain de cœur ». Kunal est un rédacteur technique avec un amour et une compréhension profonds de l'IA et du ML, dédié à la simplification de concepts complexes dans ces domaines grâce à sa documentation engageante et informative.