Intelligence artificielle

EasyPhoto : Votre Générateur de Photos AI Personnel

mm
EasyPhoto : Your Personal AI Portrait Generator

Stable Diffusion Web User Interface, ou SD-WebUI, est un projet complet pour les modèles de Stable Diffusion qui utilise la bibliothèque Gradio pour fournir une interface navigateur. Aujourd’hui, nous allons parler d’EasyPhoto, un plugin WebUI innovant qui permet aux utilisateurs finaux de générer des portraits et des images AI. Le plugin WebUI EasyPhoto crée des portraits AI en utilisant divers modèles, en prenant en charge différents styles de photos et de multiples modifications. De plus, pour améliorer les capacités d’EasyPhoto, les utilisateurs peuvent générer des images en utilisant le modèle SDXL pour obtenir des résultats plus satisfaisants, plus précis et plus diversifiés. Commençons.

Introduction à EasyPhoto et à la Diffusion Stable

Le cadre de la diffusion stable est un cadre de génération de diffusion basé sur la popularité et la robustesse utilisé par les développeurs pour générer des images réalistes en fonction de descriptions de texte d’entrée. Grâce à ses capacités, le cadre de la diffusion stable se caractérise par une large gamme d’applications, notamment la peinture d’images, la peinture d’images et la traduction d’images. L’interface utilisateur Web de la diffusion stable, ou SD-WebUI, se démarque comme l’une des applications les plus populaires et les plus connues de ce cadre. Elle présente une interface navigateur construite sur la bibliothèque Gradio, offrant une interface interactive et conviviale pour les modèles de diffusion stable. Pour améliorer encore le contrôle et la convivialité de la génération d’images, la SD-WebUI intègre de nombreuses applications de diffusion stable.

Grâce à la commodité offerte par le cadre de la SD-WebUI, les développeurs du cadre EasyPhoto ont décidé de le créer en tant que plugin Web plutôt qu’en tant qu’application complète. Contrairement aux méthodes existantes qui souffrent souvent d’une perte d’identité ou introduisent des caractéristiques irréalistes dans les images, le cadre EasyPhoto utilise les capacités d’image à image des modèles de diffusion stable pour produire des images précises et réalistes. Les utilisateurs peuvent facilement installer le cadre EasyPhoto en tant qu’extension dans la WebUI, améliorant ainsi la convivialité et l’accessibilité pour un large éventail d’utilisateurs. Le cadre EasyPhoto permet aux utilisateurs de générer des portraits AI guidés par l’identité, de haute qualité et réalistes qui ressemblent étroitement à l’identité d’entrée.

Tout d’abord, le cadre EasyPhoto demande aux utilisateurs de créer leur double numérique en téléchargeant quelques images pour former un modèle LoRA ou une adaptation de bas rang en ligne. Le cadre LoRA affine rapidement les modèles de diffusion en utilisant la technologie d’adaptation de bas rang. Ce processus permet au modèle de base de comprendre les informations d’identité des utilisateurs spécifiques. Les modèles formés sont ensuite fusionnés et intégrés dans le modèle de base de diffusion stable pour l’interférence. De plus, pendant le processus d’interférence, le modèle utilise des modèles de diffusion stable pour essayer de repeindre les régions faciales dans le modèle d’interférence, et la similarité entre les images d’entrée et de sortie est vérifiée à l’aide des différentes unités ControlNet.

Le cadre EasyPhoto déploie également un processus de diffusion en deux étapes pour résoudre les problèmes potentiels tels que les artefacts de limite et la perte d’identité, garantissant ainsi que les images générées minimisent les incohérences visuelles tout en conservant l’identité de l’utilisateur. De plus, le pipeline d’interférence dans le cadre EasyPhoto n’est pas limité à la génération de portraits, mais peut également être utilisé pour générer tout ce qui est lié à l’identité de l’utilisateur. Cela signifie que, une fois que vous avez formé le modèle LoRA pour une identité spécifique, vous pouvez générer un large éventail de photos AI, et il peut donc avoir des applications généralisées, notamment les essais virtuels.

Pour résumer, le cadre EasyPhoto

  1. Propose une approche novatrice pour former le modèle LoRA en incorporant plusieurs modèles LoRA pour conserver la fidélité faciale des images générées.
  2. Utilise diverses méthodes d’apprentissage par renforcement pour optimiser les modèles LoRA pour les récompenses d’identité faciale qui aident à améliorer la similarité des identités entre les images de formation et les résultats générés.
  3. Propose un processus de diffusion en deux étapes basé sur la peinture qui vise à générer des photos AI avec une haute esthétique et une ressemblance.

EasyPhoto : Architecture et Formation

La figure suivante montre le processus de formation du cadre AI EasyPhoto.

Comme on peut le voir, le cadre demande d’abord aux utilisateurs de saisir les images de formation, puis effectue une détection de visage pour détecter les emplacements du visage. Une fois que le cadre détecte le visage, il recadre l’image d’entrée en utilisant un rapport spécifique prédéfini qui se concentre uniquement sur la région faciale. Le cadre déploie ensuite un modèle de beauté de la peau et un modèle de détection de la salience pour obtenir une image de formation de visage propre et claire. Ces deux modèles jouent un rôle crucial pour améliorer la qualité visuelle du visage et garantir que les informations de fond ont été supprimées et que l’image de formation contient principalement le visage. Enfin, le cadre utilise ces images traitées et les invites de formation pour former le modèle LoRA, lui conférant ainsi la capacité de comprendre les caractéristiques faciales spécifiques à l’utilisateur de manière plus efficace et plus précise.

De plus, pendant la phase de formation, le cadre inclut une étape de validation critique, dans laquelle le cadre calcule l’écart d’identité de visage entre l’image d’entrée de l’utilisateur et l’image de vérification générée par le modèle LoRA formé. L’étape de validation est un processus fondamental qui joue un rôle clé pour réaliser la fusion des modèles LoRA, garantissant ainsi que le modèle LoRA formé se transforme en un double numérique, ou une représentation numérique précise de l’utilisateur. De plus, l’image de vérification qui a le score d’identité de visage optimal sera sélectionnée comme image d’identité de visage, et cette image d’identité de visage sera ensuite utilisée pour améliorer la similarité d’identité de la génération d’interférence.

En poursuivant, sur la base du processus d’ensemble, le cadre forme les modèles LoRA avec l’estimation de la probabilité comme objectif principal, tandis que la conservation de la similarité d’identité faciale est l’objectif en aval. Pour résoudre ce problème, le cadre EasyPhoto utilise des techniques d’apprentissage par renforcement pour optimiser l’objectif en aval directement.Par conséquent, les caractéristiques faciales que les modèles LoRA apprennent montrent une amélioration qui conduit à une similarité accrue entre les résultats générés par le modèle et démontre une généralisation à travers les modèles.

Processus d’Interférence

La figure suivante montre le processus d’interférence pour un ID d’utilisateur individuel dans le cadre EasyPhoto, et est divisé en trois parties

  • Prétraitement du Visage pour obtenir la référence ControlNet et l’image d’entrée prétraitée.
  • Première Diffusion qui aide à générer des résultats grossiers qui ressemblent à l’entrée de l’utilisateur.
  • Deuxième Diffusion qui corrige les artefacts de limite, rendant ainsi les images plus précises et plus réalistes.

Pour l’entrée, le cadre prend une image d’identité de visage (générée pendant la validation de la formation en utilisant le score d’identité de visage optimal) et un modèle d’interférence. La sortie est un portrait très détaillé, précis et réaliste de l’utilisateur, et ressemble étroitement à l’identité et à l’apparence unique de l’utilisateur sur la base du modèle d’interférence. Examinons ces processus en détail.

Prétraitement du Visage

Une façon de générer un portrait AI en fonction d’un modèle d’interférence sans raisonnement conscient est d’utiliser le modèle SD pour peindre la région faciale dans le modèle d’interférence. De plus, l’ajout du cadre ControlNet au processus non seulement améliore la conservation de l’identité de l’utilisateur, mais également la similarité entre les images générées. Cependant, l’utilisation directe de ControlNet pour la peinture régionale peut introduire des problèmes potentiels qui peuvent inclure

  • Incohérence entre l’Entrée et l’Image Générée : Il est évident que les points clés de l’image de modèle ne sont pas compatibles avec les points clés de l’image d’identité de visage, ce qui fait que l’utilisation de ControlNet avec l’image d’identité de visage comme référence peut conduire à certaines incohérences dans la sortie.
  • Defauts dans la Région de Peinture : Masquer une région, puis la peindre avec un nouveau visage, peut entraîner des défauts apparents, en particulier le long de la limite de peinture qui n’affectera pas seulement l’authenticité de l’image générée, mais affectera également négativement le réalisme de l’image.
  • Perte d’Identité par Control Net : Puisque le processus de formation n’utilise pas le cadre ControlNet, l’utilisation de ControlNet pendant la phase d’interférence peut affecter la capacité des modèles LoRA formés à conserver l’identité de l’utilisateur.

Pour résoudre les problèmes mentionnés ci-dessus, le cadre EasyPhoto propose trois procédures.

  • Aligner et Coller : En utilisant un algorithme de collage de visage, le cadre EasyPhoto vise à résoudre le problème de non-correspondance entre les repères faciaux entre l’identité de visage et le modèle. Tout d’abord, le modèle calcule les repères faciaux de l’identité de visage et de l’image de modèle, puis détermine la matrice de transformation affine qui sera utilisée pour aligner les repères faciaux de l’image de modèle avec l’identité de visage. L’image résultante conserve les mêmes repères de l’identité de visage et s’aligne également sur l’image de modèle.
  • Fusion de Visage : La fusion de visage est une approche novatrice utilisée pour corriger les artefacts de limite résultant de la peinture de masque, et elle implique la rectification des artefacts en utilisant le cadre ControlNet. La méthode permet au cadre EasyPhoto de garantir la conservation des bords harmonieux et guide ainsi le processus de génération d’images. L’algorithme de fusion de visage fusionne également l’image roop (images de l’utilisateur réel) et le modèle, ce qui permet à l’image fusionnée de présenter une meilleure stabilisation des limites de bord, ce qui conduit à une sortie améliorée pendant la première étape de diffusion.
  • Validation Guidée par ControlNet : Puisque les modèles LoRA n’ont pas été formés en utilisant le cadre ControlNet, l’utilisation de ce dernier pendant la phase d’interférence peut affecter la capacité du modèle LoRA à conserver les identités. Pour améliorer les capacités de généralisation d’EasyPhoto, le cadre prend en compte l’influence du cadre ControlNet et intègre des modèles LoRA de différentes étapes.

Première Diffusion

La première étape de diffusion utilise l’image de modèle pour générer une image avec une identité unique qui ressemble à l’identité de l’utilisateur d’entrée. L’image d’entrée est une fusion de l’image d’entrée de l’utilisateur et de l’image de modèle, tandis que le masque de visage calibré est le masque d’entrée. Pour accroître encore le contrôle de la génération d’images, le cadre EasyPhoto intègre trois unités ControlNet où la première unité ControlNet se concentre sur le contrôle des images fusionnées, la deuxième unité ControlNet contrôle les couleurs de l’image fusionnée, et la dernière unité ControlNet est l’openpose (contrôle de la pose humaine en temps réel) de l’image remplacée qui contient non seulement la structure faciale de l’image de modèle, mais également l’identité faciale de l’utilisateur.

Deuxième Diffusion

À la deuxième étape de diffusion, les artefacts près de la limite du visage sont raffinés et affinés, tout en offrant aux utilisateurs la flexibilité de masquer une région spécifique de l’image pour améliorer l’efficacité de la génération dans cette zone dédiée. À cette étape, le cadre fusionne l’image de sortie obtenue de la première étape de diffusion avec l’image roop ou le résultat de l’image de l’utilisateur, générant ainsi l’image d’entrée pour la deuxième étape de diffusion. Dans l’ensemble, la deuxième étape de diffusion joue un rôle crucial pour améliorer la qualité globale et les détails de l’image générée.

Identités de Visage Multiples

L’un des points forts d’EasyPhoto est son soutien à la génération de plusieurs identités de visage, et la figure ci-dessous montre le pipeline du processus d’interférence pour les identités de visage multiples dans le cadre EasyPhoto.

Pour prendre en charge la génération de plusieurs identités de visage, le cadre EasyPhoto effectue d’abord une détection de visage sur l’image de modèle d’interférence. Ces images de modèle d’interférence sont ensuite divisées en plusieurs masques, où chaque masque contient uniquement un visage, et le reste de l’image est masqué en blanc, ce qui transforme la génération de plusieurs identités de visage en une tâche simple de génération d’identités de visage individuelles. Une fois que le cadre génère les images d’identité de visage, celles-ci sont fusionnées dans l’image de modèle d’interférence, facilitant ainsi une intégration transparente des images de modèle avec les images générées, ce qui aboutit à une image de haute qualité.

Expériences et Résultats

Maintenant que nous avons une compréhension du cadre EasyPhoto, il est temps pour nous d’explorer les performances du cadre EasyPhoto.

L’image ci-dessus est générée par le plugin EasyPhoto, et elle utilise un modèle SD basé sur le style pour la génération d’images. Comme on peut le voir, les images générées sont réalistes et très précises.

L’image ci-dessus est générée par le cadre EasyPhoto en utilisant un modèle SD basé sur le style de bande dessinée. Comme on peut le voir, les photos de bande dessinée et les photos réalistes sont très réalistes et ressemblent étroitement à l’image d’entrée en fonction des invites de l’utilisateur ou des exigences.

L’image ci-dessous a été générée par le cadre EasyPhoto en utilisant un modèle à plusieurs personnes. Comme on peut le voir clairement, les images générées sont claires, précises et ressemblent à l’image originale.

Avec l’aide d’EasyPhoto, les utilisateurs peuvent maintenant générer un large éventail de portraits AI, générer plusieurs identités de visage en utilisant des modèles préservés, ou utiliser le modèle SD pour générer des modèles d’interférence. Les images ci-dessus démontrent la capacité du cadre EasyPhoto à produire des images AI diversifiées et de haute qualité.

Conclusion

Dans cet article, nous avons parlé d’EasyPhoto, un plugin WebUI innovant qui permet aux utilisateurs finaux de générer des portraits et des images AI. Le plugin WebUI EasyPhoto génère des portraits AI en utilisant des modèles arbitraires, et les implications actuelles du plugin WebUI EasyPhoto prennent en charge différents styles de photos et de multiples modifications. De plus, pour améliorer les capacités d’EasyPhoto, les utilisateurs ont la flexibilité de générer des images en utilisant le modèle SDXL pour obtenir des résultats plus satisfaisants, plus précis et plus diversifiés. Le cadre EasyPhoto utilise un modèle de base de diffusion stable couplé avec un modèle LoRA préformé qui produit des sorties d’images de haute qualité.

Intéressé par les générateurs d’images ? Nous proposons également une liste des meilleurs générateurs de photos de profil AI et des meilleurs générateurs d’images AI qui sont faciles à utiliser et ne nécessitent aucune expertise technique.

Un ingĂ©nieur de profession, un Ă©crivain de cƓur. Kunal est un rĂ©dacteur technique avec une profonde affection et une comprĂ©hension de l'IA et du ML, dĂ©diĂ© Ă  simplifier les concepts complexes dans ces domaines grĂące Ă  sa documentation engageante et informative.