Intelligence Artificielle
Ădition d'images sĂ©mantiques de haute prĂ©cision avec EditGAN

Réseaux d'adversaires génératifs ou les GAN bénéficient de nouvelles applications dans le secteur de l'édition d'images. Au cours des derniers mois, EditGAN gagne en popularité dans l'industrie de l'IA/ML car il s'agit d'une nouvelle méthode d'édition d'images sémantiques de haute précision et de haute qualité.
Nous parlerons du modĂšle EditGAN en dĂ©tail et vous expliquerons pourquoi il pourrait s'avĂ©rer ĂȘtre une Ă©tape importante dans l'industrie de l'Ă©dition d'images sĂ©mantiques.
Alors commençons. Mais avant de savoir ce qu'est EditGAN, il est important pour nous de comprendre quelle est l'importance d'EditGAN et pourquoi il s'agit d'un pas en avant important.
Pourquoi EditGAN ?
Bien que les architectures GAN traditionnelles aient aidĂ© le secteur de lâĂ©dition dâimages basĂ©e sur lâIA Ă progresser de maniĂšre significative, la crĂ©ation dâune architecture GAN Ă partir de zĂ©ro prĂ©sente des dĂ©fis majeurs.
- Pendant la phase de formation, une architecture GAN nécessite une grande quantité de données étiquetées avec des annotations de segmentation sémantique.
- Ils ne sont capables de fournir qu'un contrĂŽle de haut niveau.
- Et souvent, ils se contentent dâinterpoler entre les images.
On peut observer que mĂȘme si les architectures GAN traditionnelles font le travail, elles ne sont pas efficaces pour un dĂ©ploiement Ă grande Ă©chelle. L'efficacitĂ© mĂ©diocre de l'architecture GAN traditionnelle est la raison pour laquelle EditGAN a Ă©tĂ© introduit par NVIDIA en 2022.
EditGAN est proposé comme une méthode efficace pour une haute précision et une sémantique de haute qualité l'édition d'image avec la capacité de permettre à ses utilisateurs d'éditer des images en modifiant leurs masques de segmentation trÚs détaillés d'une image. L'une des raisons pour lesquelles EditGAN est une méthode évolutive pour les tùches d'édition d'images est son architecture.
Le modÚle EditGAN est construit sur un framework GAN qui modélise conjointement les images et leurs segmentations sémantiques, et ne nécessite qu'une poignée de données de formation étiquetées ou annotées. Les développeurs d'EditGAN ont tenté d'intégrer une image dans l'espace latent du GAN pour modifier efficacement l'image en effectuant une optimisation conditionnelle du code latent conformément à l'édition de segmentation. De plus, pour amortir l'optimisation, le modÚle tente de trouver des « vecteurs d'édition » dans l'espace latent qui réalise les modifications.
L'architecture du framework EditGAN permet au modĂšle d'apprendre un nombre arbitraire de vecteurs d'Ă©dition qui peuvent ensuite ĂȘtre implĂ©mentĂ©s ou appliquĂ©s directement sur d'autres images avec une vitesse et une efficacitĂ© Ă©levĂ©es. De plus, les rĂ©sultats expĂ©rimentaux indiquent qu'EditGAN peut Ă©diter des images avec un niveau de dĂ©tail jamais vu auparavant tout en prĂ©servant au maximum la qualitĂ© de l'image.
Pour résumer pourquoi nous avons besoin d'EditGAN, il s'agit du tout premier framework d'édition d'images basé sur GAN qui offre
- Montage de trÚs haute précision.
- Peut fonctionner avec une poignée de données étiquetées.
- Peut ĂȘtre dĂ©ployĂ© efficacement dans des scĂ©narios en temps rĂ©el.
- Permet la compositionnalité pour plusieurs modifications simultanément.
- Fonctionne sur les images gĂ©nĂ©rĂ©es par le GAN, rĂ©ellement intĂ©grĂ©es et mĂȘme hors domaine.
Ădition d'images sĂ©mantiques de haute prĂ©cision avec EditGAN
StyleGAN2, un framework GAN de pointe pour la synthÚse d'images, est le principal composant de génération d'images d'EditGAN. Le framework StyleGAN2 cartographie les codes latents tirés d'un pool de distribution normale multivariée et les mappe en images réalistes.
StyleGAN2 est un modÚle génératif profond qui a été formé pour synthétiser des images de la plus haute qualité possible ainsi que l'acquisition d'une compréhension sémantique des images modélisées.
Formation et inférence sur la segmentation
Le modÚle EditGAN intÚgre une image dans l'espace latent du GAN à l'aide d'une optimisation et d'un encodeur pour effectuer la segmentation sur une nouvelle image et entraßner la branche de segmentation. Le framework EditGAN continue de s'appuyer sur des travaux antérieurs et entraßne un encodeur pour intégrer les images dans l'espace latent. L'objectif principal ici est de former l'encodeur composé de pertes de construction L2 et LPIPS standard au niveau des pixels à l'aide d'échantillons du GAN et de données de formation réelles. De plus, le modÚle régularise également explicitement l'encodeur en utilisant les codes latents lorsque vous travaillez avec les échantillons GAN.
En conséquence, le modÚle intÚgre les images annotées de l'ensemble de données étiquetées avec segmentation sémantique dans l'espace latent et utilise la perte d'entropie croisée pour entraßner la branche de segmentation du générateur.
Utilisation de l'édition de segmentation pour rechercher la sémantique dans l'espace latent
L'objectif principal d'EditGAN est de tirer parti de la distribution conjointe de segmentations sĂ©mantiques et d'images pour retouche d'image de haute prĂ©cision. Disons que nous avons une image x qui doit ĂȘtre modifiĂ©, de sorte que le modĂšle intĂšgre l'image dans l'espace latent d'EditGAN ou utilise les exemples d'images du modĂšle lui-mĂȘme. La branche de segmentation gĂ©nĂšre alors y ou la segmentation correspondante principalement parce que les images et segmentations RVB partagent les mĂȘmes codes latents w. Les dĂ©veloppeurs peuvent ensuite utiliser n'importe quel outil d'Ă©tiquetage ou de peinture numĂ©rique pour modifier la segmentation et les Ă©diter manuellement selon leurs besoins.
Différentes maniÚres d'éditer pendant l'inférence
Les vecteurs d'Ă©dition d'espace latent obtenus par optimisation peuvent ĂȘtre dĂ©crits comme sĂ©mantiquement significatifs et sont souvent dĂ©mĂȘlĂ©s avec diffĂ©rents attributs. Par consĂ©quent, pour Ă©diter une nouvelle image, le modĂšle peut directement intĂ©grer l'image dans l'espace latent et effectuer directement les mĂȘmes opĂ©rations d'Ă©dition que celles que le modĂšle a apprises prĂ©cĂ©demment, sans refaire l'optimisation Ă partir de zĂ©ro. Il serait prudent de dire que les vecteurs dâĂ©dition appris par le modĂšle amortissent lâoptimisation qui Ă©tait essentielle pour Ă©diter lâimage initialement.
Il convient de noter que les dĂ©veloppeurs n'ont pas encore perfectionnĂ© le dĂ©mĂȘlage et que les vecteurs d'Ă©dition ne donnent souvent pas les meilleurs rĂ©sultats lorsqu'ils sont utilisĂ©s avec d'autres images. Cependant, le problĂšme peut ĂȘtre rĂ©solu en supprimant les artefacts d'Ă©dition d'autres parties de l'image en effectuant quelques Ă©tapes d'optimisation supplĂ©mentaires pendant la durĂ©e du test.
Sur la base de nos apprentissages actuels, le framework EditGAN peut ĂȘtre utilisĂ© pour Ă©diter des images dans trois modes diffĂ©rents.
- Ădition en temps rĂ©el avec des vecteurs d'Ă©dition
Pour les images localisĂ©es et dĂ©mĂȘlĂ©es, le modĂšle Ă©dite les images en appliquant des vecteurs d'Ă©dition appris prĂ©cĂ©demment Ă diffĂ©rentes Ă©chelles, et manipule les images Ă des rythmes interactifs.
- Utilisation du raffinement auto-supervisé pour l'édition vectorielle
Pour Ă©diter des images localisĂ©es qui ne sont pas parfaitement dĂ©mĂȘlĂ©es avec d'autres parties de l'image, le modĂšle initialise l'Ă©dition de l'image Ă l'aide de vecteurs d'Ă©dition prĂ©cĂ©demment appris et supprime les artefacts d'Ă©dition en effectuant quelques Ă©tapes d'optimisation supplĂ©mentaires pendant la durĂ©e du test.
- Ădition basĂ©e sur l'optimisation
Pour effectuer des modifications Ă grande Ă©chelle et spĂ©cifiques Ă une image, le modĂšle effectue une optimisation dĂšs le dĂ©part car les vecteurs d'Ă©dition ne peuvent pas ĂȘtre utilisĂ©s pour effectuer ce type de transferts vers d'autres images.
Mise en Ćuvre
Le framework EditGAN est Ă©valuĂ© sur des images rĂ©parties dans quatre catĂ©gories diffĂ©rentes : voitures, oiseaux, chats et visages. La branche de segmentation du modĂšle est entraĂźnĂ©e en utilisant des paires image-masque de 16, 30, 30, 16 comme donnĂ©es d'entraĂźnement Ă©tiquetĂ©es pour les voitures, les oiseaux, les chats et les visages respectivement. Lorsque l'image doit ĂȘtre modifiĂ©e uniquement par optimisation, ou lorsque le modĂšle tente d'apprendre les vecteurs d'Ă©dition, le modĂšle effectue 100 Ă©tapes d'optimisation Ă l'aide de l'optimiseur Adam.
Pour l'ensemble de données Cat, Car et Faces, le modÚle utilise des images réelles de l'ensemble de test de DatasetGAN qui n'ont pas été utilisées pour entraßner le framework GAN à exécuter la fonctionnalité d'édition. Immédiatement, ces images sont intégrées dans l'espace latent d'EditGAN grùce à l'optimisation et au codage. Pour la catégorie Oiseaux, l'édition est affichée sur les images générées par GAN.
Résultats
Résultats qualitatifs
Résultats dans le domaine
L'image ci-dessus dĂ©montre les performances du framework EditGAN lorsqu'il applique les vecteurs d'Ă©dition prĂ©cĂ©demment appris sur de nouvelles images et affine les images Ă l'aide de 30 Ă©tapes d'optimisation. Ces opĂ©rations d'Ă©dition effectuĂ©es par le framework EditGAN sont dĂ©mĂȘlĂ©es pour toutes les classes, et elles prĂ©servent la qualitĂ© globale des images. En comparant les rĂ©sultats d'EditGAN et d'autres frameworks, on a pu observer que le framework EditGAN surpasse les autres mĂ©thodes en effectuant des modifications complexes et de haute prĂ©cision tout en prĂ©servant l'identitĂ© du sujet et la qualitĂ© de l'image en mĂȘme temps.
Ce qui est Ă©tonnant, c'est que le framework EditGAN peut effectuer des modifications d'une extrĂȘmement haute prĂ©cision, comme la dilatation des pupilles ou la modification des rayons des roues des pneus d'une voiture. De plus, EditGAN peut Ă©galement ĂȘtre utilisĂ© pour modifier les parties sĂ©mantiques d'objets qui ne comportent que quelques pixels, ou il peut Ă©galement ĂȘtre utilisĂ© pour effectuer des modifications Ă grande Ă©chelle sur une image. Il convient de noter que les diffĂ©rentes opĂ©rations d'Ă©dition du framework EditGAN sont capables de gĂ©nĂ©rer des images manipulĂ©es contrairement aux images qui apparaissent dans les donnĂ©es de formation GAN.
Résultats hors domaine
Pour Ă©valuer les performances hors domaine d'EditGAN, le framework a Ă©tĂ© testĂ© sur l'ensemble de donnĂ©es MetFaces. Le modĂšle EditGAN utilise des visages rĂ©els dans le domaine pour crĂ©er des vecteurs d'Ă©dition. Le modĂšle intĂšgre ensuite les portraits MetFaces hors domaine Ă l'aide d'un processus d'optimisation en 100 Ă©tapes, et applique les vecteurs d'Ă©dition via un processus de raffinement auto-supervisĂ© en 30 Ă©tapes. Les rĂ©sultats peuvent ĂȘtre vus dans lâimage suivante.
Résultats quantitatifs
Pour mesurer quantitativement les capacités d'édition d'images d'EditGAN, le modÚle utilise un benchmark d'édition de sourire qui a été introduit pour la premiÚre fois par MaskGAN. Les visages contenant une expression neutre sont remplacés par des visages souriants et les performances sont mesurées sur trois paramÚtres.
- Exactitude sémantique
Le modÚle utilise un classificateur d'attributs de sourire pré-entraßné pour mesurer si les visages dans les images affichent des expressions souriantes aprÚs l'édition.
- Qualité d'image au niveau de la distribution
La distance de début du noyau ou KID et la distance de début Frechet ou FID sont calculées entre l'ensemble de données de test CelebA et 400 images de test éditées.
- Préservation de l'identité
La capacité du modÚle à préserver l'identité des sujets lors de l'édition de l'image est mesurée à l'aide d'un réseau d'extraction de fonctionnalités ArcFace pré-entraßné.
Le tableau ci-dessus compare les performances du framework EditGAN avec d'autres modÚles de base sur le benchmark smile edit. La méthode suivie par le framework EditGAN pour fournir des résultats aussi élevés est comparée sur trois références différentes :
- MasqueGAN
MaskGAN prend des images non souriantes avec leurs masques de segmentation et un masque de segmentation cible souriant comme entrée. Il convient de noter que par rapport à EditGAN, le framework MaskGAN nécessite une grande quantité de données annotées.
- Ădition locale
EditGAN compare également ses performances avec l'édition locale, une méthode utilisée pour regrouper les fonctionnalités du GAN afin d'implémenter l'édition locale, et elle dépend des images de référence.
- InterfaceGAN
Tout comme EditGAN, InterFaceGAN tente également de trouver des vecteurs d'édition dans l'espace latent du modÚle. Cependant, contrairement à EditGAN, le modÚle InterFaceGAN utilise une grande quantité de données annotées, des classificateurs d'attributs auxiliaires et n'a pas une précision d'édition fine.
- StyleGAN2Distillation
Cette méthode crée une approche alternative qui ne nécessite pas nécessairement de véritables intégrations d'images, mais utilise à la place un modÚle vectoriel d'édition pour créer un ensemble de données de formation.
Limites
Parce qu'EditGAN est basĂ© sur le framework GAN, il prĂ©sente la mĂȘme limitation que tout autre modĂšle GAN : il ne peut fonctionner qu'avec des images pouvant ĂȘtre modĂ©lisĂ©es par le GAN. La limitation d'EditGAN Ă travailler avec des images modĂ©lisĂ©es GAN est la principale raison pour laquelle il est difficile de mettre en Ćuvre EditGAN dans diffĂ©rents scĂ©narios. Cependant, il convient de noter que les modifications de haute prĂ©cision d'EditGAN peuvent ĂȘtre facilement transfĂ©rĂ©es vers d'autres images diffĂ©rentes en utilisant des vecteurs d'Ă©dition.
Conclusion
Lâune des principales raisons pour lesquelles GAN nâest pas une norme industrielle dans le domaine de lâĂ©dition dâimages est son caractĂšre pratique limitĂ©. Les frameworks GAN nĂ©cessitent gĂ©nĂ©ralement une grande quantitĂ© de donnĂ©es de formation annotĂ©es, et ils ne renvoient pas souvent une efficacitĂ© et une prĂ©cision Ă©levĂ©es.
EditGAN vise à résoudre les problÚmes présentés par les frameworks GAN conventionnels et tente de devenir une méthode efficace pour l'édition d'images sémantiques de haute qualité et de haute précision. Les résultats jusqu'à présent ont indiqué qu'EditGAN offre effectivement ce qu'il prétend et qu'il fonctionne déjà mieux que certaines des pratiques et modÚles standards actuels de l'industrie.