Suivez nous sur

Édition d'images sĂ©mantiques de haute prĂ©cision avec EditGAN

Intelligence Artificielle

Édition d'images sĂ©mantiques de haute prĂ©cision avec EditGAN

mm

Publié

 on

Une personne tenant le globe dans ses mains tout en se tenant dans les champs.

RĂ©seaux d'adversaires gĂ©nĂ©ratifs ou les GAN bĂ©nĂ©ficient de nouvelles applications dans le secteur de l'Ă©dition d'images. Au cours des derniers mois, EditGAN gagne en popularitĂ© dans l'industrie de l'IA/ML car il s'agit d'une nouvelle mĂ©thode d'Ă©dition d'images sĂ©mantiques de haute prĂ©cision et de haute qualitĂ©. 

Nous parlerons du modĂšle EditGAN en dĂ©tail et vous expliquerons pourquoi il pourrait s'avĂ©rer ĂȘtre une Ă©tape importante dans l'industrie de l'Ă©dition d'images sĂ©mantiques.

Alors commençons. Mais avant de savoir ce qu'est EditGAN, il est important pour nous de comprendre quelle est l'importance d'EditGAN et pourquoi il s'agit d'un pas en avant important. 

Pourquoi EditGAN ?

Bien que les architectures GAN traditionnelles aient aidĂ© le secteur de l’édition d’images basĂ©e sur l’IA Ă  progresser de maniĂšre significative, la crĂ©ation d’une architecture GAN Ă  partir de zĂ©ro prĂ©sente des dĂ©fis majeurs. 

  1. Pendant la phase de formation, une architecture GAN nĂ©cessite une grande quantitĂ© de donnĂ©es Ă©tiquetĂ©es avec des annotations de segmentation sĂ©mantique. 
  2. Ils ne sont capables de fournir qu'un contrĂŽle de haut niveau. 
  3. Et souvent, ils se contentent d’interpoler entre les images. 

On peut observer que mĂȘme si les architectures GAN traditionnelles font le travail, elles ne sont pas efficaces pour un dĂ©ploiement Ă  grande Ă©chelle. L'efficacitĂ© mĂ©diocre de l'architecture GAN traditionnelle est la raison pour laquelle EditGAN a Ă©tĂ© introduit par NVIDIA en 2022. 

EditGAN est proposĂ© comme une mĂ©thode efficace pour une haute prĂ©cision et une sĂ©mantique de haute qualitĂ© l'Ă©dition d'image avec la capacitĂ© de permettre Ă  ses utilisateurs d'Ă©diter des images en modifiant leurs masques de segmentation trĂšs dĂ©taillĂ©s d'une image. L'une des raisons pour lesquelles EditGAN est une mĂ©thode Ă©volutive pour les tĂąches d'Ă©dition d'images est son architecture. 

Le modĂšle EditGAN est construit sur un framework GAN qui modĂ©lise conjointement les images et leurs segmentations sĂ©mantiques, et ne nĂ©cessite qu'une poignĂ©e de donnĂ©es de formation Ă©tiquetĂ©es ou annotĂ©es. Les dĂ©veloppeurs d'EditGAN ont tentĂ© d'intĂ©grer une image dans l'espace latent du GAN pour modifier efficacement l'image en effectuant une optimisation conditionnelle du code latent conformĂ©ment Ă  l'Ă©dition de segmentation. De plus, pour amortir l'optimisation, le modĂšle tente de trouver des « vecteurs d'Ă©dition » dans l'espace latent qui rĂ©alise les modifications. 

L'architecture du framework EditGAN permet au modĂšle d'apprendre un nombre arbitraire de vecteurs d'Ă©dition qui peuvent ensuite ĂȘtre implĂ©mentĂ©s ou appliquĂ©s directement sur d'autres images avec une vitesse et une efficacitĂ© Ă©levĂ©es. De plus, les rĂ©sultats expĂ©rimentaux indiquent qu'EditGAN peut Ă©diter des images avec un niveau de dĂ©tail jamais vu auparavant tout en prĂ©servant au maximum la qualitĂ© de l'image. 

Pour résumer pourquoi nous avons besoin d'EditGAN, il s'agit du tout premier framework d'édition d'images basé sur GAN qui offre

  1. Montage de trĂšs haute prĂ©cision. 
  2. Peut fonctionner avec une poignĂ©e de donnĂ©es Ă©tiquetĂ©es. 
  3. Peut ĂȘtre dĂ©ployĂ© efficacement dans des scĂ©narios en temps rĂ©el. 
  4. Permet la compositionnalitĂ© pour plusieurs modifications simultanĂ©ment. 
  5. Fonctionne sur les images gĂ©nĂ©rĂ©es par le GAN, rĂ©ellement intĂ©grĂ©es et mĂȘme hors domaine. 

Édition d'images sĂ©mantiques de haute prĂ©cision avec EditGAN 

StyleGAN2, un framework GAN de pointe pour la synthĂšse d'images, est le principal composant de gĂ©nĂ©ration d'images d'EditGAN. Le framework StyleGAN2 cartographie les codes latents tirĂ©s d'un pool de distribution normale multivariĂ©e et les mappe en images rĂ©alistes. 

StyleGAN2 est un modĂšle gĂ©nĂ©ratif profond qui a Ă©tĂ© formĂ© pour synthĂ©tiser des images de la plus haute qualitĂ© possible ainsi que l'acquisition d'une comprĂ©hension sĂ©mantique des images modĂ©lisĂ©es. 

Formation et inférence sur la segmentation

Le modĂšle EditGAN intĂšgre une image dans l'espace latent du GAN Ă  l'aide d'une optimisation et d'un encodeur pour effectuer la segmentation sur une nouvelle image et entraĂźner la branche de segmentation. Le framework EditGAN continue de s'appuyer sur des travaux antĂ©rieurs et entraĂźne un encodeur pour intĂ©grer les images dans l'espace latent. L'objectif principal ici est de former l'encodeur composĂ© de pertes de construction L2 et LPIPS standard au niveau des pixels Ă  l'aide d'Ă©chantillons du GAN et de donnĂ©es de formation rĂ©elles. De plus, le modĂšle rĂ©gularise Ă©galement explicitement l'encodeur en utilisant les codes latents lorsque vous travaillez avec les Ă©chantillons GAN. 

En consĂ©quence, le modĂšle intĂšgre les images annotĂ©es de l'ensemble de donnĂ©es Ă©tiquetĂ©es avec segmentation sĂ©mantique dans l'espace latent et utilise la perte d'entropie croisĂ©e pour entraĂźner la branche de segmentation du gĂ©nĂ©rateur. 

Utilisation de l'édition de segmentation pour rechercher la sémantique dans l'espace latent

L'objectif principal d'EditGAN est de tirer parti de la distribution conjointe de segmentations sĂ©mantiques et d'images pour retouche d'image de haute prĂ©cision. Disons que nous avons une image x qui doit ĂȘtre modifiĂ©, de sorte que le modĂšle intĂšgre l'image dans l'espace latent d'EditGAN ou utilise les exemples d'images du modĂšle lui-mĂȘme. La branche de segmentation gĂ©nĂšre alors y ou la segmentation correspondante principalement parce que les images et segmentations RVB partagent les mĂȘmes codes latents w. Les dĂ©veloppeurs peuvent ensuite utiliser n'importe quel outil d'Ă©tiquetage ou de peinture numĂ©rique pour modifier la segmentation et les Ă©diter manuellement selon leurs besoins. 

Différentes maniÚres d'éditer pendant l'inférence

Les vecteurs d'Ă©dition d'espace latent obtenus par optimisation peuvent ĂȘtre dĂ©crits comme sĂ©mantiquement significatifs et sont souvent dĂ©mĂȘlĂ©s avec diffĂ©rents attributs. Par consĂ©quent, pour Ă©diter une nouvelle image, le modĂšle peut directement intĂ©grer l'image dans l'espace latent et effectuer directement les mĂȘmes opĂ©rations d'Ă©dition que celles que le modĂšle a apprises prĂ©cĂ©demment, sans refaire l'optimisation Ă  partir de zĂ©ro. Il serait prudent de dire que les vecteurs d’édition appris par le modĂšle amortissent l’optimisation qui Ă©tait essentielle pour Ă©diter l’image initialement. 

Il convient de noter que les dĂ©veloppeurs n'ont pas encore perfectionnĂ© le dĂ©mĂȘlage et que les vecteurs d'Ă©dition ne donnent souvent pas les meilleurs rĂ©sultats lorsqu'ils sont utilisĂ©s avec d'autres images. Cependant, le problĂšme peut ĂȘtre rĂ©solu en supprimant les artefacts d'Ă©dition d'autres parties de l'image en effectuant quelques Ă©tapes d'optimisation supplĂ©mentaires pendant la durĂ©e du test. 

Sur la base de nos apprentissages actuels, le framework EditGAN peut ĂȘtre utilisĂ© pour Ă©diter des images dans trois modes diffĂ©rents. 

  • Édition en temps rĂ©el avec des vecteurs d'Ă©dition

Pour les images localisĂ©es et dĂ©mĂȘlĂ©es, le modĂšle Ă©dite les images en appliquant des vecteurs d'Ă©dition appris prĂ©cĂ©demment Ă  diffĂ©rentes Ă©chelles, et manipule les images Ă  des rythmes interactifs. 

  • Utilisation du raffinement auto-supervisĂ© pour l'Ă©dition vectorielle

Pour Ă©diter des images localisĂ©es qui ne sont pas parfaitement dĂ©mĂȘlĂ©es avec d'autres parties de l'image, le modĂšle initialise l'Ă©dition de l'image Ă  l'aide de vecteurs d'Ă©dition prĂ©cĂ©demment appris et supprime les artefacts d'Ă©dition en effectuant quelques Ă©tapes d'optimisation supplĂ©mentaires pendant la durĂ©e du test. 

  • Édition basĂ©e sur l'optimisation

Pour effectuer des modifications Ă  grande Ă©chelle et spĂ©cifiques Ă  une image, le modĂšle effectue une optimisation dĂšs le dĂ©part car les vecteurs d'Ă©dition ne peuvent pas ĂȘtre utilisĂ©s pour effectuer ce type de transferts vers d'autres images. 

Mise en Ɠuvre

Le framework EditGAN est Ă©valuĂ© sur des images rĂ©parties dans quatre catĂ©gories diffĂ©rentes : voitures, oiseaux, chats et visages. La branche de segmentation du modĂšle est entraĂźnĂ©e en utilisant des paires image-masque de 16, 30, 30, 16 comme donnĂ©es d'entraĂźnement Ă©tiquetĂ©es pour les voitures, les oiseaux, les chats et les visages respectivement. Lorsque l'image doit ĂȘtre modifiĂ©e uniquement par optimisation, ou lorsque le modĂšle tente d'apprendre les vecteurs d'Ă©dition, le modĂšle effectue 100 Ă©tapes d'optimisation Ă  l'aide de l'optimiseur Adam. 

Pour l'ensemble de donnĂ©es Cat, Car et Faces, le modĂšle utilise des images rĂ©elles de l'ensemble de test de DatasetGAN qui n'ont pas Ă©tĂ© utilisĂ©es pour entraĂźner le framework GAN Ă  exĂ©cuter la fonctionnalitĂ© d'Ă©dition. ImmĂ©diatement, ces images sont intĂ©grĂ©es dans l'espace latent d'EditGAN grĂące Ă  l'optimisation et au codage. Pour la catĂ©gorie Oiseaux, l'Ă©dition est affichĂ©e sur les images gĂ©nĂ©rĂ©es par GAN. 

Résultats

Résultats qualitatifs

Résultats dans le domaine

L'image ci-dessus dĂ©montre les performances du framework EditGAN lorsqu'il applique les vecteurs d'Ă©dition prĂ©cĂ©demment appris sur de nouvelles images et affine les images Ă  l'aide de 30 Ă©tapes d'optimisation. Ces opĂ©rations d'Ă©dition effectuĂ©es par le framework EditGAN sont dĂ©mĂȘlĂ©es pour toutes les classes, et elles prĂ©servent la qualitĂ© globale des images. En comparant les rĂ©sultats d'EditGAN et d'autres frameworks, on a pu observer que le framework EditGAN surpasse les autres mĂ©thodes en effectuant des modifications complexes et de haute prĂ©cision tout en prĂ©servant l'identitĂ© du sujet et la qualitĂ© de l'image en mĂȘme temps. 

Ce qui est Ă©tonnant, c'est que le framework EditGAN peut effectuer des modifications d'une extrĂȘmement haute prĂ©cision, comme la dilatation des pupilles ou la modification des rayons des roues des pneus d'une voiture. De plus, EditGAN peut Ă©galement ĂȘtre utilisĂ© pour modifier les parties sĂ©mantiques d'objets qui ne comportent que quelques pixels, ou il peut Ă©galement ĂȘtre utilisĂ© pour effectuer des modifications Ă  grande Ă©chelle sur une image. Il convient de noter que les diffĂ©rentes opĂ©rations d'Ă©dition du framework EditGAN sont capables de gĂ©nĂ©rer des images manipulĂ©es contrairement aux images qui apparaissent dans les donnĂ©es de formation GAN. 

Résultats hors domaine

Pour Ă©valuer les performances hors domaine d'EditGAN, le framework a Ă©tĂ© testĂ© sur l'ensemble de donnĂ©es MetFaces. Le modĂšle EditGAN utilise des visages rĂ©els dans le domaine pour crĂ©er des vecteurs d'Ă©dition. Le modĂšle intĂšgre ensuite les portraits MetFaces hors domaine Ă  l'aide d'un processus d'optimisation en 100 Ă©tapes, et applique les vecteurs d'Ă©dition via un processus de raffinement auto-supervisĂ© en 30 Ă©tapes. Les rĂ©sultats peuvent ĂȘtre vus dans l’image suivante. 

Résultats quantitatifs

Pour mesurer quantitativement les capacitĂ©s d'Ă©dition d'images d'EditGAN, le modĂšle utilise un benchmark d'Ă©dition de sourire qui a Ă©tĂ© introduit pour la premiĂšre fois par MaskGAN. Les visages contenant une expression neutre sont remplacĂ©s par des visages souriants et les performances sont mesurĂ©es sur trois paramĂštres. 

  • Exactitude sĂ©mantique

Le modĂšle utilise un classificateur d'attributs de sourire prĂ©-entraĂźnĂ© pour mesurer si les visages dans les images affichent des expressions souriantes aprĂšs l'Ă©dition. 

  • QualitĂ© d'image au niveau de la distribution

La distance de dĂ©but du noyau ou KID et la distance de dĂ©but Frechet ou FID sont calculĂ©es entre l'ensemble de donnĂ©es de test CelebA et 400 images de test Ă©ditĂ©es. 

  • PrĂ©servation de l'identitĂ©

La capacitĂ© du modĂšle Ă  prĂ©server l'identitĂ© des sujets lors de l'Ă©dition de l'image est mesurĂ©e Ă  l'aide d'un rĂ©seau d'extraction de fonctionnalitĂ©s ArcFace prĂ©-entraĂźnĂ©. 

Le tableau ci-dessus compare les performances du framework EditGAN avec d'autres modĂšles de base sur le benchmark smile edit. La mĂ©thode suivie par le framework EditGAN pour fournir des rĂ©sultats aussi Ă©levĂ©s est comparĂ©e sur trois rĂ©fĂ©rences diffĂ©rentes :

  • MasqueGAN

MaskGAN prend des images non souriantes avec leurs masques de segmentation et un masque de segmentation cible souriant comme entrĂ©e. Il convient de noter que par rapport Ă  EditGAN, le framework MaskGAN nĂ©cessite une grande quantitĂ© de donnĂ©es annotĂ©es. 

  • Édition locale

EditGAN compare Ă©galement ses performances avec l'Ă©dition locale, une mĂ©thode utilisĂ©e pour regrouper les fonctionnalitĂ©s du GAN afin d'implĂ©menter l'Ă©dition locale, et elle dĂ©pend des images de rĂ©fĂ©rence. 

  • InterfaceGAN

Tout comme EditGAN, InterFaceGAN tente Ă©galement de trouver des vecteurs d'Ă©dition dans l'espace latent du modĂšle. Cependant, contrairement Ă  EditGAN, le modĂšle InterFaceGAN utilise une grande quantitĂ© de donnĂ©es annotĂ©es, des classificateurs d'attributs auxiliaires et n'a pas une prĂ©cision d'Ă©dition fine. 

  • StyleGAN2Distillation

Cette mĂ©thode crĂ©e une approche alternative qui ne nĂ©cessite pas nĂ©cessairement de vĂ©ritables intĂ©grations d'images, mais utilise Ă  la place un modĂšle vectoriel d'Ă©dition pour crĂ©er un ensemble de donnĂ©es de formation. 

Limites

Parce qu'EditGAN est basĂ© sur le framework GAN, il prĂ©sente la mĂȘme limitation que tout autre modĂšle GAN : il ne peut fonctionner qu'avec des images pouvant ĂȘtre modĂ©lisĂ©es par le GAN. La limitation d'EditGAN Ă  travailler avec des images modĂ©lisĂ©es GAN est la principale raison pour laquelle il est difficile de mettre en Ɠuvre EditGAN dans diffĂ©rents scĂ©narios. Cependant, il convient de noter que les modifications de haute prĂ©cision d'EditGAN peuvent ĂȘtre facilement transfĂ©rĂ©es vers d'autres images diffĂ©rentes en utilisant des vecteurs d'Ă©dition. 

Conclusion

L’une des principales raisons pour lesquelles GAN n’est pas une norme industrielle dans le domaine de l’édition d’images est son caractĂšre pratique limitĂ©. Les frameworks GAN nĂ©cessitent gĂ©nĂ©ralement une grande quantitĂ© de donnĂ©es de formation annotĂ©es, et ils ne renvoient pas souvent une efficacitĂ© et une prĂ©cision Ă©levĂ©es. 

EditGAN vise Ă  rĂ©soudre les problĂšmes prĂ©sentĂ©s par les frameworks GAN conventionnels et tente de devenir une mĂ©thode efficace pour l'Ă©dition d'images sĂ©mantiques de haute qualitĂ© et de haute prĂ©cision. Les rĂ©sultats jusqu'Ă  prĂ©sent ont indiquĂ© qu'EditGAN offre effectivement ce qu'il prĂ©tend et qu'il fonctionne dĂ©jĂ  mieux que certaines des pratiques et modĂšles standards actuels de l'industrie. 

« IngĂ©nieur de profession, Ă©crivain de cƓur Â». Kunal est un rĂ©dacteur technique avec un amour et une comprĂ©hension profonds de l'IA et du ML, dĂ©diĂ© Ă  la simplification de concepts complexes dans ces domaines grĂące Ă  sa documentation engageante et informative.