Suivez nous sur

HD-Painter : Inpainting d'images guidĂ©es par texte haute rĂ©solution avec des modèles de diffusion

Intelligence Artificielle

HD-Painter : Inpainting d'images guidĂ©es par texte haute rĂ©solution avec des modèles de diffusion

mm
HD-Painter : Inpainting d'images guidĂ©es par texte haute rĂ©solution avec modèles de diffusion

Modèles de diffusion ont sans aucun doute rĂ©volutionnĂ© l’industrie de l’IA et du ML, leurs applications en temps rĂ©el faisant dĂ©sormais partie intĂ©grante de notre vie quotidienne. Après que les modèles texte-image ont montrĂ© leurs capacitĂ©s remarquables, les techniques de manipulation d'images basĂ©es sur la diffusion, telles que la gĂ©nĂ©ration contrĂ´lable, la synthèse d'images spĂ©cialisĂ©es et personnalisĂ©es, l'Ă©dition d'images au niveau de l'objet, les variations conditionnĂ©es par des invites et l'Ă©dition, sont devenues des sujets de recherche brĂ»lants en raison Ă  leurs applications dans l'industrie de la vision par ordinateur.

Cependant, malgré leurs capacités impressionnantes et leurs résultats exceptionnels, les frameworks texte-image, en particulier les frameworks d’inpainting texte-image, ont encore des domaines potentiels de développement. Ceux-ci incluent la capacité de comprendre des scènes globales, en particulier lors du débruitage de l’image à des intervalles de temps de diffusion élevés. Pour résoudre ce problème, les chercheurs ont introduit HD-Painter, un cadre totalement sans formation qui suit avec précision les instructions rapides et s'adapte de manière cohérente à l'inpainting d'images haute résolution. Le framework HD-Painter utilise une couche PAIntA (Promppt Aware Introverted Attention), qui exploite les informations d'invite pour améliorer les scores d'auto-attention, ce qui entraîne une meilleure génération d'alignement du texte.

Pour améliorer encore la cohérence de l'invite, le modèle HD-Painter introduit une approche de repondération du score d'attention (RASG). Cette approche intègre de manière transparente une stratégie d'échantillonnage post-hoc dans la forme générale du composant DDIM, empêchant ainsi les décalages latents hors distribution. De plus, le framework HD-Painter propose une technique de super-résolution spécialisée personnalisée pour l'inpainting, lui permettant de s'étendre à des échelles plus grandes et de compléter les régions manquantes de l'image avec des résolutions allant jusqu'à 2K.

HD-Painter : Inpainting d'images guidĂ©es par texte

Les modèles de diffusion texte-image ont en effet constitué un sujet important dans l'industrie de l'IA et du ML ces derniers mois, avec des modèles démontrant des capacités en temps réel impressionnantes dans diverses applications pratiques. Des modèles de génération de texte en image pré-entraînés tels que DALL-E, Imagen et Stable Diffusion ont montré leur aptitude à la complétion d'images en fusionnant des régions inconnues débruitées (générées) avec des régions connues diffusées au cours du processus de diffusion vers l'arrière. Bien qu’ils produisent des résultats visuellement attrayants et bien harmonisés, les modèles existants ont du mal à comprendre la scène mondiale, en particulier dans le cadre du processus de débruitage à pas de temps de diffusion élevé. En modifiant les modèles de diffusion texte-image pré-entraînés pour incorporer des informations contextuelles supplémentaires, ils peuvent être affinés pour la complétion d'images guidées par le texte.

De plus, au sein des modèles de diffusion, l’inpainting guidé par le texte et la complétion d’images guidée par le texte sont des domaines d’intérêt majeurs pour les chercheurs. Cet intérêt est motivé par le fait que les modèles d'inpainting guidés par le texte peuvent générer du contenu dans des régions spécifiques d'une image d'entrée en fonction d'invites textuelles, conduisant à des applications potentielles telles que la retouche de régions spécifiques de l'image, la modification d'attributs de sujet comme les couleurs ou les vêtements, et l'ajout ou la modification d'attributs de sujet tels que les couleurs ou les vêtements. remplacer des objets. En résumé, les modèles de diffusion texte-image ont récemment connu un succès sans précédent, en raison de leurs capacités de génération exceptionnellement réalistes et visuellement attrayantes.

Cependant, la majoritĂ© des cadres existants dĂ©montrent une nĂ©gligence rapide dans deux scĂ©narios. Le premier est Domination de l'arrière-plan lorsque le modèle complète la rĂ©gion inconnue en ignorant l'invite en arrière-plan alors que le deuxième scĂ©nario est domination des objets Ă  proximitĂ© lorsque le modèle propage les objets de la rĂ©gion connue vers la rĂ©gion inconnue en utilisant la vraisemblance du contexte visuel plutĂ´t que l'invite de saisie. Il est possible que ces deux problèmes soient le rĂ©sultat de la capacitĂ© de la diffusion de l'inpainting vanille Ă  interprĂ©ter avec prĂ©cision l'invite textuelle ou Ă  la mĂ©langer avec les informations contextuelles obtenues de la rĂ©gion connue. 

Pour surmonter ces obstacles, le framework HD-Painter introduit la couche Prompt Aware Introverted Attention ou PAIntA, qui utilise des informations d'invite pour améliorer les scores d'auto-attention, ce qui aboutit finalement à une meilleure génération d'alignement du texte. PAIntA utilise le conditionnement textuel donné pour améliorer le attention personnelle score dans le but de réduire l'impact des informations pertinentes non-invites de la région de l'image tout en augmentant en même temps la contribution des pixels connus alignés avec l'invite. Pour améliorer encore l'alignement du texte des résultats générés, le framework HD-Painter implémente une méthode de guidage post-hoc qui exploite les scores d'attention croisée. Cependant, la mise en œuvre du mécanisme de guidage post-hoc vanille pourrait entraîner des changements de distribution en raison du terme de gradient supplémentaire dans l'équation de diffusion. Le déplacement hors distribution entraînera en fin de compte une dégradation de la qualité de la production générée. Pour surmonter cet obstacle, le framework HD-Painter implémente un Reweighting Attention Score Guidance ou RASG, une méthode qui intègre de manière transparente une stratégie d'échantillonnage post-hoc dans la forme générale du composant DDIM. Il permet au framework de générer des résultats d'inpainting visuellement plausibles en guidant l'échantillon vers les latents alignés avec les invites et de les contenir dans leur domaine entraîné.

En dĂ©ployant Ă  la fois les composants RASH et PAIntA dans son architecture, le framework HD-Painter prĂ©sente un avantage significatif par rapport aux modèles existants, notamment ceux de pointe, d'inpainting et de diffusion de texte en image, car il parvient Ă  rĂ©soudre le problème existant de la nĂ©gligence rapide. De plus, les composants RASH et PAIntA offrent une fonctionnalitĂ© plug and play, leur permettant d'ĂŞtre compatibles avec les modèles d'inpainting de base de diffusion pour relever les dĂ©fis mentionnĂ©s ci-dessus. De plus, en mettant en Ĺ“uvre une technologie de mĂ©lange itĂ©rative dans le temps et en tirant parti des capacitĂ©s de modèles de diffusion haute rĂ©solution, le pipeline HD-Painter peut fonctionner efficacement pour une rĂ©solution d'inpainting allant jusqu'Ă  2K. 

En résumé, le HD-Painter vise à apporter les contributions suivantes dans le domaine :

  1. Il vise Ă  rĂ©soudre le problème de nĂ©gligence rapide de l'arrière-plan et de la domination des objets Ă  proximitĂ© rencontrĂ© par les cadres d'inpainting d'images guidĂ©s par texte en implĂ©mentant la couche Prompt Aware Introverted Attention ou PAIntA dans son architecture. 
  2. Il vise Ă  amĂ©liorer l'alignement du texte de la sortie en implĂ©mentant la couche Reweighting Attention Score Guidance ou RASG dans son architecture qui permet au framework HD-Painter d'effectuer un Ă©chantillonnage guidĂ© post-hoc tout en empĂŞchant les distributions hors dĂ©calage. 
  3. Concevoir un pipeline efficace de complĂ©tion d'images guidĂ©es par texte, sans formation, capable de surpasser les cadres de pointe existants, et d'utiliser le cadre de super-rĂ©solution spĂ©cialisĂ© dans l'inpainting, simple mais efficace, pour effectuer l'inpainting d'images guidĂ©es par texte jusqu'Ă  une rĂ©solution de 2K. 

HD-Painter : Méthode et Architecture

Avant d'examiner l'architecture, il est essentiel de comprendre les trois concepts fondamentaux qui constituent le fondement du framework HD-Painter : Inpainting d'images, conseils post-hoc dans les cadres de diffusion, et Inpainting des blocs architecturaux spĂ©cifiques. 

Image Inpainting est une approche qui vise Ă  combler les rĂ©gions manquantes dans une image tout en garantissant l'attrait visuel de l'image gĂ©nĂ©rĂ©e. Les cadres d'apprentissage profond traditionnels implĂ©mentaient des mĂ©thodes utilisant des rĂ©gions connues pour propager des fonctionnalitĂ©s approfondies. Cependant, l'introduction de modèles de diffusion a entraĂ®nĂ© l'Ă©volution des modèles d'inpainting, en particulier les cadres d'inpainting d'images guidĂ©es par texte. Traditionnellement, un modèle de diffusion texte-image prĂ©-entraĂ®nĂ© remplace la rĂ©gion non masquĂ©e de la latente en utilisant la version bruitĂ©e de la rĂ©gion connue pendant le processus d'Ă©chantillonnage. Bien que cette approche fonctionne dans une certaine mesure, elle dĂ©grade considĂ©rablement la qualitĂ© de la sortie gĂ©nĂ©rĂ©e puisque le rĂ©seau de dĂ©bruitage ne voit que la version bruitĂ©e de la rĂ©gion connue. Pour surmonter cet obstacle, quelques approches visaient Ă  affiner le modèle texte-image prĂ©-entraĂ®nĂ© afin de rĂ©aliser une inpainting d'image guidĂ©e par le texte. En implĂ©mentant cette approche, le cadre est capable de gĂ©nĂ©rer un masque alĂ©atoire via concatĂ©nation puisque le modèle est capable de conditionner le cadre de dĂ©bruitage sur la rĂ©gion non masquĂ©e. 

Au fil du temps, les modèles traditionnels d'apprentissage en profondeur ont mis en Ĺ“uvre des couches de conception spĂ©ciales pour une inpainting efficace, certains frameworks Ă©tant capables d'extraire efficacement des informations et de produire des images visuellement attrayantes en introduisant des couches de convolution spĂ©ciales pour traiter les rĂ©gions connues de l'image. Certains frameworks ont mĂŞme ajoutĂ© une couche d'attention contextuelle dans leur architecture pour rĂ©duire les lourdes exigences de calcul indĂ©sirables de l'attention de tous pour une inpainting de haute qualitĂ©. 

Enfin, les mĂ©thodes de guidage post-hoc sont des mĂ©thodes d'Ă©chantillonnage par diffusion rĂ©trospective qui guident la prĂ©diction latente de l'Ă©tape suivante vers un objectif particulier de minimisation de fonction. Les mĂ©thodes de guidage post-hoc sont d'une grande aide lorsqu'il s'agit de gĂ©nĂ©rer du contenu visuel notamment en prĂ©sence de contraintes supplĂ©mentaires. Cependant, les mĂ©thodes de guidage Post-hoc prĂ©sentent un inconvĂ©nient majeur : elles sont connues pour entraĂ®ner des dĂ©gradations de la qualitĂ© d'image puisqu'elles ont tendance Ă  dĂ©caler le processus de gĂ©nĂ©ration latente d'un terme de gradient. 

En ce qui concerne l'architecture de HD-Painter, le framework formule d'abord le problème de complĂ©tion d'image guidĂ©e par le texte, puis introduit deux modèles de diffusion, Ă  savoir le Stable Inpainting et Diffusion stable. Le modèle HD-Painter introduit ensuite les blocs PAIntA et RASG, et enfin nous arrivons Ă  la technique de super rĂ©solution spĂ©cifique Ă  l'inpainting. 

Diffusion stable et peinture stable

La diffusion stable est un modèle de diffusion qui fonctionne dans l'espace latent d'un auto-encodeur. Pour la synthèse texte-image, le framework Stable Diffusion implĂ©mente une invite textuelle pour guider le processus. La fonction de guidage a une structure similaire Ă  l'architecture UNet, et les couches d'attention croisĂ©e la conditionnent aux invites textuelles. De plus, le modèle Stable Diffusion peut effectuer une inpainting d’image avec quelques modifications et ajustements. Pour y parvenir, les caractĂ©ristiques de l'image masquĂ©e gĂ©nĂ©rĂ©e par l'encodeur sont concatĂ©nĂ©es avec le masque binaire rĂ©duit aux latents. Le tenseur rĂ©sultant est ensuite entrĂ© dans l'architecture UNet pour obtenir le bruit estimĂ©. Le framework initialise ensuite les filtres convolutifs nouvellement ajoutĂ©s avec des zĂ©ros tandis que le reste de UNet est initialisĂ© Ă  l'aide de points de contrĂ´le prĂ©-entraĂ®nĂ©s du modèle de diffusion stable. 

La figure ci-dessus montre un aperçu du framework HD-Painter composĂ© de deux Ă©tapes. Dans la première Ă©tape, le framework HD-Painter implĂ©mente la peinture d'images guidĂ©e par texte tandis que dans la deuxième Ă©tape, le modèle inpeint une super-rĂ©solution spĂ©cifique de la sortie. Pour remplir les rĂ©gions de mission et rester cohĂ©rent avec l'invite de saisie, le modèle utilise un modèle de diffusion d'inpainting prĂ©-entraĂ®nĂ©, remplace les couches d'auto-attention par des couches PAIntA et implĂ©mente le mĂ©canisme RASG pour effectuer un processus de diffusion vers l'arrière. Le modèle dĂ©code ensuite la latence finale estimĂ©e, ce qui donne une image peinte. HD-Painter implĂ©mente ensuite le modèle de diffusion super stable pour repeindre l'image de taille originale, et implĂ©mente le processus de diffusion vers l'arrière du cadre de diffusion stable conditionnĂ© sur l'image d'entrĂ©e basse rĂ©solution. Le modèle mĂ©lange les prĂ©dictions dĂ©bruitĂ©es avec le codage de l'image originale après chaque Ă©tape dans la rĂ©gion connue et en dĂ©rive la latente suivante. Enfin, le modèle dĂ©code le latent et implĂ©mente le mĂ©lange de Poisson pour Ă©viter les artefacts de bord. 

Attention introvertie consciente ou PAIntA

Les modèles d'inpainting existants comme Stable Inpainting ont tendance Ă  s'appuyer davantage sur le contexte visuel autour de la zone d'inpainting et Ă  ignorer les invites d'entrĂ©e de l'utilisateur. Sur la base de l'expĂ©rience utilisateur, ce problème peut ĂŞtre classĂ© en deux classes : la dominance des objets Ă  proximitĂ© et la dominance de l'arrière-plan. Le problème de la domination du contexte visuel sur les invites de saisie pourrait ĂŞtre le rĂ©sultat de la nature uniquement spatiale et sans invite des couches d'auto-attention. Pour rĂ©soudre ce problème, le framework HD-Painter introduit le Prompt Aware Introverted Attention ou PAIntA qui utilise des matrices d'attention croisĂ©e et un masque d'inpainting pour contrĂ´ler la sortie des couches d'auto-attention dans la rĂ©gion inconnue. 

Le composant Prompt Aware Introverted Attention applique d’abord des couches de projection pour obtenir la clĂ©, les valeurs et les requĂŞtes ainsi que la matrice de similaritĂ©. Le modèle ajuste ensuite le score d'attention des pixels connus pour attĂ©nuer la forte influence de la rĂ©gion connue sur la rĂ©gion inconnue, et dĂ©finit une nouvelle matrice de similaritĂ© en exploitant l'invite textuelle. 

Guide de repondération du score d'attention ou RASG

Le framework HD-Painter adopte une mĂ©thode de guidage d'Ă©chantillonnage post-hoc pour amĂ©liorer encore plus l'alignement de la gĂ©nĂ©ration avec les invites textuelles. Outre une fonction objective, l'approche de guidage d'Ă©chantillonnage post-hoc vise Ă  exploiter les propriĂ©tĂ©s de segmentation Ă  vocabulaire ouvert des couches d'attention croisĂ©e. Cependant, cette approche de guidage post-hoc vanille a le potentiel de dĂ©placer le domaine de diffusion latent, ce qui pourrait dĂ©grader la qualitĂ© de l'image gĂ©nĂ©rĂ©e. Pour rĂ©soudre ce problème, le modèle HD-Painter implĂ©mente le mĂ©canisme Reweighting Attention Score Guidance ou RASG qui introduit un mĂ©canisme de repondĂ©ration de gradient entraĂ®nant la prĂ©servation du domaine latent. 

HD-Painter : Expériences et résultats

Pour analyser ses performances, le framework HD-Painter est comparĂ© aux modèles de pointe actuels, notamment Stable Inpainting, GLIDE et BLD ou Blended Latent Diffusion sur 10000 XNUMX Ă©chantillons alĂ©atoires oĂą l'invite est sĂ©lectionnĂ©e comme Ă©tiquette du masque d'instance sĂ©lectionnĂ©. 

Comme on peut l'observer, le framework HD-Painter surpasse les frameworks existants sur trois mĂ©triques diffĂ©rentes par une marge significative, en particulier l'amĂ©lioration de 1.5 points sur la mĂ©trique CLIP et la diffĂ©rence dans le score de prĂ©cision gĂ©nĂ©rĂ© d'environ 10 % par rapport aux autres mĂ©thodes de pointe. . 

En continuant, la figure suivante montre la comparaison qualitative du framework HD-Painter avec d'autres frameworks d'inpainting. Comme on peut l'observer, d'autres modèles de base reconstruisent les rĂ©gions manquantes dans l'image comme une continuation des objets de rĂ©gion connus sans tenir compte des invites ou gĂ©nèrent un arrière-plan. D'autre part, le framework HD-Painter est capable de gĂ©nĂ©rer les objets cibles avec succès grâce Ă  l'implĂ©mentation des composants PAIntA et RASG dans son architecture. 

Réflexions finales

Dans cet article, nous avons parlĂ© de HD-Painter, une approche d'inpainting haute rĂ©solution guidĂ©e par texte libre qui rĂ©pond aux dĂ©fis rencontrĂ©s par les cadres d'inpainting existants, notamment la nĂ©gligence rapide et la domination des objets Ă  proximitĂ© et en arrière-plan. Le framework HD-Painter implĂ©mente une couche Prompt Aware Introverted Attention ou PAIntA, qui utilise des informations d'invite pour amĂ©liorer les scores d'auto-attention, ce qui aboutit finalement Ă  une meilleure gĂ©nĂ©ration d'alignement de texte. 

Pour améliorer encore davantage la cohérence de l'invite, le modèle HD-Painter introduit une approche de repondération du score d'attention ou RASG qui intègre une stratégie d'échantillonnage post-hoc dans la forme générale du composant DDIM de manière transparente pour éviter les changements latents hors distribution. De plus, le framework HD-Painter introduit une technique spécialisée de super-résolution personnalisée pour l'inpainting qui entraîne une extension à des échelles plus grandes et permet au framework HD-Painter de compléter les régions manquantes de l'image avec une résolution allant jusqu'à 2K.

« IngĂ©nieur de profession, Ă©crivain de cĹ“ur Â». Kunal est un rĂ©dacteur technique avec un amour et une comprĂ©hension profonds de l'IA et du ML, dĂ©diĂ© Ă  la simplification de concepts complexes dans ces domaines grâce Ă  sa documentation engageante et informative.