Suivez nous sur

Conseils d'auto-attention : amĂ©liorer la qualitĂ© des Ă©chantillons des modèles de diffusion

Intelligence Artificielle

Conseils d'auto-attention : amĂ©liorer la qualitĂ© des Ă©chantillons des modèles de diffusion

mm
Guidage d'auto-attention : amĂ©liorer la qualitĂ© des Ă©chantillons des modèles de diffusion

Les modèles de diffusion de débruitage sont des cadres d'IA génératifs qui synthétisent des images à partir du bruit via un processus de débruitage itératif. Ils sont célébrés pour leurs capacités et leur diversité exceptionnelles de génération d’images, largement attribuées aux méthodes de guidage conditionnel au texte ou à la classe, notamment le guidage par classificateur et le guidage sans classificateur. Ces modèles ont notamment réussi à créer des images diversifiées et de haute qualité. Des études récentes ont montré que les techniques de guidage telles que les légendes et les étiquettes de classe jouent un rôle crucial dans l'amélioration de la qualité des images générées par ces modèles.

Cependant, les modèles de diffusion et les méthodes de guidage sont confrontés à des limites dans certaines conditions externes. La méthode Classifier-Free Guidance (CFG), qui utilise la suppression d'étiquettes, ajoute de la complexité au processus de formation, tandis que la méthode Classifier Guidance (CG) nécessite une formation supplémentaire du classificateur. Les deux méthodes sont quelque peu contraintes par leur dépendance à des conditions externes durement acquises, ce qui limite leur potentiel et les confine à des paramètres conditionnels.

Pour remédier à ces limitations, les développeurs ont formulé une approche plus générale du guidage par diffusion, connue sous le nom de guidage par l'autoattention (SAG). Cette méthode exploite les informations provenant d’échantillons intermédiaires de modèles de diffusion pour générer des images. Nous explorerons SAG dans cet article, en discutant de son fonctionnement, de sa méthodologie et de ses résultats par rapport aux frameworks et pipelines de pointe actuels.

Guidage d'auto-attention : amĂ©liorer la qualitĂ© des Ă©chantillons des modèles de diffusion

Les modèles de diffusion de débruitage (DDM) ont gagné en popularité grâce à leur capacité à créer des images à partir du bruit via un processus de débruitage itératif. Les prouesses de ces modèles en matière de synthèse d’images sont largement dues aux méthodes de guidage par diffusion utilisées. Malgré leurs atouts, les modèles de diffusion et les méthodes basées sur le guidage sont confrontés à des défis tels qu'une complexité accrue et des coûts de calcul accrus.

Pour surmonter les limitations actuelles, les dĂ©veloppeurs ont introduit la mĂ©thode Self-Attention Guidance, une formulation plus gĂ©nĂ©rale du guidage de diffusion qui ne repose pas sur les informations externes du guidage de diffusion, facilitant ainsi une approche flexible et sans condition pour guider cadres de diffusion. L'approche choisie par Self-Attention Guidance contribue en fin de compte Ă  amĂ©liorer l'applicabilitĂ© des mĂ©thodes traditionnelles de guidage par diffusion Ă  des cas avec ou sans exigences externes. 

L’auto-attention guidĂ©e repose sur le principe simple d’une formulation gĂ©nĂ©ralisĂ©e et sur l’hypothèse selon laquelle les informations internes contenues dans des Ă©chantillons intermĂ©diaires peuvent Ă©galement servir de guide. Sur la base de ce principe, la mĂ©thode SAG introduit d’abord Blur Guidance, une solution simple et directe pour amĂ©liorer la qualitĂ© des Ă©chantillons. Le guidage du flou vise Ă  exploiter les propriĂ©tĂ©s bĂ©nignes du flou gaussien pour supprimer naturellement les dĂ©tails Ă  petite Ă©chelle en guidant les Ă©chantillons intermĂ©diaires en utilisant les informations Ă©liminĂ©es grâce au flou gaussien. Bien que la mĂ©thode de guidage Blur amĂ©liore la qualitĂ© de l’échantillon avec une Ă©chelle de guidage modĂ©rĂ©e, elle ne parvient pas Ă  reproduire les rĂ©sultats sur une grande Ă©chelle de guidage car elle introduit souvent une ambiguĂŻtĂ© structurelle dans des rĂ©gions entières. En consĂ©quence, la mĂ©thode de guidage Blur a du mal Ă  aligner l’entrĂ©e d’origine avec la prĂ©diction de l’entrĂ©e dĂ©gradĂ©e. Pour amĂ©liorer la stabilitĂ© et l'efficacitĂ© de la mĂ©thode de guidage Blur Ă  une plus grande Ă©chelle de guidage, le Self-Attention Guidance tente d'exploiter le mĂ©canisme d'auto-attention des modèles de diffusion, car les modèles de diffusion modernes contiennent dĂ©jĂ  un mĂ©canisme d'auto-attention dans leur architecture. 

Partant de l’hypothèse que l’auto-attention est essentielle pour capturer les informations saillantes, la mĂ©thode Self-Attention Guidance utilise des cartes d’auto-attention des modèles de diffusion pour brouiller de manière contradictoire les rĂ©gions contenant des informations saillantes et, ce faisant, guider l’attention personnelle. modèles de diffusion avec les informations rĂ©siduelles requises. La mĂ©thode exploite ensuite les cartes d’attention lors du processus inverse des modèles de diffusion, pour amĂ©liorer la qualitĂ© des images et utilise l’autoconditionnement pour rĂ©duire les artefacts sans nĂ©cessiter de formation supplĂ©mentaire ou d’informations externes. 

Pour résumer, la méthode Self-Attention Guidance

  1. Il s'agit d'une nouvelle approche qui utilise des cartes d'auto-attention internes des cadres de diffusion pour amĂ©liorer la qualitĂ© de l'image de l'Ă©chantillon gĂ©nĂ©rĂ© sans nĂ©cessiter de formation supplĂ©mentaire ni dĂ©pendre de conditions externes. 
  2. La mĂ©thode SAG tente de gĂ©nĂ©raliser les mĂ©thodes de guidage conditionnel en une mĂ©thode sans condition qui peut ĂŞtre intĂ©grĂ©e Ă  n'importe quel modèle de diffusion sans nĂ©cessiter de ressources supplĂ©mentaires ou de conditions externes, amĂ©liorant ainsi l'applicabilitĂ© des cadres basĂ©s sur le guidage. 
  3. La mĂ©thode SAG tente Ă©galement de dĂ©montrer ses capacitĂ©s orthogonales aux mĂ©thodes et cadres conditionnels existants, facilitant ainsi une augmentation des performances en facilitant une intĂ©gration flexible avec d'autres mĂ©thodes et modèles. 

En progressant, la mĂ©thode de guidage de l'auto-attention apprend des rĂ©sultats de cadres connexes, notamment les modèles de diffusion de dĂ©bruitage, le guidage d'Ă©chantillonnage, les mĂ©thodes d'auto-attention gĂ©nĂ©rative de l'IA et les reprĂ©sentations internes des modèles de diffusion. Cependant, Ă  la base, la mĂ©thode de guidage d'auto-attention met en Ĺ“uvre les apprentissages des modèles probabilistes de diffusion DDPM ou de dĂ©bruitage, de guidage de classificateur, de guidage sans classificateur et d'auto-attention dans les cadres de diffusion. Nous en parlerons en profondeur dans la section suivante. 

Guide d'auto-attention  : prĂ©liminaires, mĂ©thodologie et architecture

Modèle probabiliste de diffusion de débruitage ou DDPM

DDPM ou Modèle probabiliste de diffusion de dĂ©bruitage est un modèle qui utilise un processus de dĂ©bruitage itĂ©ratif pour rĂ©cupĂ©rer une image Ă  partir du bruit blanc. Traditionnellement, un modèle DDPM reçoit une image d'entrĂ©e et un programme de variance Ă  un pas de temps pour obtenir l'image Ă  l'aide d'un processus direct appelĂ© processus markovien. 

Guide sur les classificateurs et sans classificateur avec la mise en œuvre du GAN

Le GAN ou Generative Adversarial Networks possède une diversitĂ© commerciale unique pour la fidĂ©litĂ©, et pour apporter cette capacitĂ© des frameworks GAN aux modèles de diffusion, le framework Self-Attention Guidance propose d'utiliser une mĂ©thode de guidage de classificateur qui utilise un classificateur supplĂ©mentaire. A l’inverse, une mĂ©thode de guidage sans classificateur peut Ă©galement ĂŞtre mise en Ĺ“uvre sans utiliser de classificateur supplĂ©mentaire pour obtenir les mĂŞmes rĂ©sultats. Bien que la mĂ©thode fournisse les rĂ©sultats souhaitĂ©s, elle n'est toujours pas viable sur le plan informatique car elle nĂ©cessite des Ă©tiquettes supplĂ©mentaires et limite Ă©galement le cadre Ă  des modèles de diffusion conditionnelle qui nĂ©cessitent des conditions supplĂ©mentaires comme un texte ou une classe ainsi que des dĂ©tails de formation supplĂ©mentaires qui ajoutent Ă  la complexitĂ© de l'apprentissage. le modèle. 

Généralisation des conseils de diffusion

Bien que les mĂ©thodes Classifier et Classifier-free Guidance fournissent les rĂ©sultats souhaitĂ©s et facilitent la gĂ©nĂ©ration conditionnelle dans les modèles de diffusion, elles dĂ©pendent d'entrĂ©es supplĂ©mentaires. Pour tout pas de temps donnĂ©, l'entrĂ©e d'un modèle de diffusion comprend une condition gĂ©nĂ©ralisĂ©e et un Ă©chantillon perturbĂ© sans la condition gĂ©nĂ©ralisĂ©e. De plus, la condition gĂ©nĂ©ralisĂ©e englobe des informations internes Ă  l'Ă©chantillon perturbĂ© ou une condition externe, voire les deux. Les conseils qui en rĂ©sultent sont formulĂ©s Ă  l’aide d’un rĂ©gresseur imaginaire en supposant qu’il peut prĂ©dire la condition gĂ©nĂ©ralisĂ©e. 

Améliorer la qualité de l'image à l'aide des cartes d'auto-attention

Le guide de diffusion gĂ©nĂ©ralisĂ©e implique qu'il est possible de guider le processus inverse des modèles de diffusion en extrayant des informations saillantes dans la condition gĂ©nĂ©ralisĂ©e contenue dans l'Ă©chantillon perturbĂ©. S'appuyant sur la mĂŞme chose, la mĂ©thode Self-Attention Guidance capture efficacement les informations importantes pour les processus inverses tout en limitant les risques rĂ©sultant de problèmes de non-distribution dans les modèles de diffusion prĂ©-entraĂ®nĂ©s. 

Guide de flou

Le guidage du flou dans le guidage de l'attention personnelle est basĂ© sur le flou gaussien, une mĂ©thode de filtrage linĂ©aire dans laquelle le signal d'entrĂ©e est convoluĂ© avec un filtre gaussien pour gĂ©nĂ©rer une sortie. Avec une augmentation de l'Ă©cart type, le flou gaussien rĂ©duit les dĂ©tails Ă  Ă©chelle fine dans les signaux d'entrĂ©e et aboutit Ă  des signaux d'entrĂ©e localement indiscernables en les lissant vers la constante. De plus, des expĂ©riences ont indiquĂ© un dĂ©sĂ©quilibre d'informations entre le signal d'entrĂ©e et le signal de sortie de flou gaussien, le signal de sortie contenant des informations Ă  plus petite Ă©chelle. 

Sur la base de cet apprentissage, le cadre Self-Attention Guidance introduit le guidage par flou, une technique qui exclut intentionnellement les informations des reconstructions intermĂ©diaires pendant le processus de diffusion, et utilise Ă  la place ces informations pour guider ses prĂ©dictions vers une augmentation de la pertinence des images pour le public. saisir des informations. Le guidage par flou amène essentiellement la prĂ©diction d'origine Ă  s'Ă©carter davantage de la prĂ©diction d'entrĂ©e floue. De plus, la propriĂ©tĂ© bĂ©nigne du flou gaussien empĂŞche les signaux de sortie de s'Ă©carter de manière significative du signal d'origine avec un Ă©cart modĂ©rĂ©. En termes simples, le flou se produit naturellement dans les images, ce qui fait du flou gaussien une mĂ©thode plus appropriĂ©e Ă  appliquer aux modèles de diffusion prĂ©-entraĂ®nĂ©s. 

Dans le pipeline Self-Attention Guidance, le signal d’entrĂ©e est d’abord flou Ă  l’aide d’un filtre gaussien, puis diffusĂ© avec un bruit supplĂ©mentaire pour produire le signal de sortie. Ce faisant, le pipeline SAG attĂ©nue l'effet secondaire du flou rĂ©sultant qui rĂ©duit le bruit gaussien et fait en sorte que le guidage s'appuie sur le contenu plutĂ´t que sur un bruit alĂ©atoire. Bien que le guidage par flou donne des rĂ©sultats satisfaisants sur les frameworks avec une Ă©chelle de guidage modĂ©rĂ©e, il ne parvient pas Ă  reproduire les rĂ©sultats sur les modèles existants avec une grande Ă©chelle de guidage car il a tendance Ă  produire des rĂ©sultats bruyants, comme le dĂ©montre l'image suivante. 

Ces rĂ©sultats pourraient ĂŞtre le rĂ©sultat de l'ambiguĂŻtĂ© structurelle introduite dans le cadre par le flou global qui rend difficile pour le pipeline SAG d'aligner les prĂ©dictions de l'entrĂ©e d'origine avec l'entrĂ©e dĂ©gradĂ©e, ce qui entraĂ®ne des sorties bruyantes. 

Mécanisme d'auto-attention

Comme mentionnĂ© prĂ©cĂ©demment, les modèles de diffusion comportent gĂ©nĂ©ralement un composant d’auto-attention intĂ©grĂ©, et c’est l’un des composants les plus essentiels du cadre d’un modèle de diffusion. Le mĂ©canisme d'auto-attention est implĂ©mentĂ© au cĹ“ur des modèles de diffusion et permet au modèle de prĂŞter attention aux parties saillantes de l'entrĂ©e pendant le processus de gĂ©nĂ©ration, comme le dĂ©montre l'image suivante avec des masques haute frĂ©quence dans la rangĂ©e supĂ©rieure, et des masques d'auto-attention dans la rangĂ©e infĂ©rieure des images finalement gĂ©nĂ©rĂ©es. 

La mĂ©thode proposĂ©e de guidage de l’auto-attention s’appuie sur le mĂŞme principe et exploite les capacitĂ©s des cartes d’auto-attention dans les modèles de diffusion. Dans l'ensemble, la mĂ©thode Self-Attention Guidance brouille les patchs auto-assistĂ©s dans le signal d'entrĂ©e ou, en termes simples, masque les informations sur les patchs pris en charge par les modèles de diffusion. De plus, les signaux de sortie dans Self-Attention Guidance contiennent des rĂ©gions intactes des signaux d'entrĂ©e, ce qui signifie qu'il n'en rĂ©sulte pas d'ambiguĂŻtĂ© structurelle des entrĂ©es et rĂ©sout le problème du flou global. Le pipeline obtient ensuite les cartes d'auto-attention agrĂ©gĂ©es en effectuant un GAP ou Global Average Pooling pour agrĂ©ger les cartes d'auto-attention Ă  la dimension et en surĂ©chantillonnant le voisin le plus proche pour correspondre Ă  la rĂ©solution du signal d'entrĂ©e. 

Guidage d'auto-attention : expĂ©riences et rĂ©sultats

Pour évaluer ses performances, le pipeline Self-Attention Guidance est échantillonné à l'aide de 8 GPU Nvidia GeForce RTX 3090 et repose sur IDDPM, ADM et Cadres de diffusion stable

Génération inconditionnelle avec guidage de l'attention personnelle

Pour mesurer l'efficacitĂ© du pipeline SAG sur des modèles inconditionnels et dĂ©montrer la propriĂ©tĂ© sans condition que ne possèdent pas l'approche Classifier Guidance et Classifier Free Guidance, le pipeline SAG est exĂ©cutĂ© sur des cadres prĂ©-entraĂ®nĂ©s inconditionnellement sur 50 XNUMX Ă©chantillons. 

Comme on peut l'observer, la mise en Ĺ“uvre du pipeline SAG amĂ©liore les mĂ©triques FID, sFID et IS d'entrĂ©e inconditionnelle tout en rĂ©duisant la valeur de rappel en mĂŞme temps. De plus, les amĂ©liorations qualitatives rĂ©sultant de la mise en Ĺ“uvre du pipeline SAG sont Ă©videntes dans les images suivantes oĂą les images du haut sont les rĂ©sultats des frameworks ADM et Stable Diffusion tandis que les images du bas sont les rĂ©sultats des frameworks ADM et Stable Diffusion avec le Pipeline SAG. 

Génération conditionnelle avec SAG

L'intĂ©gration du pipeline SAG dans les cadres existants donne des rĂ©sultats exceptionnels en matière de gĂ©nĂ©ration inconditionnelle, et le pipeline SAG est capable d'une agnosticitĂ© des conditions qui permet au pipeline SAG d'ĂŞtre Ă©galement implĂ©mentĂ© pour la gĂ©nĂ©ration conditionnelle. 

Diffusion stable avec guidage d'auto-attention

MĂŞme si le cadre Stable Diffusion d'origine gĂ©nère des images de haute qualitĂ©, l'intĂ©gration du cadre Stable Diffusion avec le pipeline Self-Attention Guidance peut amĂ©liorer considĂ©rablement les rĂ©sultats. Pour Ă©valuer son effet, les dĂ©veloppeurs utilisent des invites vides pour une diffusion stable avec une graine alĂ©atoire pour chaque paire d'images, et utilisent une Ă©valuation humaine sur 500 paires d'images avec et sans guidage d'auto-attention. Les rĂ©sultats sont dĂ©montrĂ©s dans l’image suivante.  

De plus, la mise en Ĺ“uvre de SAG peut amĂ©liorer les capacitĂ©s du cadre de diffusion stable, car la fusion du guidage sans classificateur avec le guidage par auto-attention peut Ă©largir la gamme de modèles de diffusion stable Ă  la synthèse texte-image. De plus, les images gĂ©nĂ©rĂ©es Ă  partir du modèle de diffusion stable avec guidage d'auto-attention sont de meilleure qualitĂ© avec moins d'artefacts grâce Ă  l'effet d'auto-conditionnement du pipeline SAG, comme le dĂ©montre l'image suivante. 

Limites actuelles

Bien que la mise en Ĺ“uvre du pipeline Self-Attention Guidance puisse amĂ©liorer considĂ©rablement la qualitĂ© des images gĂ©nĂ©rĂ©es, elle prĂ©sente certaines limites. 

L’une des limitations majeures est l’orthogonalitĂ© avec le guidage par classificateur et le guidage sans classificateur. Comme on peut l'observer dans l'image suivante, la mise en Ĺ“uvre de SAG amĂ©liore le score FID et le score de prĂ©diction, ce qui signifie que le pipeline SAG contient un composant orthogonal qui peut ĂŞtre utilisĂ© simultanĂ©ment avec les mĂ©thodes de guidage traditionnelles. 

Cependant, cela nĂ©cessite toujours que les modèles de diffusion soient formĂ©s d'une manière spĂ©cifique, ce qui ajoute Ă  la complexitĂ© ainsi qu'aux coĂ»ts de calcul. 

De plus, la mise en Ĺ“uvre du guidage d'auto-attention n'augmente pas la consommation de mĂ©moire ou de temps, ce qui indique que la surcharge rĂ©sultant des opĂ©rations telles que le masquage et le flou dans SAG est nĂ©gligeable. Cependant, cela ajoute encore aux coĂ»ts de calcul car il inclut une Ă©tape supplĂ©mentaire par rapport aux approches sans guidage. 

Réflexions finales

Dans cet article, nous avons parlĂ© de Self-Attention Guidance, une formulation nouvelle et gĂ©nĂ©rale de mĂ©thode de guidage qui utilise les informations internes disponibles dans les modèles de diffusion pour gĂ©nĂ©rer des images de haute qualitĂ©. L’auto-attention guidĂ©e repose sur le principe simple d’une formulation gĂ©nĂ©ralisĂ©e et sur l’hypothèse selon laquelle les informations internes contenues dans des Ă©chantillons intermĂ©diaires peuvent Ă©galement servir de guide. Le pipeline Self-Attention Guidance est une approche sans condition et sans formation qui peut ĂŞtre mise en Ĺ“uvre dans divers modèles de diffusion et utilise l'autoconditionnement pour rĂ©duire les artefacts dans les images gĂ©nĂ©rĂ©es et amĂ©liorer la qualitĂ© globale. 

« IngĂ©nieur de profession, Ă©crivain de cĹ“ur Â». Kunal est un rĂ©dacteur technique avec un amour et une comprĂ©hension profonds de l'IA et du ML, dĂ©diĂ© Ă  la simplification de concepts complexes dans ces domaines grâce Ă  sa documentation engageante et informative.