Suivez nous sur

Tirer parti de l’attention humaine peut améliorer les images générées par l’IA

Intelligence Artificielle

Tirer parti de l’attention humaine peut améliorer les images générées par l’IA

mm
Une image gĂ©nĂ©rĂ©e par l'IA par ChatGPT. Invite : « une image panoramique reprĂ©sentant la dĂ©tection d'objets saillants, mettant en scène une personne. La carte thermique saillante doit ĂŞtre claire et Ă©vidente, et cette illustration doit ĂŞtre dans le style des rĂ©sultats d'articles scientifiques sur les cartes de saillance Â»

De nouvelles recherches menées en Chine ont proposé une méthode permettant d'améliorer la qualité des images générées par Modèles de diffusion latente (LDM) modèles tels que Stable Diffusion.

La méthode se concentre sur l’optimisation de la régions saillantes d’une image – zones les plus susceptibles d’attirer l’attention humaine.

Les nouvelles recherches ont montré que les cartes de saillance (quatrième colonne à partir de la gauche) peuvent être utilisées comme filtre, ou « masque », pour orienter le centre d'attention dans les processus de débruitage vers les zones de l'image auxquelles les humains sont les plus susceptibles de prêter attention. Source : https://arxiv.org/pdf/2410.10257

La nouvelle recherche a révélé que les cartes de saillance (quatrième colonne à partir de la gauche) peuvent être utilisées comme filtre, ou « masque », pour orienter le lieu d'attention dans les processus de débruitage vers les zones de l'image auxquelles les humains sont les plus susceptibles de prêter attention. Source : https://arxiv.org/pdf/2410.10257

Les méthodes traditionnelles optimisent la image entière de manière uniforme, tandis que la nouvelle approche s'appuie sur un détecteur de saillance pour identifier et hiérarchiser les régions plus « importantes », comme le font les humains.

Lors de tests quantitatifs et qualitatifs, la méthode des chercheurs a pu surpasser les modèles antérieurs basés sur la diffusion, tant en termes de qualité d'image que de fidélité aux invites textuelles.

La nouvelle approche a également obtenu les meilleurs résultats lors d’un essai de perception humaine mené auprès de 100 participants.

Sélection naturelle

La saillance, la capacité à hiérarchiser les informations dans le monde réel et dans les images, est une partie essentielle de la vision humaine.

Un exemple simple de cela est l'attention accrue aux détails que l'art classique accorde aux zones importantes d'un tableau, comme le visage, dans un portrait, ou les mâts d'un navire, dans un sujet basé sur la mer ; dans de tels exemples, l'attention de l'artiste converge sur le sujet central, ce qui signifie que les détails généraux tels que l'arrière-plan d'un portrait ou les vagues lointaines d'une tempête sont plus esquissés et plus largement représentatifs que détaillés.

S’appuyant sur des études menées sur l’homme, des méthodes d’apprentissage automatique sont apparues au cours de la dernière décennie, capables de reproduire ou au moins d’approcher ce centre d’intérêt humain dans n’importe quelle image.

La segmentation d'objets (segmentation sémantique) peut aider à identifier les facettes d'une image et à développer des cartes de saillance correspondantes. Source : https://arxiv.org/pdf/1312.6034

La segmentation d'objets (segmentation sémantique) peut aider à individualiser les facettes d'une image et à développer des cartes de saillance correspondantes. Source : https://arxiv.org/pdf/1312.6034

Dans la littérature de recherche, le détecteur de carte de saillance le plus populaire au cours des cinq dernières années a été le 2016 Cartographie d'activation de classe pondérée par gradient (Grad-CAM), qui a ensuite évolué vers le système amélioré Grad-CAM++ système, entre autres variantes et perfectionnements.

Grad-CAM utilise le activation du gradient d'un jeton sémantique (tel que « chien » ou « chat ») pour produire une carte visuelle de l'endroit où le concept ou l'annotation semble susceptible d'être représenté dans l'image.

Exemples tirés de l'article original de Grad-CAM. Dans la deuxième colonne, la rétropropagation guidée individualise toutes les caractéristiques contributives. Dans la troisième colonne, les cartes sémantiques sont dessinées pour les deux concepts « chien » et « chat ». La quatrième colonne représente la concaténation des deux inférences précédentes. La cinquième, la carte d'occlusion (masquage) qui correspond à l'inférence ; et enfin, dans la sixième colonne, Grad-CAM visualise une couche ResNet-18. Source : https://arxiv.org/pdf/1610.02391

Exemples tirés de l'article original de Grad-CAM. Dans la deuxième colonne, la rétropropagation guidée individualise toutes les caractéristiques contributives. Dans la troisième colonne, les cartes sémantiques sont dessinées pour les deux concepts « chien » et « chat ». La quatrième colonne représente la concaténation des deux inférences précédentes. La cinquième, la carte d'occlusion (masquage) qui correspond à l'inférence ; et enfin, dans la sixième colonne, Grad-CAM visualise une couche ResNet-18. Source : https://arxiv.org/pdf/1610.02391

Les enquêtes humaines sur les résultats obtenus par ces méthodes ont révélé une correspondance entre ces individuations mathématiques de points d’intérêt clés dans une image et l’attention humaine (lors de la numérisation de l’image).

SGOOL

Les nouveau papier considère ce que la saillance peut apporter aux systèmes texte-image (et, potentiellement, texte-vidéo) tels que Stable Diffusion et Flux.

Lors de l'interprétation d'une invite de texte d'un utilisateur, les modèles de diffusion latente explorent leurs espace latent pour les concepts visuels appris qui correspondent aux mots ou aux phrases utilisés. Ils analysent ensuite ces points de données trouvés via un débruitage processus dans lequel un bruit aléatoire évolue progressivement vers une interprétation créative de l'invite de texte de l'utilisateur.

À ce stade, cependant, le modèle donne une attention égale à chaque partie de l'image. Depuis la popularisation des modèles de diffusion en 2022, avec le lancement de la version disponible d'OpenAI Lui donner Les générateurs d'images et l'open source ultérieur du framework Stable Diffusion de Stability.ai ont permis aux utilisateurs de constater que les sections « essentielles » d'une image sont souvent mal desservies.

Considérant que dans une représentation typique d'un être humain, le visage de la personne (qui est de importance maximale (pour le spectateur) n'occupe probablement pas plus de 10 à 35 % de l'image totale, cette méthode démocratique de dispersion de l'attention va à l'encontre à la fois de la nature de la perception humaine et de l'histoire de l'art et de la photographie.

Lorsque les boutons du jean d’une personne reçoivent la même charge informatique que ses yeux, on peut dire que l’allocation des ressources n’est pas optimale.

C'est pourquoi la nouvelle méthode proposée par les auteurs, intitulée Optimisation guidée par la saillance des latents de diffusion (SGOOL) utilise un mappeur de saillance pour augmenter l'attention sur les zones négligées d'une image, consacrant moins de ressources aux sections susceptibles de rester à la périphérie de l'attention du spectateur.

Méthode

Le pipeline SGOOL comprend la génération d'images, la cartographie de la saillance et l'optimisation, l'image globale et l'image affinée en termes de saillance étant traitées conjointement.

Schéma conceptuel pour SGOOL.

Schéma conceptuel pour SGOOL.

Les plongements latents du modèle de diffusion sont optimisés directement avec réglage fin, éliminant ainsi le besoin de former un modèle spécifique. Université de Stanford Modèle implicite de diffusion de débruitage La méthode d'échantillonnage (DDIM), familière aux utilisateurs de Stable Diffusion, est adaptée pour intégrer les informations secondaires fournies par les cartes de saillance.

Le papier déclare:

« Nous utilisons d'abord un détecteur de saillance pour imiter le système d'attention visuelle humaine et marquer les régions saillantes. Pour éviter de réentraîner un modèle supplémentaire, notre méthode optimise directement les latents de diffusion.

« En outre, SGOOL utilise un processus de diffusion inversible et lui confère les avantages d'une implémentation à mémoire constante. Par conséquent, notre méthode devient une méthode de réglage fin plug-and-play et efficace en termes de paramètres. Des expériences approfondies ont été réalisées avec plusieurs métriques et une évaluation humaine. »

Étant donné que cette méthode nécessite plusieurs itérations du processus de débruitage, les auteurs ont adopté la Optimisation directe des latents de diffusion (DOODL) qui fournit un diffusion inversible processus – même s’il accorde toujours une attention particulière à l’ensemble de l’image.

Pour définir les domaines d'intérêt humain, les chercheurs ont utilisé le modèle 2022 de l'Université de Dundee Cadre TransalNet.

Exemples de détection de saillance issus du projet TransalNet 2022. Source : https://discovery.dundee.ac.uk/ws/portalfiles/portal/89737376/1_s2.0_S0925231222004714_main.pdf

Exemples de détection de saillance du projet TransalNet 2022. Source : https://discovery.dundee.ac.uk/ws/portalfiles/portal/89737376/1_s2.0_S0925231222004714_main.pdf

Les régions saillantes traitées par TransalNet ont ensuite été recadrées pour générer des sections de saillance concluantes susceptibles d'intéresser le plus de personnes réelles.

La différence entre le texte de l'utilisateur et l'image doit être prise en compte, en termes de définition d'un fonction de perte qui peut déterminer si le processus fonctionne. Pour cela, une version d'OpenAI Formation préalable au langage contrasté et à l'image (CLIP) – désormais un pilier du secteur de la recherche sur la synthèse d’images – a été utilisé, ainsi que la prise en compte de la distance sémantique entre l'invite de texte et la sortie d'image globale (non saillante).

Les auteurs affirment :

« [La] fonction de perte finale concerne simultanément les relations entre les parties saillantes et l'image globale, ce qui aide à équilibrer les détails locaux et la cohérence globale dans le processus de génération.

« Cette perte de saillance est exploitée pour optimiser la latence de l'image. Les gradients sont calculés sur le bruit [latent] et exploités pour améliorer l'effet de conditionnement de l'invite de saisie sur les aspects saillants et globaux de l'image générée d'origine. »

Données et tests

Pour tester SGOOL, les auteurs ont utilisé une distribution « vanille » de Stable Diffusion V1.4 (appelée « SD » dans les résultats des tests) et Stable Diffusion avec guidage CLIP (appelée « baseline » dans les résultats).

Le système a Ă©tĂ© Ă©valuĂ© par rapport Ă  trois ensembles de donnĂ©es publiques : Processus syntaxiques courants (CPS), Banc de tirage, et DailyDallE*.

Ce dernier contient 99 invites élaborées d'un artiste présenté dans l'un des articles de blog d'OpenAI, tandis que DrawBench propose 200 invites réparties en 11 catégories. CSP est composé de 52 invites basées sur huit cas grammaticaux différents.

Pour SD, baseline et SGOOL, dans les tests, le modèle CLIP a été utilisé sur ViT/B-32 pour générer les incorporations d'images et de textes. La même invite et graine aléatoire a été utilisé. La taille de sortie était de 256×256, et les poids et paramètres par défaut de TransalNet ont été utilisés.

Outre la mesure du score CLIP, une estimation Score de préférence humaine (HPS) a été utilisé, en plus d’une étude en conditions réelles avec 100 participants.

Résultats quantitatifs comparant SGOOL aux configurations antérieures.

Résultats quantitatifs comparant SGOOL aux configurations antérieures.

En ce qui concerne les résultats quantitatifs présentés dans le tableau ci-dessus, le document indique :

« Notre modèle surpasse considérablement l'écart-type et la ligne de base sur tous les ensembles de données, tant pour les scores CLIP que pour les mesures HPS. Les résultats moyens de notre modèle sur les scores CLIP et HPS sont respectivement 3.05 et 0.0029 supérieurs à ceux de la deuxième place. »

Les auteurs ont en outre estimé les boîtes à moustaches des scores HPS et CLIP par rapport aux approches précédentes :

Boîtes à moustaches pour les scores HPS et CLIP obtenus lors des tests.

Boîtes à moustaches pour les scores HPS et CLIP obtenus lors des tests.

Ils commentent :

« On peut voir que notre modèle surpasse les autres modèles, ce qui indique que notre modèle est plus capable de générer des images cohérentes avec les invites.

« Cependant, dans le diagramme en boîte, il n'est pas facile de visualiser la comparaison à partir du diagramme en boîte en raison de la taille de cette métrique d'évaluation à [0, 1]. Par conséquent, nous procédons au tracé des diagrammes à barres correspondants.

« On peut constater que SGOOL surpasse SD et Baseline sur tous les ensembles de données selon les mesures CLIP et HPS. Les résultats quantitatifs démontrent que notre modèle peut générer des images plus cohérentes sur le plan sémantique et préférées par l'homme. »

Les chercheurs notent que même si le modèle de base est capable d'améliorer la qualité de l'image produite, il ne prend pas en compte les zones saillantes de l'image. Ils soutiennent que SGOOL, en parvenant à un compromis entre l'évaluation globale et saillante de l'image, obtient de meilleures images.

Dans les comparaisons qualitatives (automatisées), le nombre d'optimisations a été fixé à 50 pour SGOOL et DOODL.

Résultats qualitatifs des tests. Veuillez vous référer au document source pour une meilleure définition.

Résultats qualitatifs des tests. Veuillez vous référer au document source pour une meilleure définition.

Résultats qualitatifs des tests. Veuillez vous référer au document source pour une meilleure définition.

Ici, les auteurs observent :

« Dans la [première rangée], les sujets de l'invite sont « un chat qui chante » et « un quatuor de barbiers ». Il y a quatre chats dans l'image générée par SD, et le contenu de l'image est mal aligné avec l'invite.

« Le chat est ignoré dans l'image générée par Baseline, et il y a un manque de détails dans la représentation du visage et les détails de l'image. DOODL tente de générer une image cohérente avec l'invite.

« Cependant, comme DOODL optimise directement l'image globale, les personnes dans l'image sont optimisées par rapport au chat. »

Ils notent également que SGOOL, au contraire, génère des images plus cohérentes avec l’invite d’origine.

Lors du test de perception humaine, 100 volontaires ont évalué la qualité et la cohérence sémantique des images de test (c'est-à-dire leur degré d'adhésion aux messages du texte source). Les participants avaient un temps illimité pour faire leurs choix.

Résultats du test de perception humaine.

Résultats du test de perception humaine.

Comme le souligne l’article, la méthode des auteurs est nettement préférée aux approches précédentes.

Conclusion

Peu de temps après que les lacunes évoquées dans cet article soient devenues évidentes dans les installations locales de diffusion stable, diverses méthodes sur mesure (telles que Après Detailer) est apparu pour forcer le système à accorder une attention particulière aux domaines qui présentaient un plus grand intérêt humain.

Cependant, ce type d’approche nécessite que le système de diffusion suive initialement son processus normal consistant à appliquer une attention égale à chaque partie de l’image, le travail supplémentaire étant effectué comme une étape supplémentaire.

Les données de SGOOL suggèrent que l’application de la psychologie humaine de base à la priorisation des sections d’image pourrait grandement améliorer l’inférence initiale, sans étapes de post-traitement.

 

* L'article fournit le mĂŞme lien pour cela que pour CommonSyntacticProcesses.

Première publication le mercredi 16 octobre 2024

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact : [email protected]
Twitter : @manders_ai