Intelligence artificielle
Guidage d’édition d’images basé sur les instructions via des modèles de langage multimodaux de grande échelle

Les outils de conception visuelle et les modèles de langage de vision ont des applications généralisées dans l’industrie multimédia. Malgré les progrès importants réalisés ces dernières années, une solide compréhension de ces outils est toujours nécessaire pour leur fonctionnement. Pour améliorer l’accessibilité et le contrôle, l’industrie multimédia adopte de plus en plus des techniques d’édition d’images guidées par du texte ou des instructions. Ces techniques utilisent des commandes linguistiques naturelles au lieu de masques régionaux traditionnels ou de descriptions élaborées, permettant une manipulation d’image plus flexible et contrôlée. Cependant, les méthodes basées sur les instructions fournissent souvent des directions brèves qui peuvent être difficiles pour les modèles existants à capturer et à exécuter entièrement. De plus, les modèles de diffusion, connus pour leur capacité à créer des images réalistes, sont très demandés dans le secteur de l’édition d’images.
De plus, les Modèles de langage multimodaux de grande échelle (MLLM) ont montré des performances impressionnantes dans les tâches impliquant la génération de réponses visuelles et la compréhension cross-modale. Le MLLM Guided Image Editing (MGIE) est une étude inspirée par les MLLM qui évalue leurs capacités et analyse comment ils facilitent l’édition à l’aide de texte ou d’instructions guidées. Cette approche implique l’apprentissage pour fournir des conseils explicites et dériver des instructions expressives. Le modèle d’édition MGIE comprend les informations visuelles et effectue des éditions via une formation de bout en bout. Dans cet article, nous allons examiner en profondeur le MGIE, en évaluant son impact sur l’optimisation d’images globale, les modifications de style Photoshop et l’édition locale. Nous discuterons également de l’importance du MGIE dans les tâches d’édition d’images basées sur des instructions qui reposent sur des instructions expressives. Commençons notre exploration.
MGIE ou MLLM Guided Image Editing : Une introduction
Les Modèles de langage multimodaux de grande échelle et les modèles de diffusion sont deux des frameworks AI et ML les plus utilisés actuellement en raison de leurs capacités de génération remarquables. D’une part, vous avez les modèles de diffusion, connus pour produire des images très réalistes et visuellement attrayantes, tandis que d’autre part, vous avez les Modèles de langage multimodaux de grande échelle, renommés pour leur exceptionnelle capacité à générer une grande variété de contenu, y compris du texte, du langage, de la parole et des images/vidéos.
Les modèles de diffusion échangent les cartes cross-modales latentes pour effectuer une manipulation visuelle qui reflète l’altération de la légende d’entrée, et ils peuvent également utiliser un masque guidé pour éditer une région spécifique de l’image. Mais la principale raison pour laquelle les modèles de diffusion sont largement utilisés pour les applications multimédias est qu’ils emploient des approches d’édition basées sur des instructions qui permettent aux utilisateurs d’exprimer comment éditer l’image directement en utilisant des instructions ou des commandes textuelles. Ensuite, les grands modèles de langage n’ont pas besoin d’introduction puisqu’ils ont démontré des progrès importants dans une gamme diversifiée de tâches linguistiques, y compris la synthèse de texte, la traduction automatique, la génération de texte et la réponse aux questions. Les LLM sont généralement formés sur une grande et diverse quantité de données de formation qui les équipent d’une créativité visuelle et de connaissances, leur permettant de réaliser plusieurs tâches de langage de vision. En s’appuyant sur les LLM, les MLLM ou Modèles de langage multimodaux de grande échelle peuvent utiliser des images comme entrées naturelles et fournir des réponses visuellement conscientes.
Cela étant dit, bien que les modèles de diffusion et les frameworks MLLM soient largement utilisés pour les tâches d’édition d’images, il existe certains problèmes de guidage avec les instructions basées sur le texte qui entravent les performances globales, aboutissant au développement du MGIE ou MLLM Guided Image Editing, un framework IA composé d’un modèle de diffusion et d’un modèle MLLM, comme le montre l’image suivante.
Dans l’architecture MGIE, le modèle de diffusion est formé de bout en bout pour effectuer l’édition d’images avec l’imagination latente de l’objectif intentionnel, tandis que le framework MLLM apprend à prédire des instructions expressives précises. Ensemble, le modèle de diffusion et le framework MLLM tirent parti de la dérivation visuelle inhérente pour résoudre les commandes humaines ambiguës, aboutissant à une édition réaliste des images, comme le montre l’image suivante.
Le framework MGIE s’inspire fortement de deux approches existantes : l’édition d’images basée sur des instructions et les Modèles de langage de vision.
L’édition d’images basée sur des instructions peut améliorer considérablement l’accessibilité et la contrôlabilité de la manipulation visuelle en suivant les commandes humaines. Il existe deux principaux frameworks utilisés pour l’édition d’images basée sur des instructions : les frameworks GAN et les modèles de diffusion. Les GAN ou Réseaux antagonistes génératifs sont capables de modifier les images mais sont soit limités à des domaines spécifiques, soit produisent des résultats irréalistes. D’un autre côté, les modèles de diffusion avec une formation à grande échelle peuvent contrôler les cartes d’attention cross-modales pour les cartes globales afin d’atteindre l’édition et la transformation d’images. L’édition basée sur des instructions fonctionne en recevant des commandes directes comme entrée, souvent non limitées à des masques régionaux et à des descriptions élaborées. Cependant, il y a une probabilité que les instructions fournies soient soit ambiguës, soit pas suffisamment précises pour suivre les instructions pour les tâches d’édition.
Les Modèles de langage de vision sont renommés pour leurs capacités de génération de texte et de généralisation à travers diverses tâches, et ils ont souvent une solide compréhension textuelle, et ils peuvent également produire des programmes exécutables ou du pseudo-code. Cette capacité des grands modèles de langage permet aux MLLM de percevoir les images et de fournir des réponses appropriées en utilisant l’alignement de fonctionnalités visuelles avec un réglage d’instruction, et les modèles récents adoptent les MLLM pour générer des images liées au chat ou au texte d’entrée. Cependant, ce qui distingue le MGIE des MLLM ou des VLLM est le fait que tandis que ces derniers peuvent produire des images distinctes des entrées à partir de zéro, le MGIE tire parti des capacités des MLLM pour améliorer les capacités d’édition d’images avec des instructions dérivées.
MGIE : Architecture et méthodologie
Traditionnellement, les grands modèles de langage ont été utilisés pour les tâches de traitement du langage naturel génératif. Mais depuis que les MLLM sont devenus mainstream, les LLM ont été dotés de la capacité de fournir des réponses raisonnables en percevant les entrées d’images. Conventuellement, un Modèle de langage multimodaux de grande échelle est initialisé à partir d’un LLM pré-formé, et il contient un encodeur visuel et un adaptateur pour extraire les fonctionnalités visuelles et projeter les fonctionnalités visuelles dans la modalité linguistique, respectivement. En raison de cela, le framework MLLM est capable de percevoir les entrées visuelles, même si la sortie est toujours limitée au texte.
Le framework MGIE proposé vise à résoudre ce problème et à permettre à un MLLM d’éditer une image d’entrée en une image de sortie sur la base de l’instruction textuelle donnée. Pour atteindre cela, le framework MGIE abrite un MLLM et est formé pour dériver des instructions textuelles expressives concises et explicites. De plus, le framework MGIE ajoute des jetons d’image spéciaux dans son architecture pour combler le fossé entre la modalité visuelle et la modalité linguistique, et adopte la tête d’édition pour la transformation des modalités. Ces modalités servent de imagination visuelle latente du Modèle de langage multimodaux de grande échelle et guident le modèle de diffusion pour atteindre les tâches d’édition. Le framework MGIE est ensuite capable de réaliser des tâches de perception visuelle pour une édition d’image raisonnable.
Instruction expressive concise
Traditionnellement, les Modèles de langage multimodaux de grande échelle peuvent offrir des réponses visuelles liées à leur perception cross-modale en raison du réglage d’instruction et de l’alignement de fonctionnalités. Pour éditer les images, le framework MGIE utilise une invite textuelle comme entrée linguistique principale avec l’image et dérive une explication détaillée pour la commande d’édition. Cependant, ces explications peuvent souvent être trop longues ou impliquer des descriptions répétitives, aboutissant à des intentions mal interprétées, forçant le MGIE à appliquer un résumé pré-formé pour obtenir des narrations succinctes, permettant au MLLM de générer des sorties résumées. Le framework traite les conseils concis mais explicites comme une instruction expressive et applique la perte d’entropie croisée pour former le Modèle de langage multimodaux de grande échelle en utilisant l’enseignement avec un enseignant.
L’utilisation d’une instruction expressive fournit une idée plus concrète par rapport à l’instruction textuelle, car elle comble le fossé pour une édition d’image raisonnable, améliorant ainsi l’efficacité du framework. De plus, le framework MGIE, pendant la période d’inférence, dérive des instructions expressives concises au lieu de produire des narrations longues et de s’appuyer sur une synthèse externe. En raison de cela, le framework MGIE est capable de saisir l’imagination visuelle des intentions d’édition, mais est toujours limité à la modalité linguistique. Pour surmonter cet obstacle, le modèle MGIE ajoute un certain nombre de jetons visuels après l’instruction expressive avec des plongements de mots formables, permettant au MLLM de les générer en utilisant sa tête de modèle de langage.
Édition d’image avec imagination latente
Dans l’étape suivante, le framework MGIE adopte la tête d’édition pour transformer l’instruction d’image en une guidance visuelle réelle. La tête d’édition est un modèle de séquence à séquence qui aide à mapper les jetons visuels séquentiels du MLLM aux conseils d’édition latents sémantiquement significatifs. Pour être plus précis, la transformation sur les plongements de mots peut être interprétée comme une représentation générale dans la modalité visuelle et utilise un composant d’imagination visuelle conscient de l’instance pour les intentions d’édition. De plus, pour guider l’édition d’image avec l’imagination visuelle, le framework MGIE intègre un modèle de diffusion latent dans son architecture qui comprend un auto-encodeur variationnel et aborde le débruitage de la diffusion dans l’espace latent. L’objectif principal du modèle de diffusion latent est de générer l’objectif latent en préservant l’entrée latente et en suivant les conseils d’édition. Le processus de diffusion ajoute du bruit à l’objectif latent sur des intervalles de temps réguliers et le niveau de bruit augmente avec chaque pas de temps.
Apprentissage du MGIE
La figure suivante résume l’algorithme du processus d’apprentissage du framework MGIE proposé.
Comme on peut l’observer, le MLLM apprend à dériver des instructions expressives concises en utilisant la perte d’instruction. En utilisant l’imagination latente à partir des instructions d’image d’entrée, le framework transforme la modalité de la tête d’édition et guide le modèle de diffusion latent pour synthétiser l’image de sortie, et applique la perte d’édition pour la formation de diffusion. Enfin, le framework fige la majorité des poids, aboutissant à une formation de bout en bout efficiente en termes de paramètres.
MGIE : Résultats et évaluation
Le framework MGIE utilise le jeu de données IPr2Pr comme données de pré-formation principales, et il contient plus d’un million de données filtrées CLIP avec des instructions extraites du modèle GPT-3 et d’un modèle Prompt-to-Prompt pour synthétiser les images. De plus, le framework MGIE traite le framework InsPix2Pix construit sur l’encodeur de texte CLIP avec un modèle de diffusion comme ligne de base pour les tâches d’édition d’images basées sur des instructions. De plus, le modèle MGIE prend également en compte un modèle d’édition d’image guidé par LLM adopté pour des instructions expressives à partir d’entrées d’instructions uniquement, mais sans perception visuelle.
Analyse quantitative
La figure suivante résume les résultats d’édition dans un paramètre de tir à zéro avec les modèles formés uniquement sur le jeu de données IPr2Pr. Pour les données GIER et EVR impliquant des modifications de style Photoshop, les instructions expressives peuvent révéler des objectifs concrets au lieu de commandes ambiguës, permettant aux résultats d’édition de ressembler davantage aux intentions d’édition.
Bien que les modèles LGIE et MGIE soient formés sur les mêmes données que le modèle InsPix2Pix, ils peuvent offrir des explications détaillées via l’apprentissage avec le grand modèle de langage, mais le LGIE est toujours limité à une seule modalité. De plus, le framework MGIE peut offrir une amélioration significative des performances, car il a accès aux images et peut les utiliser pour dériver des instructions explicites.
Pour évaluer les performances sur les tâches d’édition d’images basées sur des instructions pour des objectifs spécifiques, les développeurs affinent plusieurs modèles sur chaque jeu de données, comme résumé dans le tableau suivant.
Comme on peut l’observer, après avoir adapté les tâches d’édition de style Photoshop pour EVR et GIER, les modèles démontrent une amélioration des performances. Cependant, il est important de noter que puisque l’affinement rend les instructions expressives plus spécifiques au domaine, le framework MGIE est témoin d’une amélioration massive des performances, car il apprend également des conseils liés au domaine, permettant au modèle de diffusion de démontrer des scènes éditées concrètes à partir du grand modèle de langage affiné, bénéficiant à la fois de la modification locale et de l’optimisation locale. De plus, puisque la guidance visuellement consciente est plus alignée sur les objectifs d’édition intentionnels, le framework MGIE livre des résultats supérieurs de manière cohérente par rapport au LGIE.
La figure suivante démontre le score CLIP-S à travers les images d’entrée ou les images de vérité terrain et les instructions expressives. Un score CLIP plus élevé indique la pertinence des instructions avec la source d’édition, et comme on peut l’observer, le MGIE a un score CLIP plus élevé par rapport au modèle LGIE à travers les images d’entrée et de sortie.
Résultats qualitatifs
L’image suivante résume parfaitement l’analyse qualitative du framework MGIE.
Comme nous le savons, le framework LGIE est limité à une seule modalité en raison de laquelle il a une seule perspective linguistique et est enclin à dériver des explications incorrectes ou non pertinentes pour l’édition de l’image. Cependant, le framework MGIE est multimodal et, avec l’accès aux images, il termine les tâches d’édition et fournit une imagination visuelle explicite qui s’aligne bien sur l’objectif.
Pensées finales
Dans cet article, nous avons discuté du MGIE ou MLLM Guided Image Editing, une étude inspirée par les MLLM qui vise à évaluer les Modèles de langage multimodaux de grande échelle et à analyser comment ils facilitent l’édition en utilisant du texte ou des instructions guidées, tout en apprenant à fournir des conseils explicites en dérivant des instructions expressives simultanément. Le modèle d’édition MGIE capture les informations visuelles et effectue l’édition ou la manipulation en utilisant une formation de bout en bout. Au lieu de conseils ambigus et brèves, le framework MGIE produit des instructions visuellement conscientes explicites qui aboutissent à une édition d’image raisonnable.












