Intelligence artificielle

Guider l'édition d'images basée sur des instructions via de grands modèles de langage multimodaux

Publié le

il y a des mois 2

23 février 2024

GUIDAGE DE L'ÉDITION D'IMAGES BASÉE SUR DES INSTRUCTIONS VIA DE GRANDS MODÈLES DE LANGAGE MULTIMODAUX

Les outils de conception visuelle et les modèles de langage de vision ont des applications répandues dans l'industrie multimédia. Malgré des avancées significatives ces dernières années, une solide compréhension de ces outils reste nécessaire à leur fonctionnement. Pour améliorer l'accessibilité et le contrôle, l'industrie multimédia adopte de plus en plus des techniques d'édition d'images guidées par du texte ou basées sur des instructions. Ces techniques utilisent des commandes en langage naturel au lieu des masques régionaux traditionnels ou des descriptions élaborées, permettant une manipulation d'image plus flexible et contrôlée. Cependant, les méthodes basées sur des instructions fournissent souvent de brèves instructions dont la capture et l’exécution complètes des modèles existants peuvent s’avérer difficiles. De plus, les modèles de diffusion, connus pour leur capacité à créer des images réalistes, sont très demandés dans le secteur de l'édition d'images.

De plus, Grands modèles de langage multimodaux (MLLM) ont montré des performances impressionnantes dans des tâches impliquant la génération de réponses visuelles et la compréhension intermodale. MLLM Guided Image Editing (MGIE) est une étude inspirée des MLLM qui évalue leurs capacités et analyse la manière dont ils prennent en charge l'édition via du texte ou des instructions guidées. Cette approche implique d’apprendre à fournir des conseils explicites et à dériver des instructions expressives. Le modèle d'édition MGIE comprend les informations visuelles et exécute les modifications via une formation de bout en bout. Dans cet article, nous approfondirons MGIE, en évaluant son impact sur l'optimisation globale des images, les modifications de style Photoshop et l'édition locale. Nous discuterons également de l'importance de MGIE dans les tâches d'édition d'images basées sur des instructions qui reposent sur des instructions expressives. Commençons notre exploration.

Édition d'images guidée par MLLM ou MGIE : une introduction

Les modèles multimodaux de langage étendu et les modèles de diffusion sont deux des frameworks d'IA et de ML les plus largement utilisés actuellement en raison de leurs capacités génératives remarquables. D'un côté, vous avez les modèles de diffusion, surtout connus pour produire des images très réalistes et visuellement attrayantes, tandis que de l'autre, vous avez les grands modèles multimodaux de langage, réputés pour leurs prouesses exceptionnelles dans la génération d'une grande variété de contenus, notamment du texte, du langage, discours et images/vidéos.

Les modèles de diffusion échangent les cartes multimodales latentes pour effectuer une manipulation visuelle qui reflète la modification de la légende de l'objectif d'entrée, et ils peuvent également utiliser un masque guidé pour modifier une région spécifique de l'image. Mais la principale raison pour laquelle les modèles de diffusion sont largement utilisés pour les applications multimédias est qu'au lieu de s'appuyer sur des descriptions élaborées ou des masques régionaux, les modèles de diffusion emploient des approches d'édition basées sur des instructions qui permettent aux utilisateurs d'exprimer directement comment modifier l'image en utilisant des instructions textuelles ou des commandes. . En progressant, les grands modèles linguistiques n'ont pas besoin d'être présentés car ils ont démontré des progrès significatifs dans un éventail de tâches linguistiques diverses, notamment le résumé de texte, la traduction automatique, la génération de texte et la réponse aux questions. Les LLM sont généralement formés sur une quantité importante et diversifiée de données de formation qui leur confèrent une créativité et des connaissances visuelles, leur permettant également d'effectuer plusieurs tâches de langage visuel. S'appuyer sur des LLM, des MLLM ou des grands modèles multimodaux de langage peut utiliser des images comme entrées naturelles et fournir des réponses visuellement appropriées.

Cela étant dit, bien que les modèles de diffusion et les frameworks MLLM soient largement utilisés pour les tâches d'édition d'images, il existe certains problèmes de guidage avec les instructions basées sur du texte qui entravent les performances globales, ce qui a conduit au développement de MGIE ou MLLM Guided Image Editing, un logiciel d'édition d'images guidé par l'IA. cadre composé d'un modèle de diffusion et d'un modèle MLLM, comme le démontre l'image suivante.

Au sein de l'architecture MGIE, le modèle de diffusion est formé de bout en bout pour effectuer l'édition d'images avec une imagination latente de l'objectif visé tandis que le cadre MLLM apprend à prédire des instructions expressives précises. Ensemble, le modèle de diffusion et le cadre MLLM tirent parti de la dérivation visuelle inhérente lui permettant de répondre aux commandes humaines ambiguës, ce qui entraîne une édition réaliste des images, comme le démontre l'image suivante.

Le cadre MGIE s’inspire fortement de deux approches existantes : Édition d'images basée sur des instructions et les grands modèles de langage Vision.

L'édition d'images basée sur des instructions peut améliorer considérablement l'accessibilité et la contrôlabilité de la manipulation visuelle en adhérant aux commandes humaines. Il existe deux frameworks principaux utilisés pour l'édition d'images basée sur des instructions : les frameworks GAN et les modèles de diffusion. GAN ou réseaux contradictoires génératifs sont capables de modifier les images mais sont soit limités à des domaines spécifiques, soit produisent des résultats irréalistes. D'un autre côté, les modèles de diffusion avec une formation à grande échelle peuvent contrôler les cartes d'attention intermodales pour les cartes globales afin de réaliser l'édition et la transformation d'images. L'édition basée sur les instructions fonctionne en recevant des commandes directes en entrée, souvent non limitées aux masques régionaux et aux descriptions élaborées. Cependant, il est probable que les instructions fournies soient ambiguës ou pas assez précises pour suivre les instructions des tâches d'édition.

Les modèles de langage Vision Large sont réputés pour leurs capacités de génération de texte et de généralisation à travers diverses tâches, et ils ont souvent une compréhension textuelle solide, et ils peuvent en outre produire des programmes exécutables ou du pseudo-code. Cette capacité des grands modèles de langage permet aux MLLM de percevoir des images et de fournir des réponses adéquates en utilisant l'alignement des caractéristiques visuelles avec le réglage des instructions, les modèles récents adoptant les MLLM pour générer des images liées au chat ou au texte saisi. Cependant, ce qui distingue MGIE des MLLM ou des VLLM est le fait que, même si ces derniers peuvent produire des images distinctes des entrées à partir de zéro, MGIE exploite les capacités des MLLM pour améliorer les capacités d'édition d'images avec des instructions dérivées.

MGIE : Architecture et Méthodologie

Traditionnellement, de grands modèles de langage ont été utilisés pour les tâches génératives de traitement du langage naturel. Mais depuis que les MLLM sont devenus courants, les LLM ont acquis la capacité de fournir des réponses raisonnables en percevant les images entrées. Classiquement, un grand modèle de langage multimodal est initialisé à partir d'un LLM pré-entraîné, et il contient un encodeur visuel et un adaptateur pour extraire les caractéristiques visuelles et projeter les caractéristiques visuelles dans une modalité de langage respectivement. De ce fait, le framework MLLM est capable de percevoir des entrées visuelles même si la sortie est toujours limitée au texte.

Le cadre MGIE proposé vise à résoudre ce problème et à permettre à un MLLM de modifier une image d'entrée en une image de sortie sur la base de l'instruction textuelle donnée. Pour y parvenir, le framework MGIE héberge un MLLM et s'entraîne à dériver des instructions textuelles expressives concises et explicites. De plus, le framework MGIE ajoute des jetons d'image spéciaux dans son architecture pour combler le fossé entre la modalité de vision et de langage, et adopte la tête d'édition pour la transformation des modalités. Ces modalités servent d'imagination visuelle latente du modèle multimodal de langage étendu et guident le modèle de diffusion pour accomplir les tâches d'édition. Le framework MGIE est alors capable d'effectuer des tâches de perception visuelle pour une édition d'image raisonnable.

Instruction expressive concise

Traditionnellement, les grands modèles multimodaux de langage peuvent offrir des réponses visuelles grâce à leur perception intermodale grâce au réglage des instructions et à l'alignement des fonctionnalités. Pour éditer des images, le framework MGIE utilise une invite textuelle comme langue d'entrée principale avec l'image et dérive une explication détaillée de la commande d'édition. Cependant, ces explications peuvent souvent être trop longues ou impliquer des descriptions répétitives entraînant des intentions mal interprétées, obligeant MGIE à appliquer un synthétiseur pré-entraîné pour obtenir des narrations succinctes, permettant ainsi au MLLM de générer des résultats résumés. Le cadre traite les conseils concis mais explicites comme une instruction expressive et applique la perte d'entropie croisée pour former le grand modèle de langage multimodal en utilisant l'application par l'enseignant.

L'utilisation d'une instruction expressive fournit une idée plus concrète par rapport à l'instruction textuelle, car elle comble le fossé d'une édition d'image raisonnable, améliorant ainsi l'efficacité du cadre. De plus, le cadre MGIE pendant la période d'inférence dérive des instructions expressives concises au lieu de produire de longues narrations et de s'appuyer sur un résumé externe. De ce fait, le framework MGIE est capable de s'emparer de l'imagination visuelle des intentions d'édition, mais reste limité à la modalité linguistique. Pour surmonter cet obstacle, le modèle MGIE ajoute un certain nombre de jetons visuels après l'instruction expressive avec des incorporations de mots entraînables permettant au MLLM de les générer à l'aide de sa tête LM ou Language Model.

Édition d'images avec l'imagination latente

Dans l'étape suivante, le framework MGIE adopte la tête d'édition pour transformer l'instruction d'image en véritable guidage visuel. La tête d'édition est un modèle séquence à séquence qui aide à cartographier les jetons visuels séquentiels du MLLM au sens sémantiquement latent comme guide d'édition. Pour être plus spécifique, la transformation sur les incorporations de mots peut être interprétée comme une représentation générale dans la modalité visuelle et utilise un composant d'imagination visuelle conscient des instances pour les intentions d'édition. De plus, pour guider l'édition d'images avec l'imagination visuelle, le framework MGIE intègre dans son architecture un modèle de diffusion latente qui comprend un auto-encodeur variationnel et aborde la diffusion de débruitage dans l'espace latent. L'objectif principal du modèle de diffusion latente est de générer l'objectif latent en préservant l'entrée latente et en suivant les conseils d'édition. Le processus de diffusion ajoute du bruit à l'objectif latent à intervalles de temps réguliers et le niveau de bruit augmente à chaque pas de temps.

Apprentissage du MGIE

La figure suivante résume l'algorithme du processus d'apprentissage du cadre MGIE proposé.

Comme on peut l'observer, le MLLM apprend à dériver des instructions expressives concises en utilisant la perte d'instructions. En utilisant l'imagination latente des instructions d'image d'entrée, le cadre transforme la modalité de la tête d'édition, guide le modèle de diffusion latente pour synthétiser l'image résultante et applique la perte d'édition pour l'entraînement à la diffusion. Enfin, le cadre gèle la majorité des poids, ce qui permet un entraînement de bout en bout efficace en termes de paramètres.

MGIE : Résultats et évaluation

Le framework MGIE utilise l'ensemble de données IPr2Pr comme données principales de pré-entraînement et contient plus d'un million de données filtrées par CLIP avec des instructions extraites du modèle GPT-1 et un modèle d'invite à invite pour synthétiser les images. De plus, le framework MGIE traite le framework InsPix3Pix construit sur l'encodeur de texte CLIP avec un modèle de diffusion comme base pour les tâches d'édition d'images basées sur des instructions. De plus, le modèle MGIE prend également en compte un modèle d'édition d'images guidé par LLM adopté pour les instructions expressives à partir d'entrées d'instructions uniquement mais sans perception visuelle.

Analyse quantitative

La figure suivante résume les résultats de l'édition dans un paramètre de tir nul, les modèles étant formés uniquement sur l'ensemble de données IPr2Pr. Pour les données GIER et EVR impliquant des modifications de style Photoshop, les instructions expressives peuvent révéler des objectifs concrets au lieu de commandes ambiguës, ce qui permet aux résultats d'édition de mieux ressembler aux intentions d'édition.

Bien que le LGIE et le MGIE soient formés sur les mêmes données que le modèle InsPix2Pix, ils peuvent offrir des explications détaillées via l'apprentissage avec le grand modèle de langage, mais le LGIE reste confiné à une seule modalité. De plus, le framework MGIE peut fournir une amélioration significative des performances car il a accès aux images et peut utiliser ces images pour dériver des instructions explicites.

Pour évaluer les performances des tâches d'édition d'images basées sur des instructions à des fins spécifiques, les développeurs affinent plusieurs modèles sur chaque ensemble de données, comme résumé dans le tableau suivant.

Comme on peut le constater, après avoir adapté les tâches d'édition de style Photoshop pour EVR et GIER, les modèles démontrent un gain de performances. Cependant, il convient de noter que puisque le réglage fin rend les instructions expressives plus spécifiques au domaine également, le framework MGIE connaît une amélioration considérable des performances puisqu'il apprend également des conseils liés au domaine, permettant au modèle de diffusion de démontrer des scènes concrètes éditées à partir du Un grand modèle de langage affiné bénéficiant à la fois à la modification locale et à l'optimisation locale. De plus, étant donné que les conseils visuels sont davantage alignés sur les objectifs d'édition prévus, le cadre MGIE fournit systématiquement des résultats supérieurs par rapport au LGIE.

La figure suivante montre le score CLIP-S à travers les images d'objectif d'entrée ou de vérité terrain et les instructions expressives. Un score CLIP plus élevé indique la pertinence des instructions avec la source d'édition et, comme on peut l'observer, le MGIE a un score CLIP plus élevé par rapport au modèle LGIE pour les images d'entrée et de sortie.

Résultats qualitatifs

L'image suivante résume parfaitement l'analyse qualitative du cadre MGIE.

Comme nous le savons, le cadre LGIE est limité à une seule modalité en raison de laquelle il a une vision basée sur un seul langage, et est enclin à dériver des explications erronées ou non pertinentes pour l'édition de l'image. Cependant, le framework MGIE est multimodal et, avec l'accès aux images, il complète les tâches d'édition et fournit une imagination visuelle explicite qui correspond très bien à l'objectif.

Réflexions finales

Dans cet article, nous avons parlé de MGIE ou MLLM Guided Image Editing, une étude inspirée du MLLM qui vise à évaluer les grands modèles multimodaux de langage et à analyser comment ils facilitent l'édition à l'aide de texte ou d'instructions guidées tout en apprenant à fournir des conseils explicites en dérivant des instructions expressives. simultanément. Le modèle d'édition MGIE capture les informations visuelles et effectue l'édition ou la manipulation en utilisant une formation de bout en bout. Au lieu de conseils ambigus et brefs, le framework MGIE produit des instructions visuelles explicites qui aboutissent à une édition d'image raisonnable.

Rubriques connexes:Édition d'images IA modèles de diffusion IA générative MLLM MLLM Modèle multimodal de langage étendu

L’état de l’optimisation du cloud 2024 : informations complètes

Ne manquez pas

OLMo : améliorer la science des modèles linguistiques

Kunal Kejriwal

« Ingénieur de profession, écrivain de cœur ». Kunal est un rédacteur technique avec un amour et une compréhension profonds de l'IA et du ML, dédié à la simplification de concepts complexes dans ces domaines grâce à sa documentation engageante et informative.