Intelligence Artificielle
SHOW-O : Un seul transformateur réunissant compréhension et génération multimodales

Les avancées significatives dans les grands modèles de langage (LLM) ont inspiré le développement de grands modèles de langage multimodaux (MLLM). Les premiers efforts MLLM, tels que LLaVA, MiniGPT-4 et InstructBLIP, démontrent des capacités de compréhension multimodales notables. Pour intégrer les LLM dans des domaines multimodaux, ces études ont exploré la projection de caractéristiques d'un encodeur spécifique à la modalité pré-entraîné, tel que CLIP, dans l'espace d'entrée des LLM, permettant une compréhension et un raisonnement multimodaux au sein de l'ossature du transformateur. Bien qu'il existe divers choix de conception pour les MLLM, tels que les encodeurs de vision, les adaptateurs d'alignement de caractéristiques et les ensembles de données, la formation de la plupart de ces modèles adhère au paradigme de génération autorégressive, qui s'est avéré efficace pour la génération de texte dans les LLM. Malgré leurs fortes capacités de compréhension multimodale, ces modèles se concentrent principalement sur la perception visuelle et n'ont pas la capacité de générer des sorties multimodales au-delà du texte.
Les modèles de transformateurs ont démontré un grand succès dans la modélisation autorégressive en traitement du langage naturel. Inspirées par ces progrès, des études antérieures ont directement appliqué la même modélisation autorégressive pour apprendre la dépendance des pixels d'image pour la génération d'images et de vidéos. Par exemple, VideoPoet utilise une architecture de transformateur uniquement basée sur un décodeur pour synthétiser des vidéos de haute qualité à partir d'entrées multimodales. Plus récemment, LlamaGen a montré qu'une architecture de modèle de langage de grande taille comme Llama peut modéliser de manière autorégressive des jetons d'image, obtenant des performances décentes dans la génération d'images conditionnelles de classe.
Dans cet article, nous allons discuter de Show-O, un transformateur unifié qui intègre la compréhension et la génération multimodales. Contrairement aux modèles entièrement autorégressifs, Show-O unifie la modélisation autorégressive et la diffusion discrète pour gérer de manière adaptative les entrées et les sorties de modalités diverses et mixtes. Le modèle unifié prend en charge de manière flexible une large gamme de tâches de vision-langage, notamment la réponse à des questions visuelles, la génération de texte en image, l'inpainting/extrapolation guidée par texte et la génération de modalités mixtes. Dans divers tests, Show-O démontre des performances comparables ou supérieures aux modèles individuels existants avec un nombre équivalent ou supérieur de paramètres, soulignant son potentiel en tant que modèle de base de nouvelle génération.
Dans ce cadre, le modèle est chargé de prédire le bruit gaussien ajouté aux représentations latentes continues. En revanche, d'autres modèles comme D3PM, Mask-predict, ARDM et MaskGIT utilisent un processus de corruption discret comme alternative à la diffusion gaussienne. Plus précisément, une image est représentée comme une séquence de jetons discrets à l'aide de tokenizers d'image, chaque jeton étant associé à une étiquette catégorielle. La distribution par jeton est transformée en une distribution uniforme grâce à un processus d'échantillonnage stochastique. Pendant l'entraînement, une partie de ces jetons est masquée de manière aléatoire et le modèle est entraîné à prédire les valeurs originales des jetons masqués. Dans ce travail, Show-O adopte la modélisation par diffusion discrète pour la génération visuelle.
SHOW-O : Unifier la compréhension et la génération multimodales
Au cours des dernières années, des avancées significatives ont été réalisées dans les deux piliers clés de l'intelligence multimodale : la compréhension et la génération. Pour la compréhension multimodale, Modèles multimodaux de langage volumineux (MLLM)) comme LLaVA ont démontré des capacités exceptionnelles dans les tâches de langage visuel telles que la réponse visuelle aux questions (VQA). Pour la génération visuelle, les modèles probabilistes de diffusion avec débruitage (DDPM) ont révolutionné les paradigmes génératifs traditionnels, atteignant des performances sans précédent dans la génération de texte en image/vidéo.
Compte tenu de ces avancées dans des domaines individuels, il est naturel d'explorer le potentiel de les relier. Des travaux récents ont tenté d'assembler des modèles experts de ces deux domaines différents pour former un système unifié capable de gérer à la fois la compréhension et la génération multimodales. Cependant, les tentatives existantes impliquent souvent des modèles distincts pour la compréhension et la génération. Par exemple, NExT-GPT utilise un modèle de langage de base pour la compréhension multimodale, mais nécessite un modèle de diffusion pré-entraîné supplémentaire pour la génération d'images. Cela soulève la question : un seul transformateur peut-il gérer à la fois la compréhension et la génération multimodales ?
Récemment, Chameleon a démontré que cela était possible. Plus précisément, Chameleon permet la fusion de différentes modalités pour générer à la fois des jetons de texte et d'image grâce à la modélisation autorégressive. S'il est logique de modéliser les jetons de texte de manière autorégressive, il est moins évident que la modélisation des patchs d'image ou des pixels de la même manière soit optimale. L'un des principaux obstacles à la prédiction autorégressive d'une image est le grand nombre d'étapes d'échantillonnage requises, en particulier lorsqu'il s'agit d'images à haute résolution. Les modèles de diffusion continue ont montré des performances supérieures en matière de génération visuelle par rapport aux modèles autorégressifs.
Cela nous amène à explorer si un seul transformateur peut intégrer à la fois la modélisation autorégressive et la modélisation par diffusion. Show-O envisage un nouveau paradigme dans lequel le texte est représenté sous forme de jetons discrets et modélisé de manière autorégressive, tandis que les pixels d'image continus sont modélisés à l'aide de la diffusion de débruitage. Cependant, l'intégration de ces deux techniques distinctes dans un seul réseau n'est pas triviale en raison des différences entre les jetons de texte discrets et les représentations d'images continues. De plus, les modèles de diffusion reposent généralement sur deux modèles distincts : un encodeur de texte et un réseau de débruitage.
Pour résoudre ce problème, Show-O introduit un nouveau modèle unifié capable de gérer à la fois les tâches de compréhension et de génération multimodales à l'aide d'une modélisation mixte autorégressive et par diffusion. Show-O est construit sur un LLM pré-entraîné et exploite ses capacités de modélisation autorégressive pour le raisonnement basé sur le texte. Inspiré par d'autres travaux, Show-O utilise la diffusion de débruitage discrète pour modéliser les jetons d'image au lieu de représentations continues. De plus, Show-O encode de manière inhérente les informations conditionnelles du texte, éliminant ainsi le besoin d'encodeurs de texte supplémentaires. En utilisant des tokenizers de texte et d'image, Show-O peut traiter diverses données d'entrée et tâches, en fournissant des réponses de manière autorégressive pour les tâches de langage visuel et en générant des images à l'aide de la diffusion de débruitage discrète.
Show-O présente des performances comparables, et dans certains cas meilleures, que les modèles individuels avec un nombre équivalent ou supérieur de paramètres sur différents benchmarks. Contrairement à la génération d'images autorégressives, le framework Show-O nécessite environ 20 fois moins d'étapes d'échantillonnage, ce qui le rend intrinsèquement plus rapide. De plus, le framework Show-O prend en charge les applications en aval telles que l'inpainting et l'extrapolation guidées par texte sans nécessiter de réglage fin, comme le montre l'image suivante.
Show-O a également le potentiel de générer des modalités mixtes, comme la génération d'images clés vidéo entrelacées avec des descriptions textuelles, ce qui s'avère prometteur pour la génération de vidéos de longue durée. En outre, le cadre Show-O étudie l'impact des représentations d'images discrètes et continues sur la compréhension multimodale, offrant des perspectives pour les futures conceptions de modèles unifiés.
La figure suivante présente une comparaison des caractéristiques du modèle entre le cadre Show-O et les méthodes existantes dans divers domaines. Show-O se distingue comme un modèle unifié qui intègre des techniques avancées pour la compréhension et la génération multimodales.
En résumé, les principales contributions de cet article sont les suivantes :
- Show-O est un modèle unifié qui intègre la compréhension et la génération multimodales à l'aide d'un seul transformateur.
- Show-O unifie la modélisation autorégressive et la diffusion discrète au sein d'un seul transformateur, gérant efficacement à la fois le texte et les images.
- Le cadre Show-O surpasse ou correspond aux modèles de référence individuels avec des paramètres équivalents ou plus grands à travers des repères de compréhension et de génération multimodale.
- Show-O prend en charge les applications en aval comme l'inpainting et l'extrapolation basés sur du texte sans réglage fin et démontre un potentiel pour la génération de modalités mixtes.
- Show-O explore l'impact de différents types de représentations, fournissant des informations précieuses pour améliorer la compréhension multimodale dans les modèles unifiés.
Ces dernières années, un nombre croissant d'études se sont concentrées sur des modèles de langage multimodaux unifiés capables à la fois de comprendre et de générer. Certains efforts utilisent des représentations continues entrelacées avec des jetons de texte pour la modélisation autorégressive afin de générer des images. SEED-X propose un système de fondation unifié et polyvalent capable de gérer à la fois les tâches de compréhension et de génération multimodales. Dans cette approche, les représentations d'images continues de l'encodeur CLIP ViT sont combinées avec des jetons de texte et introduites dans un grand modèle de langage (LLM) pour effectuer la prédiction du mot suivant et la régression de la représentation d'image. Chameleon introduit une famille de modèles mixtes modaux basés sur des jetons capables à la fois de comprendre et de générer des images. Cette approche représente toutes les modalités sous forme de jetons discrets, en utilisant une architecture unifiée basée sur un transformateur et en formant le modèle à partir de zéro de manière de bout en bout. En comparaison, Show-O adopte également des jetons discrets pour représenter toutes les modalités, mais utilise un processus de diffusion discret au lieu d'une modélisation autorégressive pour la génération visuelle.
SHOW-O : Méthodologie et architecture
L'objectif principal du cadre Show-O est de développer un modèle unifié qui intègre la modélisation autorégressive et par diffusion pour une compréhension et une génération multimodales conjointes. Le développement d'un tel modèle unifié pose des défis importants, les principaux problèmes étant : i) la définition de l'espace d'entrée/sortie du modèle ; ii) l'unification de divers types de données d'entrée provenant de différentes modalités ; iii) l'intégration de la modélisation autorégressive et par diffusion dans un seul transformateur ; et iv) l'entraînement efficace d'un tel modèle unifié.
Show-O répond à ces défis avec les solutions suivantes :
- Show-O construit l'espace d'entrée/sortie en tokenisant les données de texte et d'image en jetons discrets.
- Show-O présente son architecture par défaut et une stratégie d'invite unifiée pour structurer les données d'entrée et les modalités.
- Show-O montre comment intégrer à la fois la modélisation autorégressive et la modélisation par diffusion dans un seul transformateur.
- Show-O présente un pipeline de formation en trois étapes pour former efficacement le modèle unifié.
tokenization
Étant donné que le Show-O proposé est construit sur LLM pré-formés, il est naturel d'effectuer un apprentissage unifié dans l'espace discret. En conservant un vocabulaire unifié qui inclut des jetons de texte et d'image discrets, Show-O est chargé du même objectif d'apprentissage : prédire des jetons discrets.
Tokenisation de texte
Show-O est basé sur un LLM pré-entraîné, et le même tokeniseur est utilisé pour la tokenisation des données textuelles sans aucune modification.
Tokenisation d'image
Après MAGVIT-v2, Show-O entraîne un quantificateur sans recherche en utilisant environ 35 M de données d'image. Le quantificateur conserve un livre de codes de taille 8,192 256 et encode des images d'une résolution de 256 × 16 en jetons discrets de 16 × 2. MAGVIT-v2 a été choisi pour sa facilité de réglage fin, ce qui le rend adapté comme tokeniseur vidéo avec capacité de compression temporelle, un aspect que Show-O prévoit d'explorer à l'avenir. Une approche alternative consiste à utiliser différents tokeniseurs pour la compréhension et la génération, respectivement. Inspiré par des études existantes, Show-O extrait également des représentations d'images continues à partir du MAGVIT-vXNUMX pré-entraîné et de l'encodeur CLIP-ViT pour explorer les améliorations des capacités de compréhension multimodale. Dans les sections suivantes, le Show-O par défaut utilise des jetons d'image discrets comme entrée pour la compréhension et la génération multimodales. Pour plus de simplicité, les sections de méthodologie ne développeront que le Show-O par défaut.
Architecture
Show-O hérite de l'architecture de LLM existants sans aucune modification d'architecture, à l'exception de l'ajout d'une opération QK-Norm à chaque couche d'attention. Show-O est initialisé avec les poids d'un LLM pré-entraîné et étend la taille de la couche d'intégration en incorporant 8,192 XNUMX nouvelles intégrations apprenables pour les jetons d'image discrets. Contrairement aux modèles de diffusion de pointe qui nécessitent un encodeur de texte supplémentaire, Show-O encode de manière inhérente les informations conditionnelles textuelles pour la génération de texte en image.
Invite unifiée
Pour effectuer un apprentissage unifié sur la compréhension et la génération multimodales, Show-O utilise une stratégie d'invite unifiée pour formater différents types de données d'entrée. Étant donné une paire image-texte (x, y), elle est d'abord segmentée en M jetons d'image et N jetons de texte par les tokenizers d'image et de texte, respectivement. Les jetons sont ensuite formés en une séquence d'entrée en fonction du type de tâche, comme illustré dans la figure suivante.
En utilisant cette conception d'invite, Show-O peut encoder efficacement diverses données d'entrée pour la compréhension multimodale, la génération de texte en image et la génération de modalités mixtes sous forme de données séquentielles. Cette configuration permet à l'apprentissage unifié de fonctionner de manière transparente sur plusieurs séquences pour ces différentes tâches. Une fois formé, Show-O peut être invité à gérer une large gamme de tâches de langage visuel, notamment la réponse à des questions visuelles et la génération de texte en image.
Mécanisme Omni-Attention
Contrairement aux travaux existants qui modélisent les séquences de manière autorégressive uniquement, Show-O introduit un mécanisme d'omni-attention, lui permettant de modéliser différents types de signaux de différentes manières. Ce mécanisme d'attention complet bascule de manière adaptative entre l'attention causale et l'attention complète en fonction du format de la séquence d'entrée. La figure suivante illustre des exemples d'omni-attention pour différentes séquences d'entrée.
Plus précisément, Show-O traite les jetons de texte au sein de la séquence via l'attention causale, tandis que les jetons d'image sont traités en utilisant l'attention complète, ce qui permet à chaque jeton d'interagir de manière complète avec tous les autres. Dans la compréhension multimodale, les jetons de texte peuvent s'occuper de tous les jetons d'image précédents, tandis que dans la génération de texte en image, les jetons d'image peuvent interagir avec tous les jetons de texte précédents. Omni-attention conserve les connaissances de raisonnement textuel du LLM pré-entraîné et améliore l'efficacité de la génération d'images en réduisant les étapes d'échantillonnage. De plus, il prend en charge diverses applications en aval, telles que l'inpainting et l'extrapolation, sans nécessiter de réglage fin. Lorsqu'il ne reçoit que des jetons de texte, le mécanisme passe par défaut à l'attention causale.
SHOW-O : Expériences et résultats
Le tableau suivant présente la capacité de compréhension multimodale de Show-O sur des tests publics, tels que le sous-titrage d'images et les tâches de réponses visuelles aux questions.
La version actuelle de Show-O est basée sur Phi-1.5 ; par conséquent, son homologue de compréhension seule, LLaVA-v1.5-Phi-1.5, sert de référence directe. Show-O affiche des performances comparables à celles de la version de référence LLaVA-v1.5-Phi-1.5, dédiée exclusivement à la compréhension multimodale, pour toutes les mesures d'évaluation. Cela démontre le potentiel considérable du framework Show-O pour unifier la compréhension et la génération multimodales au sein d'un seul transformateur. Comparé à des modèles de compréhension seule comme InstructBLIP, Qwen-VL-Chat et mPLUG-Owl2, Show-O, malgré une taille de modèle beaucoup plus petite, obtient des performances compétitives sur les benchmarks POPE, MME, Flickr30k et VQAv2, et obtient de meilleurs résultats sur le benchmark GQA. Comparé aux modèles unifiés avec beaucoup plus de paramètres, tels que NExT-GPT-13B et Chameleon-34B, Show-O obtient également de bonnes performances sur le benchmark Flickr30k et de bien meilleures performances sur le benchmark VQAv2.
Au vu de ces résultats prometteurs, Show-O est envisagé comme un modèle de base potentiel de nouvelle génération pour unifier la compréhension et la génération. Ces résultats démontrent également le potentiel de mise à l’échelle de Show-O pour atteindre des performances de pointe.
Comparaisons qualitatives
Nous présentons des comparaisons qualitatives avec des modèles basés sur la diffusion, tels que SDv1.5, SDXL et le modèle autorégressif LlamaGen, ainsi que des modèles unifiés comme LWM et SEED-X, comme le montre la figure suivante.
Show-O démontre sa capacité à générer des images réalistes avec un contenu cohérent décrit dans des messages texte courts et longs. Par rapport à SDv1.5 et LlamaGen, Show-O présente une meilleure qualité visuelle et un meilleur alignement image-texte. Par exemple, dans la deuxième colonne, SDv1.5 et LlamaGen ne parviennent pas à comprendre pleinement le message texte et manquent des attributs tels que « coucher de soleil » et « dômes bleus » dans les images générées. Par rapport à SDXL, Show-O offre une qualité visuelle et un alignement comparables, comme le montrent des exemples tels que « une course de rallye » et « un contraste époustouflant avec le coucher de soleil vibrant ».
Inpainting et extrapolation guidées par texte
Show-O prend naturellement en charge l'inpainting et l'extrapolation basés sur du texte sans nécessiter de réglage précis. La figure suivante illustre plusieurs exemples.
En haut de la figure, à partir d'une image d'entrée et d'un masque de retouche, Show-O peut transformer un tramway rouge en une voiture de sport bleue aux courbes épurées et aux vitres teintées en fonction d'une invite de texte fournie par l'utilisateur. Show-O peut également extrapoler l'image d'origine horizontalement ou verticalement en fonction de l'invite de texte fournie. Par exemple, dans la deuxième ligne, Show-O extrapole une image en ajoutant de nouveaux objets, comme des « fleurs sauvages rouges ». Les pixels des zones peintes et extrapolées restent cohérents avec l'image d'origine. Ces exemples démontrent clairement les avantages inhérents de Show-O par rapport aux modèles autorégressifs pour les applications en aval.
Réflexions finales
Dans cet article, nous avons parlé de Show-O, un transformateur unifié qui intègre la compréhension et la génération multimodales. Contrairement aux modèles entièrement autorégressifs, Show-O unifie la modélisation autorégressive et la diffusion discrète pour gérer de manière adaptative les entrées et les sorties de modalités diverses et mixtes. Le modèle unifié prend en charge de manière flexible une large gamme de tâches de vision-langage, notamment la réponse à des questions visuelles, la génération de texte en image, l'inpainting/extrapolation guidée par texte et la génération de modalités mixtes. Dans divers tests, Show-O démontre des performances comparables ou supérieures aux modèles individuels existants avec un nombre équivalent ou supérieur de paramètres, soulignant son potentiel en tant que modèle de base de nouvelle génération. Dans ce cadre, le modèle est chargé de prédire le bruit gaussien ajouté aux représentations latentes continues. En revanche, d'autres modèles comme D3PM, Mask-predict, ARDM et MaskGIT utilisent un processus de corruption discrète comme alternative à la diffusion gaussienne. Show-O est le premier à unifier la modélisation autorégressive et la diffusion discrète, lui permettant de traiter différentes modalités de manière distincte. De nombreux résultats expérimentaux démontrent que Show-O est comparable, voire meilleur que les modèles experts individuels dans un large éventail de tâches de vision-langage. Cela met en évidence son potentiel en tant que modèle de base de nouvelle génération.