Inteligencia artificial

SHOW-O: Un transformador único que une la comprensión y generación multimodal

Published October 11, 2024

Updated April 27, 2026

Kunal Kejriwal

Los avances significativos en los grandes modelos de lenguaje (LLM) han inspirado el desarrollo de modelos de lenguaje multimodal grandes (MLLM). Los esfuerzos iniciales de MLLM, como LLaVA, MiniGPT-4 y InstructBLIP, demuestran capacidades notables de comprensión multimodal. Para integrar LLM en dominios multimodales, estos estudios exploraron la proyección de características de un codificador de modalidad específico preentrenado, como CLIP, en el espacio de entrada de LLM, lo que permite la comprensión y razonamiento multimodal dentro de la arquitectura del transformador. Aunque existen diversas opciones de diseño para MLLM, como codificadores de visión, adaptadores de alineación de características y conjuntos de datos, el entrenamiento de la mayoría de estos modelos se ajusta al paradigma de generación autoregresiva, que ha demostrado ser eficaz para la generación de texto en LLM. A pesar de sus fuertes capacidades de comprensión multimodal, estos modelos se centran principalmente en la percepción visual y carecen de la capacidad de generar salidas multimodales más allá del texto.

Los modelos de transformador han demostrado un gran éxito en la modelización autoregresiva en el procesamiento del lenguaje natural. Inspirados por este progreso, los estudios anteriores han aplicado directamente la misma modelización autoregresiva para aprender la dependencia de los píxeles de la imagen para la generación de imágenes y videos. Por ejemplo, VideoPoet emplea una arquitectura de transformador solo decodificador para sintetizar videos de alta calidad a partir de entradas multimodales. Más recientemente, LlamaGen ha demostrado que una arquitectura de modelo de lenguaje grande como Llama puede modelar autoregresivamente tokens de imagen, logrando un rendimiento decente en la generación de imágenes condicionales de clase.

En este artículo, discutiremos Show-O, un transformador unificado que integra la comprensión y generación multimodal. A diferencia de los modelos completamente autoregresivos, Show-O une la modelización autoregresiva y la difusión discreta para manejar adaptativamente entradas y salidas de diversas y mixtas modalidades. El modelo unificado admite flexiblemente una amplia gama de tareas de visión-lenguaje, incluyendo la respuesta a preguntas visuales, la generación de imagen a texto, la inpintura/extrapolación guiada por texto y la generación de modalidad mixta. En varios benchmarks, Show-O demuestra un rendimiento comparable o superior al de los modelos individuales existentes con un número equivalente o mayor de parámetros, lo que destaca su potencial como modelo de base de próxima generación.

En este marco, el modelo se encarga de predecir el ruido gaussiano agregado a las representaciones latentes continuas. En contraste, otros modelos como D3PM, Mask-predict, ARDM y MaskGIT utilizan un proceso de corrupción discreta como alternativa a la difusión gaussiana. Específicamente, una imagen se representa como una secuencia de tokens discretos utilizando tokenizadores de imagen, con cada token asociado a una etiqueta categórica. La distribución de tokens se transforma en una distribución uniforme a través de un proceso de muestreo estocástico. Durante el entrenamiento, una parte de estos tokens se mascara aleatoriamente, y el modelo se entrena para predecir los valores originales de los tokens mascarados. En este trabajo, Show-O adopta la modelización de difusión discreta para la generación visual.

SHOW-O: Uniendo la comprensión y generación multimodal

En los últimos años, han surgido avances significativos en los dos pilares clave de la inteligencia multimodal: la comprensión y la generación. Para la comprensión multimodal, los Modelos de Lenguaje Multimodal Grandes (MLLM) como LLaVA han demostrado capacidades excepcionales en tareas de visión-lenguaje como la respuesta a preguntas visuales (VQA). Para la generación visual, los modelos de difusión probabilística de denoising (DDPM) han revolucionado los paradigmas generativos tradicionales, logrando un rendimiento sin precedentes en la generación de texto a imagen/video.

Dado estos logros en campos individuales, es natural explorar el potencial de conectarlos. Trabajos recientes han intentado ensamblar modelos de expertos de estos dos dominios diferentes para formar un sistema unificado que pueda manejar tanto la comprensión multimodal como la generación. Sin embargo, los intentos existentes a menudo involucran modelos separados para la comprensión y la generación. Por ejemplo, NExT-GPT emplea un modelo de lenguaje base para la comprensión multimodal pero requiere un modelo de difusión preentrenado adicional para la generación de imágenes. Esto plantea la pregunta: ¿puede un solo transformador manejar tanto la comprensión multimodal como la generación?

Recientemente, Chameleon demostró que esto es posible. Específicamente, Chameleon permite la fusión de diferentes modalidades para generar tanto tokens de texto como de imagen a través de la modelización autoregresiva. Si bien tiene sentido modelar tokens de texto autoregresivamente, es menos claro si modelar parches o píxeles de imagen de la misma manera es óptimo. Un cuello de botella de la predicción autoregresiva de una imagen es el gran número de pasos de muestreo requeridos, especialmente al tratar con imágenes de mayor resolución. Los modelos de difusión continuos han demostrado un rendimiento superior en la generación visual en comparación con los autoregresivos.

Esto nos lleva a explorar si un solo transformador puede integrar tanto la modelización autoregresiva como la de difusión. Show-O vislumbra un nuevo paradigma donde el texto se representa como tokens discretos y se modela autoregresivamente, mientras que los píxeles de imagen continuos se modelan utilizando la difusión de denoising. Sin embargo, integrar estas dos técnicas distintas en una sola red no es trivial debido a las diferencias entre tokens de texto discretos y representaciones de imagen continuas. Además, los modelos de difusión suelen depender de dos modelos distintos: un codificador de texto y una red de denoising.

Para abordar esto, Show-O introduce un modelo unificado novedoso capaz de manejar tanto tareas de comprensión multimodal como de generación utilizando la modelización autoregresiva y de difusión mixta. Show-O se basa en un LLM preentrenado y aprovecha sus capacidades de modelización autoregresiva para el razonamiento basado en texto. Inspirado por otros trabajos, Show-O emplea la difusión de denoising discreta para modelar tokens de imagen en lugar de representaciones continuas. Además, Show-O codifica inherentemente la información condicional de texto, eliminando la necesidad de codificadores de texto adicionales. Al utilizar tokenizadores de texto y de imagen, Show-O puede procesar datos de entrada y tareas diversos, proporcionando respuestas autoregresivas para tareas de visión-lenguaje y generando imágenes utilizando la difusión de denoising discreta.

Show-O demuestra un rendimiento comparable, y en algunos casos mejor, que los modelos individuales con un número equivalente o mayor de parámetros en varios benchmarks. A diferencia de la generación de imagen autoregresiva, el marco de Show-O requiere alrededor de 20 veces menos pasos de muestreo, lo que lo hace inherentemente más rápido. Además, el marco de Show-O admite aplicaciones descendentes como la inpintura y extrapolación guiadas por texto sin requerir ajuste fino, como se demuestra en la siguiente imagen.

Show-O también tiene el potencial para la generación de modalidad mixta, como la generación de fotogramas de video intercalados con descripciones de texto, mostrando promesa para la generación de video de larga forma. Además, el marco de Show-O investiga el impacto de las representaciones de imagen discretas y continuas en la comprensión multimodal, ofreciendo perspectivas para futuros diseños de modelos unificados.

La siguiente figura presenta una comparación de las características del modelo entre el marco de Show-O y los métodos existentes en varios dominios. Show-O se destaca como un modelo unificado que integra técnicas avanzadas para la comprensión y generación multimodal.

En resumen, las contribuciones principales de este artículo son las siguientes:

Show-O es un modelo unificado que integra la comprensión y generación multimodal utilizando un solo transformador.
Show-O une la modelización autoregresiva y la difusión discreta dentro de un solo transformador, manejando tanto texto como imágenes de manera efectiva.
El marco de Show-O supera o iguala a los modelos de referencia individuales con un número equivalente o mayor de parámetros en benchmarks de comprensión y generación multimodal.
Show-O admite aplicaciones descendentes como la inpintura y extrapolación basadas en texto sin ajuste fino y demuestra potencial para la generación de modalidad mixta.
Show-O explora el impacto de diferentes tipos de representaciones, proporcionando perspectivas valiosas para mejorar la comprensión multimodal en modelos unificados.

En años recientes, un número creciente de estudios se ha centrado en modelos de lenguaje multimodal unificados capaces de comprensión y generación. Algunos esfuerzos utilizan representaciones continuas intercaladas con tokens de texto para la modelización autoregresiva para generar imágenes. SEED-X propone un sistema de base unificado y versátil capaz de manejar tanto tareas de comprensión como de generación multimodal. En este enfoque, representaciones de imagen continuas del codificador ViT de CLIP se combinan con tokens de texto y se alimentan a un LLM para realizar la predicción de la próxima palabra y la regresión de la representación de imagen. Chameleon introduce una familia de modelos de tokens mixtos basados en modalidades capaces de comprender y generar imágenes. Este enfoque representa todas las modalidades como tokens discretos, utilizando una arquitectura de transformador unificada y entrenando el modelo desde cero de manera end-to-end. En comparación, Show-O también adopta tokens discretos para representar todas las modalidades pero utiliza un proceso de difusión discreta en lugar de la modelización autoregresiva para la generación visual.

SHOW-O: Metodología y Arquitectura

El objetivo principal detrás del marco de Show-O es desarrollar un modelo unificado que integre la modelización autoregresiva y la difusión para la comprensión y generación multimodal conjuntas. Desarrollar tal modelo unificado plantea desafíos significativos, con cuestiones centrales que giran en torno a: i) definir el espacio de entrada/salida del modelo; ii) unificar varios tipos de datos de entrada de diferentes modalidades; iii) integrar tanto la modelización autoregresiva como la de difusión en un solo transformador; y iv) entrenar efectivamente tal modelo unificado.

Show-O aborda estos desafíos con las siguientes soluciones:

Show-O construye el espacio de entrada/salida tokenizando los datos de texto e imagen en tokens discretos.
Show-O introduce su arquitectura predeterminada y una estrategia de llamada unificada para estructurar los datos de entrada y modalidades.
Show-O demuestra cómo incorporar tanto la modelización autoregresiva como la de difusión dentro de un solo transformador.
Show-O presenta una tubería de entrenamiento de tres etapas para entrenar efectivamente el modelo unificado.

Tokenización

Dado que el Show-O propuesto se basa en LLM preentrenados, es natural realizar el aprendizaje unificado en el espacio discreto. Al mantener un vocabulario unificado que incluye tokens de texto e imagen discretos, Show-O se encarga del mismo objetivo de aprendizaje: predecir tokens discretos.

Tokenización de texto

Show-O se basa en un LLM preentrenado, y el mismo tokenizador se utiliza para la tokenización de datos de texto sin modificaciones.

Tokenización de imagen

Siguiendo a MAGVIT-v2, Show-O entrena un cuantificador libre de búsqueda utilizando alrededor de 35M de datos de imagen. El cuantificador mantiene un libro de códigos de tamaño 8,192 y codifica imágenes de resolución 256×256 en 16×16 tokens discretos. MAGVIT-v2 se elige por su facilidad de ajuste fino, lo que lo hace adecuado como tokenizador de video con capacidad de compresión temporal, un aspecto que Show-O planea explorar en el futuro. Un enfoque alternativo es utilizar diferentes tokenizadores para la comprensión y la generación, respectivamente. Inspirado por estudios existentes, Show-O también extrae representaciones de imagen continuas del codificador MAGVIT-v2 preentrenado y del codificador CLIP-ViT para explorar mejoras en las capacidades de comprensión multimodal.. En las siguientes secciones, el Show-O predeterminado emplea tokens de imagen discretos como entrada para la comprensión y generación multimodal. Para simplificar, las secciones de metodología solo elaborarán sobre el Show-O predeterminado.

Arquitectura

Show-O hereda la arquitectura de LLM existentes sin modificaciones arquitectónicas, excepto por agregar una operación QK-Norm a cada capa de atención. Show-O se inicializa con los pesos de un LLM preentrenado y amplía el tamaño de la capa de incrustación incorporando 8,192 nuevas incrustaciones aprendibles para tokens de imagen discretos. A diferencia de los modelos de difusión de estado del arte que requieren un codificador de texto adicional, Show-O codifica inherentemente la información condicional de texto para la generación de texto a imagen.

Llamada unificada

Para realizar el aprendizaje unificado en la comprensión y generación multimodal, Show-O utiliza una estrategia de llamada unificada para dar formato a varios tipos de datos de entrada. Dado un par de imagen y texto (x, y), se tokeniza en M tokens de imagen y N tokens de texto por los tokenizadores de imagen y texto, respectivamente. Los tokens se forman entonces en una secuencia de entrada según el tipo de tarea, como se ilustra en la siguiente figura.

Al emplear este diseño de llamada, Show-O puede codificar efectivamente varios datos de entrada para la comprensión multimodal, la generación de texto a imagen y la generación de modalidad mixta como datos secuenciales. Esta configuración permite el aprendizaje unificado para operar sin problemas a través de secuencias para estas diversas tareas. Una vez entrenado, Show-O puede ser llamado para manejar una amplia gama de tareas de visión-lenguaje, incluyendo la respuesta a preguntas visuales y la generación de texto a imagen.

Mecanismo de atención ómnibus

A diferencia de los trabajos existentes que modelan secuencias autoregresivamente solo, Show-O introduce un mecanismo de atención ómnibus, que le permite modelar varios tipos de señales de maneras distintas. Este mecanismo de atención integral cambia adaptativamente entre la atención causal y la atención completa según el formato de la secuencia de entrada. La siguiente figura ilustra ejemplos de atención ómnibus para diferentes secuencias de entrada.

Específicamente, Show-O procesa tokens de texto dentro de la secuencia a través de la atención causal, mientras que los tokens de imagen se manejan utilizando la atención completa, lo que permite que cada token interactúe de manera integral con todos los demás. En la comprensión multimodal, los tokens de texto pueden atender a todos los tokens de imagen anteriores, mientras que en la generación de texto a imagen, los tokens de imagen pueden interactuar con todos los tokens de texto anteriores. La atención ómnibus retiene el conocimiento de razonamiento de texto del LLM preentrenado y mejora la eficiencia de la generación de imagen al reducir los pasos de muestreo. Además, admite varias aplicaciones descendentes, como la inpintura y extrapolación, sin requerir ajuste fino. Cuando se le proporcionan solo tokens de texto, el mecanismo se convierte en la atención causal.

SHOW-O: Experimentos y Resultados

La siguiente tabla presenta la capacidad de comprensión multimodal de Show-O en benchmarks públicos, como tareas de descripción de imagen y respuesta a preguntas visuales.

La versión actual de Show-O se basa en Phi-1.5, y por lo tanto, el contraparte de comprensión solo de Show-O, LLaVA-v1.5-Phi-1.5, sirve como la referencia directa. Show-O exhibe un rendimiento comparable en todas las métricas de evaluación a la referencia LLaVA-v1.5-Phi-1.5, que se dedica exclusivamente a la comprensión multimodal. Esto demuestra el gran potencial del marco de Show-O para unificar la comprensión y generación multimodal dentro de un solo transformador. Al compararlo con modelos de comprensión solo como InstructBLIP, Qwen-VL-Chat y mPLUG-Owl2, Show-O, a pesar de tener un tamaño de modelo mucho menor, logra un rendimiento competitivo en los benchmarks POPE, MME, Flickr30k y VQAv2, y se desempeña mejor en el benchmark GQA. Al compararlo con modelos unificados con un número significativamente mayor de parámetros, como NExT-GPT-13B y Chameleon-34B, Show-O también logra un rendimiento sólido en el benchmark Flickr30k y se desempeña mucho mejor en el benchmark VQAv2.

Dadas estas resultados prometedores, Show-O se vislumbra como un modelo de base potencial de próxima generación para unificar la comprensión y la generación. Estos resultados también demuestran el potencial de escalar Show-O para lograr un rendimiento de estado del arte.

Comparaciones cualitativas

Presentamos comparaciones cualitativas con modelos de difusión, como SDv1.5, SDXL, y el modelo autoregresivo LlamaGen, junto con modelos unificados como LWM y SEED-X, como se demuestra en la siguiente figura.

Show-O demuestra la capacidad de generar imágenes realistas con contenido coherente descrito en textos tanto cortos como largos. En comparación con SDv1.5 y LlamaGen, Show-O exhibe una mejor calidad visual y una mayor alineación entre imagen y texto. Por ejemplo, en la segunda columna, tanto SDv1.5 como LlamaGen fallan en comprender completamente el texto de entrada y pierden atributos como “puesta de sol” y “cúpulas azules” en las imágenes generadas. En comparación con SDXL, Show-O proporciona una calidad visual y alineación comparables, como se ve en ejemplos como “una carrera de coches de rally” y “un contraste impresionante contra la puesta de sol vibrante.”

Inpintura y extrapolación guiadas por texto

Show-O admite naturalmente la inpintura y extrapolación basadas en texto sin requerir ajuste fino. La siguiente figura ilustra varios ejemplos.

En la parte superior de la figura, dado una imagen de entrada y una máscara de inpintura, Show-O puede transformar un coche de tranvía rojo en un coche deportivo azul con curvas elegantes y ventanas tintadas según una entrada de texto proporcionada por el usuario. Show-O también puede extrapolar la imagen original horizontal o verticalmente según la entrada de texto proporcionada. Por ejemplo, en la segunda fila, Show-O extrapola una imagen agregando nuevos objetos, como “flores silvestres rojas”. Los píxeles en las regiones inpintadas y extrapoladas permanecen coherentes con la imagen original. Estos ejemplos demuestran claramente las ventajas inherentes de Show-O sobre los modelos autoregresivos para aplicaciones descendentes.

Pensamientos finales

En este artículo hemos hablado sobre Show-O, un transformador unificado que integra la comprensión y generación multimodal. A diferencia de los modelos completamente autoregresivos, Show-O une la modelización autoregresiva y la difusión discreta para manejar adaptativamente entradas y salidas de diversas y mixtas modalidades. El modelo unificado admite flexiblemente una amplia gama de tareas de visión-lenguaje, incluyendo la respuesta a preguntas visuales, la generación de texto a imagen, la inpintura/extrapolación guiada por texto y la generación de modalidad mixta. En varios benchmarks, Show-O demuestra un rendimiento comparable o superior al de los modelos individuales existentes con un número equivalente o mayor de parámetros, lo que destaca su potencial como modelo de base de próxima generación. En este marco, el modelo se encarga de predecir el ruido gaussiano agregado a las representaciones latentes continuas. En contraste, otros modelos como D3PM, Mask-predict, ARDM y MaskGIT utilizan un proceso de corrupción discreta como alternativa a la difusión gaussiana. Show-O es el primero en unificar la modelización autoregresiva y la difusión discreta, lo que le permite manejar diferentes modalidades de manera distinta. Los resultados experimentales extensivos demuestran que Show-O es comparable o incluso mejor que los modelos de expertos individuales en una amplia gama de tareas de visión-lenguaje. Esto destaca su potencial como modelo de base de próxima generación.

Kunal Kejriwal

Un ingeniero por profesión, un escritor por corazón. Kunal es un escritor técnico con un profundo amor y comprensión de la IA y el ML, dedicado a simplificar conceptos complejos en estos campos a través de su documentación atractiva e informativa.