Inteligencia Artificial
SHOW-O: Un transformador único que une la comprensión y la generación multimodal

Los avances significativos en los modelos de lenguaje grandes (LLM, por sus siglas en inglés) han inspirado el desarrollo de modelos de lenguaje grandes multimodales (MLLM, por sus siglas en inglés). Los primeros esfuerzos de MLLM, como LLaVA, MiniGPT-4 e InstructBLIP, demuestran capacidades notables de comprensión multimodal. Para integrar los LLM en dominios multimodales, estos estudios exploraron la proyección de características de un codificador específico de modalidad previamente entrenado, como CLIP, en el espacio de entrada de los LLM, lo que permite la comprensión y el razonamiento multimodal dentro de la estructura principal del transformador. Aunque existen varias opciones de diseño para los MLLM, como los codificadores de visión, los adaptadores de alineación de características y los conjuntos de datos, el entrenamiento para la mayoría de estos modelos se adhiere al paradigma de generación autorregresiva, que ha demostrado ser eficaz para la generación de texto en los LLM. A pesar de sus fuertes capacidades de comprensión multimodal, estos modelos se centran principalmente en la percepción visual y carecen de la capacidad de generar salidas multimodales más allá del texto.
Los modelos de transformadores han demostrado un gran éxito en el modelado autorregresivo en el procesamiento del lenguaje natural. Inspirados por dicho progreso, estudios anteriores han aplicado directamente el mismo modelado autorregresivo para aprender la dependencia de los píxeles de la imagen para la generación de imágenes y videos. Por ejemplo, VideoPoet emplea una arquitectura de transformadores que solo utiliza decodificadores para sintetizar videos de alta calidad a partir de entradas multimodales. Más recientemente, LlamaGen ha demostrado que una arquitectura de modelo de lenguaje grande como Llama puede modelar de manera autorregresiva tokens de imágenes, logrando un rendimiento decente en la generación de imágenes condicionales de clase.
En este artículo, analizaremos Show-O, un transformador unificado que integra la comprensión y la generación multimodal. A diferencia de los modelos totalmente autorregresivos, Show-O unifica el modelado autorregresivo y de difusión discreta para gestionar de forma adaptativa las entradas y salidas de diversas modalidades y de modalidades mixtas. El modelo unificado admite de forma flexible una amplia gama de tareas de visión y lenguaje, incluidas las respuestas a preguntas visuales, la generación de texto a imagen, la extrapolación/repintado guiado por texto y la generación de modalidades mixtas. En varios puntos de referencia, Show-O demuestra un rendimiento comparable o superior a los modelos individuales existentes con una cantidad equivalente o mayor de parámetros, lo que destaca su potencial como modelo de base de próxima generación.
En este marco, el modelo tiene la tarea de predecir el ruido gaussiano añadido a las representaciones latentes continuas. Por el contrario, otros modelos como D3PM, Mask-predict, ARDM y MaskGIT utilizan un proceso de corrupción discreto como alternativa a la difusión gaussiana. En concreto, una imagen se representa como una secuencia de tokens discretos mediante tokenizadores de imágenes, y cada token está asociado a una etiqueta categórica. La distribución token por token se transforma en una distribución uniforme mediante un proceso de muestreo estocástico. Durante el entrenamiento, una parte de estos tokens se enmascara aleatoriamente y el modelo se entrena para predecir los valores originales de los tokens enmascarados. En este trabajo, Show-O adopta el modelado de difusión discreta para la generación visual.
SHOW-O: Unificando la comprensión y la generación multimodal
En los últimos años, han surgido avances significativos en los dos pilares clave de la inteligencia multimodal: la comprensión y la generación. Para la comprensión multimodal, Modelos de lenguaje multimodales de gran tamaño (MLLM)) como LLaVA han demostrado capacidades excepcionales en tareas de visión y lenguaje, como la de preguntas y respuestas visuales (VQA). Para la generación visual, los modelos probabilísticos de difusión con eliminación de ruido (DDPM) han revolucionado los paradigmas generativos tradicionales, logrando un rendimiento sin precedentes en la generación de texto a imagen/video.
Dados estos logros en campos individuales, es natural explorar el potencial de conectarlos. Trabajos recientes han intentado ensamblar modelos expertos de estos dos dominios diferentes para formar un sistema unificado que pueda manejar tanto la comprensión como la generación multimodal. Sin embargo, los intentos existentes a menudo implican modelos separados para la comprensión y la generación. Por ejemplo, NExT-GPT emplea un modelo de lenguaje base para la comprensión multimodal, pero requiere un modelo de difusión preentrenado adicional para la generación de imágenes. Esto plantea la pregunta: ¿puede un solo transformador manejar tanto la comprensión como la generación multimodal?
Recientemente, Chameleon demostró que esto es posible. En concreto, Chameleon permite la fusión de diferentes modalidades para generar tokens de texto e imágenes mediante modelado autorregresivo. Si bien tiene sentido modelar tokens de texto de forma autorregresiva, no está tan claro si es óptimo modelar parches de imagen o píxeles de la misma forma. Un obstáculo clave para predecir una imagen de forma autorregresiva es la gran cantidad de pasos de muestreo necesarios, especialmente cuando se trata de imágenes de mayor resolución. Los modelos de difusión continua han demostrado un rendimiento superior en la generación visual en comparación con los autorregresivos.
Esto nos lleva a explorar si un único transformador puede integrar tanto el modelado autorregresivo como el de difusión. Show-O imagina un nuevo paradigma en el que el texto se representa como tokens discretos y se modela de forma autorregresiva, mientras que los píxeles de la imagen continua se modelan utilizando la difusión de eliminación de ruido. Sin embargo, la integración de estas dos técnicas distintas en una única red no es trivial debido a las diferencias entre los tokens de texto discretos y las representaciones de imágenes continuas. Además, los modelos de difusión suelen depender de dos modelos distintos: un codificador de texto y una red de eliminación de ruido.
Para abordar este problema, Show-O presenta un nuevo modelo unificado capaz de manejar tareas de generación y comprensión multimodales mediante un modelado mixto de difusión y autorregresión. Show-O se basa en un modelo LLM previamente entrenado y aprovecha sus capacidades de modelado autorregresivo para el razonamiento basado en texto. Inspirado en otros trabajos, Show-O emplea difusión discreta con eliminación de ruido para modelar tokens de imagen en lugar de representaciones continuas. Además, Show-O codifica inherentemente la información condicional de texto, lo que elimina la necesidad de codificadores de texto adicionales. Al utilizar tokenizadores de texto e imagen, Show-O puede procesar diversos datos de entrada y tareas, brindando respuestas de manera autorregresiva para tareas de visión y lenguaje y generando imágenes mediante difusión discreta con eliminación de ruido.
Show-O demuestra un rendimiento comparable y, en algunos casos, mejor que el de los modelos individuales con una cantidad equivalente o mayor de parámetros en varios puntos de referencia. A diferencia de la generación de imágenes autorregresivas, el marco Show-O requiere aproximadamente 20 veces menos pasos de muestreo, lo que lo hace inherentemente más rápido. Además, el marco Show-O admite aplicaciones posteriores como la extrapolación y la superposición de texto guiadas sin necesidad de realizar ajustes, como se muestra en la siguiente imagen.

Show-O también tiene potencial para la generación de modalidades mixtas, como la generación de fotogramas clave de video intercalados con descripciones de texto, lo que resulta prometedor para la generación de videos de formato largo. Además, el marco de trabajo Show-O investiga el impacto de las representaciones de imágenes discretas y continuas en la comprensión multimodal, lo que ofrece información para futuros diseños de modelos unificados.
La siguiente figura presenta una comparación de las características del modelo entre el marco Show-O y los métodos existentes en varios dominios. Show-O se destaca como un modelo unificado que integra técnicas avanzadas tanto para la comprensión como para la generación multimodal.

En resumen, las principales contribuciones de este trabajo son las siguientes:
- Show-O es un modelo unificado que integra la comprensión y generación multimodal utilizando un único transformador.
- Show-O unifica el modelado de difusión discreta y autorregresiva dentro de un transformador, manejando tanto texto como imágenes de manera efectiva.
- El marco Show-O supera o iguala a los modelos de referencia individuales con parámetros equivalentes o mayores en los puntos de referencia de comprensión y generación multimodales.
- Show-O admite aplicaciones posteriores como la pintura basada en texto y la extrapolación sin ajustes finos y demuestra potencial para la generación de modalidades mixtas.
- Show-O explora el impacto de diferentes tipos de representaciones, proporcionando información valiosa para mejorar la comprensión multimodal en modelos unificados.
En los últimos años, un número cada vez mayor de estudios se han centrado en modelos de lenguaje multimodal unificados capaces tanto de comprensión como de generación. Algunos esfuerzos utilizan representaciones continuas intercaladas con tokens de texto para el modelado autorregresivo para generar imágenes. SEED-X propone un sistema de base unificado y versátil capaz de manejar tanto tareas de comprensión como de generación multimodales. En este enfoque, las representaciones de imágenes continuas del codificador CLIP ViT se combinan con tokens de texto y se introducen en un modelo de lenguaje grande (LLM) para realizar la predicción de la siguiente palabra y la regresión de la representación de imágenes. Chameleon presenta una familia de modelos modales mixtos basados en tokens capaces tanto de comprender como de generar imágenes. Este enfoque representa todas las modalidades como tokens discretos, utilizando una arquitectura unificada basada en transformadores y entrenando el modelo desde cero de manera integral. En comparación, Show-O también adopta tokens discretos para representar todas las modalidades, pero utiliza un proceso de difusión discreto en lugar de un modelado autorregresivo para la generación visual.
SHOW-O: Metodología y Arquitectura
El objetivo principal del marco Show-O es desarrollar un modelo unificado que integre el modelado autorregresivo y de difusión para la comprensión y generación conjunta de modelos multimodales. El desarrollo de un modelo unificado de este tipo plantea desafíos importantes, con cuestiones centrales que giran en torno a: i) definir el espacio de entrada/salida del modelo; ii) unificar varios tipos de datos de entrada de diferentes modalidades; iii) integrar el modelado autorregresivo y de difusión en un único transformador; y iv) entrenar eficazmente un modelo unificado de este tipo.
Show-O aborda estos desafíos con las siguientes soluciones:
- Show-O construye el espacio de entrada/salida tokenizando datos de texto e imágenes en tokens discretos.
- Show-O presenta su arquitectura predeterminada y una estrategia de solicitud unificada para estructurar los datos de entrada y las modalidades.
- Show-O demuestra cómo incorporar modelos autorregresivos y de difusión dentro de un solo transformador.
- Show-O presenta un proceso de entrenamiento de tres etapas para entrenar eficazmente el modelo unificado.
Tokenization
Dado que el Show-O propuesto se basa en LLM pre-entrenadosEs natural realizar un aprendizaje unificado en el espacio discreto. Al mantener un vocabulario unificado que incluye tokens de texto e imágenes discretos, Show-O tiene la tarea del mismo objetivo de aprendizaje: predecir tokens discretos.
Tokenización de texto
Show-O se basa en un LLM previamente entrenado y se utiliza el mismo tokenizador para la tokenización de datos de texto sin ninguna modificación.
Tokenización de imágenes
Siguiendo a MAGVIT-v2, Show-O entrena un cuantificador sin búsqueda usando alrededor de 35 millones de datos de imagen. El cuantificador mantiene un libro de códigos de tamaño 8,192 y codifica imágenes de resolución 256×256 en tokens discretos 16×16. MAGVIT-v2 es elegido por su facilidad de ajuste fino, lo que lo hace adecuado como un tokenizador de video con capacidad de compresión temporal, un aspecto que Show-O planea explorar en el futuro. Un enfoque alternativo es usar diferentes tokenizadores para la comprensión y la generación, respectivamente. Inspirado por estudios existentes, Show-O también extrae representaciones de imágenes continuas del codificador MAGVIT-v2 y CLIP-ViT entrenados previamente para explorar mejoras en las capacidades de comprensión multimodal. En las siguientes secciones, el Show-O predeterminado emplea tokens de imagen discretos como entrada tanto para la comprensión como para la generación multimodal. Para simplificar, las secciones de metodología se extenderán solo sobre el Show-O predeterminado.

Arquitectura
Show-O hereda la arquitectura de LLM existentes sin ninguna modificación de la arquitectura, excepto anteponer una operación QK-Norm a cada capa de atención. Show-O se inicializa con los pesos de un LLM entrenado previamente y amplía el tamaño de la capa de incrustación incorporando 8,192 nuevas incrustaciones que se pueden aprender para tokens de imágenes discretas. A diferencia de los modelos de difusión de última generación que requieren un codificador de texto adicional, Show-O codifica inherentemente la información condicional del texto para la generación de texto a imagen.
Incitación unificada
Para realizar un aprendizaje unificado sobre la comprensión y generación multimodal, Show-O utiliza una estrategia de indicaciones unificada para dar formato a varios tipos de datos de entrada. Dado un par de imagen-texto (x, y), primero se convierte en M tokens de imagen y N tokens de texto mediante los tokenizadores de imagen y texto, respectivamente. Luego, los tokens se transforman en una secuencia de entrada según el tipo de tarea, como se ilustra en la siguiente figura.

Al emplear este diseño de indicaciones, Show-O puede codificar eficazmente diversos datos de entrada para la comprensión multimodal, la generación de texto a imagen y la generación de modalidad mixta como datos secuenciales. Esta configuración permite que el aprendizaje unificado funcione sin problemas en todas las secuencias para estas diversas tareas. Una vez entrenado, Show-O puede recibir indicaciones para manejar una amplia gama de tareas de visión y lenguaje, incluidas la respuesta visual a preguntas y la generación de texto a imagen.
Mecanismo de Omni-Atención
A diferencia de los trabajos existentes que modelan secuencias de forma autorregresiva únicamente, Show-O introduce un mecanismo de atención omnidireccional que le permite modelar varios tipos de señales de distintas maneras. Este mecanismo de atención integral cambia de forma adaptativa entre la atención causal y la atención total en función del formato de la secuencia de entrada. La siguiente figura ilustra ejemplos de atención omnidireccional para diferentes secuencias de entrada.

En concreto, Show-O procesa los tokens de texto dentro de la secuencia a través de la atención causal, mientras que los tokens de imagen se manejan utilizando la atención completa, lo que permite que cada token interactúe de forma integral con todos los demás. En la comprensión multimodal, los tokens de texto pueden prestar atención a todos los tokens de imagen anteriores, mientras que en la generación de texto a imagen, los tokens de imagen pueden interactuar con todos los tokens de texto anteriores. La atención omnidireccional retiene el conocimiento de razonamiento de texto del LLM entrenado previamente y mejora la eficiencia de la generación de imágenes al reducir los pasos de muestreo. Además, admite varias aplicaciones posteriores, como la superposición y la extrapolación, sin necesidad de realizar ajustes finos. Cuando solo se proporcionan tokens de texto, el mecanismo adopta la atención causal de forma predeterminada.
SHOW-O: Experimentos y resultados
La siguiente tabla presenta la capacidad de comprensión multimodal de Show-O en puntos de referencia públicos, como subtítulos de imágenes y tareas de respuesta a preguntas visuales.

La versión actual de Show-O se basa en Phi-1.5 y, por lo tanto, su contraparte de solo comprensión, LLaVA-v1.5-Phi-1.5, sirve como referencia directa. Show-O muestra un rendimiento comparable en todas las métricas de evaluación al de la referencia LLaVA-v1.5-Phi-1.5, dedicada exclusivamente a la comprensión multimodal. Esto demuestra el gran potencial del marco de trabajo Show-O para unificar la comprensión y la generación multimodal en un único transformador. En comparación con modelos de solo comprensión como InstructBLIP, Qwen-VL-Chat y mPLUG-Owl2, Show-O, a pesar de tener un tamaño de modelo mucho menor, alcanza un rendimiento competitivo en los benchmarks POPE, MME, Flickr30k y VQAv2, y un mejor rendimiento en el benchmark GQA. En comparación con modelos unificados con significativamente más parámetros, como NExT-GPT-13B y Chameleon-34B, Show-O también logra un sólido desempeño en el benchmark Flickr30k y tiene un rendimiento mucho mejor en el benchmark VQAv2.
En vista de estos prometedores resultados, Show-O se considera un posible modelo de base de próxima generación para unificar la comprensión y la generación. Estos resultados también demuestran el potencial de escalar Show-O para lograr un rendimiento de vanguardia.
Comparaciones cualitativas
Presentamos comparaciones cualitativas con modelos basados en difusión, como SDv1.5, SDXL y el modelo autorregresivo LlamaGen, junto con modelos unificados como LWM y SEED-X, como se demuestra en la siguiente figura.

Show-O demuestra la capacidad de generar imágenes realistas con contenido coherente descrito en indicaciones de texto tanto cortas como largas. En comparación con SDv1.5 y LlamaGen, Show-O muestra una mejor calidad visual y una alineación más sólida entre la imagen y el texto. Por ejemplo, en la segunda columna, tanto SDv1.5 como LlamaGen no logran comprender completamente la indicación de texto y omiten atributos como “atardecer” y “cúpulas azules” en las imágenes generadas. En comparación con SDXL, Show-O ofrece una calidad visual y una alineación comparables, como se ve en ejemplos como “una carrera de autos de rally” y “un contraste sorprendente con la vibrante puesta de sol”.

Retoque y extrapolación guiados por texto
Show-O admite naturalmente la extrapolación y la superposición de texto sin necesidad de realizar ajustes. La siguiente figura ilustra varios ejemplos.

En la parte superior de la figura, dada una imagen de entrada y una máscara de retoque, Show-O puede transformar un tranvía rojo en un coche deportivo azul con elegantes curvas y ventanas tintadas en función de una indicación de texto proporcionada por el usuario. Show-O también puede extrapolar la imagen original horizontal o verticalmente en función de la indicación de texto dada. Por ejemplo, en la segunda fila, Show-O extrapola una imagen añadiendo nuevos objetos, como "flores silvestres rojas". Los píxeles tanto en las regiones retocadas como en las extrapoladas siguen siendo coherentes con la imagen original. Estos ejemplos demuestran claramente las ventajas inherentes de Show-O sobre los modelos autorregresivos para aplicaciones posteriores.
Conclusión
En este artículo hemos hablado de Show-O, un transformador unificado que integra la comprensión y la generación multimodal. A diferencia de los modelos totalmente autorregresivos, Show-O unifica el modelado autorregresivo y de difusión discreta para manejar de forma adaptativa las entradas y salidas de diversas modalidades mixtas. El modelo unificado admite de forma flexible una amplia gama de tareas de visión y lenguaje, incluidas las respuestas a preguntas visuales, la generación de texto a imagen, la extrapolación/repintado guiado por texto y la generación de modalidades mixtas. En varios puntos de referencia, Show-O demuestra un rendimiento comparable o superior a los modelos individuales existentes con un número equivalente o mayor de parámetros, lo que destaca su potencial como modelo de base de próxima generación. En este marco, el modelo tiene la tarea de predecir el ruido gaussiano añadido a las representaciones latentes continuas. Por el contrario, otros modelos como D3PM, Mask-predict, ARDM y MaskGIT utilizan un proceso de corrupción discreto como alternativa a la difusión gaussiana. Show-O es el primero en unificar el modelado de difusión discreta y autorregresiva, lo que le permite manejar diferentes modalidades de distintas maneras. Amplios resultados experimentales demuestran que Show-O es comparable, o incluso mejor, que los modelos expertos individuales en una amplia gama de tareas de visión y lenguaje. Esto resalta su potencial como modelo base de próxima generación.








