Inteligencia artificial

LLaVA-UHD: un LMM que percibe cualquier relación de aspecto y imágenes de alta resolución

Published June 6, 2024

Updated April 27, 2026

Kunal Kejriwal

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

El progreso y avance recientes de los Grandes Modelos de Lenguaje han experimentado un aumento significativo en la razonamiento, comprensión y interacción visión-lenguaje. Los marcos modernos logran esto proyectando señales visuales en LLM o Grandes Modelos de Lenguaje para habilitar su capacidad para percibir el mundo visualmente, una variedad de escenarios donde las estrategias de codificación visual desempeñan un papel crucial. Sin embargo, las imágenes del mundo real no solo contienen una amplia gama de escenarios, también varían significativamente en términos de resoluciones y relaciones de aspecto, lo que plantea desafíos significativos para los LLM en diferentes dominios y tareas. Para abordar la variación significativa planteada por las imágenes del mundo real, los modelos de lenguaje grande modernos perciben imágenes en baja resolución, es decir, 224×224, y una relación de aspecto fija, es decir, 1:1. Aunque hacer el compromiso de mantener la resolución baja y la relación de aspecto fija aumenta la generalización del LLM en aplicaciones del mundo real, a menudo borra el contenido de la imagen significativamente, lo que también resulta en una distorsión de forma severa. El compromiso impacta significativamente las capacidades de los grandes modelos de multimodalidad o LMM, especialmente aquellos optimizados para tareas de grano fino, incluyendo el reconocimiento óptico de caracteres y la comprensión de objetos pequeños. Además, como la resolución y la relación de aspecto están preestablecidas, los modelos solo pueden hacer las mejores conjeturas sobre las imágenes borrosas, lo que lleva a alucinaciones del modelo, una situación en la que el modelo produce respuestas textuales que no están fundamentadas factualmente en las imágenes.

En este artículo, hablaremos sobre LLaVA-UHD, un enfoque novedoso que primero toma los marcos LLaVA-1.5 y GPT-4V como ejemplos representativos, y intenta exponer los fallos sistemáticos arraigados en su estrategia de codificación visual. El marco LLaVA-UHD, un modal multimodal, es un intento de abordar los desafíos. El marco LLaVA-UHD puede percibir imágenes en alta resolución, así como en cualquier relación de aspecto. El marco LLaVA-UHD se basa en tres componentes clave. Primero, una estrategia de modularización de imágenes que divide las imágenes de resolución nativa en rebanadas de tamaño variable más pequeñas para mejorar la eficiencia y extender la codificación. A continuación, un módulo de compresión que condensa los tokens de imagen producidos por los codificadores visuales aún más. Finalmente, un esquema espacial que organiza los tokens de rebanadas para los grandes modelos de lenguaje. Los experimentos exhaustivos indican que el marco LLaVA-UHD es capaz de superar a los modelos de lenguaje grande del estado del arte en 9 benchmarks. Además, al utilizar solo el 94% de la computación de inferencia, el marco LLaVA-UHD es capaz de admitir imágenes con una resolución 6 veces mayor, es decir, 672×1088.

LLaVA-UHD: Percibir eficientemente imágenes en cualquier relación de aspecto y alta resolución

El razonamiento, la comprensión y la interacción visión-lenguaje han hecho un progreso significativo últimamente, en gran parte gracias al impulso reciente para los Grandes Modelos de Lenguaje. En los marcos modernos, lo mismo se logra alimentando señales visuales a los LLM (Grandes Modelos de Lenguaje) para hacer que sean capaces de interpretar el mundo real visualmente, una variedad de escenarios que dependen de las estrategias de codificación visual. La diferencia en el escenario refleja una cobertura estrecha de los LLM en diferentes dominios y tareas, mientras que la diferencia en resoluciones y relaciones de aspecto revela las grandes variaciones intracategoriales en las imágenes del mundo real, que son difíciles de manejar. A diferencia de la pequeña escala que reduce la variación, los modelos después de BERT abordan la importancia de la resolución baja (por ejemplo, para LLaVA-UHD es 224×224) de las imágenes con una relación de aspecto fija, 1:1, para dar imágenes del mundo real. Aunque este compromiso es útil para garantizar la generalización del LLM en aplicaciones del mundo real, a menudo conduce a imágenes muy borrosas y también promueve una distorsión de forma severa. Esto reduce las capacidades de los grandes modelos de multimodalidad o LMM (por ejemplo, tareas de grano fino), como el reconocimiento óptico de caracteres y la comprensión de objetos pequeños. Dado que la resolución y la relación de aspecto están preestablecidas, los modelos solo pueden adivinar las imágenes borrosas, lo que lleva a alucinaciones del modelo, una situación en la que el modelo produce respuestas textuales que no están fundamentadas factualmente en las imágenes. ¿Por qué los modelos LMM de referencia no perciben imágenes en alta resolución y relación de aspecto variable?

Hay dos razones principales por las que los modelos LMM de referencia no pueden percibir imágenes con alta resolución y relación de aspecto variable. Primero, dado que los codificadores visuales están preentrenados en resoluciones fijas, les resulta difícil al modelo y al codificador manejar imágenes con relaciones de aspecto y resoluciones variables, lo que impacta significativamente la adaptabilidad del modelo. En segundo lugar, codificar imágenes de alta resolución directamente utilizando transformadores de visión conlleva un costo computacional significativo con respecto al tamaño de la imagen. Además, los costos de computación pueden ser significativamente más altos para que el gran modelo de lenguaje procese una gran cantidad de tokens visuales para imágenes de alta resolución, lo que impacta significativamente la eficiencia general del modelo. Para contrarrestar estos desafíos, LLaVA-UHD, un gran modelo de multimodalidad que percibe imágenes de alta resolución y cualquier relación de aspecto, toma los marcos LLaVA-1.5 y GPT-4V como ejemplos representativos, y intenta exponer los fallos sistemáticos arraigados en su estrategia de codificación visual.

La imagen anterior refleja los resultados experimentales de GPT-4V al identificar el número de objetos dentro de una imagen. En su núcleo, el marco LLaVA-UHD tiene tres componentes. Primero, una estrategia de modularización de imágenes que divide las imágenes de resolución nativa en rebanadas de tamaño variable más pequeñas para codificación extensible y eficiente. A diferencia de los LLM recientes que ajustan las imágenes a varias resoluciones y relaciones de aspecto fijas, las rebanadas de tamaño variable generadas por el marco LLaVA-UHD permiten una adaptabilidad total a las imágenes de resolución nativa sin distorsionar formas, cambiar de tamaño o rellenar. En segundo lugar, el modelo condensa los tokens visuales mediante una capa de compresión a una longitud modesta, lo que reduce significativamente la computación para los LLM. Finalmente, el modelo organiza los tokens de rebanadas comprimidos en un esquema espacial para informar las posiciones de las rebanadas en las imágenes al gran modelo de lenguaje.

LLaVA-UHD: Metodología y Arquitectura

En base a los conocimientos obtenidos de algunos experimentos piloto para estudiar los marcos existentes, incluyendo GPT-4V y LLaVA-1.5, el marco LLaVA-UHD implementa una arquitectura de tres componentes como se demuestra en la imagen siguiente.

Primero, una estrategia de modularización de imágenes que divide las imágenes de resolución nativa en rebanadas de tamaño variable más pequeñas para mejorar la eficiencia y extender la codificación. A continuación, un módulo de compresión que condensa los tokens de imagen producidos por los codificadores visuales aún más. Finalmente, un esquema espacial que organiza los tokens de rebanadas para los grandes modelos de lenguaje. Veamos con más detalle estos componentes.

Codificación Visual Modularizada

Un enfoque común para manejar imágenes de alta resolución con diferentes relaciones de aspecto es interpolando las incrustaciones de posición de la Transformada de Visión o ViT en la forma objetivo para codificación directa como un todo. Sin embargo, la implementación de este enfoque a menudo conlleva costos de computación altos, y los problemas fuera de distribución resultan en una degradación del rendimiento aún mayor. Para abordar este desafío, el marco LLaVA-UHD presenta una estrategia de codificación visual modularizada que básicamente apunta a dividir las imágenes de resolución nativa en rebanadas de tamaño variable más pequeñas donde la forma de cada rebanada es bastante cercana a la configuración de preentrenamiento estándar de la transformada de visión. Debido al uso de rebanadas de tamaño variable, el marco LLaVA-UHD es capaz de lograr una adaptabilidad total a las imágenes de resolución nativa sin implementar ningún cambio de forma distorsionador o relleno. Además, el objetivo principal de la estrategia de división de imágenes es determinar una división de imágenes de alta resolución con cambios mínimos en las resoluciones de cada rebanada. Para una imagen dada con una cierta resolución (w, h) y una transformada de visión preentrenada en otra resolución, el marco LLaVA-UHD primero determina la computación ideal, es decir, el número de rebanadas necesarias para procesar la imagen. El marco luego factoriza el número de rebanadas en m columnas y n filas. El marco luego define una función de puntuación para medir la desviación de la configuración de preentrenamiento estándar de la transformada de visión. Teóricamente, el marco LLaVA-UHD es capaz de demostrar que la estrategia de partición implementada en su arquitectura garantiza cambios esperados mínimos y cambios peores modestos con respecto a la resolución de preentrenamiento estándar para cada rebanada.

Además, la mayoría de los LLM existentes implementan una resolución estática para la codificación de rebanadas de imágenes, un enfoque que impide la adaptabilidad total del modelo a las resoluciones nativas, ya que solo tienen acceso a varias rebanadas de forma fija preestablecidas. Además, la resolución de rebanada estática perjudica el rendimiento, la eficiencia y la corrección del modelo, ya que inevitablemente incurre en un cambio de forma distorsionador o relleno. Para abordar este problema, el marco LLaVA-UHD propone codificar las rebanadas de imágenes en la relación de aspecto definida por la estrategia de partición. Para ser más específicos, el marco LLaVA-UHD primero cambia de tamaño la imagen original proporcionalmente de acuerdo con la relación de aspecto de manera que el número de parches se ajuste dentro del presupuesto de preentrenamiento, es decir, el número de secuencias de incrustaciones de posición en la transformada de visión, de manera máxima. El modelo LLaVA-UHD luego reforma la secuencia de incrustaciones de posición preentrenada de 1D de la transformada de visión en un formato de 2D de acuerdo con su configuración de preentrenamiento.

Capa de Compresión

Un problema común que enfrentan los LLM al procesar imágenes de alta resolución es que la cantidad de tokens visuales que deben procesar es significativamente mayor (por ejemplo, el marco LLaVA-1.5 produce alrededor de 3500 tokens visuales al procesar una sola imagen con resolución: 672×1008), lo que supone una parte importante de los recursos y costos computacionales. Para abordar este desafío, el modelo LLaVA-UHD implementa una capa de muestreo de perceptor compartido para comprimir los tokens visuales de cada rebanada de imagen. El modelo luego implementa un conjunto de vectores de consulta a través de la atención cruzada para muestrear la salida de los tokens de imagen por los codificadores visuales a un número más bajo. En comparación con las estrategias de proyección visual basadas en MLP prevalecientes, el enfoque de muestreo de perceptor implementado por LLaVA-UHD es capaz de mantener un número de tokens visuales fijo y asequible, independientemente de la resolución de la imagen, lo que hace que el marco LLaVA-UHD sea más compatible con tareas de procesamiento y comprensión de imágenes de alta resolución. Para ponerlo en perspectiva, el marco LLaVA-UDH genera la misma cantidad de tokens al codificar una imagen de resolución 672×1008 que el marco LLaVA-1.5 genera al codificar una imagen de resolución 336×336, casi 6 veces más efectivo que su competidor.

Esquema Espacial para Rebanadas de Imágenes

Es una práctica necesaria informar al gran modelo de lenguaje sobre la organización espacial de las rebanadas de imágenes, ya que la partición de las imágenes es dinámica en diferentes imágenes. El marco LLaVA-UHD diseña e implementa un esquema espacial que utiliza dos tokens especiales para informar al LLM sobre la posición relativa de las rebanadas de imágenes. Bajo este esquema espacial, el marco LLaVA-UHD utiliza “,” para separar las representaciones de rebanadas en una fila, y las filas diferentes se separan utilizando un “n”.

LLaVA-UDH: Experimentos y Resultados

El marco LLaVA-UHD se evalúa contra 9 benchmarks populares, incluyendo benchmarks de preguntas visuales generales, benchmarks de preguntas visuales basadas en caracteres ópticos, benchmarks de alucinación y benchmarks comprehensivos. Además, el marco LLaVA-UHD se compara con líneas base sólidas, incluyendo LLaVA-1.5, MiniGPT-v2, InstructBLIP, BLIP-2 y más.

El rendimiento del marco LLaVA-UHD en 9 benchmarks populares se resume y se compara con los benchmarks populares en la tabla a continuación.

En base al rendimiento anterior, se puede concluir que el marco LLaVA-UHD es capaz de superar a los modelos de línea base sólidos en benchmarks populares, incluyendo líneas base generales entrenadas en una cantidad significativamente mayor de datos, así como superar a los LLM que necesitan significativamente más computación, como Fuyu-8B, Monkey y más. En segundo lugar, los resultados también indican que el marco LLaVA-UHD logra resultados significativamente mejores que la arquitectura LLaVA-1.5, y por un lado, donde LLaVA-1.5 admite una resolución fija de 336×336, el marco LLaVA-UHD admite imágenes de resolución 672×1088 con cualquier relación de aspecto y la misma cantidad de tokens visuales.

Pensamientos Finales

En este artículo, hemos hablado sobre LLaVA-UHD, un enfoque novedoso que primero toma los marcos LLaVA-1.5 y GPT-4V como ejemplos representativos, y intenta exponer los fallos sistemáticos arraigados en su estrategia de codificación visual. El marco LLaVA-UHD, un modal multimodal, es un intento de abordar los desafíos. El marco LLaVA-UHD puede percibir imágenes en alta resolución, así como en cualquier relación de aspecto. El marco LLaVA-UHD se basa en tres componentes clave. Primero, una estrategia de modularización de imágenes que divide las imágenes de resolución nativa en rebanadas de tamaño variable más pequeñas para mejorar la eficiencia y extender la codificación. A continuación, un módulo de compresión que condensa los tokens de imagen producidos por los codificadores visuales aún más. Finalmente, un esquema espacial que organiza los tokens de rebanadas para los grandes modelos de lenguaje. Los experimentos exhaustivos indican que el marco LLaVA-UHD es capaz de superar a los modelos de lenguaje grande del estado del arte en 9 benchmarks. Además, al utilizar solo el 94% de la computación de inferencia, el marco LLaVA-UHD es capaz de admitir imágenes con una resolución 6 veces mayor, es decir, 672×1088.

Kunal Kejriwal

Un ingeniero por profesión, un escritor por corazón. Kunal es un escritor técnico con un profundo amor y comprensión de la IA y el ML, dedicado a simplificar conceptos complejos en estos campos a través de su documentación atractiva e informativa.