Inteligencia artificial
Modelado AutoRegresivo Visual: Generación de Imágenes Escalable a través de la Predicción de la Siguiente Escala
La llegada de los modelos GPT, junto con otros modelos de lenguaje grande autoregresivos o AR, ha desplegado una nueva época en el campo del aprendizaje automático y la inteligencia artificial. Los modelos GPT y autoregresivos a menudo exhiben inteligencia general y versatilidad que se consideran un paso significativo hacia la inteligencia artificial general o AGI, a pesar de tener algunos problemas como alucinaciones. Sin embargo, el problema desconcertante con estos grandes modelos es una estrategia de aprendizaje auto-supervisado que permite al modelo predecir el siguiente token en una secuencia, una estrategia simple pero efectiva. Los trabajos recientes han demostrado el éxito de estos grandes modelos autoregresivos, destacando su generalizabilidad y escalabilidad. La escalabilidad es un ejemplo típico de las leyes de escalado existentes que permiten a los investigadores predecir el rendimiento del modelo grande a partir del rendimiento de los modelos más pequeños, lo que resulta en una mejor asignación de recursos. Por otro lado, la generalizabilidad a menudo se demuestra con estrategias de aprendizaje como el aprendizaje de cero disparos, un disparo y pocos disparos, destacando la capacidad de los modelos no supervisados pero entrenados para adaptarse a tareas diversas y no vistas. Juntas, la generalizabilidad y la escalabilidad revelan el potencial de los modelos autoregresivos para aprender de una gran cantidad de datos no etiquetados.
Basándonos en lo mismo, en este artículo, hablaremos sobre el marco Visual AutoRegressive o VAR, un nuevo patrón de generación que redefine el aprendizaje autoregresivo en imágenes como una predicción de “siguiente resolución” o “siguiente escala” de grano a fino. Aunque es simple, el enfoque es efectivo y permite que los transformadores autoregresivos aprendan distribuciones visuales mejor, y una generalizabilidad mejorada. Además, los modelos Visual AutoRegressive permiten que los modelos autoregresivos de estilo GPT superen a los modelos de difusión en la generación de imágenes por primera vez. Los experimentos también indican que el marco VAR mejora significativamente las líneas base autoregresivas y supera al marco de Transformador de Difusión o DiT en varias dimensiones, incluyendo la eficiencia de los datos, la calidad de la imagen, la escalabilidad y la velocidad de inferencia. Además, ampliar el modelo Visual AutoRegressive muestra leyes de escalado de potencia similares a las observadas en los grandes modelos de lenguaje, y también muestra una capacidad de generalización de cero disparos en tareas posteriores, incluyendo edición, pintura y fuera de pintura.
Este artículo tiene como objetivo cubrir el marco Visual AutoRegressive en profundidad, y exploramos el mecanismo, la metodología, la arquitectura del marco, junto con su comparación con los marcos de estado del arte. También hablaremos sobre cómo el marco Visual AutoRegressive demuestra dos propiedades importantes de los LLM: Leyes de escalado y generalización de cero disparos. Así que comencemos.
Modelado AutoRegressive Visual: Escalando la Generación de Imágenes
Un patrón común entre los modelos de lenguaje grande recientes es la implementación de una estrategia de aprendizaje auto-supervisado, un enfoque simple pero efectivo que predice el siguiente token en la secuencia. Gracias al enfoque, los modelos autoregresivos y de lenguaje grande de hoy en día han demostrado una notable escalabilidad y generalizabilidad, propiedades que revelan el potencial de los modelos autoregresivos para aprender de una gran cantidad de datos no etiquetados, por lo tanto, resumiendo la esencia de la Inteligencia Artificial General. Además, los investigadores en el campo de la visión por computadora han estado trabajando en paralelo para desarrollar modelos autoregresivos o mundiales grandes con el objetivo de igualar o superar su impresionante escalabilidad y generalizabilidad, con modelos como DALL-E y VQGAN que ya han demostrado el potencial de los modelos autoregresivos en el campo de la generación de imágenes. Estos modelos a menudo implementan un tokenizador visual que representa o aproxima imágenes continuas en una cuadrícula de tokens 2D, que luego se aplanan en una secuencia 1D para el aprendizaje autoregresivo, así que reflejan el proceso de modelado de lenguaje secuencial.

Sin embargo, los investigadores aún no han explorado las leyes de escalado de estos modelos, y lo que es más frustrante es el hecho de que el rendimiento de estos modelos a menudo se queda atrás de los modelos de difusión por un margen significativo, como se demuestra en la siguiente imagen. La brecha en el rendimiento indica que, en comparación con los modelos de lenguaje grande, las capacidades de los modelos autoregresivos en visión por computadora están subexploradas.

Por un lado, los modelos autoregresivos tradicionales requieren un orden de datos definido, mientras que, por otro lado, el modelo Visual AutoRegressive o VAR reconsiders cómo ordenar una imagen, y esto es lo que distingue al VAR de los métodos AR existentes. Típicamente, los humanos crean o perciben una imagen de manera jerárquica, capturando la estructura global seguida de los detalles locales, un enfoque multi-escala, de grano a fino que sugiere un orden para la imagen de manera natural. Además, inspirados en diseños multi-escala, el marco VAR define el aprendizaje autoregresivo para imágenes como predicción de la siguiente escala en lugar de las aproximaciones convencionales que definen el aprendizaje como predicción del siguiente token. El enfoque implementado por el marco VAR comienza codificando una imagen en mapas de tokens multi-escala. El marco luego comienza el proceso autoregresivo desde el mapa de tokens 1×1 y se expande en resolución progresivamente. En cada paso, el transformador predice el mapa de tokens de la siguiente resolución más alta condicionado en todos los anteriores, una metodología que el marco VAR se refiere a como modelado VAR.
El marco VAR intenta aprovechar la arquitectura del transformador de GPT-2 para el aprendizaje autoregresivo visual, y los resultados son evidentes en la referencia de ImageNet donde el modelo VAR mejora significativamente su línea base AR, logrando un FID de 1,80 y una puntuación de inicio de 356, junto con una mejora de 20 veces en la velocidad de inferencia. Lo que es más interesante es que el marco VAR logra superar el rendimiento del marco de Transformador de Difusión o DiT en términos de puntuaciones FID e IS, escalabilidad, velocidad de inferencia y eficiencia de datos. Además, el modelo Visual AutoRegressive exhibe leyes de escalado fuertes similares a las observadas en los grandes modelos de lenguaje.
En resumen, el marco VAR intenta hacer las siguientes contribuciones.
- Propone un nuevo marco generativo visual que utiliza un enfoque autoregresivo multi-escala con predicción de la siguiente escala, contrario a la predicción del token siguiente tradicional, lo que resulta en el diseño del algoritmo autoregresivo para tareas de visión por computadora.
- Intenta validar las leyes de escalado para los modelos autoregresivos, junto con el potencial de generalización de cero disparos que emula las propiedades atractivas de los LLM.
- Ofrece un avance en el rendimiento de los modelos autoregresivos visuales, lo que permite que los marcos autoregresivos de estilo GPT superen a los modelos de difusión existentes en tareas de síntesis de imágenes por primera vez.
Además, es vital discutir las leyes de escalado de potencia existentes que describen matemáticamente la relación entre el tamaño de los conjuntos de datos, los parámetros del modelo, las mejoras del rendimiento y los recursos computacionales de los modelos de aprendizaje automático. En primer lugar, estas leyes de escalado de potencia facilitan la aplicación del rendimiento de un modelo más grande mediante el escalado del tamaño del modelo, el costo computacional y el tamaño de los datos, lo que ahorra costos innecesarios y asigna el presupuesto de capacitación al proporcionar principios. En segundo lugar, las leyes de escalado han demostrado un aumento consistente y no saturante en el rendimiento. Avanzando con los principios de las leyes de escalado en los modelos de lenguaje neuronal, varios LLM incorporan el principio de que aumentar la escala de los modelos tiende a producir resultados de rendimiento mejorados. La generalización de cero disparos, por otro lado, se refiere a la capacidad de un modelo, particularmente un LLM, para realizar tareas en las que no se ha entrenado explícitamente. Dentro del dominio de la visión por computadora, el interés en construir capacidades de aprendizaje de cero disparos y de contexto de los modelos de fundación.
Los modelos de lenguaje dependen de algoritmos WordPiece o del enfoque de codificación de pares de bytes para la tokenización de texto. Los modelos de generación visual basados en modelos de lenguaje también dependen en gran medida de la codificación de imágenes 2D en secuencias de tokens 1D. Los trabajos tempranos como VQVAE demostraron la capacidad de representar imágenes como tokens discretos con una calidad de reconstrucción moderada. El sucesor de VQVAE, el marco VQGAN incorporó pérdidas perceptuales y adversas para mejorar la fidelidad de la imagen, y también empleó un transformador de decodificador solo para generar tokens de imagen en un modo autoregresivo estándar de exploración de raster. Los modelos de difusión, por otro lado, han sido considerados durante mucho tiempo como los líderes en tareas de síntesis visual, proporcionados su diversidad y una calidad de generación superior. El avance de los modelos de difusión se ha centrado en mejorar las técnicas de muestreo, las mejoras arquitectónicas y el muestreo más rápido. Los modelos de difusión latente aplican la difusión en el espacio latente, lo que mejora la eficiencia del entrenamiento y la inferencia. Los modelos de Transformador de Difusión reemplazan la arquitectura tradicional U-Net con una arquitectura basada en transformadores, y se ha desplegado en modelos recientes de síntesis de imágenes o videos como SORA y Stable Diffusion.
Modelado AutoRegressive Visual: Metodología y Arquitectura

En su núcleo, el marco VAR tiene dos etapas de entrenamiento discretas. En la primera etapa, un autoencoder cuantizado multi-escala o VQVAE codifica una imagen en mapas de tokens, y se implementa una pérdida de reconstrucción compuesta para el entrenamiento. En la figura de arriba, el embutido es una palabra utilizada para definir la conversión de tokens discretos en vectores de embebido continuo. En la segunda etapa, el transformador en el modelo VAR se entrena minimizando la pérdida de entropía cruzada o maximizando la verosimilitud utilizando el enfoque de predicción de la siguiente escala. El VQVAE entrenado produce el mapa de tokens de la verdad de la tierra para el marco VAR.
Modelado AutoRegressive a través de la Predicción del Siguiente Token
Para una secuencia dada de tokens discretos, donde cada token es un número entero de un vocabulario de tamaño V, el modelo autoregresivo de token siguiente supone que la probabilidad de observar el token actual depende solo de su prefijo. Asumir la dependencia unidireccional de tokens permite al marco VAR descomponer las posibilidades de la secuencia en el producto de probabilidades condicionales. El entrenamiento de un modelo autoregresivo implica optimizar el modelo en todo el conjunto de datos, y este proceso de optimización se conoce como predicción del siguiente token, y permite al modelo entrenado generar nuevas secuencias. Además, las imágenes son señales de 2D continuas por herencia, y aplicar el enfoque de modelado autoregresivo a las imágenes a través del proceso de optimización de predicción del siguiente token tiene algunos requisitos previos. En primer lugar, la imagen debe tokenizarse en varios tokens discretos. Normalmente, se implementa un autoencoder cuantizado para convertir el mapa de características de la imagen en tokens discretos. En segundo lugar, se debe definir un orden 1D de tokens para el modelado unidireccional.
Los tokens de imagen en tokens discretos se organizan en una cuadrícula 2D, y a diferencia de las oraciones de lenguaje natural que inherentemente tienen un orden de izquierda a derecha, el orden de los tokens de la imagen debe definirse explícitamente para el aprendizaje autoregresivo unidireccional. Los enfoques autoregresivos anteriores aplanaron la cuadrícula 2D de tokens discretos en una secuencia 1D utilizando métodos como la exploración de raster en fila principal, la curva z o el orden en espiral. Una vez que los tokens discretos se aplanaron, los modelos AR extrajeron un conjunto de secuencias del conjunto de datos y luego entrenaron un modelo autoregresivo para maximizar la verosimilitud en el producto de T probabilidades condicionales utilizando la predicción del siguiente token.
Modelado AutoRegressive Visual a través de la Predicción de la Siguiente Escala
El marco VAR reconceptualiza el modelado autoregresivo en imágenes al cambiar de la predicción del siguiente token a la predicción de la siguiente escala, un proceso en el que, en lugar de ser un solo token, la unidad autoregresiva es todo el mapa de tokens. El modelo primero cuantiza el mapa de características en mapas de tokens multi-escala, cada uno con una resolución más alta que el anterior, y culmina coincidiendo con la resolución del mapa de características original. Además, el marco VAR desarrolla un nuevo codificador de cuantización multi-escala para codificar una imagen en mapas de tokens discretos multi-escala, necesario para el aprendizaje VAR. El marco VAR emplea la misma arquitectura que VQGAN, pero con una capa de cuantización multi-escala modificada, con los algoritmos demostrados en la siguiente imagen.

Modelado AutoRegressive Visual: Resultados y Experimentos
El marco VAR utiliza la arquitectura VQVAE vanilla con un esquema de cuantización multi-escala con K convoluciones extra, y utiliza un libro de códigos compartido para todas las escalas y una dimensión latente de 32. El enfoque principal se centra en el algoritmo VAR, por lo que el diseño de la arquitectura del modelo se mantiene simple pero efectivo. El marco adopta la arquitectura de un transformador de decodificador estándar similar a los implementados en los modelos GPT-2, con la única modificación siendo la sustitución de la normalización de capa tradicional por la normalización adaptativa o AdaLN. Para la síntesis condicional de clase, el marco VAR implementa las incrustaciones de clase como el token de inicio, y también la condición de la capa de normalización adaptativa.
Resultados de Generación de Imágenes de Estado del Arte
Cuando se compara con los marcos generativos existentes, incluyendo GAN o Redes Generativas Adversas, modelos de predicción de máscara de estilo BERT, modelos de difusión y modelos autoregresivos de estilo GPT, el marco Visual AutoRegressive muestra resultados prometedores resumidos en la siguiente tabla.

Como se puede observar, el marco Visual AutoRegressive no solo es capaz de superar las puntuaciones FID y IS, sino que también demuestra una velocidad de generación de imágenes notable, comparable a los modelos de estado del arte. Además, el marco VAR también mantiene una precisión y una recall satisfactorias, lo que confirma su consistencia semántica. Pero la verdadera sorpresa es el rendimiento notable que entrega el marco VAR en tareas tradicionales de capacidades AR, lo que lo convierte en el primer modelo autoregresivo que supera a un modelo de Transformador de Difusión, como se demuestra en la siguiente tabla.

Resultado de Generalización de Tarea de Cero Disparos
Para las tareas de pintura dentro y fuera, el marco VAR fuerza los tokens de la verdad de la tierra fuera de la máscara, y deja que el modelo genere solo los tokens dentro de la máscara, sin inyectar información de etiqueta de clase en el modelo. Los resultados se demuestran en la siguiente imagen, y como se puede ver, el modelo VAR logra resultados aceptables en tareas posteriores sin ajustar parámetros o modificar la arquitectura de la red, lo que demuestra la generalizabilidad del marco VAR.

Pensamientos Finales
En este artículo, hemos hablado sobre un nuevo marco generativo visual llamado Modelado AutoRegressive Visual (VAR) que 1) aborda teóricamente algunos problemas inherentes a los modelos AR de imagen estándar, y 2) hace que los modelos AR basados en modelos de lenguaje superen a los modelos de difusión fuertes en términos de calidad de imagen, diversidad, eficiencia de datos y velocidad de inferencia. Por un lado, los modelos autoregresivos tradicionales requieren un orden de datos definido, mientras que, por otro lado, el modelo Visual AutoRegressive o VAR reconsiders cómo ordenar una imagen, y esto es lo que distingue al VAR de los métodos AR existentes. Al escalar el VAR a 2 mil millones de parámetros, los desarrolladores del marco VAR observaron una clara relación de potencia entre el rendimiento de la prueba y los parámetros del modelo o el cómputo de entrenamiento, con coeficientes de Pearson cercanos a −0,998, lo que indica un marco robusto para la predicción del rendimiento. Estas leyes de escalado y la posibilidad de generalización de cero disparos, como marcas de los LLM, ahora han sido verificadas inicialmente en nuestros modelos de transformadores VAR.












