talón Modelado visual autorregresivo: generación de imágenes escalables mediante predicción de siguiente escala - Unite.AI
Contáctanos

Inteligencia artificial

Modelado autorregresivo visual: generación de imágenes escalables mediante predicción de siguiente escala

mm

Publicado

 on

Modelado autorregresivo visual: generación de imágenes escalables mediante predicción de siguiente escala

La llegada de los modelos GPT, junto con otros modelos de lenguaje grande autorregresivos o AR, ha desencadenado una nueva época en el campo del aprendizaje automático y la inteligencia artificial. Los modelos GPT y autorregresivos a menudo exhiben inteligencia general y versatilidad que se consideran un paso significativo hacia la inteligencia artificial general o AGI a pesar de tener algunos problemas como las alucinaciones. Sin embargo, el problema desconcertante con estos grandes modelos es una estrategia de aprendizaje autosupervisada que permite al modelo predecir el siguiente token en una secuencia, una estrategia simple pero efectiva. Trabajos recientes han demostrado el éxito de estos grandes modelos autorregresivos, destacando su generalización y escalabilidad. La escalabilidad es un ejemplo típico de las leyes de escalamiento existentes que permiten a los investigadores predecir el desempeño del modelo grande a partir del desempeño de modelos más pequeños, lo que resulta en una mejor asignación de recursos. Por otro lado, la generalización a menudo se evidencia en estrategias de aprendizaje como el aprendizaje de disparo cero, de un disparo y de pocos disparos, lo que destaca la capacidad de los modelos no supervisados ​​pero entrenados para adaptarse a tareas diversas e invisibles. Juntas, la generalización y la escalabilidad revelan el potencial de los modelos autorregresivos para aprender de una gran cantidad de datos sin etiquetar. 

Sobre la base de lo mismo, en este artículo hablaremos sobre Visual AutoRegressive o el marco VAR, un patrón de nueva generación que redefine el aprendizaje autorregresivo en imágenes como una “predicción de siguiente resolución” o una “predicción de siguiente escala” de gruesa a fina. . Aunque simple, el enfoque es efectivo y permite a los transformadores autorregresivos aprender mejor las distribuciones visuales y mejorar la generalización. Además, los modelos Visual AutoRegressive permiten que los modelos autorregresivos de estilo GPT superen las transferencias de difusión en la generación de imágenes por primera vez. Los experimentos también indican que el marco VAR mejora significativamente las líneas de base autorregresivas y supera al marco Diffusion Transformer o DiT en múltiples dimensiones, incluida la eficiencia de los datos, la calidad de la imagen, la escalabilidad y la velocidad de inferencia. Además, la ampliación de los modelos Visual AutoRegressive demuestra leyes de escalamiento de ley de potencia similares a las observadas con modelos de lenguaje grandes, y también muestra una capacidad de generalización de tiro cero en tareas posteriores que incluyen edición, pintura interna y pintura externa. 

Este artículo tiene como objetivo cubrir el marco Visual AutoRegressive en profundidad y exploramos el mecanismo, la metodología, la arquitectura del marco junto con su comparación con los marcos más avanzados. También hablaremos sobre cómo el marco Visual AutoRegressive demuestra dos propiedades importantes de los LLM: leyes de escala y generalización de tiro cero. Entonces empecemos.

Modelado visual autorregresivo: generación de imágenes a escala

Un patrón común entre los grandes modelos de lenguaje recientes es la implementación de una estrategia de aprendizaje autosupervisada, un enfoque simple pero efectivo que predice el siguiente token de la secuencia. Gracias a este enfoque, los modelos autorregresivos y de lenguaje grande de hoy han demostrado una escalabilidad y generalización notables, propiedades que revelan el potencial de los modelos autorregresivos para aprender de una gran cantidad de datos sin etiquetar, resumiendo así la esencia de la Inteligencia Artificial General. Además, los investigadores en el campo de la visión por computadora han estado trabajando en paralelo para desarrollar grandes modelos autorregresivos o mundiales con el objetivo de igualar o superar su impresionante escalabilidad y generalización, con modelos como DALL-E y VQGAN que ya demuestran el potencial de los modelos autorregresivos en el campo. de generación de imágenes. Estos modelos a menudo implementan un tokenizador visual que representa o aproxima imágenes continuas en una cuadrícula de tokens 2D, que luego se aplanan en una secuencia 1D para el aprendizaje autorregresivo, reflejando así el proceso de modelado del lenguaje secuencial. 

Sin embargo, los investigadores aún tienen que explorar las leyes de escala de estos modelos, y lo que es más frustrante es el hecho de que el rendimiento de estos modelos a menudo queda por detrás de los modelos de difusión por un margen significativo, como se demuestra en la siguiente imagen. La brecha en el rendimiento indica que, en comparación con los grandes modelos de lenguaje, las capacidades de los modelos autorregresivos en visión por computadora están subexploradas. 

Por un lado, los modelos autorregresivos tradicionales requieren un orden definido de datos, mientras que, por otro lado, el modelo Visual AutoRegressive o VAR reconsidera cómo ordenar una imagen, y esto es lo que distingue al VAR de los métodos AR existentes. Normalmente, los humanos crean o perciben una imagen de manera jerárquica, capturando la estructura global seguida de los detalles locales, un enfoque de múltiples escalas, de grueso a fino, que sugiere un orden para la imagen de forma natural. Además, inspirándose en diseños de múltiples escalas, el marco VAR define el aprendizaje autorregresivo para imágenes como predicción de la siguiente escala, a diferencia de los enfoques convencionales que definen el aprendizaje como la predicción del siguiente token. El enfoque implementado por el marco VAR comienza codificando una imagen en mapas de tokens de múltiples escalas. Luego, el marco inicia el proceso autorregresivo desde el mapa de tokens 1×1 y amplía su resolución progresivamente. En cada paso, el transformador predice el siguiente mapa de tokens de mayor resolución condicionado a todos los anteriores, una metodología que el marco VAR denomina modelado VAR. 

El marco VAR intenta aprovechar la arquitectura transformadora de GPT-2 para el aprendizaje autorregresivo visual, y los resultados son evidentes en el punto de referencia ImageNet, donde el modelo VAR mejora significativamente su línea base AR, logrando un FID de 1.80 y una puntuación inicial de 356 junto con con una mejora de 20 veces en la velocidad de inferencia. Lo que es más interesante es que el marco VAR logra superar el rendimiento del marco DiT o Diffusion Transformer en términos de puntuaciones FID e IS, escalabilidad, velocidad de inferencia y eficiencia de datos. Además, el modelo Visual AutoRegressive exhibe fuertes leyes de escala similares a las observadas en modelos de lenguaje grandes. 

En resumen, el marco VAR intenta realizar las siguientes contribuciones. 

  1. Propone un nuevo marco generativo visual que utiliza un enfoque autorregresivo de múltiples escalas con predicción de la siguiente escala, contrario a la predicción tradicional del siguiente token, lo que da como resultado el diseño del algoritmo autorregresivo para tareas de visión por computadora. 
  2. Intenta validar las leyes de escala para modelos autorregresivos junto con un potencial de generalización de tiro cero que emula las atractivas propiedades de los LLM. 
  3. Ofrece un gran avance en el rendimiento de los modelos autorregresivos visuales, permitiendo que los marcos autorregresivos de estilo GPT superen los existentes. modelos de difusión en tareas de síntesis de imágenes por primera vez. 

Además, también es vital discutir las leyes de escala de potencia existentes que describen matemáticamente la relación entre los tamaños de los conjuntos de datos, los parámetros del modelo, las mejoras de rendimiento y los recursos computacionales de los modelos de aprendizaje automático. En primer lugar, estas leyes de escalamiento de leyes de potencia facilitan la aplicación del rendimiento de un modelo más grande al aumentar el tamaño del modelo, el costo computacional y el tamaño de los datos, ahorrando costos innecesarios y asignando el presupuesto de capacitación proporcionando principios. En segundo lugar, las leyes de escala han demostrado un aumento constante y no saturado del rendimiento. Avanzando con los principios de las leyes de escala en los modelos de lenguaje neuronal, varios LLM incorporan el principio de que aumentar la escala de los modelos tiende a producir mejores resultados de rendimiento. La generalización de tiro cero, por otro lado, se refiere a la capacidad de un modelo, particularmente un LLM, que realiza tareas para las que no ha sido entrenado explícitamente. Dentro del dominio de la visión por computadora, el interés en desarrollar habilidades de aprendizaje en contexto y de disparo cero de los modelos básicos. 

Los modelos de lenguaje se basan en algoritmos de Wordpiece o en el enfoque de codificación de pares de bytes para la tokenización de texto. Los modelos de generación visual basados ​​en modelos de lenguaje también dependen en gran medida de la codificación de imágenes 2D en secuencias de tokens 1D. Los primeros trabajos como VQVAE demostraron la capacidad de representar imágenes como tokens discretos con una calidad de reconstrucción moderada. El marco VQGAN, sucesor de VQVAE, incorporó pérdidas de percepción y confrontación para mejorar la fidelidad de la imagen y también empleó un transformador solo decodificador para generar tokens de imagen en forma autorregresiva de escaneo de trama estándar. Por otro lado, durante mucho tiempo se ha considerado que los modelos de difusión son los pioneros en las tareas de síntesis visual, dada su diversidad y su calidad de generación superior. El avance de los modelos de difusión se ha centrado en mejorar las técnicas de muestreo, mejoras arquitectónicas y un muestreo más rápido. Los modelos de difusión latente aplican difusión en el espacio latente que mejora la eficiencia y la inferencia del entrenamiento. Los modelos de transformador de difusión reemplazan la arquitectura tradicional U-Net con una arquitectura basada en transformador, y se ha implementado en modelos recientes de síntesis de imagen o video como SORA y Difusión estable

Visual AutoRegresivo: Metodología y Arquitectura

En esencia, el marco VAR tiene dos etapas de entrenamiento discretas. En la primera etapa, un codificador automático cuantificado de múltiples escalas o VQVAE codifica una imagen en mapas de tokens y se implementa una pérdida de reconstrucción compuesta con fines de capacitación. En la figura anterior, incrustación es una palabra que se usa para definir la conversión de tokens discretos en vectores de incrustación continuos. En la segunda etapa, el transformador en el modelo VAR se entrena minimizando la pérdida de entropía cruzada o maximizando la probabilidad utilizando el enfoque de predicción de la siguiente escala. Luego, el VQVAE entrenado produce la verdad básica del mapa de tokens para el marco VAR. 

Modelado autorregresivo mediante predicción del siguiente token

Para una secuencia dada de tokens discretos, donde cada token es un número entero de un vocabulario de tamaño V, el modelo autorregresivo del siguiente token plantea que la probabilidad de observar el token actual depende sólo de su prefijo. Asumir una dependencia de token unidireccional permite que el marco VAR descomponga las posibilidades de secuencia en el producto de probabilidades condicionales. Entrenar un modelo autorregresivo implica optimizar el modelo en un conjunto de datos, y este proceso de optimización se conoce como predicción del siguiente tokeny permite que el modelo entrenado genere nuevas secuencias. Además, las imágenes son señales continuas 2D por herencia, y aplicar el enfoque de modelado autorregresivo a las imágenes a través del proceso de optimización de predicción del siguiente token tiene algunos requisitos previos. Primero, la imagen debe tokenizarse en varios tokens discretos. Por lo general, se implementa un codificador automático cuantificado para convertir el mapa de características de la imagen en tokens discretos. En segundo lugar, se debe definir un orden 1D de tokens para el modelado unidireccional. 

Los tokens de imágenes en tokens discretos están organizados en una cuadrícula 2D y, a diferencia de las oraciones en lenguaje natural que inherentemente tienen un orden de izquierda a derecha, el orden de los tokens de imágenes debe definirse explícitamente para el aprendizaje autorregresivo unidireccional. Los enfoques autorregresivos anteriores aplanaron la cuadrícula 2D de tokens discretos en una secuencia 1D utilizando métodos como escaneo ráster de fila principal, curva z u orden en espiral. Una vez que se aplanaron los tokens discretos, los modelos AR extrajeron un conjunto de secuencias del conjunto de datos y luego entrenaron un modelo autorregresivo para maximizar la probabilidad en el producto de T probabilidades condicionales utilizando la predicción del siguiente token. 

Modelado visual-autorregresivo mediante predicción de siguiente escala

El marco VAR reconceptualiza el modelado autorregresivo de imágenes al pasar de la predicción del siguiente token al enfoque de predicción de la siguiente escala, un proceso según el cual, en lugar de ser un token único, la unidad autorregresiva es un mapa de tokens completo. El modelo primero cuantifica el mapa de características en mapas de tokens de múltiples escalas, cada uno con una resolución más alta que el anterior, y culmina haciendo coincidir la resolución de los mapas de características originales. Además, el marco VAR desarrolla un nuevo codificador de cuantificación multiescala para codificar una imagen en mapas de tokens discretos multiescala, necesarios para el aprendizaje VAR. El marco VAR emplea la misma arquitectura que VQGAN, pero con una capa de cuantificación de múltiples escalas modificada, con los algoritmos que se muestran en la siguiente imagen. 

Visual AutoRegresivo: Resultados y Experimentos

El marco VAR utiliza la arquitectura básica VQVAE con un esquema de cuantificación de múltiples escalas con convolución adicional K y utiliza un libro de códigos compartido para todas las escalas y una atenuación latente de 32. El enfoque principal reside en el algoritmo VAR debido al cual el diseño de la arquitectura del modelo se mantiene simple pero efectivo. El marco adopta la arquitectura de un transformador estándar de solo decodificador similar a los implementados en los modelos GPT-2, con la única modificación de la sustitución de la normalización de capa tradicional por la normalización adaptativa o AdaLN. Para la síntesis condicional de clases, el marco VAR implementa las incrustaciones de clases como token de inicio, y también la condición de la capa de normalización adaptativa. 

Resultados de generación de imágenes de última generación

Cuando se combina con marcos generativos existentes, incluidos GAN o redes generativas adversarias, modelos de predicción enmascarados estilo BERT, modelos de difusión y modelos autorregresivos estilo GPT, el marco Visual AutoRegressive muestra resultados prometedores que se resumen en la siguiente tabla. 

Como se puede observar, el marco Visual AutoRegressive no solo es capaz de obtener mejores puntajes FID e IS, sino que también demuestra una velocidad de generación de imágenes notable, comparable a los modelos de última generación. Además, el marco VAR también mantiene puntuaciones de precisión y recuperación satisfactorias, lo que confirma su coherencia semántica. Pero la verdadera sorpresa es el notable rendimiento que ofrece el marco VAR en tareas de capacidades AR tradicionales, lo que lo convierte en el primer modelo autorregresivo que superó a un modelo de transformador de difusión, como se demuestra en la siguiente tabla. 

Resultado de generalización de tareas de disparo cero

Para las tareas de pintura interna y externa, el maestro del marco VAR fuerza los tokens de verdad del terreno fuera de la máscara y permite que el modelo genere solo los tokens dentro de la máscara, sin inyectar información de etiqueta de clase en el modelo. Los resultados se demuestran en la siguiente imagen y, como se puede ver, el modelo VAR logra resultados aceptables en tareas posteriores sin ajustar los parámetros ni modificar la arquitectura de la red, lo que demuestra la generalización del marco VAR. 

Consideraciones Finales:

En este artículo, hemos hablado de un nuevo marco generativo visual llamado modelado visual autorregresivo (VAR) que 1) aborda teóricamente algunos problemas inherentes a los modelos autorregresivos (AR) de imágenes estándar y 2) hace que los modelos AR basados ​​en modelos de lenguaje superen primero modelos de difusión sólidos en términos de calidad de imagen, diversidad, eficiencia de datos y velocidad de inferencia. Por un lado, los modelos autorregresivos tradicionales requieren un orden definido de datos, mientras que, por otro lado, el modelo Visual AutoRegressive o VAR reconsidera cómo ordenar una imagen, y esto es lo que distingue al VAR de los métodos AR existentes. Al escalar VAR a 2 mil millones de parámetros, los desarrolladores del marco VAR observaron una clara relación de ley de potencia entre el rendimiento de la prueba y los parámetros del modelo o el cálculo de entrenamiento, con coeficientes de Pearson cercanos a −0.998, lo que indica un marco sólido para la predicción del rendimiento. Estas leyes de escala y la posibilidad de generalización de tareas de disparo cero, como características distintivas de los LLM, ahora se han verificado inicialmente en nuestros modelos de transformadores VAR. 

"Ingeniero de profesión, escritor de corazón". Kunal es un escritor técnico con un profundo amor y comprensión de AI y ML, dedicado a simplificar conceptos complejos en estos campos a través de su atractiva e informativa documentación.