toco Modelagem visual autorregressiva: geração de imagens escalonáveis ​​por meio de previsão de próxima escala - Unite.AI
Entre em contato

Inteligência artificial

Modelagem Visual Autoregressiva: Geração de Imagem Escalável por meio de Previsão de Próxima Escala

mm

Publicado

 on

Modelagem Visual Autoregressiva: Geração de Imagem Escalável por meio de Previsão de Próxima Escala

O advento dos modelos GPT, juntamente com outros modelos de linguagem autorregressivos ou AR, desencadeou uma nova época no campo do aprendizado de máquina e da inteligência artificial. Os modelos GPT e autorregressivos geralmente exibem inteligência geral e versatilidade que são consideradas um passo significativo em direção à inteligência artificial geral ou AGI, apesar de apresentarem alguns problemas como alucinações. No entanto, o problema intrigante com estes grandes modelos é uma estratégia de aprendizagem auto-supervisionada que permite ao modelo prever o próximo token numa sequência, uma estratégia simples mas eficaz. Trabalhos recentes demonstraram o sucesso destes grandes modelos autorregressivos, destacando a sua generalização e escalabilidade. A escalabilidade é um exemplo típico das leis de escalabilidade existentes que permitem aos pesquisadores prever o desempenho do modelo grande a partir do desempenho de modelos menores, resultando em uma melhor alocação de recursos. Por outro lado, a generalização é frequentemente evidenciada por estratégias de aprendizagem como aprendizagem zero-shot, one-shot e poucos-shot, destacando a capacidade de modelos não supervisionados, mas treinados, de se adaptarem a tarefas diversas e invisíveis. Juntas, a generalização e a escalabilidade revelam o potencial dos modelos autorregressivos para aprender com uma vasta quantidade de dados não rotulados. 

Com base no mesmo, neste artigo, falaremos sobre Visual AutoRegressive ou estrutura VAR, um padrão de nova geração que redefine o aprendizado autorregressivo em imagens como “previsão da próxima resolução” ou “previsão da próxima escala” de grosso a fino. . Embora simples, a abordagem é eficaz e permite que transformadores autorregressivos aprendam melhor as distribuições visuais e melhorem a generalização. Além disso, os modelos Visual AutoRegressive permitem que os modelos autoregressivos do estilo GPT superem pela primeira vez as transferências de difusão na geração de imagens. Os experimentos também indicam que a estrutura VAR melhora significativamente as linhas de base autoregressivas e supera o Diffusion Transformer ou a estrutura DiT em múltiplas dimensões, incluindo eficiência de dados, qualidade de imagem, escalabilidade e velocidade de inferência. Além disso, a ampliação dos modelos Visual AutoRegressive demonstra leis de escala de lei de potência semelhantes às observadas com modelos de linguagem grandes e também exibe capacidade de generalização zero-shot em tarefas posteriores, incluindo edição, pintura interna e pintura externa. 

Este artigo tem como objetivo cobrir em profundidade o framework Visual AutoRegressive e explorar o mecanismo, a metodologia, a arquitetura do framework junto com sua comparação com frameworks do estado da arte. Também falaremos sobre como a estrutura Visual AutoRegressive demonstra duas propriedades importantes dos LLMs: Leis de escala e generalização zero-shot. Então vamos começar.

Modelagem visual autoregressiva: dimensionamento da geração de imagens

Um padrão comum entre os grandes modelos de linguagem recentes é a implementação de uma estratégia de aprendizagem auto-supervisionada, uma abordagem simples, mas eficaz, que prevê o próximo token na sequência. Graças à abordagem, os modelos autorregressivos e de linguagem grande demonstraram hoje notável escalabilidade, bem como generalização, propriedades que revelam o potencial dos modelos autorregressivos para aprender com um grande conjunto de dados não rotulados, resumindo assim a essência da Inteligência Artificial Geral. Além disso, pesquisadores no campo da visão computacional têm trabalhado paralelamente para desenvolver grandes modelos autoregressivos ou mundiais com o objetivo de igualar ou superar sua impressionante escalabilidade e generalização, com modelos como DALL-E e VQGAN já demonstrando o potencial dos modelos autoregressivos no campo de geração de imagens. Esses modelos geralmente implementam um tokenizador visual que representa ou aproxima imagens contínuas em uma grade de tokens 2D, que são então achatados em uma sequência 1D para aprendizado autorregressivo, espelhando assim o processo de modelagem de linguagem sequencial. 

No entanto, os pesquisadores ainda não exploraram as leis de escala desses modelos, e o que é mais frustrante é o fato de que o desempenho desses modelos muitas vezes fica atrás dos modelos de difusão por uma margem significativa, conforme demonstrado na imagem a seguir. A lacuna no desempenho indica que, quando comparados a grandes modelos de linguagem, as capacidades dos modelos autorregressivos em visão computacional são subexploradas. 

Por um lado, os modelos autoregressivos tradicionais requerem uma ordem definida de dados, enquanto, por outro lado, o modelo Visual AutoRegressivo ou VAR reconsidera como ordenar uma imagem, e é isso que distingue o VAR dos métodos AR existentes. Normalmente, os humanos criam ou percebem uma imagem de maneira hierárquica, capturando a estrutura global seguida pelos detalhes locais, uma abordagem multiescala, do grosso ao fino, que sugere naturalmente uma ordem para a imagem. Além disso, inspirando-se em projetos multiescala, a estrutura VAR define a aprendizagem autoregressiva para imagens como a previsão da próxima escala, em oposição às abordagens convencionais que definem a aprendizagem como a próxima previsão do token. A abordagem implementada pela estrutura VAR começa codificando uma imagem em mapas de tokens multiescala. A estrutura então inicia o processo autoregressivo a partir do mapa de token 1×1 e expande a resolução progressivamente. A cada passo, o transformador prevê o próximo mapa de tokens de maior resolução condicionado a todos os anteriores, uma metodologia que a estrutura VAR chama de modelagem VAR. 

A estrutura VAR tenta aproveitar a arquitetura do transformador do GPT-2 para aprendizagem visual autoregressiva, e os resultados são evidentes no benchmark ImageNet, onde o modelo VAR melhora significativamente sua linha de base AR, alcançando um FID de 1.80 e uma pontuação inicial de 356 ao longo com uma melhoria de 20x na velocidade de inferência. O que é mais interessante é que a estrutura VAR consegue superar o desempenho da estrutura DiT ou Diffusion Transformer em termos de pontuações FID e IS, escalabilidade, velocidade de inferência e eficiência de dados. Além disso, o modelo Visual AutoRegressive exibe fortes leis de escala semelhantes às observadas em grandes modelos de linguagem. 

Resumindo, a estrutura VAR tenta fazer as seguintes contribuições. 

  1. Ele propõe uma nova estrutura generativa visual que usa uma abordagem autoregressiva multiescala com previsão de próxima escala, ao contrário da previsão tradicional de próximo token, resultando no projeto do algoritmo autoregressivo para tarefas de visão computacional. 
  2. Ele tenta validar leis de escala para modelos autorregressivos juntamente com potencial de generalização zero-shot que emula as propriedades atraentes dos LLMs. 
  3. Ele oferece um avanço no desempenho de modelos autoregressivos visuais, permitindo que as estruturas autoregressivas estilo GPT superem os existentes. modelos de difusão em tarefas de síntese de imagens pela primeira vez. 

Além disso, também é vital discutir as leis de escala de potência existentes que descrevem matematicamente a relação entre tamanhos de conjuntos de dados, parâmetros de modelo, melhorias de desempenho e recursos computacionais de modelos de aprendizado de máquina. Primeiro, essas leis de escalonamento da lei de potência facilitam a aplicação do desempenho de um modelo maior, aumentando o tamanho do modelo, o custo computacional e o tamanho dos dados, economizando custos desnecessários e alocando o orçamento de treinamento, fornecendo princípios. Em segundo lugar, as leis de escala demonstraram um aumento consistente e não saturado no desempenho. Avançando com os princípios das leis de escala em modelos de linguagem neural, vários LLMs incorporam o princípio de que aumentar a escala dos modelos tende a produzir melhores resultados de desempenho. A generalização zero-shot, por outro lado, refere-se à capacidade de um modelo, particularmente um LLM, que executa tarefas nas quais não foi treinado explicitamente. Dentro do domínio da visão computacional, o interesse em construir habilidades de aprendizagem in-context e de tiro zero de modelos básicos. 

Os modelos de linguagem contam com algoritmos WordPiece ou abordagem de codificação de pares de bytes para tokenização de texto. Os modelos de geração visual baseados em modelos de linguagem também dependem fortemente da codificação de imagens 2D em sequências de tokens 1D. Os primeiros trabalhos como o VQVAE demonstraram a capacidade de representar imagens como tokens discretos com qualidade de reconstrução moderada. O sucessor do VQVAE, a estrutura VQGAN incorporou perdas perceptivas e adversárias para melhorar a fidelidade da imagem e também empregou um transformador somente decodificador para gerar tokens de imagem na maneira autorregressiva de varredura raster padrão. Os modelos de difusão, por outro lado, há muito são considerados os pioneiros em tarefas de síntese visual, desde que sejam diversificados e tenham qualidade de geração superior. O avanço dos modelos de difusão tem sido centrado na melhoria das técnicas de amostragem, melhorias arquitetônicas e amostragem mais rápida. Os modelos de difusão latente aplicam difusão no espaço latente que melhora a eficiência do treinamento e a inferência. Os modelos Diffusion Transformer substituem a arquitetura U-Net tradicional por uma arquitetura baseada em transformador e foi implantada em modelos recentes de imagem ou síntese de vídeo como SORA e Difusão Estável

AutoRegressivo Visual: Metodologia e Arquitetura

Basicamente, a estrutura do VAR tem dois estágios de treinamento distintos. No primeiro estágio, um autoencoder quantizado em múltiplas escalas ou VQVAE codifica uma imagem em mapas de token, e a perda de reconstrução composta é implementada para fins de treinamento. Na figura acima, incorporação é uma palavra usada para definir a conversão de tokens discretos em vetores de incorporação contínua. No segundo estágio, o transformador no modelo VAR é treinado minimizando a perda de entropia cruzada ou maximizando a probabilidade usando a abordagem de previsão da próxima escala. O VQVAE treinado então produz a verdade básica do mapa de token para a estrutura VAR. 

Modelagem Autoregressiva via Previsão do Próximo Token

Para uma dada sequência de tokens discretos, onde cada token é um número inteiro de um vocabulário de tamanho V, o modelo autoregressivo do próximo token propõe que a probabilidade de observar o token atual depende apenas de seu prefixo. Assumir a dependência de token unidirecional permite que a estrutura VAR decomponha as chances de sequência no produto de probabilidades condicionais. Treinar um modelo autorregressivo envolve otimizar o modelo em um conjunto de dados, e esse processo de otimização é conhecido como previsão do próximo tokene permite que o modelo treinado gere novas sequências. Além disso, as imagens são sinais contínuos 2D por herança, e para aplicar a abordagem de modelagem autoregressiva às imagens por meio do processo de otimização de predição do próximo token existem alguns pré-requisitos. Primeiro, a imagem precisa ser tokenizada em vários tokens discretos. Normalmente, um autoencoder quantizado é implementado para converter o mapa de recursos da imagem em tokens discretos. Segundo, uma ordem 1D de tokens deve ser definida para modelagem unidirecional. 

Os tokens de imagem em tokens discretos são organizados em uma grade 2D e, diferentemente das sentenças de linguagem natural que possuem inerentemente uma ordem da esquerda para a direita, a ordem dos tokens de imagem deve ser definida explicitamente para aprendizagem autoregressiva unidirecional. Abordagens autorregressivas anteriores achataram a grade 2D de tokens discretos em uma sequência 1D usando métodos como varredura raster de linha principal, curva z ou ordem espiral. Depois que os tokens discretos foram nivelados, os modelos AR extraíram um conjunto de sequências do conjunto de dados e, em seguida, treinaram um modelo autorregressivo para maximizar a probabilidade no produto de probabilidades condicionais T usando a previsão do próximo token. 

Modelagem visual-autoregressiva por meio de previsão em próxima escala

A estrutura VAR reconceitualiza a modelagem autoregressiva em imagens, mudando da abordagem de previsão do próximo token para a abordagem de previsão da próxima escala, um processo sob o qual, em vez de ser um único token, a unidade autoregressiva é um mapa de token completo. O modelo primeiro quantiza o mapa de características em mapas de tokens multiescala, cada um com uma resolução mais alta que o anterior, e culmina combinando a resolução dos mapas de características originais. Além disso, a estrutura VAR desenvolve um novo codificador de quantização multiescala para codificar uma imagem em mapas de tokens discretos multiescala, necessários para o aprendizado VAR. A estrutura VAR emprega a mesma arquitetura do VQGAN, mas com uma camada de quantização multiescala modificada, com os algoritmos demonstrados na imagem a seguir. 

AutoRegressivo Visual: Resultados e Experimentos

A estrutura VAR usa a arquitetura Vanilla VQVAE com um esquema de quantização multiescala com convolução extra K e usa um livro de códigos compartilhado para todas as escalas e um dim latente de 32. O foco principal está no algoritmo VAR devido ao qual o design da arquitetura do modelo é mantido simples, mas eficaz. O framework adota a arquitetura de um transformador somente decodificador padrão semelhante aos implementados nos modelos GPT-2, com a única modificação sendo a substituição da normalização de camada tradicional pela normalização adaptativa ou AdaLN. Para síntese condicional de classe, a estrutura VAR implementa os embeddings de classe como o token inicial e também a condição da camada de normalização adaptativa. 

Resultados de geração de imagens de última geração

Quando combinado com estruturas generativas existentes, incluindo GANs ou Redes Adversariais Gerativas, modelos de predição mascarados no estilo BERT, modelos de difusão e modelos autorregressivos no estilo GPT, a estrutura Visual AutoRegressive mostra resultados promissores resumidos na tabela a seguir. 

Como pode ser observado, a estrutura Visual AutoRegressive não só é capaz de obter as melhores pontuações de FID e IS, mas também demonstra notável velocidade de geração de imagens, comparável aos modelos de última geração. Além disso, a estrutura VAR também mantém pontuações satisfatórias de precisão e recall, o que confirma sua consistência semântica. Mas a verdadeira surpresa é o desempenho notável fornecido pela estrutura VAR em tarefas tradicionais de capacidades AR, tornando-o o primeiro modelo autorregressivo que superou um modelo de Transformador de Difusão, conforme demonstrado na tabela a seguir. 

Resultado de generalização da tarefa Zero-Shot

Para tarefas de pintura de entrada e saída, o professor da estrutura VAR força os tokens de verdade para fora da máscara e permite que o modelo gere apenas os tokens dentro da máscara, sem que nenhuma informação de rótulo de classe seja injetada no modelo. Os resultados são demonstrados na imagem a seguir e, como pode ser visto, o modelo VAR alcança resultados aceitáveis ​​em tarefas downstream sem ajustar parâmetros ou modificar a arquitetura da rede, demonstrando a generalização da estrutura VAR. 

Considerações Finais

Neste artigo, falamos sobre uma nova estrutura geradora visual chamada modelagem Visual AutoRegressive (VAR) que 1) aborda teoricamente alguns problemas inerentes aos modelos autorregressivos de imagem padrão (AR) e 2) faz com que os modelos AR baseados em modelos de linguagem superem primeiro modelos de difusão fortes em termos de qualidade de imagem, diversidade, eficiência de dados e velocidade de inferência. Por um lado, os modelos autoregressivos tradicionais requerem uma ordem definida de dados, enquanto, por outro lado, o modelo Visual AutoRegressivo ou VAR reconsidera como ordenar uma imagem, e é isso que distingue o VAR dos métodos AR existentes. Ao dimensionar o VAR para 2 bilhões de parâmetros, os desenvolvedores da estrutura VAR observaram uma clara relação de lei de potência entre o desempenho do teste e os parâmetros do modelo ou cálculo de treinamento, com coeficientes de Pearson próximos de -0.998, indicando uma estrutura robusta para previsão de desempenho. Essas leis de escala e a possibilidade de generalização de tarefas de disparo zero, como marcas registradas dos LLMs, foram agora inicialmente verificadas em nossos modelos de transformadores VAR. 

"Engenheiro de profissão, escritor de coração". Kunal é um escritor técnico com profundo amor e compreensão de IA e ML, dedicado a simplificar conceitos complexos nesses campos por meio de sua documentação envolvente e informativa.