Connect with us

Inteligência artificial

Modelagem AutoRegressiva Visual: Geração de Imagens Escaláveis via Previsão de Próxima Escala

mm
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

A chegada dos modelos GPT, juntamente com outros grandes modelos de linguagem autoregressivos ou AR, desencadeou uma nova era no campo do aprendizado de máquina e inteligência artificial. Os modelos GPT e autoregressivos frequentemente exibem inteligência geral e versatilidade que são considerados um passo significativo em direção à inteligência artificial geral ou AGI, apesar de terem alguns problemas, como alucinações. No entanto, o problema intrigante com esses grandes modelos é uma estratégia de aprendizado auto-supervisionado que permite que o modelo preveja o próximo token em uma sequência, uma estratégia simples, mas eficaz. Trabalhos recentes demonstraram o sucesso desses grandes modelos autoregressivos, destacando sua generalizabilidade e escalabilidade. A escalabilidade é um exemplo típico das leis de escala existentes que permitem que os pesquisadores prevejam o desempenho do grande modelo a partir do desempenho de modelos menores, resultando em uma melhor alocação de recursos. Por outro lado, a generalizabilidade é frequentemente evidenciada por estratégias de aprendizado, como aprendizado de zero disparos, um disparo e poucos disparos, destacando a capacidade de modelos não supervisionados, mas treinados, de se adaptar a tarefas diversas e não vistas. Juntas, a generalizabilidade e a escalabilidade revelam o potencial dos modelos autoregressivos para aprender a partir de uma grande quantidade de dados não rotulados. 

Com base no mesmo, neste artigo, vamos falar sobre o quadro Visual AutoRegressivo ou VAR, um novo padrão de geração que redefine o aprendizado autoregressivo em imagens como previsão de “próxima resolução” ou “próxima escala” de forma grosseira para fina. Embora simples, a abordagem é eficaz e permite que os transformadores autoregressivos aprendam distribuições visuais melhor e tenham uma generalizabilidade aprimorada. Além disso, os modelos Visual AutoRegressivos permitem que os modelos autoregressivos do estilo GPT ultrapassam as transferências de difusão na geração de imagens pela primeira vez. Os experimentos também indicam que o quadro VAR melhora significativamente as linhas de base autoregressivas e supera o quadro do Transformador de Difusão ou DiT em várias dimensões, incluindo eficiência de dados, qualidade de imagem, escalabilidade e velocidade de inferência. Além disso, aumentar o tamanho dos modelos Visual AutoRegressivos demonstra leis de escala de potência semelhantes às observadas nos grandes modelos de linguagem e também exibe capacidade de generalização de zero disparos em tarefas downstream, incluindo edição, pintura e fora de pintura. 

Este artigo visa cobrir o quadro Visual AutoRegressivo em profundidade e exploramos o mecanismo, a metodologia, a arquitetura do quadro, juntamente com sua comparação com quadros de estado da arte. Também vamos falar sobre como o quadro Visual AutoRegressivo demonstra duas propriedades importantes dos LLMs: Leis de Escalabilidade e generalização de zero disparos. Então, vamos começar.

Modelagem AutoRegressiva Visual: Escalabilidade da Geração de Imagens

Um padrão comum entre os recentes grandes modelos de linguagem é a implementação de uma estratégia de aprendizado auto-supervisionado, uma abordagem simples, mas eficaz, que prevê o próximo token na sequência. Graças à abordagem, os modelos autoregressivos e os grandes modelos de linguagem de hoje demonstraram uma notável escalabilidade, bem como generalizabilidade, propriedades que revelam o potencial dos modelos autoregressivos para aprender a partir de uma grande quantidade de dados não rotulados, resumindo a essência da Inteligência Artificial Geral. Além disso, os pesquisadores no campo da visão computacional têm trabalhado paralelamente para desenvolver grandes modelos autoregressivos ou mundiais com o objetivo de igualar ou ultrapassar sua impressionante escalabilidade e generalizabilidade, com modelos como DALL-E e VQGAN já demonstrando o potencial dos modelos autoregressivos no campo da geração de imagens. Esses modelos frequentemente implementam um tokenizador visual que representa ou aproxima imagens contínuas em uma grade de tokens 2D, que são então achatados em uma sequência 1D para aprendizado autoregressivo, espelhando o processo de modelagem de linguagem sequencial. 

No entanto, os pesquisadores ainda não exploraram as leis de escalabilidade desses modelos e o que é mais frustrante é o fato de que o desempenho desses modelos frequentemente fica aquém dos modelos de difusão por uma margem significativa, como demonstrado na seguinte imagem. A lacuna no desempenho indica que, em comparação com os grandes modelos de linguagem, as capacidades dos modelos autoregressivos na visão computacional são subexploradas. 

Por um lado, os modelos autoregressivos tradicionais requerem uma ordem de dados definida, enquanto, por outro lado, o modelo Visual AutoRegressivo ou VAR reconsiders como ordenar uma imagem e é isso que distingue o VAR dos métodos AR existentes. Tipicamente, os humanos criam ou percebem uma imagem de forma hierárquica, capturando a estrutura global seguida pelos detalhes locais, uma abordagem multi-escala, grossa para fina, que sugere uma ordem para a imagem naturalmente. Além disso, inspirados nos designs multi-escala, o quadro VAR define o aprendizado autoregressivo para imagens como previsão de próxima escala, em vez de abordagens convencionais que definem o aprendizado como previsão de próximo token. A abordagem implementada pelo quadro VAR começa codificando uma imagem em mapas de tokens multi-escala. O quadro, então, inicia o processo autoregressivo a partir do mapa de token 1×1 e expande progressivamente a resolução. A cada etapa, o transformador prevê o próximo mapa de token de maior resolução condicionado em todos os anteriores, uma metodologia que o quadro VAR refere-se como modelagem VAR. 

O quadro VAR tenta aproveitar a arquitetura do transformador do GPT-2 para o aprendizado autoregressivo visual e os resultados são evidentes no benchmark ImageNet, onde o modelo VAR melhora significativamente sua linha de base AR, alcançando um FID de 1,80 e um escore de iniciação de 356, juntamente com uma melhoria de 20x na velocidade de inferência. O que é mais interessante é que o quadro VAR consegue superar o desempenho do quadro do Transformador de Difusão ou DiT em termos de escores FID e IS, escalabilidade, velocidade de inferência e eficiência de dados. Além disso, o modelo Visual AutoRegressivo exibe fortes leis de escalabilidade semelhantes às observadas nos grandes modelos de linguagem. 

Para resumir, o quadro VAR tenta fazer as seguintes contribuições. 

  1. Propõe um novo quadro gerativo visual que usa uma abordagem autoregressiva multi-escala com previsão de próxima escala, contrariamente à previsão de token tradicional, resultando no design do algoritmo autoregressivo para tarefas de visão computacional. 
  2. Tenta validar leis de escalabilidade para modelos autoregressivos, juntamente com o potencial de generalização de zero disparos que emula as propriedades atraentes dos LLMs. 
  3. Oferece uma quebra de desempenho nos modelos autoregressivos visuais, permitindo que os quadros autoregressivos do estilo GPT ultrapassam os modelos de difusão existentes em tarefas de síntese de imagens pela primeira vez. 

Além disso, também é vital discutir as leis de escalabilidade de potência existentes que descrevem matematicamente a relação entre tamanhos de conjunto de dados, parâmetros de modelo, melhorias de desempenho e recursos computacionais de modelos de aprendizado de máquina. Primeiramente, essas leis de escalabilidade de potência facilitam a aplicação do desempenho de um modelo maior, escalando o tamanho do modelo, o custo computacional e o tamanho dos dados, economizando custos desnecessários e alocando o orçamento de treinamento, fornecendo princípios. Em segundo lugar, as leis de escalabilidade demonstraram um aumento consistente e não saturante no desempenho. Avançando com os princípios das leis de escalabilidade em modelos de linguagem neural, vários LLMs incorporam o princípio de que aumentar a escala dos modelos tende a produzir resultados de desempenho aprimorados. A generalização de zero disparos, por outro lado, refere-se à capacidade de um modelo, particularmente um LLM, realizar tarefas que não foram treinadas explicitamente. Dentro do domínio da visão computacional, o interesse em construir capacidades de aprendizado de zero disparos e de contexto de modelos de base. 

Os modelos de linguagem dependem de algoritmos WordPiece ou de abordagem de codificação de pares de bytes para tokenização de texto. Os modelos de geração visual baseados em modelos de linguagem também dependem fortemente da codificação de imagens 2D em sequências de tokens 1D. Trabalhos anteriores, como o VQVAE, demonstraram a capacidade de representar imagens como tokens discretos com qualidade de reconstrução moderada. O sucessor do VQVAE, o quadro VQGAN, incorporou perdas perceptuais e adversárias para melhorar a fidelidade da imagem e também empregou um transformador decodificador para gerar tokens de imagem de forma autoregressiva padrão. Os modelos de difusão, por outro lado, há muito tempo são considerados os líderes em tarefas de síntese visual, devido à sua diversidade e qualidade de geração superior. O avanço dos modelos de difusão tem sido centrado em melhorar as técnicas de amostragem, melhorias arquiteturais e amostragem mais rápida. Os modelos de difusão latente aplicam a difusão no espaço latente, o que melhora a eficiência de treinamento e inferência. Os modelos de Transformador de Difusão substituem a arquitetura tradicional U-Net por uma arquitetura baseada em transformador e tem sido implantada em modelos recentes de síntese de imagem ou vídeo, como o SORA e a Difusão Estável

Visual-AutoRegressivo: Metodologia e Arquitetura

Em seu núcleo, o quadro VAR tem duas etapas de treinamento discretas. Na primeira etapa, um autoencoder quantizado multi-escala ou VQVAE codifica uma imagem em mapas de tokens e uma perda de reconstrução composta é implementada para fins de treinamento. Na figura acima, o termo “embedding” é usado para definir a conversão de tokens discretos em vetores de embedding contínuos. Na segunda etapa, o transformador no modelo VAR é treinado minimizando a perda de entropia cruzada ou maximizando a probabilidade usando a abordagem de previsão de próxima escala. O VQVAE treinado produz o mapa de token de ground truth para o quadro VAR. 

Modelagem AutoRegressiva via Previsão de Próximo Token

Para uma sequência dada de tokens discretos, onde cada token é um inteiro de um vocabulário de tamanho V, o modelo autoregressivo de próximo token propõe que a probabilidade de observar o token atual depende apenas de seu prefixo. Supondo uma dependência unidirecional de token, o quadro VAR pode decompor as chances da sequência no produto de probabilidades condicionais. O treinamento de um modelo autoregressivo envolve otimizar o modelo em um conjunto de dados e esse processo de otimização é conhecido como previsão de próximo token, permitindo que o modelo treinado gere novas sequências. Além disso, as imagens são sinais contínuos 2D por herança e aplicar a abordagem de modelagem autoregressiva às imagens via o processo de otimização de previsão de próximo token tem alguns pré-requisitos. Primeiramente, a imagem precisa ser tokenizada em vários tokens discretos. Geralmente, um autoencoder quantizado é implementado para converter o mapa de recurso da imagem em tokens discretos. Em segundo lugar, uma ordem 1D de tokens deve ser definida para modelagem unidirecional. 

Os tokens de imagem em tokens discretos são arranjados em uma grade 2D e, ao contrário das frases de linguagem natural que têm uma ordem de esquerda para direita inerente, a ordem dos tokens de imagem deve ser definida explicitamente para aprendizado autoregressivo unidirecional. Abordagens autoregressivas anteriores achataram a grade 2D de tokens discretos em uma sequência 1D usando métodos como varredura de raster em ordem de linha principal, curva z ou ordem espiral. Uma vez que os tokens discretos foram achatados, os modelos AR extraíram um conjunto de sequências do conjunto de dados e, em seguida, treinaram um modelo autoregressivo para maximizar a probabilidade no produto de T probabilidades condicionais usando a previsão de próximo token. 

Modelagem AutoRegressiva Visual via Previsão de Próxima Escala

O quadro VAR reimagina a modelagem autoregressiva em imagens, mudando da previsão de próximo token para a abordagem de previsão de próxima escala, um processo no qual, em vez de ser um único token, a unidade autoregressiva é um mapa de token inteiro. O modelo primeiro quantiza o mapa de recurso em mapas de tokens multi-escala, cada um com uma resolução mais alta do que o anterior e culmina ao combinar a resolução dos mapas de recurso originais. Além disso, o quadro VAR desenvolve um novo codificador de quantização multi-escala para codificar uma imagem em mapas de tokens discretos multi-escala, necessário para o aprendizado VAR. O quadro VAR emprega a mesma arquitetura que o VQGAN, mas com uma camada de quantização multi-escala modificada, com os algoritmos demonstrados na seguinte imagem. 

Visual AutoRegressivo: Resultados e Experimentos

O quadro VAR usa a arquitetura VQVAE vanilla com um esquema de quantização multi-escala com K convoluções extras e usa um código de livro compartilhado para todas as escalas e uma dimensão latente de 32. O foco principal está no algoritmo VAR, devido ao qual o design da arquitetura do modelo é mantido simples, mas eficaz. O quadro adota a arquitetura de um transformador decodificador padrão, semelhante àquela implementada nos modelos GPT-2, com a única modificação sendo a substituição da normalização de camada tradicional por normalização adaptativa ou AdaLN. Para síntese condicional de classe, o quadro VAR implementa as embeddings de classe como o token de início e também a condição da camada de normalização adaptativa. 

Resultados de Geração de Imagem de Estado da Arte

Quando comparado a quadros gerativos existentes, incluindo GANs ou Redes Adversárias Gerativas, modelos de previsão mascarada do estilo BERT, modelos de difusão e modelos autoregressivos do estilo GPT, o quadro Visual AutoRegressivo mostra resultados promissores, resumidos na seguinte tabela. 

Como pode ser observado, o quadro Visual AutoRegressivo não apenas consegue os melhores escores FID e IS, mas também demonstra uma velocidade de geração de imagem notável, comparável aos modelos de estado da arte. Além disso, o quadro VAR também mantém escores de precisão e recall satisfatórios, o que confirma sua consistência semântica. Mas a grande surpresa é o desempenho notável entregue pelo quadro VAR em tarefas tradicionais de capacidades AR, tornando-o o primeiro modelo autoregressivo a superar um modelo de Transformador de Difusão, como demonstrado na seguinte tabela. 

Resultado de Generalização de Tarefa de Zero Disparos

Para tarefas de pintura dentro e fora, o quadro VAR força os tokens de ground truth fora da máscara e deixa o modelo gerar apenas os tokens dentro da máscara, sem nenhuma informação de rótulo de classe sendo injetada no modelo. Os resultados são demonstrados na seguinte imagem e, como pode ser visto, o modelo VAR alcança resultados aceitáveis em tarefas downstream sem ajustar parâmetros ou modificar a arquitetura da rede, demonstrando a generalizabilidade do quadro VAR. 

Pensamentos Finais

Neste artigo, falamos sobre um novo quadro gerativo visual chamado Modelagem AutoRegressiva Visual (VAR) que 1) teoricamente aborda alguns problemas inerentes aos modelos AR de imagem padrão e 2) torna os modelos AR baseados em modelos de linguagem ultrapassarem os modelos de difusão fortes em termos de qualidade de imagem, diversidade, eficiência de dados e velocidade de inferência. Por um lado, os modelos autoregressivos tradicionais requerem uma ordem de dados definida, enquanto, por outro lado, o modelo Visual AutoRegressivo ou VAR reconsiders como ordenar uma imagem e é isso que distingue o VAR dos métodos AR existentes. Ao escalar o VAR para 2 bilhões de parâmetros, os desenvolvedores do quadro VAR observaram uma clara relação de potência entre o desempenho de teste e os parâmetros do modelo ou o cálculo de treinamento, com coeficientes de Pearson se aproximando de −0,998, indicando um quadro robusto para previsão de desempenho. Essas leis de escalabilidade e a possibilidade de generalização de zero disparos, como marcas registradas dos LLMs, agora foram inicialmente verificadas em nossos modelos de transformador VAR. 

Um engenheiro por profissão, um escritor por coração. Kunal é um escritor técnico com um amor e compreensão profundos de AI e ML, dedicado a simplificar conceitos complexos nestes campos por meio de sua documentação envolvente e informativa.