Refresh

This website www.unite.ai/pt/orienta%C3%A7%C3%A3o-de-autoaten%C3%A7%C3%A3o-melhorando-a-qualidade-da-amostra-de-modelos-de-difus%C3%A3o/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

toco Orientação de autoatenção: melhorando a qualidade da amostra de modelos de difusão - Unite.AI
Entre em contato

Inteligência artificial

Orientação de autoatenção: melhorando a qualidade da amostra de modelos de difusão

mm
Atualização do on
Orientação de autoatenção: melhorando a qualidade da amostra de modelos de difusão

Modelos de difusão de eliminação de ruído são estruturas generativas de IA que sintetizam imagens de ruído por meio de um processo iterativo de eliminação de ruído. Eles são celebrados por suas excepcionais capacidades e diversidade de geração de imagens, em grande parte atribuídas a métodos de orientação condicionais de texto ou classe, incluindo orientação por classificador e orientação sem classificador. Esses modelos tiveram um sucesso notável na criação de imagens diversas e de alta qualidade. Estudos recentes mostraram que técnicas de orientação, como legendas e rótulos de classes, desempenham um papel crucial na melhoria da qualidade das imagens geradas por esses modelos.

No entanto, os modelos de difusão e os métodos de orientação enfrentam limitações sob certas condições externas. O método Classifier-Free Guidance (CFG), que usa eliminação de rótulos, adiciona complexidade ao processo de treinamento, enquanto o método Classifier Guidance (CG) requer treinamento adicional do classificador. Ambos os métodos são um tanto limitados pela sua dependência de condições externas arduamente conquistadas, limitando o seu potencial e confinando-os a cenários condicionais.

Para resolver essas limitações, os desenvolvedores formularam uma abordagem mais geral para orientação de difusão, conhecida como Orientação de Autoatenção (SAG). Este método aproveita informações de amostras intermediárias de modelos de difusão para gerar imagens. Exploraremos o SAG neste artigo, discutindo seu funcionamento, metodologia e resultados em comparação com estruturas e pipelines de última geração.

Orientação de autoatenção: melhorando a qualidade da amostra de modelos de difusão

Os modelos de difusão de eliminação de ruído (DDMs) ganharam popularidade por sua capacidade de criar imagens a partir de ruído por meio de um processo iterativo de eliminação de ruído. A capacidade de síntese de imagens desses modelos se deve em grande parte aos métodos de orientação de difusão empregados. Apesar dos seus pontos fortes, os modelos de difusão e os métodos baseados em orientação enfrentam desafios como maior complexidade e aumento dos custos computacionais.

Para superar as limitações atuais, os desenvolvedores introduziram o método de Orientação de Autoatenção, uma formulação mais geral de orientação de difusão que não depende de informações externas da orientação de difusão, facilitando assim uma abordagem livre de condições e flexível para orientar estruturas de difusão. A abordagem escolhida pela Orientação de Autoatenção ajuda, em última análise, a melhorar a aplicabilidade dos métodos tradicionais de orientação por difusão a casos com ou sem requisitos externos. 

A Orientação de Autoatenção baseia-se no princípio simples da formulação generalizada e na suposição de que as informações internas contidas em amostras intermediárias também podem servir como orientação. Com base neste princípio, o método SAG introduz pela primeira vez o Blur Guidance, uma solução simples e direta para melhorar a qualidade da amostra. A orientação de desfoque visa explorar as propriedades benignas do desfoque gaussiano para remover naturalmente detalhes de escala fina, orientando amostras intermediárias usando as informações eliminadas como resultado do desfoque gaussiano. Embora o método de orientação Blur aumente a qualidade da amostra com uma escala de orientação moderada, ele não consegue replicar os resultados em uma escala de orientação grande, pois muitas vezes introduz ambiguidade estrutural em regiões inteiras. Como resultado, o método de orientação Blur tem dificuldade em alinhar a entrada original com a previsão da entrada degradada. Para aumentar a estabilidade e a eficácia do método de orientação Blur em uma escala de orientação maior, a Orientação de Autoatenção tenta explorar o mecanismo de autoatenção dos modelos de difusão, uma vez que os modelos de difusão modernos já contêm um mecanismo de autoatenção em sua arquitetura. 

Com a suposição de que a autoatenção é essencial para capturar informações importantes em seu núcleo, o método Self-Attention Guidance usa mapas de autoatenção dos modelos de difusão para desfocar adversamente as regiões que contêm informações relevantes e, no processo, orienta o modelos de difusão com informações residuais necessárias. O método então aproveita os mapas de atenção durante o processo reverso dos modelos de difusão, para aumentar a qualidade das imagens e usa autocondicionamento para reduzir os artefatos sem exigir treinamento adicional ou informações externas. 

Resumindo, o método de Orientação de Autoatenção

  1. É uma nova abordagem que utiliza mapas internos de autoatenção de estruturas de difusão para melhorar a qualidade da imagem da amostra gerada sem exigir qualquer treinamento adicional ou depender de condições externas. 
  2. O método SAG tenta generalizar os métodos de orientação condicional num método livre de condições que pode ser integrado com qualquer modelo de difusão sem exigir recursos adicionais ou condições externas, melhorando assim a aplicabilidade de estruturas baseadas em orientação. 
  3. O método SAG também tenta demonstrar suas habilidades ortogonais aos métodos e estruturas condicionais existentes, facilitando assim um aumento no desempenho ao facilitar a integração flexível com outros métodos e modelos. 

Seguindo em frente, o método de orientação de autoatenção aprende com as descobertas de estruturas relacionadas, incluindo modelos de difusão de eliminação de ruído, orientação de amostragem, métodos generativos de autoatenção de IA e representações internas de modelos de difusão. No entanto, em sua essência, o método de Orientação de Autoatenção implementa os aprendizados de DDPM ou Modelos Probabilísticos de Difusão Denoising, Orientação de Classificador, Orientação Livre de Classificador e Estruturas de Autoatenção em Difusão. Falaremos sobre eles em detalhes na próxima seção. 

Orientação de autoatenção: preliminares, metodologia e arquitetura

Modelo Probabilístico de Difusão de Denoising ou DDPM

DDPM ou Modelo Probabilístico de Difusão de Denoising é um modelo que usa um processo iterativo de remoção de ruído para recuperar uma imagem do ruído branco. Tradicionalmente, um modelo DDPM recebe uma imagem de entrada e um cronograma de variância em um intervalo de tempo para obter a imagem usando um processo direto conhecido como processo Markoviano. 

Guia classificador e sem classificador com implementação GAN

GAN ou Redes Adversariais Generativas possuem diversidade comercial única para fidelidade e, para trazer essa capacidade das estruturas GAN para modelos de difusão, a estrutura de Orientação de Autoatenção propõe o uso de um método de orientação de classificador que usa um classificador adicional. Por outro lado, um método de orientação sem classificador também pode ser implementado sem o uso de um classificador adicional para obter os mesmos resultados. Embora o método forneça os resultados desejados, ainda não é computacionalmente viável, pois requer rótulos adicionais e também confina a estrutura a modelos de difusão condicional que requerem condições adicionais, como um texto ou uma aula, juntamente com detalhes adicionais de treinamento que aumentam a complexidade do o modelo. 

Generalizando Orientação sobre Difusão

Embora os métodos de orientação classificador e sem classificador forneçam os resultados desejados e ajudem na geração condicional em modelos de difusão, eles dependem de entradas adicionais. Para qualquer intervalo de tempo, a entrada para um modelo de difusão compreende uma condição generalizada e uma amostra perturbada sem a condição generalizada. Além disso, a condição generalizada abrange informações internas da amostra perturbada ou uma condição externa, ou mesmo ambas. A orientação resultante é formulada com a utilização de um regressor imaginário com a suposição de que pode prever a condição generalizada. 

Melhorando a qualidade da imagem usando mapas de autoatenção

A Orientação de Difusão Generalizada implica que é viável fornecer orientação para o processo reverso dos modelos de difusão, extraindo informações salientes na condição generalizada contida na amostra perturbada. Com base no mesmo, o método de Orientação de Autoatenção captura as informações importantes para processos reversos de forma eficaz, ao mesmo tempo que limita os riscos que surgem como resultado de problemas de fora de distribuição em modelos de difusão pré-treinados. 

Orientação de desfoque

A orientação de desfoque na orientação de autoatenção é baseada no desfoque gaussiano, um método de filtragem linear no qual o sinal de entrada é convolvido com um filtro gaussiano para gerar uma saída. Com um aumento no desvio padrão, o Desfoque Gaussiano reduz os detalhes de escala fina nos sinais de entrada e resulta em sinais de entrada localmente indistinguíveis, suavizando-os em direção à constante. Além disso, os experimentos indicaram um desequilíbrio de informação entre o sinal de entrada e o sinal de saída do desfoque gaussiano, onde o sinal de saída contém informações em escala mais precisa. 

Com base neste aprendizado, a estrutura de Orientação de Autoatenção introduz a orientação Blur, uma técnica que exclui intencionalmente as informações de reconstruções intermediárias durante o processo de difusão e, em vez disso, usa essas informações para orientar suas previsões no sentido de aumentar a relevância das imagens para o informações de entrada. A orientação desfocada essencialmente faz com que a previsão original se desvie mais da previsão de entrada desfocada. Além disso, a propriedade benigna do desfoque gaussiano evita que os sinais de saída se desviem significativamente do sinal original com um desvio moderado. Em palavras simples, o desfoque ocorre naturalmente nas imagens, o que torna o desfoque gaussiano um método mais adequado para ser aplicado a modelos de difusão pré-treinados. 

No pipeline de orientação de autoatenção, o sinal de entrada é primeiro desfocado usando um filtro gaussiano e depois difundido com ruído adicional para produzir o sinal de saída. Ao fazer isso, o pipeline SAG atenua o efeito colateral do desfoque resultante que reduz o ruído gaussiano e faz com que a orientação dependa do conteúdo em vez de depender do ruído aleatório. Embora a orientação desfocada forneça resultados satisfatórios em estruturas com escala de orientação moderada, ela não consegue replicar os resultados em modelos existentes com uma escala de orientação grande, pois fica propensa a produzir resultados ruidosos, conforme demonstrado na imagem a seguir. 

Esses resultados podem ser resultado da ambiguidade estrutural introduzida na estrutura pelo desfoque global que torna difícil para o pipeline SAG alinhar as previsões da entrada original com a entrada degradada, resultando em saídas ruidosas. 

Mecanismo de Autoatenção

Conforme mencionado anteriormente, os modelos de difusão geralmente têm um componente de autoatenção integrado e é um dos componentes mais essenciais em uma estrutura de modelo de difusão. O mecanismo de autoatenção é implementado no núcleo dos modelos de difusão e permite que o modelo preste atenção às partes salientes da entrada durante o processo generativo, conforme demonstrado na imagem a seguir com máscaras de alta frequência na linha superior, e máscaras de autoatenção na linha inferior das imagens finalmente geradas. 

O método proposto de Orientação de Autoatenção baseia-se no mesmo princípio e aproveita as capacidades dos mapas de autoatenção em modelos de difusão. No geral, o método de Orientação de Autoatenção desfoca as manchas autoatendidas no sinal de entrada ou, em palavras simples, oculta as informações das manchas que são atendidas pelos modelos de difusão. Além disso, os sinais de saída na Orientação de Autoatenção contêm regiões intactas dos sinais de entrada, o que significa que não resulta em ambiguidade estrutural das entradas e resolve o problema de desfoque global. O pipeline então obtém os mapas de autoatenção agregados conduzindo GAP ou Global Average Pooling para agregar mapas de autoatenção à dimensão e aumentando a amostragem do vizinho mais próximo para corresponder à resolução do sinal de entrada. 

Orientação de autoatenção: experimentos e resultados

Para avaliar seu desempenho, o pipeline de orientação de autoatenção é amostrado usando 8 GPUs Nvidia GeForce RTX 3090 e é construído com base em IDDPM, ADM e Estruturas de difusão estável

Geração Incondicional com Orientação de Autoatenção

Para medir a eficácia do pipeline SAG em modelos incondicionais e demonstrar a propriedade livre de condição não possuída pela Orientação do Classificador e pela abordagem Orientação Livre do Classificador, o pipeline SAG é executado em estruturas pré-treinadas incondicionalmente em 50 mil amostras. 

Como pode ser observado, a implementação do pipeline SAG melhora as métricas FID, sFID e IS de entrada incondicional, ao mesmo tempo que reduz o valor de recall. Além disso, as melhorias qualitativas como resultado da implementação do pipeline SAG são evidentes nas imagens a seguir, onde as imagens na parte superior são resultados das estruturas ADM e Difusão Estável, enquanto as imagens na parte inferior são resultados das estruturas ADM e Difusão Estável com o Gasoduto SAG. 

Geração Condicional com SAG

A integração do pipeline SAG nas estruturas existentes oferece resultados excepcionais na geração incondicional, e o pipeline SAG é capaz de agnosticidade de condição que permite que o pipeline SAG também seja implementado para geração condicional. 

Difusão estável com orientação de autoatenção

Embora a estrutura de difusão estável original gere imagens de alta qualidade, a integração da estrutura de difusão estável com o pipeline de orientação de autoatenção pode melhorar drasticamente os resultados. Para avaliar seu efeito, os desenvolvedores usam prompts vazios para difusão estável com sementes aleatórias para cada par de imagens e usam avaliação humana em 500 pares de imagens com e sem orientação de autoatenção. Os resultados são demonstrados na imagem a seguir.  

Além disso, a implementação do SAG pode aprimorar as capacidades da estrutura de Difusão Estável, pois a fusão da Orientação Livre de Classificador com Orientação de Autoatenção pode ampliar a gama de modelos de Difusão Estável para síntese de texto para imagem. Além disso, as imagens geradas a partir do modelo de difusão estável com orientação de autoatenção são de maior qualidade com menos artefatos, graças ao efeito de autocondicionamento do pipeline SAG, conforme demonstrado na imagem a seguir. 

Limitações Atuais

Embora a implementação do pipeline de Orientação de Autoatenção possa melhorar substancialmente a qualidade das imagens geradas, ela apresenta algumas limitações. 

Uma das principais limitações é a ortogonalidade com Orientação por Classificador e Orientação Livre de Classificador. Como pode ser observado na imagem a seguir, a implementação do SAG melhora a pontuação do FID e a pontuação de predição, o que significa que o pipeline do SAG contém um componente ortogonal que pode ser usado simultaneamente com métodos de orientação tradicionais. 

No entanto, ainda exige que os modelos de difusão sejam treinados de uma maneira específica, o que aumenta a complexidade e também os custos computacionais. 

Além disso, a implementação da Orientação de Autoatenção não aumenta o consumo de memória ou de tempo, uma indicação de que a sobrecarga resultante de operações como mascaramento e desfoque no SAG é insignificante. No entanto, ainda aumenta os custos computacionais, pois inclui uma etapa adicional quando comparada com abordagens sem orientação. 

Considerações Finais

Neste artigo, falamos sobre Orientação de Autoatenção, uma formulação nova e geral de método de orientação que utiliza informações internas disponíveis nos modelos de difusão para gerar imagens de alta qualidade. A Orientação de Autoatenção baseia-se no princípio simples da formulação generalizada e na suposição de que as informações internas contidas em amostras intermediárias também podem servir como orientação. O pipeline de orientação de autoatenção é uma abordagem livre de condições e treinamento que pode ser implementada em vários modelos de difusão e usa autocondicionamento para reduzir os artefatos nas imagens geradas e aumentar a qualidade geral. 

"Engenheiro de profissão, escritor de coração". Kunal é um escritor técnico com profundo amor e compreensão de IA e ML, dedicado a simplificar conceitos complexos nesses campos por meio de sua documentação envolvente e informativa.