Inteligência artificial
HD-Painter: pintura de imagem guiada por texto de alta resolução com modelos de difusão

Modelos de difusão sem dúvida revolucionaram a indústria de IA e ML, com suas aplicações em tempo real se tornando parte integrante de nossa vida cotidiana. Depois que os modelos de texto para imagem mostraram suas habilidades notáveis, técnicas de manipulação de imagem baseadas em difusão, como geração controlável, síntese de imagem especializada e personalizada, edição de imagem em nível de objeto, variações condicionadas por prompt e edição, emergiram como tópicos de pesquisa importantes devido para suas aplicações na indústria de visão computacional.
No entanto, apesar das suas capacidades impressionantes e resultados excepcionais, as estruturas de texto para imagem, particularmente as estruturas de pintura de texto para imagem, ainda têm áreas potenciais para desenvolvimento. Isso inclui a capacidade de compreender cenas globais, especialmente ao eliminar o ruído da imagem em intervalos de tempo de alta difusão. Para resolver esse problema, os pesquisadores introduziram o HD-Painter, uma estrutura totalmente livre de treinamento que segue com precisão as instruções imediatas e se adapta à pintura de imagens de alta resolução de forma coerente. A estrutura HD-Painter emprega uma camada Prompt Aware Introverted Attention (PAIntA), que aproveita informações imediatas para melhorar as pontuações de autoatenção, resultando em melhor geração de alinhamento de texto.
Para melhorar ainda mais a coerência do prompt, o modelo HD-Painter introduz uma abordagem de Reweighting Attention Score Guidance (RASG). Esta abordagem integra perfeitamente uma estratégia de amostragem post-hoc na forma geral do componente DDIM, evitando mudanças latentes fora da distribuição. Além disso, a estrutura HD-Painter apresenta uma técnica especializada de super-resolução personalizada para pintura interna, permitindo estender-se a escalas maiores e completar regiões ausentes na imagem com resoluções de até 2K.
HD-Painter: pintura de imagem guiada por texto
Os modelos de difusão de texto para imagem têm sido de fato um tópico significativo na indústria de IA e ML nos últimos meses, com modelos demonstrando capacidades impressionantes em tempo real em várias aplicações práticas. Modelos pré-treinados de geração de texto para imagem, como DALL-E, Imagen e Stable Diffusion, mostraram sua adequação para a conclusão de imagens mesclando regiões desconhecidas sem ruído (geradas) com regiões conhecidas difundidas durante o processo de difusão reversa. Apesar de produzir resultados visualmente atraentes e bem harmonizados, os modelos existentes lutam para compreender o cenário global, particularmente sob o processo de eliminação de ruído de alta difusão. Ao modificar modelos de difusão de texto para imagem pré-treinados para incorporar informações de contexto adicionais, eles podem ser ajustados para conclusão de imagem guiada por texto.
Além disso, dentro dos modelos de difusão, a pintura guiada por texto e a conclusão de imagem guiada por texto são áreas importantes de interesse para os pesquisadores. Este interesse é impulsionado pelo fato de que modelos de pintura guiada por texto podem gerar conteúdo em regiões específicas de uma imagem de entrada com base em prompts textuais, levando a aplicações potenciais, como retocar regiões específicas da imagem, modificar atributos do assunto, como cores ou roupas, e adicionar ou substituindo objetos. Em resumo, os modelos de difusão de texto para imagem alcançaram recentemente um sucesso sem precedentes, devido às suas capacidades de geração excepcionalmente realistas e visualmente atraentes.

No entanto, a maioria dos quadros existentes demonstra negligência imediata em dois cenários. O primeiro é Domínio de fundo quando o modelo completa a região desconhecida ignorando o prompt em segundo plano, enquanto o segundo cenário é dominância de objetos próximos quando o modelo propaga os objetos da região conhecida para a região desconhecida usando a probabilidade de contexto visual em vez do prompt de entrada. É possível que ambos os problemas sejam resultado da capacidade da difusão vanilla inpainting de interpretar o prompt textual com precisão ou misturá-lo com as informações contextuais obtidas da região conhecida.
Para enfrentar esses obstáculos, a estrutura HD-Painter introduz a camada Prompt Aware Introverted Attention ou PAIntA, que usa informações imediatas para melhorar as pontuações de autoatenção que, em última análise, resulta em uma melhor geração de alinhamento de texto. PAIntA usa o condicionamento textual fornecido para aprimorar o autoatenção pontuação com o objetivo de reduzir o impacto de informações relevantes não imediatas da região da imagem e, ao mesmo tempo, aumentar a contribuição dos pixels conhecidos alinhados com o prompt. Para melhorar ainda mais o alinhamento do texto dos resultados gerados, a estrutura HD-Painter implementa um método de orientação post-hoc que aproveita as pontuações de atenção cruzada. No entanto, a implementação do mecanismo de orientação post-hoc vanilla pode causar mudanças fora da distribuição como resultado do termo gradiente adicional na equação de difusão. A mudança fora da distribuição resultará, em última análise, na degradação da qualidade da produção gerada. Para enfrentar esse obstáculo, a estrutura HD-Painter implementa um Reweighting Attention Score Guidance ou RASG, um método que integra perfeitamente uma estratégia de amostragem post-hoc na forma geral do componente DDIM. Ele permite que a estrutura gere resultados de pintura visualmente plausíveis, guiando a amostra em direção aos latentes alinhados prontamente e contendo-os em seu domínio treinado.
Ao implantar os componentes RASH e PAIntA em sua arquitetura, a estrutura HD-Painter possui uma vantagem significativa sobre os modelos existentes, incluindo o estado da arte, pintura interna e difusão de texto para imagem, porque consegue resolver o problema existente de negligência imediata. Além disso, tanto os componentes RASH quanto os PAIntA oferecem funcionalidade plug and play, permitindo que sejam compatíveis com modelos de pintura de base de difusão para enfrentar os desafios mencionados acima. Além disso, ao implementar uma tecnologia de mistura iterativa no tempo e ao aproveitar as capacidades de modelos de difusão de alta resolução, o pipeline HD-Painter pode operar efetivamente para pintura interna com resolução de até 2K.
Resumindo, o HD-Painter pretende dar as seguintes contribuições na área:
- Seu objetivo é resolver o problema de negligência imediata do fundo e dominância de objetos próximos experimentado por estruturas de pintura de imagens guiadas por texto, implementando a camada Prompt Aware Introverted Attention ou PAIntA em sua arquitetura.
- Seu objetivo é melhorar o alinhamento do texto da saída implementando a camada Reweighting Attention Score Guidance ou RASG em sua arquitetura que permite que a estrutura HD-Painter execute amostragem guiada post-hoc, evitando distribuições fora de turno.
- Projetar um pipeline eficaz de conclusão de imagem guiada por texto, sem treinamento, capaz de superar as estruturas de última geração existentes e usar a estrutura de super-resolução especializada em pintura simples, porém eficaz, para realizar pintura de imagem guiada por texto com resolução de até 2K.
HD-Painter: Método e Arquitetura
Antes de darmos uma olhada na arquitetura, é vital compreender os três conceitos fundamentais que formam a base da estrutura do HD-Painter: Pintura de imagens, orientação post-hoc em estruturas de difusão, e Pintura de blocos arquitetônicos específicos.
Image Inpainting é uma abordagem que visa preencher as regiões que faltam em uma imagem, garantindo ao mesmo tempo o apelo visual da imagem gerada. As estruturas tradicionais de aprendizagem profunda implementaram métodos que usaram regiões conhecidas para propagar recursos profundos. No entanto, a introdução de modelos de difusão resultou na evolução dos modelos de pintura, especialmente as estruturas de pintura de imagens guiadas por texto. Tradicionalmente, um modelo de difusão de texto para imagem pré-treinado substitui a região não mascarada do latente usando a versão com ruído da região conhecida durante o processo de amostragem. Embora esta abordagem funcione até certo ponto, ela degrada significativamente a qualidade da saída gerada, uma vez que a rede de eliminação de ruído vê apenas a versão com ruído da região conhecida. Para enfrentar esse obstáculo, algumas abordagens tiveram como objetivo ajustar o modelo pré-treinado de texto para imagem para obter pintura de imagem guiada por texto. Ao implementar esta abordagem, o framework é capaz de gerar uma máscara aleatória via concatenação, uma vez que o modelo é capaz de condicionar o framework de eliminação de ruído na região não mascarada.
Seguindo em frente, os modelos tradicionais de aprendizagem profunda implementaram camadas de design especiais para uma pintura eficiente, com algumas estruturas sendo capazes de extrair informações de forma eficaz e produzir imagens visualmente atraentes, introduzindo camadas de convolução especiais para lidar com as regiões conhecidas da imagem. Algumas estruturas até adicionaram uma camada de atenção contextual em sua arquitetura para reduzir os pesados requisitos computacionais indesejados de atenção própria de todos para uma pintura interna de alta qualidade.
Finalmente, os métodos de orientação post-hoc são métodos de amostragem de difusão retroativa que orientam a próxima etapa da previsão latente em direção a um objetivo específico de minimização de função. Os métodos de orientação post-hoc são de grande ajuda quando se trata de gerar conteúdo visual, especialmente na presença de restrições adicionais. No entanto, os métodos de orientação Post-hoc têm uma grande desvantagem: são conhecidos por resultarem em degradações na qualidade da imagem, uma vez que tendem a alterar o processo de geração latente por um termo de gradiente.
Chegando à arquitetura do HD-Painter a estrutura primeiro formula o problema de conclusão de imagem guiada por texto e depois introduz dois modelos de difusão nomeadamente o Stable Inpainting e Difusão Estável. O modelo HD-Painter introduz então os blocos PAIntA e RASG e, finalmente, chegamos à técnica de super resolução específica para pintura.
Difusão estável e pintura estável
Difusão Estável é um modelo de difusão que opera dentro do espaço latente de um autoencoder. Para síntese de texto em imagem, a estrutura Stable Diffusion implementa um prompt textual para orientar o processo. A função orientadora possui estrutura semelhante à arquitetura UNet, e as camadas de atenção cruzada a condicionam aos prompts textuais. Além disso, o modelo de difusão estável pode realizar pintura de imagem com algumas modificações e ajustes finos. Para isso, as características da imagem mascarada gerada pelo codificador são concatenadas com a máscara binária reduzida para as latentes. O tensor resultante é então inserido na arquitetura UNet para obter o ruído estimado. A estrutura então inicializa os filtros convolucionais recém-adicionados com zeros enquanto o restante da UNet é inicializado usando pontos de verificação pré-treinados do modelo de difusão estável.

A figura acima demonstra a visão geral da estrutura HD-Painter que consiste em dois estágios. No primeiro estágio, o framework HD-Painter implementa a pintura de imagens guiada por texto, enquanto no segundo estágio, o modelo pinta a super-resolução específica da saída. Para preencher as regiões de missão e permanecer consistente com o prompt de entrada, o modelo usa um modelo de difusão de pintura pré-treinado, substitui as camadas de autoatenção por camadas PAIntA e implementa o mecanismo RASG para realizar um processo de difusão reversa. O modelo então decodifica a latente estimada final, resultando em uma imagem pintada. O HD-Painter então implementa o modelo de difusão superestável para pintar a imagem de tamanho original e implementa o processo de difusão reversa da estrutura de Difusão Estável condicionada à imagem de entrada de baixa resolução. O modelo combina as previsões sem ruído com a codificação da imagem original após cada etapa na região conhecida e deriva a próxima latente. Finalmente, o modelo decodifica o latente e implementa a combinação de Poisson para evitar artefatos de borda.
Alerta de Atenção Introvertida Consciente ou PAIntA
Os modelos de pintura existentes, como o Stable Inpainting, tendem a confiar mais no contexto visual em torno da área de pintura e a ignorar as solicitações de entrada do usuário. Com base na experiência do usuário, esse problema pode ser categorizado em duas classes: dominância de objetos próximos e dominância de fundo. A questão do domínio do contexto visual sobre os prompts de entrada pode ser resultado da natureza apenas espacial e livre de prompts das camadas de autoatenção. Para resolver esse problema, a estrutura HD-Painter apresenta o Prompt Aware Introverted Attention ou PAIntA que usa matrizes de atenção cruzada e uma máscara de pintura para controlar a saída das camadas de autoatenção na região desconhecida.
O componente Prompt Aware Introverted Attention primeiro aplica camadas de projeção para obter a chave, os valores e as consultas junto com a matriz de similaridade. O modelo então ajusta a pontuação de atenção dos pixels conhecidos para mitigar a forte influência da região conhecida sobre a região desconhecida e define uma nova matriz de similaridade aproveitando o prompt textual.

Orientação de pontuação de atenção de reponderação ou RASG
A estrutura HD-Painter adota um método de orientação de amostragem post-hoc para melhorar ainda mais o alinhamento da geração com os prompts textuais. Juntamente com uma função objetivo, a abordagem de orientação de amostragem post-hoc visa aproveitar as propriedades de segmentação de vocabulário aberto das camadas de atenção cruzada. No entanto, esta abordagem de orientação post-hoc simples tem o potencial de mudar o domínio de difusão latente que pode degradar a qualidade da imagem gerada. Para resolver esse problema, o modelo HD-Painter implementa o mecanismo Reweighting Attention Score Guidance ou RASG que introduz um mecanismo de reponderação de gradiente resultando na preservação do domínio latente.
HD-Painter: Experimentos e Resultados
Para analisar seu desempenho, a estrutura HD-Painter é comparada com modelos atuais de última geração, incluindo Stable Inpainting, GLIDE e BLD ou Blended Latent Diffusion em mais de 10000 amostras aleatórias, onde o prompt é selecionado como o rótulo da máscara de instância selecionada.

Como pode ser observado, a estrutura HD-Painter supera as estruturas existentes em três métricas diferentes por uma margem significativa, especialmente a melhoria de 1.5 pontos na métrica CLIP e a diferença na pontuação de precisão gerada de cerca de 10% em relação a outros métodos de última geração. .

Seguindo em frente, a figura a seguir demonstra a comparação qualitativa da estrutura HD-Painter com outras estruturas de pintura. Como pode ser observado, outros modelos de linha de base reconstroem as regiões ausentes na imagem como uma continuação dos objetos da região conhecida, desconsiderando os prompts, ou geram um fundo. Por outro lado, o framework HD-Painter é capaz de gerar os objetos alvo com sucesso devido à implementação dos componentes PAIntA e RASG em sua arquitetura.

Considerações Finais
Neste artigo, falamos sobre o HD-Painter, uma abordagem de pintura de alta resolução guiada por texto livre de treinamento que aborda os desafios enfrentados pelas estruturas de pintura existentes, incluindo negligência imediata e dominância de objetos próximos e de fundo. A estrutura HD-Painter implementa uma camada Prompt Aware Introverted Attention ou PAIntA, que usa informações imediatas para melhorar as pontuações de autoatenção que, em última análise, resulta em uma melhor geração de alinhamento de texto.
Para melhorar ainda mais a coerência do prompt, o modelo HD-Painter introduz uma abordagem Reweighting Attention Score Guidance ou RASG que integra uma estratégia de amostragem post-hoc na forma geral do componente DDIM perfeitamente para evitar mudanças latentes fora da distribuição. Além disso, a estrutura HD-Painter introduz uma técnica especializada de super-resolução personalizada para pintura interna que resulta na extensão para escalas maiores e permite que a estrutura HD-Painter complete as regiões ausentes na imagem com resolução de até 2K.












