Inteligência artificial
HD-Painter: Pintura de Alta Resolução com Inpainting de Imagens Orientado por Texto com Modelos de Difusão

Modelos de difusão indubitavelmente revolucionaram a indústria de IA e ML, com suas aplicações em tempo real se tornando uma parte integral de nossas vidas diárias. Após os modelos de texto-para-imagem demonstrarem suas notáveis habilidades, técnicas de manipulação de imagens baseadas em difusão, como geração controlável, síntese de imagens especializada e personalizada, edição de imagens em nível de objeto, variações e edição condicionadas por prompt, surgiram como tópicos de pesquisa quentes devido às suas aplicações na indústria de visão computacional.
No entanto, apesar de suas impressionantes capacidades e resultados excepcionais, os quadros de texto-para-imagem, particularmente os quadros de texto-para-imagem de inpainting, ainda têm áreas potenciais para desenvolvimento. Isso inclui a capacidade de entender cenas globais, especialmente quando desdenizando a imagem em altos passos de difusão. Para resolver esse problema, os pesquisadores introduziram o HD-Painter, um quadro completamente sem treinamento que segue as instruções do prompt com precisão e se escala para inpainting de imagens de alta resolução de forma coesa. O quadro do HD-Painter emprega uma camada de Atenção Introvertida Consciente do Prompt (PAIntA), que utiliza informações do prompt para melhorar as pontuações de auto-atendimento, resultando em uma melhor geração de alinhamento de texto.
Para melhorar ainda mais a coerência do prompt, o modelo HD-Painter introduz uma abordagem de Orientação de Pontuação de Atenção de Repesagem (RASG). Essa abordagem integra uma estratégia de amostragem pós-hoc na forma geral do componente DDIM de forma transparente, evitando deslocamentos latentes fora de distribuição. Além disso, o quadro do HD-Painter apresenta uma técnica de super-resolução especializada para inpainting, permitindo que ele se estenda a escalas maiores e complete regiões ausentes na imagem com resoluções de até 2K.
HD-Painter: Inpainting de Imagens Orientado por Texto
Modelos de difusão de texto-para-imagem foram, de fato, um tópico significativo na indústria de IA e ML nos últimos meses, com modelos demonstrando impressionantes capacidades em tempo real em várias aplicações práticas. Modelos de geração de imagem de texto pré-treinados, como DALL-E, Imagen e Stable Diffusion, mostraram sua adequação para complementação de imagens, mesclando regiões desconhecidas desdenizadas com regiões conhecidas difusas durante o processo de difusão reversa. Apesar de produzir saídas visualmente atraentes e bem harmonizadas, os modelos existentes lutam para entender a cena global, particularmente sob o processo de desdenização de alta difusão. Ao modificar os modelos de difusão de texto-para-imagem pré-treinados para incorporar informações contextuais adicionais, eles podem ser ajustados para inpainting de imagens orientado por texto.
Além disso, dentro dos modelos de difusão, o inpainting orientado por texto e a complementação de imagens orientada por texto são áreas de grande interesse para os pesquisadores. Esse interesse é impulsionado pelo fato de que os modelos de inpainting orientados por texto podem gerar conteúdo em regiões específicas de uma imagem de entrada com base em prompts textuais, levando a aplicações potenciais, como retocar regiões específicas de imagens, modificar atributos de assuntos, como cores ou roupas, e adicionar ou substituir objetos. Em resumo, os modelos de difusão de texto-para-imagem recentemente alcançaram um sucesso sem precedentes devido às suas capacidades de geração excepcionalmente realistas e visualmente atraentes.

No entanto, a maioria dos quadros existentes demonstra negligência de prompt em dois cenários. O primeiro é Domínio de Fundo quando o modelo completa a região desconhecida ignorando o prompt no fundo, enquanto o segundo cenário é domínio de objeto próximo quando o modelo propaga os objetos da região conhecida para a região desconhecida usando a probabilidade de contexto visual em vez do prompt de entrada. É possível que ambos esses problemas sejam resultado da capacidade do inpainting de difusão vanilla de interpretar o prompt textual com precisão ou misturá-lo com as informações contextuais obtidas da região conhecida.
Para resolver esses obstáculos, o quadro do HD-Painter introduz a camada de Atenção Introvertida Consciente do Prompt ou PAIntA, que usa informações do prompt para melhorar as pontuações de auto-atendimento, resultando em uma melhor geração de alinhamento de texto. A PAIntA usa a condicionação textual fornecida para melhorar a pontuação de auto-atendimento com o objetivo de reduzir o impacto de informações não relevantes do prompt da região da imagem, ao mesmo tempo em que aumenta a contribuição dos pixels conhecidos alinhados com o prompt. Para melhorar ainda mais o alinhamento de texto dos resultados gerados, o quadro do HD-Painter implementa um método de orientação pós-hoc que aproveita as pontuações de atenção cruzada. No entanto, a implementação do mecanismo de orientação pós-hoc vanilla pode causar deslocamentos de distribuição fora do domínio como resultado do termo de gradiente adicional na equação de difusão. O deslocamento de distribuição fora do domínio resultará, por fim, na degradação da qualidade da saída gerada. Para resolver esse obstáculo, o quadro do HD-Painter implementa a Orientação de Pontuação de Atenção de Repesagem ou RASG, um método que integra uma estratégia de amostragem pós-hoc na forma geral do componente DDIM de forma transparente. Isso permite que o quadro gere resultados de inpainting visualmente plausíveis, orientando a amostra em direção aos latentes alinhados com o prompt e os contenha em seu domínio treinado.
Ao implantar ambos os componentes RASH e PAIntA em sua arquitetura, o quadro do HD-Painter tem uma vantagem significativa sobre os quadros existentes, incluindo os de estado da arte, de inpainting e difusão de texto-para-imagem, pois consegue resolver o problema existente de negligência de prompt. Além disso, ambos os componentes RASH e PAIntA oferecem funcionalidade de plug and play, permitindo que sejam compatíveis com modelos de inpainting baseados em difusão para resolver os desafios mencionados acima. Além disso, ao implementar uma tecnologia de mesclagem iterativa no tempo e ao aproveitar as capacidades dos modelos de difusão de alta resolução, o pipeline do HD-Painter pode operar efetivamente para inpainting de até 2K de resolução.
Para resumir, o HD-Painter visa fazer as seguintes contribuições no campo:
- Ele visa resolver o problema de negligência de prompt dos quadros de inpainting de imagens orientados por texto, incluindo o domínio de fundo e o domínio de objeto próximo, implementando a camada de Atenção Introvertida Consciente do Prompt ou PAIntA em sua arquitetura.
- Ele visa melhorar o alinhamento de texto da saída implementando a Orientação de Pontuação de Atenção de Repesagem ou RASG em sua arquitetura, que permite que o quadro do HD-Painter realize amostragem orientada pós-hoc enquanto evita deslocamentos de distribuição fora do domínio.
- Para projetar um pipeline de complementação de imagem orientada por texto eficaz e sem treinamento, capaz de superar os quadros existentes de estado da arte, e usando o quadro de super-resolução especializado para inpainting para realizar inpainting de imagens orientado por texto de até 2K de resolução.
HD-Painter: Método e Arquitetura
Antes de olharmos para a arquitetura, é vital entender os três conceitos fundamentais que formam a base do quadro do HD-Painter: Inpainting de Imagens, Orientação Pós-hoc em Quadros de Difusão, e Blocos Arquiteturais Específicos de Inpainting.
Inpainting de Imagens é uma abordagem que visa preencher as regiões ausentes dentro de uma imagem, garantindo o apelo visual da imagem gerada. Quadros de aprendizado profundo tradicionais implementaram métodos que usavam regiões conhecidas para propagar recursos profundos. No entanto, a introdução de modelos de difusão resultou na evolução de modelos de inpainting, especialmente os quadros de inpainting de imagens orientados por texto. Tradicionalmente, um modelo de difusão de texto-para-imagem pré-treinado substitui a região não mascarada do latente usando a versão ruidosa da região conhecida durante o processo de amostragem. Embora essa abordagem funcione até certo ponto, degrada significativamente a qualidade da saída gerada, pois a rede de desdenização só vê a versão ruidosa da região conhecida. Para resolver esse obstáculo, algumas abordagens visaram ajustar o modelo de texto-para-imagem pré-treinado para alcançar inpainting de imagens orientado por texto. Ao implementar essa abordagem, o quadro é capaz de gerar uma máscara aleatória via concatenação, pois o modelo pode condicionar a rede de desdenização na região não mascarada.
Em seguida, os modelos de aprendizado profundo tradicionais implementaram camadas de design especiais para inpainting eficiente, com alguns quadros capazes de extrair informações efetivamente e produzir imagens visualmente atraentes, introduzindo camadas de convolução especiais para lidar com as regiões conhecidas da imagem. Alguns quadros adicionaram uma camada de atenção contextual em sua arquitetura para reduzir os requisitos computacionais pesados e indesejados de auto-atendimento para inpainting de alta qualidade.
Finalmente, os métodos de orientação pós-hoc são métodos de amostragem de difusão reversa que orientam a previsão do latente da próxima etapa em direção a um objetivo de minimização de função. Os métodos de orientação pós-hoc são de grande ajuda quando se trata de gerar conteúdo visual, especialmente na presença de restrições adicionais. No entanto, os métodos de orientação pós-hoc têm uma grande desvantagem: são conhecidos por resultar em degradação da qualidade da imagem, pois tendem a deslocar o processo de geração de latente por um termo de gradiente.
Vindo para a arquitetura do HD-Painter, o quadro primeiro formula o problema de complementação de imagem orientada por texto e, em seguida, introduz dois modelos de difusão, nomeadamente o Inpainting Estável e a Difusão Estável. O modelo do HD-Painter, em seguida, introduz as blocos PAIntA e RASG e, finalmente, chegamos à técnica de super-resolução especializada para inpainting.
Difusão Estável e Inpainting Estável
A Difusão Estável é um modelo de difusão que opera dentro do espaço latente de um autoencoder. Para síntese de texto-para-imagem, o quadro da Difusão Estável implementa um prompt textual para guiar o processo. A função de orientação tem uma estrutura semelhante à arquitetura UNet, e as camadas de atenção cruzada a condicionam nos prompts textuais. Além disso, o modelo de Difusão Estável pode realizar inpainting de imagens com algumas modificações e ajustes. Para alcançar isso, os recursos da imagem mascarada gerados pelo encoder são concatenados com a máscara binária reduzida para os latentes. O tensor resultante é, então, inserido na arquitetura UNet para obter o ruído estimado. O quadro, em seguida, inicializa os filtros convolucionais recém-adicionados com zeros, enquanto o restante da UNet é inicializado usando checkpoints pré-treinados do modelo de Difusão Estável.

A figura acima demonstra a visão geral do quadro do HD-Painter, consistindo em duas etapas. Na primeira etapa, o quadro do HD-Painter implementa pintura de imagem orientada por texto, enquanto na segunda etapa, o modelo realiza inpainting de super-resolução da saída. Para preencher as regiões ausentes e permanecer consistente com o prompt de entrada, o modelo usa um modelo de difusão de inpainting pré-treinado, substitui as camadas de auto-atendimento com camadas PAIntA e implementa o mecanismo RASG para realizar um processo de difusão reversa. O modelo, em seguida, decodifica o latente estimado final, resultando em uma imagem inpaintada. O HD-Painter, em seguida, implementa o modelo de difusão superestável para inpainting da imagem de tamanho original e implementa o processo de difusão reversa do quadro da Difusão Estável condicionado na imagem de entrada de baixa resolução. O modelo mescla as previsões desdenizadas com a codificação da imagem original na região conhecida após cada etapa e deriva o próximo latente. Finalmente, o modelo decodifica o latente e implementa mesclagem de Poisson para evitar artefatos de borda.
Atenção Introvertida Consciente do Prompt ou PAIntA
Modelos de inpainting existentes, como o Inpainting Estável, tendem a confiar mais no contexto visual ao redor da área de inpainting e ignorar os prompts de entrada do usuário. Com base na experiência do usuário, esse problema pode ser categorizado em duas classes: domínio de objeto próximo e domínio de fundo. O problema do domínio do contexto visual sobre os prompts de entrada pode ser resultado da natureza apenas espacial e livre de prompt das camadas de auto-atendimento. Para resolver esse problema, o quadro do HD-Painter introduz a Atenção Introvertida Consciente do Prompt ou PAIntA, que usa matrizes de atenção cruzada e uma máscara de inpainting para controlar a saída das camadas de auto-atendimento na região desconhecida.
O componente de Atenção Introvertida Consciente do Prompt primeiro aplica camadas de projeção para obter as chaves, valores e consultas, juntamente com a matriz de similaridade. O modelo, em seguida, ajusta a pontuação de atenção dos pixels conhecidos para mitigar a influência forte da região conhecida sobre a região desconhecida e define uma nova matriz de similaridade, aproveitando o prompt textual.

Orientação de Pontuação de Atenção de Repesagem ou RASG
O quadro do HD-Painter adota um método de orientação de amostragem pós-hoc para melhorar ainda mais o alinhamento de geração com os prompts textuais. Juntamente com uma função objetivo, a abordagem de orientação de amostragem pós-hoc visa aproveitar as propriedades de segmentação de vocabulário aberto das camadas de atenção cruzada. No entanto, essa abordagem de orientação pós-hoc vanilla tem o potencial de deslocar o domínio do latente de difusão, o que pode degradar a qualidade da imagem gerada. Para resolver esse problema, o modelo do HD-Painter implementa o mecanismo de Orientação de Pontuação de Atenção de Repesagem ou RASG, que introduz um mecanismo de reponderação de gradiente, resultando na preservação do domínio latente.
HD-Painter: Experimentos e Resultados
Para analisar seu desempenho, o quadro do HD-Painter é comparado com os modelos atuais de estado da arte, incluindo Inpainting Estável, GLIDE e BLD ou Difusão Latente Mesclada, em 10000 amostras aleatórias, onde o prompt é selecionado como o rótulo da instância mascarada.

Como pode ser observado, o quadro do HD-Painter supera os quadros existentes em três métricas diferentes por uma margem significativa, especialmente a melhoria de 1,5 pontos na métrica CLIP e a diferença na pontuação de precisão gerada de cerca de 10% em relação aos outros métodos de estado da arte.

Em seguida, a figura a seguir demonstra a comparação qualitativa do quadro do HD-Painter com outros quadros de inpainting. Como pode ser observado, os outros modelos de linha de base ou reconstróem as regiões ausentes na imagem como uma continuação dos objetos da região conhecida, ignorando os prompts, ou geram um fundo. Por outro lado, o quadro do HD-Painter consegue gerar os objetos alvo com sucesso, graças à implementação dos componentes PAIntA e RASG em sua arquitetura.

Pensamentos Finais
Neste artigo, falamos sobre o HD-Painter, uma abordagem de inpainting de alta resolução orientada por texto e sem treinamento, que resolve os desafios experimentados pelos quadros de inpainting existentes, incluindo a negligência de prompt e o domínio de objeto e fundo próximos. O quadro do HD-Painter implementa uma camada de Atenção Introvertida Consciente do Prompt ou PAIntA, que usa informações do prompt para melhorar as pontuações de auto-atendimento, resultando em uma melhor geração de alinhamento de texto.
Para melhorar ainda mais a coerência do prompt, o modelo do HD-Painter introduz uma abordagem de Orientação de Pontuação de Atenção de Repesagem ou RASG, que integra uma estratégia de amostragem pós-hoc na forma geral do componente DDIM de forma transparente, para evitar deslocamentos de distribuição fora do domínio. Além disso, o quadro do HD-Painter introduz uma técnica de super-resolução especializada para inpainting, que resulta na extensão para escalas maiores e permite que o quadro do HD-Painter complete as regiões ausentes na imagem com resoluções de até 2K.












