Inteligência artificial

HD-Painter: Pintura de Alta Resolução Orientada por Texto com Modelos de Difusão

Publicado em 13 de fevereiro de 2024

Atualizado em 22 de maio de 2026

Por

Kunal Kejriwal

HD-Painter : High Resolution Text-Guided Image Inpainting with Diffusion Models

Modelos de difusão certamente revolucionaram a indústria de IA e ML, com suas aplicações em tempo real se tornando uma parte integral de nossas vidas diárias. Depois que os modelos de texto-para-imagem demonstraram suas notáveis habilidades, técnicas de manipulação de imagem baseadas em difusão, como geração controlada, síntese de imagem personalizada e especializada, edição de imagem em nível de objeto, variações condicionadas por prompt e edição, surgiram como tópicos de pesquisa quentes devido às suas aplicações na indústria de visão computacional.

No entanto, apesar de suas impressionantes capacidades e resultados excepcionais, os quadros de texto-para-imagem, particularmente os quadros de texto-para-imagem de inpainting, ainda têm áreas potenciais para desenvolvimento. Essas incluem a capacidade de entender cenas globais, especialmente quando se remove o ruído da imagem em altos passos de difusão. Para abordar esse problema, os pesquisadores introduziram o HD-Painter, um quadro completamente sem treinamento que segue as instruções do prompt com precisão e escala para inpainting de imagem de alta resolução de forma coerente. O quadro do HD-Painter emprega uma camada de atenção introvertida consciente do prompt (PAIntA), que aproveita as informações do prompt para melhorar as pontuações de autoatenção, resultando em uma melhor geração de alinhamento de texto.

Para melhorar ainda mais a coerência do prompt, o modelo HD-Painter introduz uma abordagem de orientação de pontuação de atenção de reponderação (RASG). Essa abordagem integra uma estratégia de amostragem pós-hoc na forma geral do componente DDIM de forma transparente, impedindo deslocamentos latentes fora de distribuição. Além disso, o quadro do HD-Painter apresenta uma técnica de super-resolução especializada personalizada para inpainting, permitindo que ele se estenda a escalas maiores e complete as regiões faltantes na imagem com resoluções de até 2K.

HD-Painter: Pintura de Imagem Orientada por Texto

Modelos de difusão de texto-para-imagem certamente foram um tópico significativo na indústria de IA e ML nos últimos meses, com modelos demonstrando impressionantes capacidades em tempo real em várias aplicações práticas. Modelos de geração de imagem de texto pré-treinados, como DALL-E, Imagen e Stable Diffusion, demonstraram sua adequação para complementação de imagem ao mesclar regiões desconhecidas denoised (geradas) com regiões conhecidas difundidas durante o processo de difusão inversa. Apesar de produzir saídas visualmente atraentes e harmonizadas, os modelos existentes lutam para entender a cena global, particularmente sob o processo de denoising de alta difusão. Modificando os modelos de difusão de texto-para-imagem pré-treinados para incorporar informações de contexto adicionais, eles podem ser ajustados para complementação de imagem orientada por texto.

Além disso, dentro dos modelos de difusão, a pintura de imagem orientada por texto e a complementação de imagem orientada por texto são áreas de grande interesse para os pesquisadores. Esse interesse é impulsionado pelo fato de que os modelos de pintura de imagem orientada por texto podem gerar conteúdo em regiões específicas de uma imagem de entrada com base em prompts textuais, levando a aplicações potenciais, como retocar regiões específicas de imagem, modificar atributos de sujeito, como cores ou roupas, e adicionar ou substituir objetos. Em resumo, os modelos de difusão de texto-para-imagem recentemente alcançaram um sucesso sem precedentes devido às suas capacidades de geração excepcionalmente realistas e visualmente atraentes.

No entanto, a maioria dos quadros existentes demonstra negligência de prompt em dois cenários. O primeiro é Domínio de Fundo quando o modelo completa a região desconhecida ignorando o prompt no fundo, enquanto o segundo cenário é domínio de objeto próximo quando o modelo propaga os objetos da região conhecida para a região desconhecida usando a probabilidade de contexto visual em vez do prompt de entrada. É possível que ambos os problemas sejam resultado da capacidade do modelo de difusão de inpainting vanilla de interpretar o prompt textual com precisão ou misturá-lo com as informações contextuais obtidas da região conhecida.

Para abordar esses obstáculos, o quadro do HD-Painter introduz a camada de atenção introvertida consciente do prompt (PAIntA), que usa as informações do prompt para melhorar as pontuações de autoatenção, resultando em uma melhor geração de alinhamento de texto. A PAIntA usa o condicionamento textual dado para melhorar a atenção auto pontuação com o objetivo de reduzir o impacto de informações não relevantes para o prompt da região da imagem, ao mesmo tempo em que aumenta a contribuição dos pixels conhecidos alinhados com o prompt. Para melhorar ainda mais o alinhamento de texto dos resultados gerados, o quadro do HD-Painter implementa um método de orientação pós-hoc que aproveita as pontuações de atenção cruzada. No entanto, a implementação do mecanismo de orientação pós-hoc vanilla pode causar deslocamentos de distribuição fora do domínio como resultado do termo de gradiente adicional na equação de difusão. O deslocamento de distribuição resultará na degradação da qualidade da saída gerada. Para abordar esse obstáculo, o quadro do HD-Painter implementa a orientação de pontuação de atenção de reponderação (RASG), um método que integra uma estratégia de amostragem pós-hoc na forma geral do componente DDIM de forma transparente. Isso permite que o quadro gere resultados de pintura de imagem visualmente plausíveis, orientando a amostra em direção aos latentes alinhados com o prompt e os contenha em seu domínio treinado.

Ao implantar ambos os componentes RASH e PAIntA em sua arquitetura, o quadro do HD-Painter tem uma vantagem significativa sobre os modelos existentes, incluindo os de última geração, de inpainting e difusão de texto-para-imagem, pois consegue resolver o problema existente de negligência de prompt. Além disso, ambos os componentes RASH e PAIntA oferecem funcionalidade plug-and-play, permitindo que sejam compatíveis com modelos de inpainting baseados em difusão para abordar os desafios mencionados acima. Além disso, ao implementar uma tecnologia de mesclagem temporal e ao aproveitar as capacidades de modelos de difusão de alta resolução, o pipeline do HD-Painter pode operar efetivamente para inpainting de até 2K de resolução.

Para resumir, o HD-Painter visa fazer as seguintes contribuições no campo:

Ele visa resolver o problema de negligência de prompt da dominância de fundo e da dominância de objeto próximo experimentados por quadros de pintura de imagem orientada por texto, implantando a camada de atenção introvertida consciente do prompt (PAIntA) em sua arquitetura.
Ele visa melhorar o alinhamento de texto da saída, implantando a camada de orientação de pontuação de atenção de reponderação (RASG) em sua arquitetura, que permite que o quadro do HD-Painter realize amostragem pós-hoc orientada enquanto evita deslocamentos de distribuição.
Para projetar um pipeline de complementação de imagem orientada por texto eficaz e sem treinamento, capaz de superar os quadros existentes de última geração, e usando a técnica de super-resolução especializada para inpainting para realizar pintura de imagem orientada por texto de até 2K de resolução.

HD-Painter: Método e Arquitetura

Antes de analisarmos a arquitetura, é vital entender os três conceitos fundamentais que formam a base do quadro do HD-Painter: Pintura de Imagem, Orientação Pós-hoc em Quadros de Difusão, e Blocos Arquiteturais Específicos de Pintura de Imagem.

A pintura de imagem é uma abordagem que visa preencher as regiões faltantes dentro de uma imagem, garantindo o apelo visual da imagem gerada. Quadros de aprendizado profundo tradicionais implementaram métodos que usavam regiões conhecidas para propagar recursos profundos. No entanto, a introdução de modelos de difusão resultou na evolução de modelos de pintura de imagem, especialmente os quadros de pintura de imagem orientada por texto. Tradicionalmente, um modelo de difusão de texto-para-imagem pré-treinado substitui a região não mascarada do latente usando a versão ruidosa da região conhecida durante o processo de amostragem. Embora essa abordagem funcione até certo ponto, degrada significativamente a qualidade da saída gerada, pois a rede de denoising só vê a versão ruidosa da região conhecida. Para abordar esse obstáculo, algumas abordagens visam ajustar o modelo de texto-para-imagem pré-treinado para alcançar pintura de imagem orientada por texto. Ao implementar essa abordagem, o quadro é capaz de gerar uma máscara aleatória via concatenação, pois o modelo pode condicionar a rede de denoising na região não mascarada.

Em seguida, os modelos de aprendizado profundo tradicionais implementaram camadas de design especiais para pintura de imagem eficiente, com alguns quadros sendo capazes de extrair informações efetivamente e produzir imagens visualmente atraentes, introduzindo camadas de atenção contextual em sua arquitetura para reduzir os requisitos computacionais pesados de autoatenção para pintura de imagem de alta qualidade.

Finalmente, os métodos de orientação pós-hoc são métodos de amostragem de difusão inversa que orientam a previsão de latente para a próxima etapa em direção a um objetivo de minimização de função específica. Os métodos de orientação pós-hoc são de grande ajuda quando se trata de gerar conteúdo visual, especialmente na presença de restrições adicionais. No entanto, os métodos de orientação pós-hoc têm uma grande desvantagem: eles são conhecidos por resultar em degradações de qualidade de imagem, pois tendem a deslocar o processo de geração de latente por um termo de gradiente.

Vindo para a arquitetura do HD-Painter, o quadro primeiro formula o problema de complementação de imagem orientada por texto e, em seguida, introduz dois modelos de difusão, nomeadamente a Difusão Estável e a Difusão Estável. O modelo do HD-Painter, em seguida, introduz as camadas PAIntA e RASG e, finalmente, chegamos à técnica de super-resolução específica de pintura de imagem.

Difusão Estável e Pintura de Imagem Estável

A Difusão Estável é um modelo de difusão que opera dentro do espaço latente de um autoencoder. Para síntese de texto-para-imagem, o quadro da Difusão Estável implementa um prompt textual para guiar o processo. A função de orientação tem uma estrutura semelhante à arquitetura UNet, e as camadas de atenção cruzada a condicionam nos prompts textuais. Além disso, o modelo de Difusão Estável pode realizar pintura de imagem com algumas modificações e ajustes. Para alcançar isso, os recursos da imagem mascarada gerados pelo encoder são concatenados com a máscara binária dimensionada para os latentes. O tensor resultante é, então, inserido na arquitetura UNet para obter o ruído estimado. O quadro, em seguida, inicializa os filtros convolucionais recém-adicionados com zeros, enquanto o restante da UNet é inicializado usando checkpoints pré-treinados do modelo de Difusão Estável.

A figura acima demonstra a visão geral do quadro do HD-Painter, que consiste em duas etapas. Na primeira etapa, o quadro do HD-Painter implementa pintura de imagem orientada por texto, enquanto na segunda etapa, o modelo pinta a super-resolução específica da saída. Para preencher as regiões faltantes e permanecer consistente com o prompt de entrada, o modelo usa um modelo de difusão de pintura de imagem pré-treinado, substitui as camadas de autoatenção pelas camadas PAIntA e implementa o mecanismo RASG para realizar o processo de difusão inversa. O modelo, em seguida, decodifica o latente estimado final, resultando em uma imagem pintada. O HD-Painter, em seguida, implementa o modelo de difusão estável para pintar a imagem de tamanho original e implementa o processo de difusão inversa do quadro da Difusão Estável condicionado na imagem de entrada de baixa resolução. O modelo mescla as previsões denoised com a codificação da imagem original após cada etapa na região conhecida e deriva o próximo latente. Finalmente, o modelo decodifica o latente e implementa a mesclagem de Poisson para evitar artefatos de borda.

Atenção Introvertida Consciente do Prompt ou PAIntA

Os modelos de pintura de imagem existentes, como a Pintura de Imagem Estável, tendem a confiar mais no contexto visual ao redor da área de pintura de imagem e ignoram os prompts de entrada do usuário. Com base na experiência do usuário, esse problema pode ser categorizado em duas classes: dominância de objeto próximo e dominância de fundo. O problema da dominância do contexto visual sobre os prompts de entrada pode ser resultado da natureza apenas espacial e livre de prompt das camadas de autoatenção. Para abordar esse problema, o quadro do HD-Painter introduz a atenção introvertida consciente do prompt (PAIntA), que usa matrizes de atenção cruzada e uma máscara de pintura de imagem para controlar a saída das camadas de autoatenção na região desconhecida.

O componente de atenção introvertida consciente do prompt primeiro aplica camadas de projeção para obter a chave, os valores e as consultas, juntamente com a matriz de similaridade. O modelo, em seguida, ajusta a pontuação de atenção dos pixels conhecidos para mitigar a influência forte da região conhecida sobre a região desconhecida e define uma nova matriz de similaridade, aproveitando o prompt textual.

Orientação de Pontuação de Atenção de Reponderação ou RASG

O quadro do HD-Painter adota um método de orientação de amostragem pós-hoc para melhorar ainda mais a geração de alinhamento com os prompts textuais. Juntamente com uma função de objetivo, a abordagem de orientação de amostragem pós-hoc visa aproveitar as propriedades de segmentação de vocabulário aberto das camadas de atenção cruzada. No entanto, essa abordagem de orientação pós-hoc vanilla tem o potencial de deslocar o domínio do latente de difusão, o que pode degradar a qualidade da imagem gerada. Para abordar esse problema, o modelo do HD-Painter implementa o mecanismo de orientação de pontuação de atenção de reponderação (RASG), que introduz um mecanismo de reponderação de gradiente, resultando na preservação do domínio de latente.

HD-Painter: Experimentos e Resultados

Para analisar seu desempenho, o quadro do HD-Painter é comparado com os modelos atuais de última geração, incluindo Pintura de Imagem Estável, GLIDE e BLD ou Difusão Latente Mesclada, em 10.000 amostras aleatórias, onde o prompt é selecionado como o rótulo da instância de máscara selecionada.

Como pode ser observado, o quadro do HD-Painter supera os quadros existentes em três métricas diferentes por uma margem significativa, especialmente a melhoria de 1,5 pontos na métrica CLIP e a diferença na pontuação de precisão gerada de cerca de 10% em relação aos outros métodos de última geração.

Em seguida, a figura a seguir demonstra a comparação qualitativa do quadro do HD-Painter com outros quadros de pintura de imagem. Como pode ser observado, os modelos de linha de base reconstruíram as regiões faltantes na imagem como uma continuação dos objetos da região conhecida, ignorando os prompts, ou geraram um fundo. Por outro lado, o quadro do HD-Painter consegue gerar os objetos alvo com sucesso, graças à implementação das camadas PAIntA e RASG em sua arquitetura.

Pensamentos Finais

Neste artigo, discutimos o HD-Painter, uma abordagem de pintura de imagem orientada por texto de alta resolução e sem treinamento, que aborda os desafios experimentados por quadros de pintura de imagem existentes, incluindo negligência de prompt e dominância de objeto e fundo. O quadro do HD-Painter implementa uma camada de atenção introvertida consciente do prompt (PAIntA), que usa as informações do prompt para melhorar as pontuações de autoatenção, resultando em uma melhor geração de alinhamento de texto.

Para melhorar ainda mais a coerência do prompt, o modelo do HD-Painter introduz uma abordagem de orientação de pontuação de atenção de reponderação (RASG), que integra uma estratégia de amostragem pós-hoc na forma geral do componente DDIM de forma transparente, impedindo deslocamentos latentes fora de distribuição. Além disso, o quadro do HD-Painter introduz uma técnica de super-resolução especializada personalizada para pintura de imagem, permitindo que ele se estenda a escalas maiores e complete as regiões faltantes na imagem com resoluções de até 2K.