Entre em contato

Restaurando e editando imagens humanas com IA

Ângulo de Anderson

Restaurando e editando imagens humanas com IA

mm
Montagem de exemplos de material suplementar para o artigo 'CompleteMe: Complementação de imagem humana baseada em referência' (https://liagm.github.io/CompleteMe/pdf/supp.pdf)

Uma nova colaboração entre a Universidade da Califórnia em Merced e a Adobe oferece um avanço no estado da arte em conclusão da imagem humana – a tarefa muito estudada de “desobscurecer” partes oclusas ou ocultas de imagens de pessoas, para fins como prova virtual, animação e edição de fotos.

Além de reparar imagens danificadas ou alterá-las conforme a vontade do usuário, sistemas de complementação de imagens humanas, como o CompleteMe, podem impor novas vestimentas (por meio de uma imagem de referência adjunta, como na coluna do meio nestes dois exemplos) em imagens existentes. Esses exemplos são do extenso PDF suplementar do novo artigo. Fonte: https://liagm.github.io/CompleteMe/pdf/supp.pdf

Além de reparar imagens danificadas ou alterá-las conforme a vontade do usuário, sistemas de complementação de imagens humanas, como o CompleteMe, podem impor novas vestimentas (por meio de uma imagem de referência adjunta, como na coluna do meio nestes dois exemplos) em imagens existentes. Esses exemplos são do extenso PDF suplementar do novo artigo. Fonte: https://liagm.github.io/CompleteMe/pdf/supp.pdf

A nova abordagem, Com o título CompleteMe: Complementação de Imagem Humana Baseada em Referência, usa imagens de entrada suplementares para 'sugerir' ao sistema qual conteúdo deve substituir a seção oculta ou ausente da representação humana (daí a aplicabilidade a estruturas de experimentação baseadas em moda):

O sistema CompleteMe pode adaptar o conteúdo de referência à parte obscurecida ou ocluída de uma imagem humana.

O sistema CompleteMe pode adaptar o conteúdo de referência à parte obscurecida ou ocluída de uma imagem humana.

O novo sistema utiliza um sistema duplo U-Net arquitetura e uma Atenção focada na região Bloco (RFA) que direciona recursos para a área pertinente da instância de restauração de imagem.

Os pesquisadores também oferecem um novo e desafiador sistema de benchmark projetado para avaliar tarefas de conclusão baseadas em referência (já que o CompleteMe faz parte de uma linha de pesquisa existente e em andamento em visão computacional, embora não tenha tido nenhum esquema de benchmark até agora).

Em testes e em um estudo de usuário bem dimensionado, o novo método se destacou na maioria das métricas e, no geral, na maioria dos casos. Em certos casos, métodos concorrentes foram completamente superados pela abordagem baseada em referências:

Do material suplementar: o método AnyDoor tem dificuldade particular em decidir como interpretar uma imagem de referência.

Do material suplementar: o método AnyDoor tem dificuldade particular em decidir como interpretar uma imagem de referência.

O artigo afirma:

'Experimentos extensivos em nosso benchmark demonstram que o CompleteMe supera métodos de última geração, tanto baseados em referência quanto não baseados em referência, em termos de métricas quantitativas, resultados qualitativos e estudos de usuários.

'Particularmente em cenários desafiadores envolvendo poses complexas, padrões de roupas intrincados e acessórios diferenciados, nosso modelo alcança consistentemente fidelidade visual e coerência semântica superiores.'

Infelizmente, o projeto Presença no GitHub não contém nenhum código, nem promete nada, e a iniciativa, que também tem um modesto página do projeto, parece enquadrada como uma arquitetura proprietária.

Mais um exemplo do desempenho subjetivo do novo sistema em comparação com métodos anteriores. Mais detalhes posteriormente neste artigo.

Mais um exemplo do desempenho subjetivo do novo sistema em comparação com métodos anteriores. Mais detalhes posteriormente neste artigo.

Forma

A estrutura do CompleteMe é sustentada por uma U-Net de referência, que lida com a integração do material auxiliar no processo, e uma U-Net coesa, que acomoda uma gama mais ampla de processos para obter o resultado final, conforme ilustrado no esquema conceitual abaixo:

O esquema conceitual do CompleteMe. Fonte: https://arxiv.org/pdf/2504.20042

O esquema conceitual do CompleteMe. Fonte: https://arxiv.org/pdf/2504.20042

O sistema primeiro codifica a imagem de entrada mascarada em uma representação latente. Ao mesmo tempo, a U-Net de Referência processa múltiplas imagens de referência – cada uma mostrando diferentes regiões do corpo – para extrair detalhes espaciais. características.

Essas características passam por um bloco de Atenção Focada na Região incorporado na U-Net 'completa', onde são mascarado seletivamente usando máscaras de região correspondentes, garantindo que o modelo atenda apenas às áreas relevantes nas imagens de referência.

Os recursos mascarados são então integrados com o global CLIP-características semânticas derivadas por meio de desacoplamentos atenção cruzada, permitindo que o modelo reconstrua o conteúdo ausente com detalhes finos e coerência semântica.

Para aumentar o realismo e a robustez, o processo de mascaramento de entrada combina oclusões aleatórias baseadas em grades com máscaras de formato do corpo humano, cada uma aplicada com a mesma probabilidade, aumentando a complexidade das regiões ausentes que o modelo deve completar.

Apenas para referência

Os métodos anteriores para a pintura de imagens com base em referência normalmente dependiam de nível semântico codificadores. Projetos deste tipo incluem o próprio CLIP e DINov2, ambos extraindo características globais de imagens de referência, mas muitas vezes perdem os detalhes espaciais necessários para a preservação precisa da identidade.

Do artigo de lançamento da abordagem DINOV2 mais antiga, incluída nos testes de comparação do novo estudo: As sobreposições coloridas mostram os três primeiros componentes principais da Análise de Componentes Principais (ACP), aplicados a fragmentos de imagem dentro de cada coluna, destacando como o DINOv2 agrupa partes semelhantes de objetos em imagens variadas. Apesar das diferenças de pose, estilo ou renderização, as regiões correspondentes (como asas, membros ou rodas) são consistentemente correspondidas, ilustrando a capacidade do modelo de aprender estruturas baseadas em partes sem supervisão. Fonte: https://arxiv.org/pdf/2304.07193

Do artigo de lançamento da abordagem DINOV2 mais antiga, incluída nos testes de comparação do novo estudo: As sobreposições coloridas mostram os três primeiros componentes principais da Análise de Componentes Principais (ACP), aplicados a fragmentos de imagem dentro de cada coluna, destacando como o DINOv2 agrupa partes semelhantes de objetos em imagens variadas. Apesar das diferenças de pose, estilo ou renderização, as regiões correspondentes (como asas, membros ou rodas) são consistentemente correspondidas, ilustrando a capacidade do modelo de aprender estruturas baseadas em partes sem supervisão. Fonte: https://arxiv.org/pdf/2304.07193

O CompleteMe aborda esse aspecto por meio de uma U-Net de referência especializada inicializada a partir de Difusão estável 1.5, mas operando sem o passo de ruído de difusão*.

Cada imagem de referência, abrangendo diferentes regiões do corpo, é codificada em características latentes detalhadas por meio desta U-Net. Características semânticas globais também são extraídas separadamente usando CLIP, e ambos os conjuntos de características são armazenados em cache para uso eficiente durante a integração baseada em atenção. Assim, o sistema pode acomodar múltiplas entradas de referência com flexibilidade, preservando informações de aparência refinadas.

Orquestração

A U-Net coesa gerencia as etapas finais do processo de conclusão. Adaptado do variante de pintura interna do Stable Diffusion 1.5, ele recebe como entrada a imagem de origem mascarada em forma latente, juntamente com características espaciais detalhadas extraídas das imagens de referência e características semânticas globais extraídas pelo codificador CLIP.

Essas várias entradas são reunidas por meio do bloco RFA, que desempenha um papel fundamental no direcionamento do foco do modelo para as áreas mais relevantes do material de referência.

Antes de entrar no mecanismo de atenção, os recursos de referência são explicitamente mascarados para remover regiões não relacionadas e, então, concatenados com a representação latente da imagem de origem, garantindo que a atenção seja direcionada da forma mais precisa possível.

Para melhorar esta integração, o CompleteMe incorpora um mecanismo de atenção cruzada desacoplado adaptado do Adaptador IP estrutura:

O IP-Adapter, parte do qual está incorporado ao CompleteMe, é um dos projetos mais bem-sucedidos e frequentemente alavancados dos últimos três anos tumultuados de desenvolvimento em arquiteturas de modelos de difusão latente. Fonte: https://ip-adapter.github.io/

O IP-Adapter, parte do qual está incorporado ao CompleteMe, é um dos projetos mais bem-sucedidos e frequentemente aproveitados dos últimos três anos tumultuados de desenvolvimento em arquiteturas de modelos de difusão latente. Fonte: https://ip-adapter.github.io/

Isso permite que o modelo processe características visuais espacialmente detalhadas e um contexto semântico mais amplo por meio de fluxos de atenção separados, que depois são combinados, resultando em uma reconstrução coerente que, segundo os autores, preserva tanto a identidade quanto os detalhes refinados.

O benchmarking

Na ausência de um conjunto de dados adequado para a complementação humana baseada em referências, os pesquisadores propuseram o seu próprio. O benchmark (sem nome) foi construído por meio da curadoria de pares de imagens selecionados do conjunto de dados WPose desenvolvido para o Adobe Research de 2023. UniHuman projeto.

Exemplos de poses do projeto UniHuman da Adobe Research 2023. Fonte: https://github.com/adobe-research/UniHuman?tab=readme-ov-file#data-prep

Exemplos de poses do projeto UniHuman do Adobe Research 2023. Fonte: https://github.com/adobe-research/UniHuman?tab=readme-ov-file#data-prep

Os pesquisadores desenharam manualmente máscaras de origem para indicar as áreas de pintura interna, obtendo, por fim, 417 grupos de imagens tripartidas constituindo uma imagem de origem, uma máscara e uma imagem de referência.

Dois exemplos de grupos derivados inicialmente do conjunto de dados de referência WPose e extensivamente selecionados pelos pesquisadores do novo artigo.

Dois exemplos de grupos derivados inicialmente do conjunto de dados de referência WPose e extensivamente selecionados pelos pesquisadores do novo artigo.

Os autores usaram o LLaVA Large Language Model (LLM) para gerar prompts de texto descrevendo as imagens de origem.

As métricas utilizadas foram mais extensas do que o habitual; além das habituais Relação sinal-ruído de pico (PSNR), Índice de similaridade estrutural (SSIM) e Aprendizado de similaridade de patch de imagem perceptual (LPIPS, neste caso para avaliar regiões mascaradas), os pesquisadores usaram DINO para pontuações de similaridade; DreamSim para avaliação de resultados de geração; e CLIP.

Dados e testes

Para testar o trabalho, os autores utilizaram tanto o modelo padrão Stable Diffusion V1.5 quanto o modelo de pintura 1.5. O codificador de imagem do sistema utilizou o CLIP. Visão modelo, juntamente com camadas de projeção – redes neurais modestas que remodelam ou alinham as saídas do CLIP para corresponder às dimensões dos recursos internos usados ​​pelo modelo.

O treinamento ocorreu para 30,000 iterações em oito NVIDIA A100 GPUs, supervisionadas por Erro Quadrático Médio (MSE) perda, em um tamanho do batch de 64 e um taxa de Aprendizagem de 2 × 10-5. Vários elementos foram descartados aleatoriamente durante o treinamento, para evitar que o sistema sobreajuste nos dados.

O conjunto de dados foi modificado a partir do Partes para o Todo conjunto de dados, ele próprio baseado no DeepFashion-MultiModal conjunto de dados.

Exemplos do conjunto de dados "Parts to Whole", usados ​​no desenvolvimento dos dados selecionados para o CompleteMe. Fonte: https://huanngzh.github.io/Parts2Whole/

Exemplos do conjunto de dados Parts to Whole, usados ​​no desenvolvimento de dados selecionados para o CompleteMe. Fonte: https://huanngzh.github.io/Parts2Whole/

Os autores declaram:

'Para atender às nossas necessidades, nós [reconstruímos] os pares de treinamento usando imagens oclusas com múltiplas imagens de referência que capturam vários aspectos da aparência humana junto com seus pequenos rótulos textuais.

Cada amostra em nossos dados de treinamento inclui seis tipos de aparência: roupas para a parte superior do corpo, roupas para a parte inferior do corpo, roupas para o corpo inteiro, cabelo ou acessórios para a cabeça, rosto e sapatos. Para a estratégia de mascaramento, aplicamos 50% de mascaramento de grade aleatória entre 1 e 30 vezes, enquanto para os outros 50%, usamos uma máscara com formato de corpo humano para aumentar a complexidade do mascaramento.

'Após o pipeline de construção, obtivemos 40,000 pares de imagens para treinamento.'

Rival anterior não referência os métodos testados foram Conclusão de grande imagem humana ocluída (LOHC) e o modelo de pintura de imagem plug-and-play BrushNet; os modelos baseados em referência testados foram Pintar pelo Exemplo; Qualquer porta; EsquerdaRecarga; e Pincel Mimic.

Os autores começaram com uma comparação quantitativa das métricas declaradas anteriormente:

Resultados da comparação quantitativa inicial.

Resultados da comparação quantitativa inicial.

Em relação à avaliação quantitativa, os autores observam que o CompleteMe atinge as pontuações mais altas na maioria das métricas perceptivas, incluindo CLIP-I, DINO, DreamSim e LPIPS, que visam capturar o alinhamento semântico e a fidelidade da aparência entre a saída e a imagem de referência.

No entanto, o modelo não supera todas as linhas de base em geral. Notavelmente, o BrushNet obtém a pontuação mais alta no CLIP-T, o LeftRefill lidera em SSIM e PSNR, e o MimicBrush supera ligeiramente o CLIP-I.

Embora o CompleteMe apresente resultados consistentemente fortes em geral, as diferenças de desempenho são modestas em alguns casos, e certas métricas continuam sendo lideradas por métodos anteriores concorrentes. Talvez não seja injusto que os autores apresentem esses resultados como evidência da força equilibrada do CompleteMe em dimensões estruturais e perceptuais.

As ilustrações dos testes qualitativos realizados para o estudo são numerosas demais para serem reproduzidas aqui, e remetemos o leitor não apenas ao artigo de origem, mas também ao extenso PDF suplementar, que contém muitos exemplos qualitativos adicionais.

Destacamos os principais exemplos qualitativos apresentados no artigo principal, juntamente com uma seleção de casos adicionais extraídos do conjunto de imagens suplementares apresentado anteriormente neste artigo:

Resultados qualitativos iniciais apresentados no artigo principal. Consulte o artigo de origem para melhor resolução.

Resultados qualitativos iniciais apresentados no artigo principal. Consulte o artigo de origem para melhor resolução.

Dos resultados qualitativos apresentados acima, os autores comentam:

'Dadas entradas mascaradas, esses métodos não referenciais geram conteúdo plausível para as regiões mascaradas usando antecedentes de imagem ou prompts de texto.

'No entanto, como indicado na caixa vermelha, eles não podem reproduzir detalhes específicos, como tatuagens ou padrões de roupas exclusivos, pois não possuem imagens de referência para orientar a reconstrução de informações idênticas.'

Uma segunda comparação, parte da qual é mostrada abaixo, concentra-se nos quatro métodos baseados em referência: Paint-by-Example, AnyDoor, LeftRefill e MimicBrush. Aqui, apenas uma imagem de referência e um prompt de texto foram fornecidos.

Comparação qualitativa com métodos baseados em referência. O CompleteMe produz conclusões mais realistas e preserva melhor os detalhes específicos da imagem de referência. As caixas vermelhas destacam áreas de interesse específico.

Comparação qualitativa com métodos baseados em referência. O CompleteMe produz conclusões mais realistas e preserva melhor os detalhes específicos da imagem de referência. As caixas vermelhas destacam áreas de interesse específico.

Os autores declaram:

'Dada uma imagem humana mascarada e uma imagem de referência, outros métodos podem gerar conteúdo plausível, mas muitas vezes falham em preservar informações contextuais da referência com precisão.

Em alguns casos, eles geram conteúdo irrelevante ou mapeiam incorretamente partes correspondentes da imagem de referência. Em contraste, o CompleteMe completa efetivamente a região mascarada, preservando com precisão informações idênticas e mapeando corretamente as partes correspondentes do corpo humano a partir da imagem de referência.

Para avaliar o alinhamento dos modelos com a percepção humana, os autores conduziram um estudo com usuários envolvendo 15 anotadores e 2,895 pares de amostras. Cada par comparou a saída do CompleteMe com uma de quatro linhas de base baseadas em referência: Paint-by-Example, AnyDoor, LeftRefill ou MimicBrush.

Os anotadores avaliaram cada resultado com base na qualidade visual da região concluída e na extensão em que ela preservou características de identidade da referência – e aqui, avaliando a qualidade geral e a identidade, o CompleteMe obteve um resultado mais definitivo:

Resultados do estudo do usuário.

Resultados do estudo do usuário.

Conclusão

No mínimo, os resultados qualitativos deste estudo são prejudicados pelo seu grande volume, já que uma análise mais detalhada indica que o novo sistema é uma entrada muito eficaz nesta área de nicho relativamente disputada, mas muito procurada, de edição de imagens neurais.

No entanto, é preciso um pouco mais de cuidado e zoom no PDF original para perceber o quão bem o sistema adapta o material de referência à área ocluída em comparação (em quase todos os casos) aos métodos anteriores.

Recomendamos fortemente que o leitor examine cuidadosamente a avalanche de resultados inicialmente confusa, senão avassaladora, apresentada no material suplementar.

Recomendamos fortemente que o leitor examine cuidadosamente a avalanche de resultados inicialmente confusa, senão avassaladora, apresentada no material suplementar.

 

* É interessante notar como a versão V1.5, agora severamente desatualizada, continua sendo a favorita dos pesquisadores - em parte devido aos testes semelhantes legados, mas também porque é a menos censurada e possivelmente a mais facilmente treinável de todas as iterações de difusão estável e não compartilha o mancando censurador dos lançamentos do FOSS Flux.

Especificação de VRAM não fornecida – seria 40 GB ou 80 GB por placa.

Primeira publicação terça-feira, 29 de abril de 2025