Inteligência artificial
Edição de Imagens com Gaussian Splatting

Uma nova colaboração entre pesquisadores na Polônia e no Reino Unido propõe a perspectiva de usar Gaussian Splatting para editar imagens, interpretando temporariamente uma parte selecionada da imagem em espaço 3D, permitindo que o usuário modifique e manipule a representação 3D da imagem, e então aplicar a transformação.

Para alterar a orientação da cabeça do gato, a seção relevante é movida para o espaço 3D via Gaussian Splatting, e então manipulada pelo usuário. A modificação é então aplicada. O processo é análogo a várias técnicas modais em software da Adobe, que travam a interface até que um processo complexo atual seja concluído. Fonte: https://github.com/waczjoan/MiraGe/
Como o elemento Gaussian Splat é representado temporariamente por uma malha de triângulos, e entra momentaneamente em um ‘estado CGI’, um motor de física integrado ao processo pode interpretar movimentos naturais, seja para alterar o estado estático de um objeto, ou para produzir uma animação.

Um motor de física incorporado ao novo sistema MiraGe pode realizar interpretações naturais de movimento físico, seja para animações ou alterações estáticas de uma imagem.
Não há inteligência artificial gerativa envolvida no processo, o que significa que não há Modelos de Difusão Latente (LDMs) envolvidos, ao contrário do sistema Firefly da Adobe, que é treinado em Adobe Stock (anteriormente Fotolia).
O sistema – chamado MiraGe – interpreta seleções em espaço 3D e infere geometria criando uma imagem espelhada da seleção, e aproximando coordenadas 3D que podem ser incorporadas em um Splat, que então interpreta a imagem em uma malha.
Clique para reproduzir. Exemplos adicionais de elementos que foram alterados manualmente por um usuário do sistema MiraGe, ou submetidos a deformações baseadas em física.
Os autores compararam o sistema MiraGe a abordagens anteriores e descobriram que ele alcança um desempenho de ponta no objetivo.
Os usuários do sistema de modelagem zBrush estarão familiarizados com esse processo, pois o zBrush permite que o usuário essencialmente ‘aplique’ um modelo 3D e adicione detalhes 2D, preservando a malha subjacente, e interpretando o novo detalhe nela – um ‘congelamento’ que é o oposto do método MiraGe, que opera mais como Firefly ou outras manipulações modais do Photoshop, como deformações ou interpretações 3D cruas.

Splats Gaussianos parametrizados permitem que o MiraGe crie reconstruções de alta qualidade de áreas selecionadas de uma imagem 2D, e aplique física de corpo mole à seleção temporariamente 3D.
O artigo afirma:
‘[Nós] introduzimos um modelo que codifica imagens 2D simulando a interpretação humana. Especificamente, nosso modelo percebe uma imagem 2D como um ser humano veria uma fotografia ou uma folha de papel, tratando-a como um objeto plano dentro de um espaço 3D.
‘Essa abordagem permite edição de imagem intuitiva e flexível, capturando as nuances da percepção humana enquanto permite transformações complexas.’
O novo artigo é intitulado MiraGe: Imagens 2D Editáveis usando Gaussian Splatting, e vem de quatro autores da Universidade Jaguelônica de Cracóvia e da Universidade de Cambridge. O código completo do sistema foi lançado no GitHub.
Vamos dar uma olhada em como os pesquisadores abordaram o desafio.
Método
A abordagem MiraGe utiliza Gaussian Mesh Splatting (GaMeS) parametrização, uma técnica desenvolvida por um grupo que inclui dois dos autores do novo artigo. GaMeS permite que Splats Gaussianos sejam interpretados como malhas CGI tradicionais, e se tornem sujeitos à gama padrão de técnicas de deformação e modificação que a comunidade CGI desenvolveu nas últimas décadas.
MiraGe interpreta ‘Gaussians planos’, em um espaço 2D, e usa GaMeS para ‘puxar’ o conteúdo para o espaço 3D habilitado por GSplat, temporariamente.

Cada Gaussian plano é representado como três pontos em uma nuvem de triângulos, chamada ‘sopa de triângulos’, abrindo a imagem inferida à manipulação. Fonte: https://arxiv.org/pdf/2410.01521
Podemos ver no canto inferior esquerdo da imagem acima que o MiraGe cria uma ‘imagem espelhada’ da seção de uma imagem a ser interpretada.
Os autores afirmam:
‘[Nós] empregamos uma abordagem inovadora utilizando duas câmeras opostas posicionadas ao longo do eixo Y, alinhadas simetricamente em torno da origem e direcionadas uma para a outra.
‘A primeira câmera é encarregada de reconstruir a imagem original, enquanto a segunda modela a reflexão espelhada. A fotografia é assim conceituada como uma folha de papel transparente, incorporada dentro do contexto espacial 3D. A reflexão pode ser efetivamente representada por meio da inversão horizontal da [imagem].
‘Esse conjunto de câmeras espelhadas melhora a fidelidade das reflexões geradas, fornecendo uma solução robusta para capturar elementos visuais com precisão.’
O artigo observa que, uma vez que essa extração tenha sido alcançada, ajustes de perspectiva que normalmente seriam desafiadores se tornam acessíveis por meio da edição direta em 3D. No exemplo abaixo, vemos uma seleção de uma imagem de uma mulher que abrange apenas seu braço. Nesse caso, o usuário inclinou a mão para baixo de uma maneira plausível, o que seria uma tarefa desafiadora apenas empurrando pixels.

Um exemplo da técnica de edição MiraGe.
Tentar isso usando as ferramentas gerativas Firefly no Photoshop normalmente significaria que a mão seria substituída por uma mão sintetizada, imaginada por difusão, quebrando a autenticidade da edição. Mesmo os sistemas mais capazes, como o ControlNet sistema auxiliar para Difusão Estável e outros Modelos de Difusão Latente, como Flux, lutam para alcançar esse tipo de edição em um pipeline de imagem para imagem.
Essa busca em particular tem sido dominada por métodos que usam Representações Neurais Implícitas (INRs), como SIREN e WIRE. A diferença entre uma representação implícita e explícita é que as coordenadas do modelo não são diretamente endereçáveis em INRs, que usam uma função contínua.
Em contraste, o Gaussian Splatting oferece coordenadas cartesianas X/Y/Z explícitas e endereçáveis, mesmo usando elipses gaussianas em vez de voxels ou outros métodos de representação de conteúdo em um espaço 3D.
A ideia de usar GSplat em um espaço 2D foi apresentada com mais destaque, os autores observam, na colaboração acadêmica chinesa de 2024 GaussianImage, que ofereceu uma versão 2D do Gaussian Splatting, permitindo taxas de inferência de 1000fps. No entanto, esse modelo não tem implementação relacionada à edição de imagens.
Depois que a parametrização GaMeS extrai a área selecionada em uma representação Gaussian/malha, a imagem é reconstruída usando a técnica Material Points Method (MPM) primeiro delineada em um artigo CSAIL de 2018.
No MiraGe, durante o processo de alteração, o Gaussian Splat existe como um proxy direcionado para uma versão de malha equivalente, muito como modelos CGI 3DMM são frequentemente usados como métodos de orquestração para técnicas de renderização neural implícita, como Campos de Radiância Neural (NeRF).
No processo, objetos bidimensionais são modelados em espaço 3D, e as partes da imagem que não estão sendo influenciadas não são visíveis para o usuário final, de modo que o efeito contextual das manipulações não seja aparente até que o processo seja concluído.
O MiraGe pode ser integrado ao popular programa 3D de código aberto Blender, que agora é frequentemente usado em fluxos de trabalho que incluem IA, principalmente para propósitos de imagem para imagem.

Um fluxo de trabalho para MiraGe no Blender, envolvendo o movimento do braço de uma figura representada em uma imagem 2D.
Os autores oferecem duas versões de uma abordagem de deformação baseada em Gaussian Splatting – Amorfo e Grafite.
A abordagem Amorfo utiliza diretamente o método GaMeS, e permite que a seleção 2D extraída se mova livremente no espaço 3D, enquanto a abordagem Grafite restringe os Gaussianos ao espaço 2D durante a inicialização e o treinamento.
Os pesquisadores descobriram que, embora a abordagem Amorfo possa lidar melhor com formas complexas do que o Grafite, ‘lacerações’ ou artefatos de rift eram mais evidentes, onde a borda da deformação se alinha com a parte não afetada da imagem*.
Portanto, eles desenvolveram o mencionado sistema de ‘imagem espelhada’:
‘[Nós] empregamos uma abordagem inovadora utilizando duas câmeras opostas posicionadas ao longo do eixo Y, simetricamente alinhadas em torno da origem e direcionadas uma para a outra.
‘A primeira câmera é encarregada de reconstruir a imagem original, enquanto a segunda modela a reflexão espelhada. A fotografia é assim conceituada como uma folha de papel transparente, incorporada dentro do contexto espacial 3D. A reflexão pode ser efetivamente representada por meio da inversão horizontal da [imagem].
‘Esse conjunto de câmeras espelhadas melhora a fidelidade das reflexões geradas, fornecendo uma solução robusta para capturar elementos visuais com precisão.’
O artigo observa que o MiraGe pode usar motores de física externos, como os disponíveis no Blender, ou em Taichi_Elements.
Dados e Testes
Para avaliações de qualidade de imagem nos testes realizados para o MiraGe, a Taxa de Sinal para Ruído (SNR) e as métricas MS-SIM foram usadas.
Os conjuntos de dados usados foram o Conjunto de Imagens em Cores Verdadeiras da Kodak, e o conjunto de validação DIV2K conjunto de validação. As resoluções desses conjuntos de dados se adequavam a uma comparação com o trabalho anterior mais próximo, Gaussian Image. As outras estruturas rivais testadas foram SIREN, WIRE, Primitivos Gráficos Neurais Instantâneos da NVIDIA (I-NGP), e NeuRBF.
Os experimentos ocorreram em um laptop NVIDIA GEFORCE RTX 4070 e em um NVIDIA RTX 2080.

O MiraGe oferece resultados de ponta contra as estruturas anteriores escolhidas, de acordo com os resultados apresentados no novo artigo.
Desses resultados, os autores afirmam:
‘Vemos que nossa proposição supera as soluções anteriores em ambos os conjuntos de dados. A qualidade medida por ambas as métricas mostra uma melhoria significativa em comparação com todas as abordagens anteriores.’
Conclusão
A adaptação do MiraGe do Gaussian Splatting 2D é claramente uma incursão nascente e tentativa em uma alternativa interessante para as incertezas e caprichos de usar modelos de difusão para efetuar modificações em uma imagem (ou seja, via Firefly e outros métodos de difusão baseados em API, e via arquiteturas de código aberto como Difusão Estável e Fluxo).
Embora haja muitos modelos de difusão que possam efetuar alterações menores em imagens, os LDMs são limitados por sua abordagem semântica e frequentemente ‘sobre-imaginativa’ para um pedido de modificação baseado em texto do usuário.
Portanto, a capacidade de puxar temporariamente parte de uma imagem para o espaço 3D, manipulá-la e substituí-la de volta na imagem, usando apenas a imagem de origem como referência, parece uma tarefa para a qual o Gaussian Splatting pode ser bem adequado no futuro.
* Há alguma confusão no artigo, pois ele cita ‘Amorfo-Miragem’ como o método mais eficaz e capaz, apesar de sua tendência a produzir Gaussianos indesejados (artefatos), enquanto argumenta que ‘Grafite-Miragem’ é mais flexível. Parece que Amorfo-Miragem obtém o melhor detalhe, e Grafite-Miragem a melhor flexibilidade. Como ambos os métodos são apresentados no artigo, com suas forças e fraquezas diversas, a preferência dos autores, se houver, não parece clara neste momento.
Publicado pela primeira vez na quinta-feira, 3 de outubro de 2024












