Ângulo de Anderson

Trazendo Análogos Visuais para a IA

Publicado em 16 de dezembro de 2025

Atualizado em 17 de maio de 2026

Por

Martin Anderson

AI-generated image: comparative cross-sections of a peach and the planet Earth. GPT-image-1, Firefly 3.

Os atuais modelos de IA falham em reconhecer semelhanças ‘relacionais’ de imagens, como a semelhança entre as camadas da Terra e uma pêssega, perdendo um aspecto fundamental de como os humanos percebem imagens.

Embora existam muitos modelos de visão computacional capazes de comparar imagens e encontrar semelhanças entre elas, a geração atual de sistemas comparativos tem pouca ou nenhuma capacidade imaginativa. Considere algumas das letras da música clássica dos anos 60, Windmills of Your Mind:

Como um carrossel que gira, correndo em círculos ao redor da lua
Como um relógio cujas mãos estão passando pelos minutos de seu rosto
E o mundo é como uma maçã girando silenciosamente no espaço

Comparações desse tipo representam um domínio de alusão poética que é significativo para os humanos de uma maneira que vai além da expressão artística; mais precisamente, está relacionado à forma como desenvolvemos nossos sistemas perceptivos; à medida que criamos nosso domínio de ‘objeto’, desenvolvemos uma capacidade para semelhança visual, de modo que – por exemplo – seções transversais que mostram uma pêssega e a Terra, ou recorrências fractais como espirais de café e galáxias, se registram como análogas conosco.

Dessa forma, podemos deduzir conexões entre objetos e tipos de objetos aparentemente desconexos e inferir sistemas (como gravidade, momento e coesão de superfície) que podem ser aplicados a uma variedade de domínios em diferentes escalas.

Vendo Coisas

Mesmo os sistemas de comparação de imagens mais recentes, como a Semelhança de Patch de Imagem Perceptual Aprendida (LPIPS) e DINO, que são informados por feedback humano, realizam apenas comparações superficiais literais.

Sua capacidade de encontrar faces onde não existem – ou seja, pareidolia – não representa o tipo de mecanismo de semelhança visual que os humanos desenvolvem, mas ocorre porque os algoritmos de busca de faces utilizam recursos de estrutura de face de baixo nível recursos que às vezes concordam com objetos aleatórios:

Exemplos de falsos positivos para reconhecimento facial no conjunto de dados ‘Faces with Things’. Fonte

Para determinar se as máquinas podem realmente desenvolver nossa capacidade imaginativa de reconhecer semelhança visual entre domínios, pesquisadores nos EUA realizaram um estudo sobre semelhança visual relacional, curando e treinando um novo conjunto de dados projetado para forçar a formação de relações abstratas entre objetos diferentes que, no entanto, estão ligados por uma relação abstrata:

A maioria dos modelos de IA só reconhece semelhança quando as imagens compartilham traços de superfície, como forma ou cor, o que é por que eles apenas vinculam o Grupo B (acima) à referência. Os humanos, por outro lado, também veem o Grupo A como semelhante – não porque as imagens se parecem, mas porque seguem a mesma lógica subjacente, como mostrar uma transformação ao longo do tempo. O novo trabalho tenta reproduzir esse tipo de semelhança estrutural ou relacional, visando trazer a percepção da máquina mais próxima da razão humana. Fonte: https://arxiv.org/pdf/2512.07833

O sistema de legendagem desenvolvido para o conjunto de dados facilita legendas abstratas incomuns, projetadas para forçar os sistemas de IA a se concentrar em características básicas em vez de detalhes locais específicos:

As legendas ‘anônimas’ previstas que contribuem para a métrica ‘relsim’ dos autores.

O conjunto de dados curado e o estilo de legendagem incomum alimentam a nova métrica proposta relsim, que os autores ajustaram em um modelo de visão-linguagem (VLM).

Uma comparação entre o estilo de legendagem de conjuntos de dados típicos, que se concentra na semelhança de atributos, enquanto a abordagem relsim (linha inferior) enfatiza a semelhança relacional.

A nova abordagem se baseia em metodologias da ciência cognitiva, em particular na teoria da Mapeamento de Estrutura de Dedre Gentner (um estudo de analogia) e na definição de Amos Tversky de semelhança relacional e de atributo.

Do site do projeto associado, um exemplo de semelhança relacional. Fonte

Os autores afirmam:

‘[Os humanos] processam a semelhança de atributos perceptualmente, mas a semelhança relacional requer abstração conceitual, frequentemente apoiada por linguagem ou conhecimento prévio. Isso sugere que reconhecer a semelhança relacional primeiro requer entender a imagem, aproveitando o conhecimento e abstraindo sua estrutura subjacente.’

O novo artigo é intitulado semelhança visual relacional e vem com um site do projeto (veja o vídeo incorporado no final deste artigo).

Método

Os pesquisadores usaram um dos conjuntos de dados de hipercala mais conhecidos como ponto de partida para sua própria coleção – LAION-2B:

Metadados para uma entrada no conjunto de dados LAION-2B. Fonte

114.000 imagens prováveis de conter estruturas relacionais elásticas foram extraídas do LAION-2B, envolvendo a filtragem de muitas imagens de baixa qualidade presentes no conjunto de dados minimamente curado.

Para criar um pipeline para esse processo de seleção, os autores utilizaram Qwen2.5-VL-7B, aproveitando 1.300 exemplos positivos e 11.000 exemplos negativos rotulados por humanos:

O sistema relsim é treinado em três etapas: filtrando imagens do LAION-2B para conteúdo relacional; atribuindo a cada grupo uma legenda anônima compartilhada que captura sua lógica subjacente; e aprendendo a corresponder imagens a essas legendas usando uma perda contrastiva.

O artigo afirma:

‘Os anotadores foram instruídos: “Você pode ver algum padrão relacional, lógica ou estrutura nessa imagem que possa ser útil para criar ou vincular a outra imagem?”. O modelo ajustado alcança 93% de concordância com os julgamentos humanos, e quando aplicado ao LAION-2B, produz N = 114k imagens identificadas como relacionais.’

Para gerar rótulos relacionais, os pesquisadores solicitaram ao modelo Qwen que descrevesse a lógica compartilhada por conjuntos de imagens sem nomear objetos específicos. Essa abstração foi difícil de obter quando o modelo via apenas uma imagem, mas se tornou viável quando vários exemplos demonstravam o padrão subjacente.

As legendas de nível de grupo resultantes substituíram termos específicos por espaços reservados, como ‘{Assunto}’ ou ‘{Tipo de Movimento}’, tornando-as amplamente aplicáveis.

Após verificação humana, cada legenda foi emparelhada com todas as imagens de seu grupo. Mais de 500 grupos foram usados para treinar o modelo, que foi aplicado às 114.000 imagens filtradas para produzir um grande conjunto de amostras anotadas relacionalmente.

Dados e Testes

Após a extração de recursos relacionais com Qwen2.5-VL-7B, um modelo foi ajustado nos dados usando LoRA, por 15.000 etapas, via oito GPUs A100*. Para o lado do texto, legendas relacionais foram incorporadas usando all-MiniLM-L6-v2 da biblioteca Sentence-Transformers.

O conjunto de dados de 114.000 imagens legendadas foi dividido em 100.000 para treinamento e 14.000 para avaliação. Para testar o sistema, um setup de recuperação foi usado: dado uma imagem de consulta, o modelo precisava encontrar uma imagem diferente de um pool de 28.000 itens que expressasse a mesma ideia relacional. O pool de recuperação incluiu 14.000 imagens de avaliação e 14.000 amostras adicionais do LAION-2B, com 1.000 consultas selecionadas aleatoriamente do conjunto de avaliação para benchmarking.

Para avaliar a qualidade da recuperação, GPT-4o foi usado para pontuar a semelhança relacional entre cada consulta e imagem recuperada em uma escala de 0 a 10. Um estudo humano separado também foi realizado para medir a preferência do usuário (veja abaixo).

Cada participante foi apresentado a uma imagem de consulta anônima com dois candidatos, um recuperado pelo método proposto e o outro por uma linha de base. Os participantes foram solicitados a dizer qual imagem era mais semelhante relacionalmente à consulta, ou se ambas eram igualmente próximas. Para cada linha de base, 300 tripletos foram criados e avaliados por pelo menos três pessoas cada, resultando em cerca de 900 respostas.

A abordagem relsim foi comparada a vários métodos de semelhança de imagem para imagem estabelecidos, incluindo o mencionado LPIPS e DINO, bem como dreamsim e CLIP-I. Além das linhas de base que calculam diretamente as pontuações de semelhança entre pares de imagens, como LPIPS, DINO, dreamsim e CLIP-I, os autores também testaram métodos baseados em legendas em que Qwen foi usado para gerar uma legenda anônima ou abstrata para cada imagem; isso serviu como a consulta de recuperação.

Dois variantes de recuperação foram avaliados, com recuperação de texto para imagem baseada em CLIP (CLIP-T) usada para recuperação de texto para imagem e Qwen-T usando recuperação de texto para texto. Ambas as linhas de base baseadas em legendas usaram o modelo Qwen pré-treinado original em vez da versão ajustada na lógica relacional. Isso permitiu que os autores isolassem o efeito do treinamento baseado em grupo, já que o modelo ajustado havia sido exposto a conjuntos de imagens, em vez de exemplos isolados.

Métricas Existente e Semelhança Relacional

Os autores inicialmente testaram se as métricas existentes poderiam capturar a semelhança relacional:

Comparações do desempenho de recuperação julgadas por GPT-4o, mostrando a pontuação de semelhança relacional média para cada método. Métricas de semelhança convencionais, como LPIPS, DINO e CLIP-I, pontuaram mais baixo. As linhas de base baseadas em legendas Qwen-T e CLIP-T também tiveram um desempenho inferior. A pontuação mais alta foi alcançada pela abordagem relsim (6,77, coluna azul mais à direita), indicando que o ajuste em padrões relacionais de grupo melhorou a concordância com as avaliações de GPT-4o.

Quanto a esses resultados, os autores afirmam**:

‘[LPIPS], que se concentra puramente na semelhança perceptual, alcança a pontuação mais baixa (4,56). [DINO] executa apenas ligeiramente melhor (5,14), provavelmente porque é treinado apenas de forma auto-supervisionada em dados de imagem. [CLIP-I] produz os resultados mais fortes entre as linhas de base (5,91), presumivelmente porque alguma abstração às vezes está presente nas legendas de imagem.

‘No entanto, CLIP-I ainda tem um desempenho inferior em relação ao nosso método, pois alcançar uma pontuação melhor pode exigir a capacidade de alcançar abstrações de nível ainda mais alto, como as presentes em legendas anônimas.’

No estudo com humanos, os humanos consistentemente preferiram a abordagem relsim em relação a todas as linhas de base:

Pontuações de semelhança relacional atribuídas por GPT-4o para cada método. Métricas de semelhança padrão, como LPIPS, DINO e CLIP-I, pontuaram mais baixo, e as variantes baseadas em legendas Qwen-T e CLIP-T tiveram um desempenho ligeiramente melhor. Mesmo as versões ajustadas de DINO e CLIP não fecharam a lacuna. A pontuação mais alta, 6,77, foi alcançada pelo modelo relsim, treinado com supervisão baseada em grupo.

Os autores observam:

‘Isso é muito encorajador, pois demonstra não apenas que nosso modelo, relsim, pode recuperar imagens semanticamente semelhantes com sucesso, mas também, novamente, confirma que os humanos percebem a semelhança relacional – e não apenas a semelhança de atributo!’

Para explorar como a semelhança relacional e a semelhança de atributo podem se complementar, os pesquisadores usaram um método de visualização combinada. Uma única imagem de consulta (‘Um cachorro segurando uma câmera’) foi comparada com 3.000 imagens aleatórias, e a semelhança foi computada usando modelos tanto relacionais quanto baseados em atributos:

Visualização conjunta do espaço de semelhança visual usando eixos relacionais e de atributo. Uma única imagem de consulta, mostrando um cachorro usando uma câmera, foi comparada com 3.000 outras. Os resultados foram organizados por semelhança relacional (vertical) e semelhança de atributo (horizontal). A região superior direita contém imagens que se assemelham à consulta tanto em lógica quanto em aparência, como outros cães usando ferramentas. A região superior esquerda contém casos semanticamente relacionados, mas visualmente distintos, como diferentes animais realizando ações relacionadas à câmera. A maioria dos exemplos restantes se agrupa em uma posição mais baixa no espaço, refletindo uma semelhança mais fraca. O layout ilustra como os modelos relacionais e de atributo destacam aspectos complementares dos dados visuais. Por favor, consulte o artigo original para uma resolução melhor.

Os resultados revelaram clusters correspondentes a diferentes tipos de semelhança: algumas imagens eram tanto relacionais quanto visualmente semelhantes, como outros cães em poses humanas; outras compartilhavam lógica relacional, mas não aparência, como diferentes animais imitando ações humanas; o restante não apresentava nenhuma das duas.

Essa análise sugere que os dois tipos de semelhança desempenham papéis distintos e produzem uma estrutura mais rica quando combinados.

Casos de Uso

O artigo também explora alguns possíveis casos de uso para a semelhança relacional, incluindo recuperação de imagem relacional, que permite uma busca de imagem mais alinhada com a forma criativa como os humanos olham para o mundo:

A recuperação relacional retorna imagens que compartilham uma estrutura conceitual mais profunda com a consulta, em vez de corresponder a recursos de superfície. Por exemplo, um item de comida estilizado para se parecer com um rosto recupera outras refeições antropomórficas; um objeto fatiado produz outros objetos fatiados; e cenas de interação adulto-filho retornam imagens com papéis relacionais semelhantes, mesmo quando as espécies e a composição diferem.

Outra possibilidade é geração de imagem analógica, que permitiria a síntese de consultas que usam estruturas relacionais em vez de descrições diretas. Em uma comparação dos resultados obtidos com os modelos de texto para imagem de última geração, podemos ver que o resultado de tal abordagem provavelmente será mais diverso:

Dada uma imagem de entrada e um prompt relacional, os modelos foram solicitados a gerar uma nova imagem que expressa o mesmo conceito subjacente. Modelos proprietários produziram analogias mais fiéis, preservando a lógica estrutural em mudanças significativas de forma, enquanto os modelos de código aberto tendiam a reverter para correspondências literais ou estilísticas, falhando em transferir a ideia mais profunda. As saídas foram comparadas com analogias curadas por humanos, que exemplificavam a transformação pretendida.

Conclusão

Os sistemas de IA gerativos seriam, aparentemente, notavelmente aprimorados pela capacidade de incorporar representações abstratas em suas conceitualizações. Como está, pedir imagens baseadas em conceitos, como ‘raiva’ ou ‘felicidade’, tende a retornar imagens estilizados a partir das imagens mais populares ou numerosas que tinham essas associações no conjunto de dados; o que é memorização em vez de abstração.

Presumivelmente, esse princípio poderia ser ainda mais benéfico se pudesse ser aplicado à escrita gerativa – particularmente à saída analítica, especulativa ou fictícia.