Ângulo de Anderson
Introduzindo Análogos Visuais à IA

Os atuais modelos de IA falham em reconhecer ‘semelhanças relacionais’ de imagens, como a semelhança entre as camadas da Terra e uma pêssega, perdendo um aspecto fundamental de como os humanos percebem imagens.
Embora existam muitos modelos de visão computacional capazes de comparar imagens e encontrar semelhanças entre elas, a atual geração de sistemas comparativos tem pouca ou nenhuma capacidade imaginativa. Considere algumas das letras da canção clássica dos anos 1960, Windmills of Your Mind:
Como um carrossel que gira, correndo anéis em torno da lua
Como um relógio cujas mãos estão varrendo além dos minutos de seu rosto
E o mundo é como uma maçã girando silenciosamente no espaço
Comparações desse tipo representam um domínio de alusão poética que é significativo para os humanos de uma maneira muito além da expressão artística; antes, está ligado à forma como desenvolvemos nossos sistemas perceptuais; à medida que criamos nosso ‘domínio de objetos’, desenvolvemos uma capacidade para semelhança visual, de modo que – por exemplo – seções transversais que mostram uma pêssega e a Terra, ou recorrências fractais como espirais de café e galhos de galáxia, se registram como análogos conosco.
Dessa forma, podemos deduzir conexões entre objetos e tipos de objetos aparentemente desconexos e inferir sistemas (como gravidade, momentum e coesão de superfície) que podem ser aplicados a uma variedade de domínios em diferentes escalas.
Vendo Coisas
Mesmo a última geração de sistemas de comparação de imagens de IA, como a Semelhança de Patch de Imagem Perceptual Aprendida (LPIPS) e DINO, que são informados por feedback humano, realizam apenas comparações superficiais literais.
Sua capacidade de encontrar faces onde não existem – ou seja, pareidolia – não representa o tipo de mecanismo de semelhança visual que os humanos desenvolvem, mas ocorre porque algoritmos de busca de faces utilizam recursos de estrutura de face de baixo nível recursos que às vezes concordam com objetos aleatórios:

Exemplos de falsos positivos para reconhecimento facial no conjunto de dados ‘Faces with Things’. Fonte
Para determinar se as máquinas podem realmente desenvolver nossa capacidade imaginativa de reconhecer semelhança visual em diferentes domínios, pesquisadores nos EUA conduziram um estudo sobre Semelhança Visual Relacional, curando e treinando um novo conjunto de dados projetado para forçar relações abstratas a se formarem entre objetos diferentes que, no entanto, estão ligados por uma relação abstrata:

A maioria dos modelos de IA só reconhece semelhança quando as imagens compartilham traços de superfície, como forma ou cor, o que é por que eles apenas ligam o Grupo B (acima) à referência. Os humanos, por outro lado, também veem o Grupo A como semelhante – não porque as imagens se parecem, mas porque seguem a mesma lógica subjacente, como mostrar uma transformação ao longo do tempo. O novo trabalho tenta reproduzir esse tipo de semelhança estrutural ou relacional, visando trazer a percepção da máquina mais próxima do raciocínio humano. Fonte: https://arxiv.org/pdf/2512.07833
O sistema de legendas desenvolvido para o conjunto de dados facilita anotações abstratas incomuns, projetadas para forçar os sistemas de IA a se concentrar em características básicas em vez de detalhes locais específicos:

As legendas ‘anônimas’ previstas que contribuem para a métrica ‘relsim’ dos autores.
A coleção curada e o estilo de legendas incomum alimentam a nova métrica proposta relsim, que os autores ajustaram em um modelo de visão-linguagem (VLM).

Uma comparação entre o estilo de legendas de conjuntos de dados típicos, que se concentra na semelhança de atributos, enquanto a abordagem relsim (linha inferior) enfatiza a semelhança relacional.
A nova abordagem se baseia em metodologias da ciência cognitiva, particularmente na teoria de Mapeamento de Estrutura (um estudo de analogia) de Dedre Gentner e na definição de semelhança relacional e semelhança de atributo de Amos Tversky.

Do site do projeto associado, um exemplo de semelhança relacional. Fonte










