Ángulo de Anderson
Llevando analogías visuales a la IA

Los modelos de IA actuales no reconocen las ‘similitudes relacionales’ de las imágenes, como cómo las capas de la Tierra son similares a un melocotón, lo que falta es un aspecto clave de cómo los humanos perciben las imágenes.
Aunque hay muchos modelos de visión por computadora que pueden comparar imágenes y encontrar similitudes entre ellas, la generación actual de sistemas comparativos tiene poca o ninguna capacidad imaginativa. Consideremos algunas de las letras de la canción clásica de los años 60, Molinos de tu mente:
Como un carrusel que gira, corriendo anillos alrededor de la luna
Como un reloj cuyas manecillas barren los minutos de su cara
Y el mundo es como una manzana que gira silenciosamente en el espacio
Las comparaciones de este tipo representan un dominio de alusión poética que es significativa para los humanos de una manera que va mucho más allá de la expresión artística; más bien, está ligada a cómo desarrollamos nuestros sistemas perceptuales; a medida que creamos nuestro ‘dominio de objetos’, desarrollamos una capacidad para la similitud visual, para que – por ejemplo – secciones transversales que muestran un melocotón y la Tierra, o recurrencias fractales como espirales de café y ramas de galaxias, se registran como análogas con nosotros.
De esta manera, podemos deducir conexiones entre objetos y tipos de objetos aparentemente no conectados, y inferir sistemas (como la gravedad, el impulso y la cohesión superficial) que pueden aplicarse a una variedad de dominios a diferentes escalas.
Ver las cosas
Incluso la última generación de sistemas de comparación de imágenes de IA, como la Similitud de Parches de Imágenes Percibidas Aprendidas ( LPIPS ) y DINO, que están informados por la retroalimentación humana, solo realizan comparaciones superficiales literales.
Su capacidad para encontrar caras donde no existen – es decir, pareidolia – no representa el tipo de mecanismos de similitud visual que los humanos desarrollan, sino que ocurre porque los algoritmos de búsqueda de caras utilizan características de estructura de cara de bajo nivel características que a veces coinciden con objetos aleatorios:

Ejemplos de falsos positivos para el reconocimiento facial en el conjunto de datos ‘Caras con cosas’. Fuente
Para determinar si las máquinas pueden desarrollar realmente nuestra capacidad imaginativa para reconocer la similitud visual en diferentes dominios, los investigadores en EE. UU. han realizado un estudio sobre Similitud Visual Relacional, curando y entrenando un nuevo conjunto de datos diseñado para forzar relaciones abstractas entre diferentes objetos que, sin embargo, están unidos por una relación abstracta:

La mayoría de los modelos de IA solo reconocen la similitud cuando las imágenes comparten rasgos superficiales como forma o color, por lo que solo enlazarían el Grupo B (arriba) con la referencia. Los humanos, por otro lado, también ven el Grupo A como similar – no porque las imágenes se parezcan, sino porque siguen la misma lógica subyacente, como mostrar una transformación en el tiempo. El nuevo trabajo intenta reproducir este tipo de similitud estructural o relacional, con el objetivo de acercar la percepción de la máquina a la razón humana. Fuente: https://arxiv.org/pdf/2512.07833
El sistema de subtítulos desarrollado para el conjunto de datos facilita anotaciones inusualmente abstractas, diseñadas para obligar a los sistemas de IA a centrarse en las características básicas en lugar de detalles locales específicos:

Los subtítulos ‘anónimos’ predichos que contribuyen a la métrica ‘relsim’ de los autores.
La colección curada y su estilo de subtítulos inusual alimentan la nueva métrica propuesta relsim, que los autores han ajustado en un modelo de visión-lenguaje (VLM).

Comparación entre el estilo de subtítulos de conjuntos de datos típicos, que se centra en la similitud de atributos, mientras que el enfoque relsim (fila inferior) enfatiza la similitud relacional.
El nuevo enfoque se basa en metodologías de la ciencia cognitiva, en particular la teoría de Mapeo de Estructuras de Dedre Gentner (un estudio de analogía) y la definición de similitud relacional y similitud de atributos de Amos Tversky.

Del sitio web del proyecto asociado, un ejemplo de similitud relacional. Fuente










