Ángulo de Anderson

Llevando analogías visuales a la IA

mm
AI-generated image: comparative cross-sections of a peach and the planet Earth. GPT-image-1, Firefly 3.

Los modelos de IA actuales no reconocen las ‘similitudes relacionales’ de las imágenes, como la similitud entre las capas de la Tierra y una melocotón, lo que supone una falta de un aspecto clave de cómo los humanos percibimos las imágenes.

 

Aunque existen muchos modelos de visión por computadora capaces de comparar imágenes y encontrar similitudes entre ellas, la generación actual de sistemas comparativos tiene poca o ninguna capacidad imaginativa. Consideremos algunas de las letras de la canción clásica de los años 60, Windmills of Your Mind:

Como un carrusel que gira, corriendo en círculos alrededor de la luna
Como un reloj cuyas manecillas pasan por los minutos de su cara
Y el mundo es como una manzana que gira silenciosamente en el espacio

Las comparaciones de este tipo representan un dominio de alusión poética que es significativo para los humanos de una manera que va mucho más allá de la expresión artística; más bien, está relacionado con cómo desarrollamos nuestros sistemas perceptivos; a medida que creamos nuestro ‘dominio de objetos’, desarrollamos una capacidad para la similitud visual, de modo que – por ejemplo – secciones transversales que muestran una melocotón y el planeta Tierra, o recurrencias fractales como espirales de café y ramas de galaxias, se registran como análogas para nosotros.

De esta manera, podemos deducir conexiones entre objetos y tipos de objetos aparentemente no relacionados, e inferir sistemas (como la gravedad, el momento y la cohesión superficial) que pueden aplicarse a una variedad de dominios a diferentes escalas.

Viendo las cosas

Incluso los sistemas de comparación de imágenes de última generación, como LPIPS y DINO, que se informan con retroalimentación humana, solo realizan comparaciones superficiales literales.

Su capacidad para encontrar caras donde no existen – es decir, pareidolia – no representa el tipo de mecanismos de similitud visual que los humanos desarrollan, sino que ocurre porque los algoritmos de búsqueda de caras utilizan características de estructura de cara de bajo nivel que a veces coinciden con objetos aleatorios:

Ejemplos de falsos positivos para el reconocimiento facial en el conjunto de datos 'Faces with Things'. Fuente - https://arxiv.org/pdf/2409.16143

Ejemplos de falsos positivos para el reconocimiento facial en el conjunto de datos ‘Faces with Things’. Fuente

Para determinar si las máquinas pueden desarrollar realmente nuestra capacidad imaginativa para reconocer la similitud visual a través de dominios, los investigadores en EE. UU. han realizado un estudio sobre Similitud Visual Relacional, curando y entrenando un nuevo conjunto de datos diseñado para forzar la formación de relaciones abstractas entre objetos diferentes que, sin embargo, están unidos por una relación abstracta:

La mayoría de los modelos de IA solo reconocen similitud cuando las imágenes comparten rasgos de superficie como forma o color, por lo que solo enlazarían el Grupo B (arriba) con la referencia. Los humanos, por otro lado, también ven el Grupo A como similar – no porque las imágenes se parezcan, sino porque siguen la misma lógica subyacente, como mostrar una transformación en el tiempo. El nuevo trabajo intenta reproducir este tipo de similitud estructural o relacional, con el objetivo de acercar la percepción de la máquina a la razonamiento humano. Fuente: https://arxiv.org/pdf/2512.07833

La mayoría de los modelos de IA solo reconocen similitud cuando las imágenes comparten rasgos de superficie como forma o color, por lo que solo enlazarían el Grupo B (arriba) con la referencia. Los humanos, por otro lado, también ven el Grupo A como similar – no porque las imágenes se parezcan, sino porque siguen la misma lógica subyacente, como mostrar una transformación en el tiempo. El nuevo trabajo intenta reproducir este tipo de similitud estructural o relacional, con el objetivo de acercar la percepción de la máquina a la razonamiento humano. Fuente: https://arxiv.org/pdf/2512.07833

El sistema de captionado desarrollado para el conjunto de datos facilita anotaciones abstractas inusuales, diseñadas para forzar a los sistemas de IA a centrarse en características básicas en lugar de detalles locales específicos:

Las captions 'anónimas' predichas que contribuyen a la métrica 'relsim' de los autores.

Las captions ‘anónimas’ predichas que contribuyen a la métrica ‘relsim’ de los autores.

La colección curada y su estilo de captionado inusual alimentan la nueva métrica propuesta por los autores, relsim, que los autores han ajustado en un modelo de visión-lenguaje (VLM).

Comparación entre el estilo de captionado de conjuntos de datos típicos, que se centra en la similitud de atributos, mientras que el enfoque relsim (fila inferior) enfatiza la similitud relacional.

Comparación entre el estilo de captionado de conjuntos de datos típicos, que se centra en la similitud de atributos, mientras que el enfoque relsim (fila inferior) enfatiza la similitud relacional.

El nuevo enfoque se basa en metodologías de la ciencia cognitiva, en particular la teoría de Mapeo de Estructuras de Dedre Gentner (un estudio de analogía) y la definición de similitud relacional y de atributos de Amos Tversky.

Del sitio web del proyecto asociado, un ejemplo de similitud relacional. Fuente - https://thaoshibe.github.io/relsim/

Del sitio web del proyecto asociado, un ejemplo de similitud relacional. Fuente

Los autores afirman:

‘[Los humanos] procesan la similitud de atributos perceptualmente, pero la similitud relacional requiere abstracción conceptual, a menudo apoyada por el lenguaje o el conocimiento previo. Esto sugiere que reconocer la similitud relacional primero requiere entender la imagen, basándose en el conocimiento y abstrayendo su estructura subyacente.’

El nuevo artículo se titula Similitud Visual Relacional y viene con un sitio web del proyecto (ver video incrustado al final de este artículo).

Método

Los investigadores utilizaron uno de los conjuntos de datos hiperescala más conocidos como punto de partida para su propia colección – LAION-2B:

Metadatos para una entrada en la colección LAION-2B. Fuente - https://huggingface.co/datasets/laion/laion2B-en-aesthetic/viewer/default/train

Metadatos para una entrada en la colección LAION-2B. Fuente

Se extrajeron 114,000 imágenes que probablemente contuvieran estructuras relacionales elásticas de LAION-2B, lo que implicó el filtrado de las muchas imágenes de baja calidad presentes en el conjunto de datos mínimamente curado.

Para crear una canalización para este proceso de selección, los autores utilizaron Qwen2.5-VL-7B, aprovechando 1,300 ejemplos positivos y 11,000 negativos etiquetados por humanos:

El sistema relsim se entrena en tres etapas: filtrar imágenes de LAION-2B para contenido relacional; asignar a cada grupo una caption anónima compartida que capture su lógica subyacente; y aprender a emparejar imágenes con esas captions utilizando una pérdida contrastiva.

El sistema relsim se entrena en tres etapas: filtrar imágenes de LAION-2B para contenido relacional; asignar a cada grupo una caption anónima compartida que capture su lógica subyacente; y aprender a emparejar imágenes con esas captions utilizando una pérdida contrastiva.

El artículo afirma:

‘Los anotadores recibieron las siguientes instrucciones: “¿Puede ver algún patrón relacional, lógica o estructura en esta imagen que podría ser útil para crear o enlazar con otra imagen?”. El modelo ajustado logra un 93% de acuerdo con los juicios humanos, y cuando se aplica a LAION-2B, produce N = 114k imágenes identificadas como relacionalmente interesantes.’

Para generar etiquetas relacionales, los investigadores solicitaron al modelo Qwen que describiera la lógica compartida detrás de conjuntos de imágenes sin nombrar objetos específicos. Esta abstracción fue difícil de obtener cuando el modelo veía solo una imagen, pero se volvió factible cuando múltiples ejemplos demostraban el patrón subyacente.

Las captions de grupo resultantes reemplazaron términos específicos con marcadores de posición como ‘{Sujeto}’ o ‘{Tipo de Movimiento}’, haciéndolos ampliamente aplicables.

Después de la verificación humana, cada caption se emparejó con todas las imágenes de su grupo. Más de 500 grupos de este tipo se utilizaron para entrenar el modelo, que luego se aplicó a las 114,000 imágenes filtradas para producir un gran conjunto de muestras anotadas de manera abstracta y relacional.

Datos y pruebas

Después de la extracción de características relacionales con Qwen2.5-VL-7B, un modelo se ajustó en los datos utilizando LoRA, durante 15,000 pasos, a través de ocho GPU A100*. Para el lado de texto, las captions relacionales se incrustaron utilizando all-MiniLM-L6-v2 de la biblioteca Sentence-Transformers.

El conjunto de datos de 114,000 imágenes con captions se dividió en 100,000 para entrenamiento y 14,000 para evaluación. Para probar el sistema, se utilizó un entorno de recuperación: dado una imagen de consulta, el modelo debía encontrar una imagen diferente de un grupo de 28,000 elementos que expresara la misma idea relacional. El grupo de recuperación incluía 14,000 imágenes de evaluación y 14,000 muestras adicionales de LAION-2B, con 1,000 consultas seleccionadas aleatoriamente del conjunto de evaluación para la evaluación.

Para evaluar la calidad de recuperación, se utilizó GPT-4o para puntuar la similitud relacional entre cada consulta y la imagen recuperada en una escala de 0 a 10. También se realizó un estudio humano separado para evaluar la preferencia del usuario (ver a continuación).

Cada participante vio una imagen de consulta anónima con dos candidatas, una recuperada por el método propuesto y la otra por una referencia. Los participantes fueron preguntados cuál de las imágenes era más relacionalmente similar a la consulta, o si ambas eran igualmente cercanas. Para cada referencia, se crearon 300 tripletas y se calificaron por al menos tres personas cada una, lo que dio como resultado alrededor de 900 respuestas.

El enfoque relsim se comparó con varios métodos de similitud de imagen a imagen establecidos, incluidos el mencionado LPIPS y DINO, así como dreamsim y CLIP-I. Además de las referencias que computan directamente puntuaciones de similitud entre pares de imágenes, como LPIPS, DINO, dreamsim y CLIP-I, los autores también probaron métodos basados en captions en los que Qwen se utilizó para generar una caption anónima o abstracta para cada imagen.; esto luego sirvió como la consulta de recuperación.

Se evaluaron dos variantes de recuperación, con recuperación de imagen a texto basada en CLIP (CLIP-T) para recuperación de texto a imagen, y Qwen-T utilizando recuperación de texto a texto. Ambas referencias basadas en captions utilizaron el modelo Qwen preentrenado original en lugar de la versión ajustada en la lógica relacional. Esto permitió a los autores aislar el efecto de la capacitación basada en grupos, ya que el modelo ajustado había sido expuesto a conjuntos de imágenes, en lugar de ejemplos aislados.

Métricas existentes y similitud relacional

Los autores inicialmente probaron si las métricas existentes podían capturar la similitud relacional:

Comparación del rendimiento de recuperación según la puntuación de GPT-4o, mostrando la puntuación de similitud relacional promedio para cada método. Las métricas de similitud convencionales como LPIPS, DINO y CLIP-I obtuvieron puntuaciones más bajas, incluyendo incluso cuando se ajustaron. Las referencias basadas en captions Qwen-T y CLIP-T también tuvieron un desempeño inferior. La puntuación más alta se logró con relsim (6.77, columna azul más a la derecha), lo que indica que ajustar en patrones relacionales de grupo mejoró la alineación con las evaluaciones de GPT-4o.

Comparación del rendimiento de recuperación según la puntuación de GPT-4o, mostrando la puntuación de similitud relacional promedio para cada método. Las métricas de similitud convencionales como LPIPS, DINO y CLIP-I obtuvieron puntuaciones más bajas. Las referencias basadas en captions Qwen-T y CLIP-T también tuvieron un desempeño inferior. La puntuación más alta se logró con relsim (6.77, columna azul más a la derecha), lo que indica que ajustar en patrones relacionales de grupo mejoró la alineación con las evaluaciones de GPT-4o.

En cuanto a estos resultados, los autores afirman**:

‘[LPIPS], que se centra puramente en la similitud perceptual, logra la puntuación más baja (4.56). [DINO] funciona ligeramente mejor (5.14), probablemente porque se entrena únicamente de manera auto-supervisada en datos de imágenes. [CLIP-I] produce los resultados más fuertes entre las referencias (5.91), presumiblemente porque a veces hay alguna abstracción presente en las captions de las imágenes.

‘Sin embargo, CLIP-I todavía tiene un desempeño inferior en comparación con nuestro método, ya que lograr una puntuación mejor puede requerir la capacidad de alcanzar abstracciones de nivel aún más alto, como las presentes en las captions anónimas.’

En el estudio de usuarios, los humanos consistentemente prefirieron el método relsim en comparación con todas las referencias:

Puntuaciones de similitud relacional asignadas por GPT-4o para cada método. Las métricas de similitud estándar como LPIPS, DINO y CLIP-I obtuvieron puntuaciones más bajas, y las variantes basadas en captions Qwen-T y CLIP-T tuvieron un desempeño ligeramente mejor. Incluso las versiones ajustadas de DINO y CLIP no cerraron la brecha. La puntuación más alta, 6.77, se logró con el modelo propuesto entrenado con supervisión basada en grupos.

Puntuaciones de similitud relacional asignadas por GPT-4o para cada método. Las métricas de similitud estándar como LPIPS, DINO y CLIP-I obtuvieron puntuaciones más bajas, y las variantes basadas en captions Qwen-T y CLIP-T tuvieron un desempeño ligeramente mejor. Incluso las versiones ajustadas de DINO y CLIP no cerraron la brecha. La puntuación más alta, 6.77, se logró con el modelo relsim, entrenado con supervisión basada en grupos.

Los autores observan:

‘Esto es muy alentador, ya que demuestra no solo que nuestro modelo, relsim, puede recuperar imágenes relacionalmente similares con éxito, sino que también, nuevamente, confirma que los humanos perciben la similitud relacional–no solo la similitud de atributos!’

Para explorar cómo la similitud relacional y la similitud de atributos podrían complementarse entre sí, los investigadores utilizaron un método de visualización combinada. Una sola imagen de consulta (‘Un perro sosteniendo una cámara’) se comparó con 3,000 imágenes aleatorias, y la similitud se calculó utilizando tanto modelos relacionales como de atributos:

Visualización conjunta del espacio de similitud visual utilizando ejes relacionales y de atributos. Una sola imagen de consulta, que muestra a un perro usando una cámara, se comparó con 3,000 otras. Los resultados se organizaron por similitud relacional (vertical) y similitud de atributos (horizontal). La región superior derecha contiene imágenes que se parecen a la consulta en lógica y apariencia, como otros perros usando herramientas. La región superior izquierda contiene casos semánticamente relacionados pero visualmente distintos, como diferentes animales realizando acciones relacionadas con cámaras. La mayoría de los ejemplos restantes se agrupan en la parte inferior del espacio, reflejando una similitud más débil. El diseño ilustra cómo los modelos relacionales y de atributos resaltan aspectos complementarios de los datos visuales. Por favor, consulte el artículo de la fuente para una mejor resolución.

Visualización conjunta del espacio de similitud visual utilizando ejes relacionales y de atributos. Una sola imagen de consulta, que muestra a un perro usando una cámara, se comparó con 3,000 otras. Los resultados se organizaron por similitud relacional (vertical) y similitud de atributos (horizontal). La región superior derecha contiene imágenes que se parecen a la consulta en lógica y apariencia, como otros perros usando herramientas. La región superior izquierda contiene casos semánticamente relacionados pero visualmente distintos, como diferentes animales realizando acciones relacionadas con cámaras. La mayoría de los ejemplos restantes se agrupan en la parte inferior del espacio, reflejando una similitud más débil. El diseño ilustra cómo los modelos relacionales y de atributos resaltan aspectos complementarios de los datos visuales. Por favor, consulte el artículo de la fuente para una mejor resolución.

Los resultados revelaron clusters que correspondían a diferentes tipos de similitud: algunas imágenes eran tanto relacional como visualmente similares, como otros perros en poses humanas; otras compartían lógica relacional pero no apariencia, como diferentes animales imitando acciones humanas; el resto no mostraba ninguna de estas similitudes.

Este análisis sugiere que los dos tipos de similitud desempeñan roles distintos y producen una estructura más rica cuando se combinan.

Casos de uso

El artículo también explora algunos posibles casos de uso para la similitud relacional, incluyendo recuperación de imágenes relacionales, que permite la búsqueda de imágenes más alineada con la forma creativa en que los humanos ven el mundo:

La recuperación relacional devuelve imágenes que comparten una estructura conceptual más profunda con la consulta, en lugar de coincidir con características de superficie. Por ejemplo, un artículo de comida estilizado para parecerse a una cara recupera otras comidas antropomórficas; un objeto cortado produce otras formas cortadas; y escenas de interacción entre adultos y descendientes devuelven imágenes con roles relacionales similares, incluso cuando las especies y la composición difieren.

La recuperación relacional devuelve imágenes que comparten una estructura conceptual más profunda con la consulta, en lugar de coincidir con características de superficie. Por ejemplo, un artículo de comida estilizado para parecerse a una cara recupera otras comidas antropomórficas; un objeto cortado produce otras formas cortadas; y escenas de interacción entre adultos y descendientes devuelven imágenes con roles relacionales similares, incluso cuando las especies y la composición difieren.

Otra posibilidad es generación de imágenes análogas, que permitiría la síntesis de consultas que utilizan estructuras relacionales en lugar de descripciones directas. En una comparación de los resultados obtenidos de los modelos de texto a imagen de última generación, podemos ver que el resultado de tal enfoque probablemente será más diverso:

Dada una imagen de entrada y una consulta relacional, los modelos fueron solicitados para generar una nueva imagen que exprese el mismo concepto subyacente. Los modelos propietarios produjeron analogías más fieles, preservando la lógica estructural a través de grandes cambios en la forma, y los modelos de código abierto tendieron a regresar a coincidencias literales o estilísticas, fallando en transferir la idea más profunda. Las salidas se compararon con analogías curadas por humanos, que ejemplificaban la transformación pretendida.

Dada una imagen de entrada y una consulta relacional, los modelos fueron solicitados para generar una nueva imagen que exprese el mismo concepto subyacente. Los modelos propietarios produjeron analogías más fieles, preservando la lógica estructural a través de grandes cambios en la forma, mientras que los modelos de código abierto tendieron a regresar a coincidencias literales o estilísticas, fallando en transferir la idea más profunda. Las salidas se compararon con analogías curadas por humanos, que ejemplificaban la transformación pretendida.

Conclusión

Los sistemas de IA generativos, al parecer, se beneficiarían notablemente de la capacidad de incorporar representaciones abstractas en sus conceptualizaciones. Como están ahora, solicitar imágenes basadas en conceptos como ‘ira’ o ‘felicidad’ tiende a devolver imágenes estiladas a partir de las imágenes más populares o numerosas que tenían esas asociaciones en el conjunto de datos; lo cual es memorización en lugar de abstracción.

Presumiblemente, este principio podría ser aún más beneficioso si se aplicara a la escritura generativa – particularmente a la salida analítica, especulativa o ficticia.

Pulse para reproducir. Fuente

 

 

* Un A100 puede tener 40Gb o 80GB de VRAM; esto no se especifica en el artículo.

** Las citas de los autores son redundantes y se excluyeron.

Publicado por primera vez el martes, 16 de diciembre de 2025

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.