Angle dâAnderson
Apporter des analogies visuelles Ă l’IA

Les modèles d’IA actuels ne parviennent pas à reconnaître les similarités d’images ‘relationnelles’, telles que la similarité entre les couches de la Terre et une pêche, ce qui manque d’un aspect clé de la façon dont les humains perçoivent les images.
Bien qu’il existe de nombreux modèles de vision par ordinateur capables de comparer des images et de trouver des similarités entre elles, la génération actuelle de systèmes de comparaison a peu ou pas de capacité imaginative. Considérons certaines des paroles de la chanson classique des années 60, Windmills of Your Mind:
Comme un carrousel qui tourne, courant en cercles autour de la lune
Comme une horloge dont les aiguilles passent les minutes de son visage
Et le monde est comme une pomme qui tourne silencieusement dans l’espace
Des comparaisons de ce type représentent un domaine d’allusion poétique qui est significatif pour les humains d’une manière qui va bien au-delà de l’expression artistique ; plutôt, il est lié à la façon dont nous développons nos systèmes de perception ; à mesure que nous créons notre domaine d’objets, nous développons une capacité pour la similarité visuelle, de sorte que – par exemple – les sections transversales représentant une pêche et la planète Terre, ou les récursions fractales telles que les spirales de café et les branches de galaxies, s’enregistrent comme analogues avec nous.
De cette façon, nous pouvons déduire des connexions entre des objets et des types d’objets apparemment non connectés, et inférer des systèmes (tels que la gravité, la quantité de mouvement et la cohésion de surface) qui peuvent s’appliquer à divers domaines à diverses échelles.
Voir les choses
Même les dernières générations de systèmes de comparaison d’images, tels que la Similarité d’Image Perceptuelle Apprise (LPIPS) et DINO, qui sont informés par les commentaires humains, ne réalisent que des comparaisons de surface littérales.
Leur capacité à trouver des visages où il n’y en a pas – c’est-à-dire pareidolie – ne représente pas le type de mécanismes de similarité visuelle que les humains développent, mais plutôt se produit parce que les algorithmes de recherche de visages utilisent des caractéristiques de structure de visage de bas niveau qui correspondent parfois avec des objets aléatoires:

Exemples de faux positifs pour la reconnaissance faciale dans le jeu de données ‘Faces with Things’. Source
Pour déterminer si les machines peuvent vraiment développer notre capacité imaginative à reconnaître la similarité visuelle entre les domaines, les chercheurs aux États-Unis ont mené une étude sur la Similarité Visuelle Relationnelle, en créant et en formant un nouveau jeu de données conçu pour forcer des relations abstraites à se former entre des objets différents qui sont néanmoins liés par une relation abstraite:

La plupart des modèles d’IA ne reconnaissent la similarité que lorsque les images partagent des traits de surface tels que la forme ou la couleur, c’est pourquoi ils ne relient que le groupe B (ci-dessus) à la référence. Les humains, en revanche, voient également le groupe A comme similaire – non parce que les images se ressemblent, mais parce qu’ils suivent la même logique sous-jacente, telle que montrer une transformation dans le temps. Le nouveau travail tente de reproduire ce type de similarité structurelle ou relationnelle, en visant à rapprocher la perception des machines de la raison humaine.
Le système de caption développé pour le jeu de données facilite des annotations inhabituellement abstraites, conçues pour forcer les systèmes d’IA à se concentrer sur les caractéristiques de base plutôt que sur des détails locaux spécifiques:

Les légendes ‘anonymes’ prédites qui contribuent à la métrique ‘relsim’ des auteurs.
Le jeu de données curé et le style de légende inhabituel alimentent la nouvelle métrique proposée relsim, que les auteurs ont affinée dans un modèle de vision-langage (VLM).

Comparaison entre le style de légende des jeux de données typiques, qui se concentre sur la similarité d’attributs, et l’approche relsim (ligne du bas), qui met l’accent sur la similarité relationnelle.
L’approche nouvelle s’appuie sur des méthodologies issues de la science cognitive, en particulier la théorie de la cartographie de structure (une étude de l’analogie) et la définition de similarité relationnelle et de similarité d’attributs d’Amos Tversky.

À partir du site Web du projet associé, un exemple de similarité relationnelle. Source
Les auteurs déclarent:
‘[Les humains] traitent la similarité d’attributs de manière perceptive, mais la similarité relationnelle nécessite une abstraction conceptuelle, souvent soutenue par le langage ou les connaissances antérieures. Cela suggère que la reconnaissance de la similarité relationnelle nécessite d’abord de comprendre l’image, de puiser dans les connaissances et d’abstraire sa structure sous-jacente.’
Le nouvel article est intitulé Similarité Visuelle Relationnelle, et est accompagné d’un site Web de projet (voir la vidéo intégrée à la fin de cet article).
Méthode
Les chercheurs ont utilisé l’un des jeux de données hyperscale les plus connus comme point de départ pour leur propre collection – LAION-2B:

Métadonnées pour une entrée dans la collection LAION-2B. Source
114 000 images susceptibles de contenir des structures relationnelles élastiques ont été extraites de LAION-2B, impliquant le filtrage des nombreuses images de mauvaise qualité présentes dans le jeu de données minimalement curé.
Pour créer un pipeline pour ce processus de sélection, les auteurs ont utilisé Qwen2.5-VL-7B, en exploitant 1 300 exemples positifs et 11 000 exemples négatifs étiquetés par des humains:

Le système relsim est formé en trois étapes : le filtrage des images de LAION-2B pour le contenu relationnel ; l’attribution à chaque groupe d’une légende partagée anonyme qui capture sa logique sous-jacente ; et l’apprentissage pour faire correspondre les images à ces légendes en utilisant une perte contrastive.
L’article indique:
‘Les annotateurs ont été instruits : “Pouvez-vous voir un modèle relationnel, une logique ou une structure dans cette image qui pourrait être utile pour créer ou relier à une autre image ?”. Le modèle affiné atteint 93 % d’accord avec les jugements humains, et lorsqu’il est appliqué à LAION-2B, il donne N = 114k images identifiées comme relationnellement intéressantes.’
Pour générer des étiquettes relationnelles, les chercheurs ont incité le modèle Qwen à décrire la logique partagée derrière les ensembles d’images sans nommer d’objets spécifiques. Cette abstraction était difficile à obtenir lorsque le modèle ne voyait qu’une seule image, mais est devenue réalisable lorsque de multiples exemples démontraient le modèle sous-jacent.
Les légendes de groupe résultantes ont remplacé des termes spécifiques par des espaces réservés tels que ‘{Sujet}’ ou ‘{Type de mouvement}’, les rendant largement applicables.
Après vérification humaine, chaque légende a été associée à toutes les images de son groupe. Plus de 500 groupes ont été utilisés pour former le modèle, qui a ensuite été appliqué aux 114 000 images filtrées pour produire un grand ensemble d’échantillons annotés de manière relationnelle et abstraite.
Données et tests
Après l’extraction des caractéristiques relationnelles avec Qwen2.5-VL-7B, un modèle a été affiné sur les données en utilisant LoRA, pendant 15 000 étapes, via huit A100 GPU*. Pour le côté texte, les légendes relationnelles ont été intégrées en utilisant all-MiniLM-L6-v2 de la bibliothèque Sentence-Transformers.
Le jeu de données de 114 000 images légendées a été divisé en 100 000 pour la formation et 14 000 pour l’évaluation. Pour tester le système, un dispositif de récupération a été utilisé : étant donné une image de requête, le modèle devait trouver une autre image dans un pool de 28 000 éléments qui exprimait la même idée relationnelle. Le pool de récupération comprenait 14 000 images d’évaluation et 14 000 échantillons supplémentaires de LAION-2B, avec 1 000 requêtes sélectionnées aléatoirement à partir de l’ensemble d’évaluation pour la calibration.
Pour évaluer la qualité de récupération, GPT-4o a été utilisé pour noter la similarité relationnelle entre chaque requête et image récupérée sur une échelle de 0 à 10. Une étude humaine distincte a également été menée pour évaluer les préférences des utilisateurs (voir ci-dessous).
Chaque participant a vu une image de requête anonyme avec deux candidats, l’un récupéré par la méthode proposée, l’autre par une référence. Les participants ont été invités à indiquer quelle image était plus relationnellement similaire à la requête, ou si les deux étaient également proches. Pour chaque référence, 300 triplets ont été créés et évalués par au moins trois personnes chacun, ce qui a donné environ 900 réponses.
La méthode relsim a été comparée à plusieurs méthodes de similarité d’image établies, notamment la mentionnée LPIPS et DINO, ainsi que dreamsim et CLIP-I. En plus des références qui calculent directement des scores de similarité entre paires d’images, telles que LPIPS, DINO, dreamsim et CLIP-I, les auteurs ont également testé des méthodes basées sur des légendes dans lesquelles Qwen a été utilisé pour générer une légende anonyme ou abstraite pour chaque image ; cela a ensuite servi de requête de récupération.
Deux variantes de récupération ont été évaluées, avec une récupération d’image à texte basée sur CLIP (CLIP-T) utilisée pour la récupération d’image à texte, et Qwen-T utilisant la récupération de texte à texte. Les deux méthodes de référence basées sur les légendes ont utilisé le modèle Qwen pré-entraîné d’origine plutôt que la version affinée sur la logique relationnelle. Cela a permis aux auteurs d’isoler l’effet de la formation basée sur les groupes, puisque le modèle affiné avait été exposé à des ensembles d’images, plutôt qu’à des exemples isolés.
Métriques existantes et similarité relationnelle
Les auteurs ont initialement testé si les métriques existantes pouvaient capturer la similarité relationnelle:

Comparaison des performances de récupération évaluées par GPT-4o, montrant le score de similarité relationnelle moyen pour chaque méthode. Les métriques de similarité conventionnelles telles que LPIPS, DINO et CLIP-I ont obtenu des scores plus bas. Les méthodes de référence basées sur les légendes Qwen-T et CLIP-T ont également sous-performé. Le score le plus élevé a été obtenu par relsim (6,77, colonne bleue la plus à droite), indiquant que l’ajustement sur les modèles relationnels de groupe a amélioré l’alignement avec les évaluations de GPT-4o.
Concernant ces résultats, les auteurs déclarent**:
‘[LPIPS], qui se concentre purement sur la similarité perceptive, obtient le score le plus bas (4,56). [DINO] se comporte légèrement mieux (5,14), probablement parce qu’il est formé uniquement de manière autonome sur des données d’images. [CLIP-I] donne les résultats les plus forts parmi les références (5,91), probablement parce que certaines abstractions sont parfois présentes dans les légendes d’images.
‘Cependant, CLIP-I sous-performe toujours par rapport à notre méthode, car obtenir un meilleur score peut nécessiter la capacité d’atteindre des abstractions encore plus élevées, telles que celles dans les légendes anonymes.’
Dans l’étude humaine, les humains ont systématiquement préféré la méthode relsim par rapport à toutes les références:

Scores de similarité relationnelle attribués par GPT-4o pour chaque méthode. Les métriques de similarité standard telles que LPIPS, DINO et CLIP-I ont obtenu des scores plus bas, et les variantes basées sur les légendes Qwen-T et CLIP-T n’ont performé que légèrement mieux. Même les versions ajustées de DINO et CLIP n’ont pas comblé l’écart. Le score le plus élevé, 6,77, a été obtenu par le modèle relsim, formé avec une supervision basée sur les groupes.
Les auteurs notent:
‘Ceci est très encourageant, car cela démontre non seulement que notre modèle, relsim, peut récupérer avec succès des images relationnellement similaires, mais également, à nouveau, confirme que les humains perçoivent la similarité relationnelle – et non seulement la similarité d’attributs !’
Pour explorer comment la similarité relationnelle et la similarité d’attributs pourraient se compléter mutuellement, les chercheurs ont utilisé une méthode de visualisation combinée. Une seule image de requête (‘Un chien tenant un appareil photo’) a été comparée à 3 000 images aléatoires, et la similarité a été calculée en utilisant à la fois des modèles relationnels et basés sur les attributs:

Visualisation conjointe de l’espace de similarité visuelle en utilisant des axes relationnels et d’attributs. Une seule image de requête, représentant un chien utilisant un appareil photo, a été comparée à 3 000 autres. Les résultats ont été organisés par similarité relationnelle (verticale) et similarité d’attributs (horizontale). La région du haut à droite contient des images qui ressemblent à la requête à la fois en logique et en apparence, telles que d’autres chiens utilisant des outils. La région du haut à gauche contient des cas sémantiquement liés mais visuellement distincts, tels que différents animaux effectuant des actions liées à l’appareil photo. La plupart des exemples restants se regroupent plus bas dans l’espace, reflétant une similarité plus faible. La disposition illustre comment les modèles relationnels et d’attributs mettent en évidence des aspects complémentaires des données visuelles. Veuillez vous référer à l’article source pour une meilleure résolution.
Les résultats ont révélé des regroupements correspondant à différents types de similarité : certaines images étaient à la fois relationnellement et visuellement similaires, telles que d’autres chiens dans des poses humaines ; d’autres partageaient une logique relationnelle mais pas d’apparence, telles que différents animaux imitant des actions humaines ; le reste n’a montré ni l’un ni l’autre.
Cette analyse suggère que les deux types de similarité jouent des rôles distincts et donnent lieu à une structure plus riche lorsqu’ils sont combinés.
Cas d’utilisation
L’article explore également certains cas d’utilisation possibles pour la similarité relationnelle, notamment la récupération d’images relationnelles, qui permet une recherche d’images plus alignée sur la façon dont les humains regardent le monde:

La récupération relationnelle renvoie des images qui partagent une structure conceptuelle plus profonde avec la requête, plutôt que de correspondre à des caractéristiques de surface. Par exemple, un aliment stylisé pour ressembler à un visage renvoie d’autres repas anthropomorphes ; un objet tranché donne d’autres formes tranchées ; et les scènes d’interaction entre adultes et descendants renvoient des images avec des rôles relationnels similaires, même si les espèces et la composition diffèrent.
Une autre possibilité est la génération d’images analogiques, qui permettrait la synthèse de requêtes utilisant des structures relationnelles plutôt que des descriptions directes. Dans une comparaison des résultats obtenus à partir des modèles de génération d’images texte-à-texte actuels, on peut voir que les résultats d’une telle approche sont susceptibles d’être plus diversifiés :

Étant donné une image d’entrée et une invite relationnelle, les modèles ont été invités à générer une nouvelle image exprimant le même concept sous-jacent. Les modèles propriétaires ont produit des analogies plus fidèles, préservant la logique structurelle à travers de grands changements de forme, tandis que les modèles open source ont tendance à régresser vers des correspondances littérales ou stylistiques, échouant à transférer l’idée plus profonde. Les sorties ont été comparées à des analogies humaines curées, qui exemplifiaient la transformation intentionnelle.
Conclusion
Les systèmes d’IA génératifs seraient, semble-t-il, considérablement améliorés par la capacité d’incorporer des représentations abstraites dans leurs conceptualisations. Comme les choses se présentent, demander des images basées sur des concepts tels que ‘colère’ ou ‘bonheur’ a tendance à renvoyer des images stylisées à partir des images les plus populaires ou les plus nombreuses qui avaient ces associations dans le jeu de données ; ce qui est mémorisation plutôt qu’abstraction.
Présumément, ce principe pourrait être encore plus bénéfique s’il pouvait être appliqué à la rédaction générative – en particulier à la production analytique, spéculative ou fictionnelle.
Appuyez pour jouer. Source
* Un A100 peut avoir 40 Go ou 80 Go de VRAM ; cela n’est pas spécifié dans l’article.
** Les citations des auteurs sont redondantes et exclues.
Publié pour la première fois mardi 16 décembre 2025












