Angolo di Anderson

Portare analogie visive all’intelligenza artificiale

Published December 16, 2025

Updated April 1, 2026

Martin Anderson

AI-generated image: comparative cross-sections of a peach and the planet Earth. GPT-image-1, Firefly 3.

I modelli di intelligenza artificiale attuali non riescono a riconoscere ‘relazioni’ di somiglianza tra immagini, come ad esempio come gli strati della Terra sono simili a quelli di una pesca, mancando un aspetto chiave di come gli esseri umani percepiscono le immagini.

Sebbene esistano molti modelli di visione artificiale in grado di confrontare immagini e trovare somiglianze tra loro, l’attuale generazione di sistemi comparativi ha poca o nessuna capacità immaginativa. Consideriamo alcune delle liriche della classica canzone degli anni ’60, Windmills of Your Mind:

Come una giostra che gira, correndo intorno alla luna
Come un orologio le cui mani stanno spazzando via i minuti del suo volto
E il mondo è come una mela che gira silenziosamente nello spazio

Confronti di questo tipo rappresentano un dominio di allusione poetica che è significativo per gli esseri umani in un modo che va ben oltre l’espressione artistica; piuttosto, è legato a come sviluppiamo i nostri sistemi percettivi; mentre creiamo il nostro ‘dominio di oggetti’, sviluppiamo una capacità di somiglianza visiva, in modo che – ad esempio – sezioni trasversali che rappresentano una pesca e il pianeta Terra, o ricorsioni frattali come spirali di caffè e rami di galassie, si registrano come analoghi per noi.

In questo modo possiamo dedurre connessioni tra oggetti e tipi di oggetti apparentemente non collegati e inferire sistemi (come gravità, momento e coesione superficiale) che possono essere applicati a una varietà di domini a diverse scale.

Vedere le cose

Anche l’ultima generazione di sistemi di confronto di immagini AI, come Learned Perceptual Image Patch Similarity (LPIPS) e DINO, che sono informati dal feedback umano, eseguono solo confronti superficiali letterali.

La loro capacità di trovare volti dove non esistono – cioè pareidolia – non rappresenta il tipo di meccanismi di somiglianza visiva che gli esseri umani sviluppano, ma piuttosto si verifica perché gli algoritmi di ricerca dei volti utilizzano caratteristiche di basso livello della struttura del volto caratteristiche che a volte si accordano con oggetti casuali:

Esempi di falsi positivi per il riconoscimento facciale nel set di dati ‘Faces with Things’. Fonte

Per determinare se le macchine possano realmente sviluppare la nostra capacità immaginativa di riconoscere la somiglianza visiva tra domini, i ricercatori negli Stati Uniti hanno condotto uno studio su Relational Visual Similarity, curando e addestrando un nuovo set di dati progettato per forzare relazioni astratte a formarsi tra oggetti diversi che sono comunque legati da una relazione astratta:

La maggior parte dei modelli di intelligenza artificiale riconosce solo la somiglianza quando le immagini condividono tratti superficiali come forma o colore, ed è per questo che collegano solo il Gruppo B (in alto) al riferimento. Gli esseri umani, al contrario, vedono anche il Gruppo A come simile – non perché le immagini si assomigliano, ma perché seguono la stessa logica sottostante, come ad esempio mostrare una trasformazione nel tempo. Il nuovo lavoro tenta di riprodurre questo tipo di somiglianza strutturale o relazionale, con l’obiettivo di avvicinare la percezione delle macchine al ragionamento umano. Fonte: https://arxiv.org/pdf/2512.07833

Il sistema di didascalia sviluppato per il set di dati facilita annotazioni astratte insolite, progettate per costringere i sistemi di intelligenza artificiale a concentrarsi su caratteristiche di base piuttosto che su dettagli locali specifici:

Le didascalie ‘anonime’ previste che contribuiscono alla metrica ‘relsim’ degli autori.

La raccolta curata e lo stile di didascalia insolito alimentano la nuova metrica proposta relsim degli autori, che gli autori hanno ottimizzato in un modello di visione-linguaggio (VLM).

Confronto tra lo stile di didascalia dei set di dati tipici, che si concentra sulla somiglianza degli attributi, mentre l’approccio relsim (riga inferiore) enfatizza la somiglianza relazionale.

Il nuovo approccio si basa su metodologie della scienza cognitiva, in particolare la teoria della mappatura della struttura di Dedre Gentner (uno studio dell’analogia) e la definizione di somiglianza relazionale e somiglianza degli attributi di Amos Tversky.