Intelligenza artificiale

Vedere, Pensare, Spiegare: L’ascesa dei Modelli di Linguaggio Visivo nell’Intelligenza Artificiale

Pubblicato il 19 maggio 2025

Aggiornato il 19 maggio 2026

Dr. Tehseen Zia

Circa un decennio fa, l’intelligenza artificiale era divisa tra il riconoscimento di immagini e la comprensione del linguaggio. I modelli di visione potevano riconoscere oggetti, ma non potevano descriverli, e i modelli di linguaggio potevano generare testo, ma non potevano “vedere”. Oggi, quella divisione sta scomparendo rapidamente. I Modelli di Linguaggio Visivo (VLM) combinano ora le capacità visive e linguistiche, consentendo loro di interpretare immagini e spiegarle in modi che sembrano quasi umani. Ciò che li rende veramente notevoli è il loro processo di ragionamento passo dopo passo, noto come Catena di Pensiero, che aiuta a trasformare questi modelli in strumenti potenti e pratici in vari settori, come la sanità e l’istruzione. In questo articolo, esploreremo come funzionano i VLM, perché la loro capacità di ragionamento è importante e come stanno trasformando settori che vanno dalla medicina alle auto a guida autonoma.

Comprendere i Modelli di Linguaggio Visivo

I Modelli di Linguaggio Visivo, o VLM, sono un tipo di intelligenza artificiale che può comprendere sia immagini che testo contemporaneamente. A differenza dei sistemi di intelligenza artificiale più vecchi che potevano gestire solo testo o immagini, i VLM combinano queste due capacità. Ciò li rende incredibilmente versatili. Possono guardare un’immagine e descrivere cosa sta succedendo, rispondere a domande su un video o anche creare immagini in base a una descrizione scritta.

Ad esempio, se chiedi a un VLM di descrivere una foto di un cane che corre in un parco. Un VLM non dice solo “C’è un cane”. Può dirti: “Il cane sta inseguendo una palla vicino a un grande albero di quercia”. Sta vedendo l’immagine e collegandola a parole in un modo che ha senso. Questa capacità di combinare la comprensione visiva e linguistica crea tutte le possibilità, dalla ricerca di foto online all’aiuto in compiti più complessi come l’imaging medico.

In sostanza, i VLM funzionano combinando due elementi chiave: un sistema di visione che analizza le immagini e un sistema di linguaggio che elabora il testo. La parte visiva rileva dettagli come forme e colori, mentre la parte linguistica trasforma quei dettagli in frasi. I VLM sono addestrati su enormi dataset che contengono miliardi di coppie di immagini e testo, dandogli un’esperienza estensiva per sviluppare una forte comprensione e un’elevata precisione.

Cosa significa la Catena di Pensiero nei VLM

La Catena di Pensiero, o CoT, è un modo per far pensare l’intelligenza artificiale passo dopo passo, proprio come noi affrontiamo un problema dividendo i passaggi. Nei VLM, significa che l’AI non fornisce solo una risposta quando le chiedi qualcosa su un’immagine, ma spiega anche come è arrivata a quella risposta, spiegando ogni passo logico lungo la strada.

Supponiamo di mostrare a un VLM una foto di una torta di compleanno con candele e chiedere: “Quanti anni ha la persona?” Senza CoT, potrebbe semplicemente indovinare un numero. Con CoT, pensa: “Vedo una torta con candele. Le candele di solito mostrano l’età di qualcuno. Contiamo, ce ne sono 10. Quindi, la persona ha probabilmente 10 anni”. Puoi seguire il ragionamento mentre si svolge, il che rende la risposta molto più attendibile.

Allo stesso modo, quando viene mostrata una scena di traffico a un VLM e gli viene chiesto: “È sicuro attraversare?” Il VLM potrebbe ragionare: “Il semaforo pedonale è rosso, quindi non dovresti attraversare. C’è anche una macchina che gira vicino, e si sta muovendo, non ferma. Ciò significa che non è sicuro adesso”. Passando attraverso questi passaggi, l’AI mostra esattamente a cosa sta prestando attenzione nell’immagine e perché decide ciò che fa.

Perché la Catena di Pensiero è Importante nei VLM

L’integrazione della Catena di Pensiero nei VLM porta diversi vantaggi chiave.

Innanzitutto, rende l’AI più facile da fidarsi. Quando spiega i suoi passaggi, ottieni una chiara comprensione di come abbia raggiunto la risposta. Ciò è importante in aree come la sanità. Ad esempio, quando si esamina una scansione MRI, un VLM potrebbe dire: “Vedo un’ombra nel lato sinistro del cervello. Quell’area controlla il linguaggio, e il paziente ha difficoltà a parlare, quindi potrebbe essere un tumore”. Un medico può seguire quella logica e sentirsi fiducioso dell’input dell’AI.

In secondo luogo, aiuta l’AI ad affrontare problemi complessi. Dividendo le cose, può gestire domande che richiedono più di uno sguardo veloce. Ad esempio, contare le candele è semplice, ma determinare la sicurezza in una strada trafficata richiede più passaggi, tra cui controllare i semafori, identificare le macchine in movimento e giudicare la velocità. La CoT consente all’AI di gestire quella complessità dividendo le cose in più passaggi.

Infine, rende l’AI più adattabile. Quando ragiona passo dopo passo, può applicare ciò che sa a nuove situazioni. Se non ha mai visto un tipo specifico di torta di compleanno prima, può comunque capire la connessione tra le candele e l’età perché sta pensando al processo, non si basa solo su pattern memorizzati.

Come la Catena di Pensiero e i VLM Stanno Ridefinendo gli Industrie

La combinazione di CoT e VLM sta avendo un impatto significativo in vari settori:

Sanità: Nella medicina, i VLM come Google’s Med-PaLM 2 utilizzano la CoT per dividere domande mediche complesse in passaggi diagnostici più piccoli. Ad esempio, quando viene data una radiografia del torace e sintomi come tosse e mal di testa, l’AI potrebbe pensare: “Questi sintomi potrebbero essere un raffreddore, allergie o qualcosa di peggio. Non ci sono linfonodi ingrossati, quindi non è probabile un’infezione grave. I polmoni sembrano chiari, quindi probabilmente non è polmonite. Un raffreddore comune si adatta meglio”. Passa attraverso le opzioni e arriva a una risposta, dando ai medici una spiegazione chiara con cui lavorare.
Auto a Guida Autonoma: Per i veicoli autonomi, i VLM migliorati con la CoT migliorano la sicurezza e la presa di decisioni. Ad esempio, un’auto a guida autonoma può analizzare una scena di traffico passo dopo passo: controllando i segnali pedonali, identificando le macchine in movimento e decidendo se è sicuro procedere. Sistemi come Wayve’s LINGO-1 generano commenti in linguaggio naturale per spiegare azioni come rallentare per un ciclista. Ciò aiuta gli ingegneri e i passeggeri a comprendere il processo di ragionamento del veicolo. La logica passo dopo passo consente anche una migliore gestione di condizioni stradali insolite combinando input visivi con conoscenze contestuali.
Analisi Geospaziale: Il modello Gemini di Google applica la Catena di Pensiero ai dati spaziali come mappe e immagini satellitari. Ad esempio, può valutare i danni di un uragano integrando immagini satellitari, previsioni del tempo e dati demografici, quindi generare visualizzazioni chiare e risposte a domande complesse. Questa capacità accelera la risposta ai disastri fornendo ai responsabili delle decisioni informazioni utili e tempestive senza richiedere competenze tecniche.
Robotica: Nella robotica, l’integrazione della CoT e dei VLM consente ai robot di pianificare e eseguire meglio compiti multi-passaggio. Ad esempio, quando un robot è incaricato di raccogliere un oggetto, il VLM abilitato alla CoT gli consente di identificare la tazza, determinare i punti di presa migliori, pianificare un percorso senza collisioni e eseguire il movimento, tutto mentre “spiega” ogni passaggio del suo processo. Progetti come RT-2 dimostrano come la CoT consente ai robot di adattarsi meglio a nuovi compiti e rispondere a comandi complessi con chiara motivazione.
Istruzione: Nell’apprendimento, i tutor di intelligenza artificiale come Khanmigo utilizzano la CoT per insegnare meglio. Per un problema di matematica, potrebbe guidare uno studente: “Prima, scrivi l’equazione. Poi, isolare la variabile sottraendo 5 da entrambi i lati. Ora, dividi per 2”. Invece di fornire la risposta, passa attraverso il processo, aiutando gli studenti a comprendere i concetti passo dopo passo.

Il Punto di Partenza

I Modelli di Linguaggio Visivo (VLM) consentono all’intelligenza artificiale di interpretare e spiegare dati visivi utilizzando un ragionamento passo dopo passo umano-like attraverso processi di Catena di Pensiero (CoT). Questo approccio aumenta la fiducia, l’adattabilità e la capacità di risoluzione dei problemi in vari settori, come la sanità, le auto a guida autonoma, l’analisi geospaziale, la robotica e l’istruzione. Trasformando il modo in cui l’intelligenza artificiale affronta compiti complessi e supporta la presa di decisioni, i VLM stanno stabilendo un nuovo standard per la tecnologia intelligente affidabile e pratica.

Dr. Tehseen Zia

Il dottor Tehseen Zia è un professore associato con tenure presso l'Università COMSATS di Islamabad, con un dottorato in Intelligenza Artificiale presso l'Università Tecnica di Vienna, Austria. Specializzato in Intelligenza Artificiale, Apprendimento Automatico, Scienza dei Dati e Visione Artificiale, ha apportato contributi significativi con pubblicazioni su riviste scientifiche reputate. Il dottor Tehseen ha anche guidato vari progetti industriali come principale investigatore e ha lavorato come consulente di Intelligenza Artificiale.