Intelligenza artificiale
Vedi, Pensa, Spiega: L’ascesa dei Modelli di Linguaggio Visivo nell’Intelligenza Artificiale

Circa un decennio fa, l’intelligenza artificiale era divisa tra il riconoscimento di immagini e la comprensione del linguaggio. I modelli di visione potevano riconoscere oggetti ma non descriverli, e i modelli di linguaggio generavano testo ma non potevano “vedere”. Oggi, quella divisione sta scomparendo rapidamente. I Modelli di Linguaggio Visivo (VLM) combinano abilità visive e linguistiche, consentendo loro di interpretare immagini e spiegarle in modi che sembrano quasi umani. Ciò che li rende veramente notevoli è il loro processo di ragionamento passo dopo passo, noto come Chain-of-Thought, che aiuta a trasformare questi modelli in strumenti potenti e pratici in vari settori come la sanità e l’istruzione. In questo articolo, esploreremo come funzionano i VLM, perché la loro capacità di ragionamento è importante e come stanno trasformando settori che vanno dalla medicina alle auto a guida autonoma.
Comprendere i Modelli di Linguaggio Visivo
I Modelli di Linguaggio Visivo, o VLM, sono un tipo di intelligenza artificiale che può comprendere sia immagini che testo contemporaneamente. A differenza dei sistemi di intelligenza artificiale più vecchi che potevano gestire solo testo o immagini, i VLM combinano queste due abilità. Ciò li rende incredibilmente versatili. Possono guardare un’immagine e descrivere cosa sta succedendo, rispondere a domande su un video o anche creare immagini in base a una descrizione scritta.
Ad esempio, se chiedi a un VLM di descrivere una foto di un cane che corre in un parco. Un VLM non dice solo: “C’è un cane”. Può dirti: “Il cane sta inseguendo una palla vicino a un grande albero di quercia”. Sta vedendo l’immagine e collegandola a parole in un modo che ha senso. Questa capacità di combinare la comprensione visiva e linguistica crea tutte le sorti di possibilità, dal aiutarti a cercare foto online all’assistenza in compiti più complessi come l’imaging medico.
Al loro nucleo, i VLM funzionano combinando due elementi chiave: un sistema di visione che analizza le immagini e un sistema di linguaggio che elabora il testo. La parte della visione rileva dettagli come forme e colori, mentre la parte del linguaggio trasforma quei dettagli in frasi. I VLM sono addestrati su enormi set di dati contenenti miliardi di coppie di immagini e testo, dandogli un’esperienza estensiva per sviluppare una forte comprensione e un’elevata precisione.
Cosa significa la catena di pensiero nei VLM
La catena di pensiero, o CoT, è un modo per far pensare l’IA passo dopo passo, proprio come noi affrontiamo un problema dividendo i passaggi. Nei VLM, significa che l’IA non fornisce solo una risposta quando le chiedi qualcosa su un’immagine, ma spiega anche come ci è arrivata, spiegando ogni passo logico lungo la strada.
Supponi di mostrare a un VLM una foto di una torta di compleanno con candele e chiedi: “Quanti anni ha la persona?” Senza CoT, potrebbe semplicemente indovinare un numero. Con CoT, pensa: “Okay, vedo una torta con candele. Le candele mostrano generalmente l’età di qualcuno. Contiamo, ci sono 10. Quindi, la persona probabilmente ha 10 anni”. Puoi seguire il ragionamento mentre si svolge, il che rende la risposta molto più degna di fiducia.
Allo stesso modo, quando mostri a un VLM una scena di traffico e chiedi: “È sicuro attraversare?” Il VLM potrebbe ragionare: “Il semaforo pedonale è rosso, quindi non dovresti attraversare. C’è anche una macchina che gira vicino e si muove, non si è fermata. Quindi non è sicuro in questo momento”. Camminando attraverso questi passaggi, l’IA ti mostra esattamente a cosa sta prestando attenzione nell’immagine e perché prende le decisioni che prende.
Perché la catena di pensiero è importante nei VLM
L’integrazione della catena di pensiero nei VLM porta diversi vantaggi chiave.
Innanzitutto, rende l’IA più facile da fidarsi. Quando spiega i suoi passaggi, ottieni una chiara comprensione di come abbia raggiunto la risposta. Ciò è importante in aree come la sanità. Ad esempio, quando si guarda una scansione MRI, un VLM potrebbe dire: “Vedo un’ombra nel lato sinistro del cervello. Quell’area controlla il linguaggio e il paziente ha difficoltà a parlare, quindi potrebbe essere un tumore”. Un medico può seguire quella logica e sentirsi fiducioso dell’input dell’IA.
In secondo luogo, aiuta l’IA ad affrontare problemi complessi. Dividendo le cose, può gestire domande che richiedono più di un’occhiata veloce. Ad esempio, contare le candele è semplice, ma capire la sicurezza in una strada trafficata richiede più passaggi, tra cui controllare i semafori, rilevare le macchine e giudicare la velocità. La CoT consente all’IA di gestire quella complessità dividendo le cose in più passaggi.
Infine, rende l’IA più adattabile. Quando ragiona passo dopo passo, può applicare ciò che sa a nuove situazioni. Se non ha mai visto un tipo specifico di torta prima, può comunque capire la connessione tra le candele e l’età perché sta pensando, non si basa solo su modelli memorizzati.
Come la catena di pensiero e i VLM stanno ridefinendo i settori
La combinazione di CoT e VLM sta avendo un impatto significativo in vari campi:
- Sanità: In medicina, i VLM come Google’s Med-PaLM 2 utilizzano la CoT per dividere domande mediche complesse in passaggi diagnostici più piccoli. Ad esempio, quando viene data una radiografia del torace e sintomi come tosse e mal di testa, l’IA potrebbe pensare: “Questi sintomi potrebbero essere un raffreddore, allergie o qualcosa di peggio. Non ci sono linfonodi ingrossati, quindi non è probabile un’infezione grave. I polmoni sembrano chiari, quindi probabilmente non è polmonite. Un raffreddore comune è la spiegazione più plausibile”. Cammina attraverso le opzioni e arriva a una risposta, dando ai medici una spiegazione chiara con cui lavorare.
- Auto a guida autonoma: Per i veicoli autonomi, i VLM migliorati con la CoT migliorano la sicurezza e la presa di decisioni. Ad esempio, un’auto a guida autonoma può analizzare una scena di traffico passo dopo passo: controllando i segnali pedonali, identificando veicoli in movimento e decidendo se è sicuro procedere. Sistemi come Wayve’s LINGO-1 generano commenti in linguaggio naturale per spiegare azioni come rallentare per un ciclista. Ciò aiuta gli ingegneri e i passeggeri a comprendere il processo di ragionamento del veicolo. La logica passo dopo passo consente anche una migliore gestione di condizioni stradali insolite combinando input visivi con conoscenza contestuale.
- Analisi geospaziale: Il modello Unite.AI di Google applica la catena di pensiero ai dati spaziali come mappe e immagini satellitari. Ad esempio, può valutare i danni di un uragano integrando immagini satellitari, previsioni del tempo e dati demografici, quindi generare visualizzazioni chiare e risposte a domande complesse. Questa capacità accelera la risposta ai disastri fornendo ai responsabili delle decisioni informazioni tempestive e utili senza richiedere competenze tecniche.
- Robotica: Nella robotica, l’integrazione della CoT e dei VLM consente ai robot di pianificare e eseguire meglio compiti multi-passaggio. Ad esempio, quando un robot è incaricato di raccogliere un oggetto, il VLM abilitato alla CoT gli consente di identificare la tazza, determinare i punti di presa migliori, pianificare un percorso senza collisioni e eseguire il movimento, spiegando ogni passaggio del suo processo. Progetti come RT-2 dimostrano come la CoT consenta ai robot di adattarsi meglio a nuovi compiti e rispondere a comandi complessi con chiara motivazione.
- Istruzione: Nell’apprendimento, i tutor di intelligenza artificiale come Khanmigo utilizzano la CoT per insegnare meglio. Per un problema di matematica, potrebbe guidare uno studente: “Prima, scrivi l’equazione. Poi, isolare la variabile sottraendo 5 da entrambi i lati. Ora, dividi per 2”. Invece di fornire la risposta, cammina attraverso il processo, aiutando gli studenti a comprendere i concetti passo dopo passo.
Il punto chiave
I Modelli di Linguaggio Visivo (VLM) consentono all’IA di interpretare e spiegare dati visivi utilizzando un ragionamento passo dopo passo simile a quello umano attraverso processi di catena di pensiero (CoT). Questo approccio aumenta la fiducia, l’adattabilità e la capacità di risolvere problemi in vari settori come la sanità, le auto a guida autonoma, l’analisi geospaziale, la robotica e l’istruzione. Trasformando il modo in cui l’IA affronta compiti complessi e supporta la presa di decisioni, i VLM stanno fissando un nuovo standard per la tecnologia intelligente affidabile e pratica.












