Intelligenza artificiale

Presentazione dei grandi modelli multimodali: plasmando il panorama dei modelli linguistici nel 2024

Published January 8, 2024

Updated April 27, 2026

Dr. Tehseen Zia

Mentre esperienziamo il mondo, i nostri sensi (visione, suoni, odori) forniscono una varietà di informazioni diverse, e noi esprimiamo noi stessi utilizzando diversi metodi di comunicazione, come espressioni facciali e gesti. Questi sensi e metodi di comunicazione sono collettivamente chiamati modalità, rappresentando i diversi modi in cui percepiamo e comunichiamo. Traendo ispirazione da questa capacità umana, grande modello multimodale (LMM), una combinazione di generativo e intelligenza artificiale multimodale, sono in fase di sviluppo per comprendere e creare contenuti utilizzando diversi tipi come testo, immagini e audio. In questo articolo, esploriamo questo nuovo campo emergente, esaminando cosa sono gli LMM (Grandi Modelli Multimodali), come sono costruiti, esempi esistenti, le sfide che affrontano e le potenziali applicazioni.

Evolutzione dell’intelligenza artificiale generativa nel 2024: dai grandi modelli linguistici ai grandi modelli multimodali

Nel suo ultimo rapporto, McKinsey ha designato il 2023 come un anno di break-out per intelligenza artificiale generativa, portando a molti progressi nel campo. Abbiamo assistito a un notevole aumento della prevalenza di grandi modelli linguistici (LLM) in grado di comprendere e generare linguaggio umano-like. Inoltre, modelli di generazione di immagini sono significativamente evoluti, dimostrando la loro capacità di creare visuali da prompt testuali. Tuttavia, nonostante i progressi significativi in modalità individuali come testo, immagini o audio, l’intelligenza artificiale generativa ha incontrato sfide nel combinare senza problemi queste modalità nel processo di generazione. Poiché il mondo è intrinsecamente multimodale per natura, è cruciale per l’intelligenza artificiale affrontare le informazioni multimodali. Ciò è essenziale per un coinvolgimento significativo con gli esseri umani e per un’operazione di successo in scenari del mondo reale.

Di conseguenza, molti ricercatori di intelligenza artificiale anticipano l’ascesa degli LMM come la prossima frontiera nella ricerca e sviluppo di intelligenza artificiale nel 2024. Questa frontiera in evoluzione si concentra sull’aumentare la capacità dell’intelligenza artificiale generativa di elaborare e produrre output diversi, che spaziano dal testo alle immagini, all’audio, al video e ad altre modalità. È essenziale sottolineare che non tutti i sistemi multimodali si qualificano come LMM. Modelli come Midjourney e Stable Diffusion, nonostante siano multimodali, non rientrano nella categoria LMM principalmente perché mancano della presenza di LLM, che è un componente fondamentale degli LMM. In altre parole, possiamo descrivere gli LMM come un’estensione degli LLM, fornendo loro la capacità di gestire proficuamente diverse modalità.

Come funzionano gli LMM?

Mentre i ricercatori hanno esplorato diversi approcci per la costruzione degli LMM, essi di solito coinvolgono tre componenti essenziali e operazioni. In primo luogo, vengono utilizzati encoder per ogni modalità di dati per generare rappresentazioni dei dati (chiamate embedding) specifiche per quella modalità. In secondo luogo, vengono utilizzati diversi meccanismi per allineare gli embedding da diverse modalità in uno spazio di embedding multimodale unificato. In terzo luogo, per i modelli generativi, viene utilizzato un LLM per generare risposte testuali. Poiché gli input possono consistere in testo, immagini, video e audio, i ricercatori stanno lavorando su nuovi modi per far considerare ai modelli linguistici diverse modalità quando forniscono risposte.

Sviluppo degli LMM nel 2023

Di seguito, ho brevemente delineato alcuni degli LMM notevoli sviluppati nel 2023.

LLaVA è un LMM open-source, sviluppato congiuntamente dall’Università del Wisconsin-Madison, Microsoft Research e Columbia University. Il modello mira a offrire una versione open-source di multimodale GPT4. Sfruttando Meta’s Llama LLM, incorpora il CLIP encoder visivo per una robusta comprensione visiva. La variante di LLaVA focalizzata sulla sanità, denominata LLaVA-Med, può rispondere a domande relative a immagini biomediche.
ImageBind è un modello open-source creato da Meta, emulando la capacità della percezione umana di relazionare dati multimodali. Il modello integra sei modalità—testo, immagini/video, audio, misurazioni 3D, dati di temperatura e dati di movimento—imparando una rappresentazione unificata attraverso questi diversi tipi di dati. ImageBind può collegare oggetti in foto con attributi come suoni, forme 3D, temperatura e movimento. Il modello può essere utilizzato, ad esempio, per generare una scena da testo o suoni.
SeamlessM4T è un modello multimodale progettato da Meta per favorire la comunicazione tra comunità multilingui. SeamlessM4T eccelle in compiti di traduzione e trascrizione, supportando speech-to-speech, speech-to-text, text-to-speech e text-to-text traduzioni. Il modello utilizza un decodificatore testo-unità non autoregressivo per eseguire queste traduzioni. La versione migliorata, SeamlessM4T v2, costituisce la base per modelli come SeamlessExpressive e SeamlessStreaming, enfatizzando la conservazione dell’espressione attraverso le lingue e fornendo traduzioni con latenza minima.
GPT4, lanciato da OpenAI, è un avanzamento del suo predecessore, GPT3.5. Sebbene i dettagli architettonici specifici non siano completamente divulgati, GPT4 è ben considerato per la sua integrazione senza problemi di modelli testo-solo, visione-solo e audio-solo. Il modello può generare testo da input sia scritti che grafici. Eccelle in vari compiti, tra cui la descrizione dell’umorismo nelle immagini, la riassunzione del testo da screenshot e la risposta in modo adeguato a domande di esami che presentano diagrammi. GPT4 è anche riconosciuto per la sua adattabilità nell’elaborazione efficace di una vasta gamma di formati di dati di input.
Gemini, creato da Google DeepMind, si distingue per essere intrinsecamente multimodale, consentendo un’interazione senza problemi attraverso vari compiti senza fare affidamento sul collegamento di componenti a singola modalità. Questo modello gestisce agevolmente sia testo che diversi input audio-visivi, dimostrando la sua capacità di generare output sia in testo che in formato di immagine.

Sfide dei grandi modelli multimodali

Incorporare più modalità di dati: La maggior parte degli LMM esistenti opera con testo e immagini. Tuttavia, gli LMM devono evolversi oltre il testo e le immagini, accogliendo modalità come video, musica e 3D.
Disponibilità di dataset diversi: Una delle principali sfide nello sviluppo e nell’addestramento di modelli di intelligenza artificiale generativa multimodali è la necessità di grandi e diversi dataset che includono più modalità. Ad esempio, per addestrare un modello a generare testo e immagini insieme, il dataset deve includere sia input testuali che immagini correlate tra loro.
Generazione di output multimodali: Mentre gli LMM possono gestire input multimodali, generare output diversi, come combinare testo con grafica o animazioni, rimane una sfida.
Esecuzione di istruzioni: Gli LMM affrontano la sfida di padroneggiare il dialogo e i compiti di esecuzione di istruzioni, andando oltre il semplice completamento.
Ragionamento multimodale: Mentre gli LMM attuali eccellono nel trasformare una modalità in un’altra, l’integrazione senza problemi dei dati multimodali per compiti di ragionamento complessi, come risolvere problemi di parole scritte in base a istruzioni uditive, rimane un’impresa impegnativa.
Compressione degli LMM: La natura intensiva di risorse degli LMM rappresenta un ostacolo significativo, rendendoli impraticabili per dispositivi edge con risorse computazionali limitate. Comprimere gli LMM per migliorare l’efficienza e renderli adatti per la distribuzione su dispositivi con risorse limitate è un’area di ricerca in corso cruciale.

Casi d’uso potenziali

Istruzione: Gli LMM hanno il potenziale di trasformare l’istruzione generando materiali di apprendimento diversi e coinvolgenti che combinano testo, immagini e audio. Gli LMM forniscono un feedback completo sugli incarichi, promuovono piattaforme di apprendimento collaborative e migliorano lo sviluppo delle competenze attraverso simulazioni interattive ed esempi del mondo reale.
Sanità: A differenza dei sistemi di diagnostica di intelligenza artificiale tradizionali che si concentrano su una singola modalità, gli LMM migliorano la diagnostica medica integrando più modalità. Sostengono anche la comunicazione attraverso le barriere linguistiche tra i fornitori di servizi sanitari e i pazienti, agendo come un repository centralizzato per varie applicazioni di intelligenza artificiale all’interno degli ospedali.
Generazione di arte e musica: Gli LMM potrebbero eccellere nella creazione di arte e musica combinando diverse modalità per output unici ed espressivi. Ad esempio, un LMM per l’arte può fondere elementi visivi e udibili, fornendo un’esperienza immersiva. Allo stesso modo, un LMM per la musica può integrare elementi strumentali e vocali, risultando in composizioni dinamiche ed espressive.
Raccomandazioni personalizzate: Gli LMM possono analizzare le preferenze degli utenti attraverso diverse modalità per fornire raccomandazioni personalizzate per il consumo di contenuti, come film, musica, articoli o prodotti.

Predizione del tempo e monitoraggio ambientale: Gli LMM possono analizzare diverse modalità di dati, come immagini satellitari, condizioni atmosferiche e modelli storici, per migliorare l’accuratezza nella predizione del tempo e nel monitoraggio ambientale.

Conclusione

Il panorama dei grandi modelli multimodali (LMM) segna una svolta significativa nell’intelligenza artificiale generativa, promettendo progressi in vari campi. Mentre questi modelli integrano senza problemi diverse modalità, come testo, immagini e audio, il loro sviluppo apre le porte ad applicazioni trasformative nella sanità, nell’istruzione, nell’arte e nelle raccomandazioni personalizzate. Tuttavia, sfide, come l’accoglienza di più modalità di dati e la compressione di modelli intensivi di risorse, sottolineano gli sforzi di ricerca in corso necessari per la piena realizzazione del potenziale degli LMM.

Dr. Tehseen Zia

Il dottor Tehseen Zia è un professore associato con tenure presso l'Università COMSATS di Islamabad, con un dottorato in Intelligenza Artificiale presso l'Università Tecnica di Vienna, Austria. Specializzato in Intelligenza Artificiale, Apprendimento Automatico, Scienza dei Dati e Visione Artificiale, ha apportato contributi significativi con pubblicazioni su riviste scientifiche reputate. Il dottor Tehseen ha anche guidato vari progetti industriali come principale investigatore e ha lavorato come consulente di Intelligenza Artificiale.

Unite.AI

Presentazione dei grandi modelli multimodali: plasmando il panorama dei modelli linguistici nel 2024

Evolutzione dell’intelligenza artificiale generativa nel 2024: dai grandi modelli linguistici ai grandi modelli multimodali

Come funzionano gli LMM?

Sviluppo degli LMM nel 2023

Sfide dei grandi modelli multimodali

Casi d’uso potenziali

Conclusione

You may like