Intelligenza artificiale
L’evoluzione dell’AI multimodale con ChatGPT e GPT-4V

Nel continuo sforzo di rendere l’AI più simile agli esseri umani, i modelli GPT di OpenAI hanno continuamente spinto i confini. GPT-4 è ora in grado di accettare prompt di testo e immagini.
La multimodalità nell’AI generativa denota la capacità di un modello di produrre output vari come testo, immagini o audio in base all’input. Questi modelli, addestrati su dati specifici, imparano a riconoscere pattern sottostanti per generare nuovi dati simili, arricchendo le applicazioni AI.
Recenti progressi nell’AI multimodale
Un recente e notevole balzo in avanti in questo campo si è visto con l’integrazione di DALL-E 3 in ChatGPT, un significativo aggiornamento della tecnologia di testo-immagine di OpenAI. Questa fusione consente un’interazione più fluida in cui ChatGPT aiuta a creare prompt precisi per DALL-E 3, trasformando le idee degli utenti in vivide opere d’arte generate dall’AI. Quindi, mentre gli utenti possono interagire direttamente con DALL-E 3, avere ChatGPT nel mix rende il processo di creazione di arte AI molto più user-friendly.
Scopri di più su DALL-E 3 e la sua integrazione con ChatGPT qui. Questa collaborazione non solo mostra i progressi nell’AI multimodale, ma rende anche la creazione di arte AI una passeggiata per gli utenti.
Google, d’altra parte, ha introdotto Med-PaLM M nel giugno di quest’anno. Si tratta di un modello generativo multimodale in grado di codificare e interpretare dati biomedici diversi. Ciò è stato ottenuto addestrando PaLM-E, un modello linguistico, per adattarsi ai domini medici utilizzando un benchmark open-source, MultiMedBench. Questo benchmark consiste in oltre 1 milione di campioni in 7 tipi di dati biomedici e 14 compiti come la risposta a domande mediche e la generazione di rapporti di radiologia.
Varie industrie stanno adottando strumenti AI multimodali innovativi per alimentare l’espansione aziendale, semplificare le operazioni e elevare l’engagement dei clienti. I progressi nelle capacità di voce, video e testo AI stanno trainando la crescita dell’AI multimodale.
Le aziende cercano applicazioni AI multimodali in grado di rivoluzionare i modelli di business e i processi, aprendo vie di crescita in tutto l’ecosistema AI generativa, dalle tool di dati alle applicazioni AI emergenti.
Dopo il lancio di GPT-4 nel marzo scorso, alcuni utenti hanno osservato un calo nella qualità delle risposte nel tempo, una preoccupazione condivisa da noti sviluppatori e nei forum di OpenAI. Inizialmente liquidata da OpenAI, uno studio successivo confermò il problema. Rivelò un calo dell’accuratezza di GPT-4 dal 97,6% al 2,4% tra marzo e giugno, indicando un declino nella qualità delle risposte con gli aggiornamenti del modello successivi.
L’entusiasmo intorno a Open AI’s ChatGPT è tornato. Ora dispone di una funzione di visione GPT-4V, che consente agli utenti di far analizzare immagini a GPT-4. Questa è la più recente funzione resa disponibile agli utenti.
Aggiungere l’analisi di immagini ai grandi modelli linguistici (LLM) come GPT-4 è visto da alcuni come un grande passo avanti nella ricerca e nello sviluppo AI. Questo tipo di LLM multimodale apre nuove possibilità, portando i modelli linguistici oltre il testo per offrire nuove interfacce e risolvere nuovi tipi di compiti, creando esperienze fresche per gli utenti.
L’addestramento di GPT-4V è stato completato nel 2022, con l’accesso anticipato avviato nel marzo 2023. La funzione visiva in GPT-4V è alimentata dalla tecnologia GPT-4. Il processo di addestramento è rimasto lo stesso. Inizialmente, il modello è stato addestrato a prevedere la parola successiva in un testo utilizzando un enorme set di dati di testo e immagini da varie fonti, compreso internet.
In seguito, è stato perfezionato con più dati, utilizzando un metodo chiamato apprendimento per rinforzo da feedback umano (RLHF), per generare output che gli esseri umani preferiscono.
Meccanica della visione di GPT-4
Le notevoli capacità linguistiche di visione di GPT-4, sebbene impressionanti, hanno metodi sottostanti che rimangono in superficie.
Per esplorare questa ipotesi, è stato introdotto un nuovo modello di linguaggio e visione, MiniGPT-4, che utilizza un avanzato LLM chiamato Vicuna. Questo modello utilizza un encoder visivo con componenti pre-addestrati per la percezione visiva, allineando le caratteristiche visive codificate con il modello linguistico Vicuna attraverso un singolo strato di proiezione. L’architettura di MiniGPT-4 è semplice ma efficace, con un focus sull’allineamento delle caratteristiche visive e linguistiche per migliorare le capacità di conversazione visiva.

L’architettura di MiniGPT-4 include un encoder visivo con ViT e Q-Former pre-addestrati, uno strato di proiezione lineare singolo e un avanzato modello linguistico Vicuna.
La tendenza dei modelli linguistici autoregressivi nei compiti di linguaggio e visione è anche cresciuta, sfruttando il trasferimento cross-modale per condividere conoscenze tra domini linguistici e multimodali.
MiniGPT-4 collega i domini visivi e linguistici allineando le informazioni visive da un encoder visivo pre-addestrato con un avanzato LLM. Il modello utilizza Vicuna come decoder linguistico e segue un approccio di addestramento a due fasi. Inizialmente, viene addestrato su un grande set di dati di coppie di immagini e testo per acquisire conoscenze di linguaggio e visione, seguito da un perfezionamento su un set di dati più piccolo e di alta qualità per migliorare l’affidabilità e l’usabilità della generazione.
Per migliorare la naturalità e l’usabilità del linguaggio generato in MiniGPT-4, i ricercatori hanno sviluppato un processo di allineamento a due fasi, affrontando la mancanza di adeguati set di dati di allineamento linguaggio-visione. Hanno curato un set di dati specializzato a questo scopo.
Inizialmente, il modello generava descrizioni dettagliate delle immagini di input, migliorando i dettagli utilizzando un prompt conversazionale allineato con il formato del modello linguistico Vicuna. Questa fase aveva lo scopo di generare descrizioni di immagini più complete.
Prompt di descrizione dell’immagine iniziale:
###Umano: <Img><Caratteristica dell’immagine></Img>Descrivi questa immagine nel dettaglio. Fornisci tutti i dettagli possibili. Descrivi tutto ciò che vedi. ###Assistente:
Per l’elaborazione dei dati post-processing, eventuali incongruenze o errori nelle descrizioni generate sono stati corretti utilizzando ChatGPT, seguiti da una verifica manuale per garantire la qualità.
Prompt di perfezionamento della seconda fase:
###Umano: <Img><Caratteristica dell’immagine></Img><Istruzione>###Assistente:
Questa esplorazione apre una finestra sulla comprensione della meccanica dell’AI generativa multimodale come GPT-4, gettando luce su come le modalità di visione e linguaggio possano essere integrate efficacemente per generare output coerenti e ricchi di contesto.
Esplorare la visione di GPT-4
Determinare le origini delle immagini con ChatGPT
GPT-4 Vision migliora la capacità di ChatGPT di analizzare le immagini e individuare le loro origini geografiche. Questa funzione trasferisce le interazioni degli utenti da solo testo a una combinazione di testo e immagini, diventando uno strumento utile per coloro che sono curiosi di luoghi diversi attraverso i dati delle immagini.
Concetti matematici complessi
GPT-4 Vision eccelle nell’approfondire concetti matematici complessi analizzando espressioni grafiche o scritte a mano. Questa funzione agisce come uno strumento utile per gli individui che cercano di risolvere problemi matematici intricati, segnando GPT-4 Vision come un aiuto notevole nei campi educativi e accademici.
Conversione di input scritti a mano in codici LaTeX
Una delle capacità notevoli di GPT-4V è la sua capacità di tradurre input scritti a mano in codici LaTeX. Questa funzione è un vantaggio per ricercatori, accademici e studenti che spesso devono convertire espressioni matematiche scritte a mano o altre informazioni tecniche in un formato digitale. La trasformazione da scritto a LaTeX allarga l’orizzonte della digitalizzazione dei documenti e semplifica il processo di scrittura tecnica.
Estrazione di dettagli da tabelle
GPT-4V dimostra abilità nell’estrazione di dettagli da tabelle e nel rispondere a domande correlate, un asset vitale nell’analisi dei dati. Gli utenti possono utilizzare GPT-4V per setacciare tabelle, raccogliere informazioni chiave e rispondere a domande, rendendolo uno strumento robusto per gli analisti di dati e altri professionisti.
Comprensione del puntamento visivo
La capacità unica di GPT-4V di comprendere il puntamento visivo aggiunge una nuova dimensione all’interazione dell’utente. Comprendendo i segnali visivi, GPT-4V può rispondere a query con una comprensione del contesto più alta.
Creazione di siti web mock-up semplici utilizzando un disegno
Ispirato da questo tweet, ho cercato di creare un mock-up per il sito web unite.ai.
Mentre il risultato non ha completamente corrisposto alla mia visione iniziale, ecco il risultato che ho ottenuto.
Limitazioni e difetti di GPT-4V(ision)
Per analizzare GPT-4V, il team di Open AI ha condotto valutazioni qualitative e quantitative. Le valutazioni qualitative includevano test interni e recensioni di esperti esterni, mentre le valutazioni quantitative misuravano i rifiuti del modello e l’accuratezza in vari scenari come l’identificazione di contenuti dannosi, il riconoscimento demografico, le preoccupazioni sulla privacy, la geolocalizzazione, la sicurezza informatica e le evasioni multimodali.
Tuttavia, il modello non è perfetto.
Il documento evidenzia le limitazioni di GPT-4V, come inferenze errate e testo o caratteri mancanti nelle immagini. Può hallucinare o inventare fatti. In particolare, non è adatto per l’identificazione di sostanze pericolose nelle immagini, spesso scambiandole per altre.
Nell’imaging medico, GPT-4V può fornire risposte inconsistenti e manca di consapevolezza delle pratiche standard, portando a potenziali diagnosi errate.

Prestazioni non affidabili per scopi medici (Fonte)
Non riesce inoltre a cogliere le sfumature di alcuni simboli di odio e può generare contenuti inappropriati in base agli input visivi. OpenAI consiglia di non utilizzare GPT-4V per interpretazioni critiche, specialmente in contesti medici o sensibili.
Riassunto

Creata utilizzando Fast Stable Diffusion XL https://huggingface.co/spaces/google/sdxl
L’arrivo di GPT-4 Vision (GPT-4V) porta con sé un mucchio di nuove possibilità e nuovi ostacoli da superare. Prima del suo lancio, è stato fatto molto per assicurarsi che i rischi, specialmente quando si tratta di immagini di persone, siano stati esaminati e ridotti. È impressionante vedere come GPT-4V abbia fatto un grande passo avanti, mostrando molta promessa in aree difficili come la medicina e la scienza.
Ora, ci sono alcune grandi domande sul tavolo. Ad esempio, questi modelli dovrebbero essere in grado di identificare personaggi famosi dalle foto? Dovrebbero indovinare il genere, la razza o le emozioni di una persona da un’immagine? E dovrebbero esserci modifiche speciali per aiutare le persone con disabilità visive? Queste domande aprono un vaso di Pandora sulla privacy, l’equità e su come l’AI dovrebbe integrarsi nella nostra vita, su cui tutti dovrebbero avere una parola da dire.




















