Intelligenza artificiale

L’evoluzione dell’AI multimodale con ChatGPT e GPT-4V

mm
chatgpt vision

Nel continuo sforzo di rendere l’AI più simile agli esseri umani, i modelli GPT di OpenAI hanno continuamente spinto i confini. GPT-4 è ora in grado di accettare prompt di testo e immagini.

La multimodalità nell’AI generativa denota la capacità di un modello di produrre output vari come testo, immagini o audio in base all’input. Questi modelli, addestrati su dati specifici, imparano a riconoscere pattern sottostanti per generare nuovi dati simili, arricchendo le applicazioni AI.

Recenti progressi nell’AI multimodale

Un recente e notevole balzo in avanti in questo campo si è visto con l’integrazione di DALL-E 3 in ChatGPT, un significativo aggiornamento della tecnologia di testo-immagine di OpenAI. Questa fusione consente un’interazione più fluida in cui ChatGPT aiuta a creare prompt precisi per DALL-E 3, trasformando le idee degli utenti in vivide opere d’arte generate dall’AI. Quindi, mentre gli utenti possono interagire direttamente con DALL-E 3, avere ChatGPT nel mix rende il processo di creazione di arte AI molto più user-friendly.

Scopri di più su DALL-E 3 e la sua integrazione con ChatGPT qui. Questa collaborazione non solo mostra i progressi nell’AI multimodale, ma rende anche la creazione di arte AI una passeggiata per gli utenti.

Google, d’altra parte, ha introdotto Med-PaLM M nel giugno di quest’anno. Si tratta di un modello generativo multimodale in grado di codificare e interpretare dati biomedici diversi. Ciò è stato ottenuto addestrando PaLM-E, un modello linguistico, per adattarsi ai domini medici utilizzando un benchmark open-source, MultiMedBench. Questo benchmark consiste in oltre 1 milione di campioni in 7 tipi di dati biomedici e 14 compiti come la risposta a domande mediche e la generazione di rapporti di radiologia.

Varie industrie stanno adottando strumenti AI multimodali innovativi per alimentare l’espansione aziendale, semplificare le operazioni e elevare l’engagement dei clienti. I progressi nelle capacità di voce, video e testo AI stanno trainando la crescita dell’AI multimodale.

Le aziende cercano applicazioni AI multimodali in grado di rivoluzionare i modelli di business e i processi, aprendo vie di crescita in tutto l’ecosistema AI generativa, dalle tool di dati alle applicazioni AI emergenti.

Dopo il lancio di GPT-4 nel marzo scorso, alcuni utenti hanno osservato un calo nella qualità delle risposte nel tempo, una preoccupazione condivisa da noti sviluppatori e nei forum di OpenAI. Inizialmente liquidata da OpenAI, uno studio successivo confermò il problema. Rivelò un calo dell’accuratezza di GPT-4 dal 97,6% al 2,4% tra marzo e giugno, indicando un declino nella qualità delle risposte con gli aggiornamenti del modello successivi.

chatgpt-ai

ChatGPT (Blu) & Artificial intelligence (Rosso) Google Search Trend

L’entusiasmo intorno a Open AI’s ChatGPT è tornato. Ora dispone di una funzione di visione GPT-4V, che consente agli utenti di far analizzare immagini a GPT-4. Questa è la più recente funzione resa disponibile agli utenti.

Aggiungere l’analisi di immagini ai grandi modelli linguistici (LLM) come GPT-4 è visto da alcuni come un grande passo avanti nella ricerca e nello sviluppo AI. Questo tipo di LLM multimodale apre nuove possibilità, portando i modelli linguistici oltre il testo per offrire nuove interfacce e risolvere nuovi tipi di compiti, creando esperienze fresche per gli utenti.

L’addestramento di GPT-4V è stato completato nel 2022, con l’accesso anticipato avviato nel marzo 2023. La funzione visiva in GPT-4V è alimentata dalla tecnologia GPT-4. Il processo di addestramento è rimasto lo stesso. Inizialmente, il modello è stato addestrato a prevedere la parola successiva in un testo utilizzando un enorme set di dati di testo e immagini da varie fonti, compreso internet.

In seguito, è stato perfezionato con più dati, utilizzando un metodo chiamato apprendimento per rinforzo da feedback umano (RLHF), per generare output che gli esseri umani preferiscono.

Meccanica della visione di GPT-4

Le notevoli capacità linguistiche di visione di GPT-4, sebbene impressionanti, hanno metodi sottostanti che rimangono in superficie.

Per esplorare questa ipotesi, è stato introdotto un nuovo modello di linguaggio e visione, MiniGPT-4, che utilizza un avanzato LLM chiamato Vicuna. Questo modello utilizza un encoder visivo con componenti pre-addestrati per la percezione visiva, allineando le caratteristiche visive codificate con il modello linguistico Vicuna attraverso un singolo strato di proiezione. L’architettura di MiniGPT-4 è semplice ma efficace, con un focus sull’allineamento delle caratteristiche visive e linguistiche per migliorare le capacità di conversazione visiva.

MiniGPT-4

L’architettura di MiniGPT-4 include un encoder visivo con ViT e Q-Former pre-addestrati, uno strato di proiezione lineare singolo e un avanzato modello linguistico Vicuna.

La tendenza dei modelli linguistici autoregressivi nei compiti di linguaggio e visione è anche cresciuta, sfruttando il trasferimento cross-modale per condividere conoscenze tra domini linguistici e multimodali.

MiniGPT-4 collega i domini visivi e linguistici allineando le informazioni visive da un encoder visivo pre-addestrato con un avanzato LLM. Il modello utilizza Vicuna come decoder linguistico e segue un approccio di addestramento a due fasi. Inizialmente, viene addestrato su un grande set di dati di coppie di immagini e testo per acquisire conoscenze di linguaggio e visione, seguito da un perfezionamento su un set di dati più piccolo e di alta qualità per migliorare l’affidabilità e l’usabilità della generazione.

Per migliorare la naturalità e l’usabilità del linguaggio generato in MiniGPT-4, i ricercatori hanno sviluppato un processo di allineamento a due fasi, affrontando la mancanza di adeguati set di dati di allineamento linguaggio-visione. Hanno curato un set di dati specializzato a questo scopo.

Inizialmente, il modello generava descrizioni dettagliate delle immagini di input, migliorando i dettagli utilizzando un prompt conversazionale allineato con il formato del modello linguistico Vicuna. Questa fase aveva lo scopo di generare descrizioni di immagini più complete.

Prompt di descrizione dell’immagine iniziale:

###Umano: <Img><Caratteristica dell’immagine></Img>Descrivi questa immagine nel dettaglio. Fornisci tutti i dettagli possibili. Descrivi tutto ciò che vedi. ###Assistente:

Per l’elaborazione dei dati post-processing, eventuali incongruenze o errori nelle descrizioni generate sono stati corretti utilizzando ChatGPT, seguiti da una verifica manuale per garantire la qualità.

Prompt di perfezionamento della seconda fase:

###Umano: <Img><Caratteristica dell’immagine></Img><Istruzione>###Assistente:

Questa esplorazione apre una finestra sulla comprensione della meccanica dell’AI generativa multimodale come GPT-4, gettando luce su come le modalità di visione e linguaggio possano essere integrate efficacemente per generare output coerenti e ricchi di contesto.

Esplorare la visione di GPT-4

Determinare le origini delle immagini con ChatGPT

GPT-4 Vision migliora la capacità di ChatGPT di analizzare le immagini e individuare le loro origini geografiche. Questa funzione trasferisce le interazioni degli utenti da solo testo a una combinazione di testo e immagini, diventando uno strumento utile per coloro che sono curiosi di luoghi diversi attraverso i dati delle immagini.

Chatgpt-vision-GPT-4

Chiedere a ChatGPT dove è stata scattata un’immagine di un luogo di interesse

Concetti matematici complessi

GPT-4 Vision eccelle nell’approfondire concetti matematici complessi analizzando espressioni grafiche o scritte a mano. Questa funzione agisce come uno strumento utile per gli individui che cercano di risolvere problemi matematici intricati, segnando GPT-4 Vision come un aiuto notevole nei campi educativi e accademici.

Chatgpt-vision-GPT-4

Chiedere a ChatGPT di comprendere un concetto matematico complesso

Conversione di input scritti a mano in codici LaTeX

Una delle capacità notevoli di GPT-4V è la sua capacità di tradurre input scritti a mano in codici LaTeX. Questa funzione è un vantaggio per ricercatori, accademici e studenti che spesso devono convertire espressioni matematiche scritte a mano o altre informazioni tecniche in un formato digitale. La trasformazione da scritto a LaTeX allarga l’orizzonte della digitalizzazione dei documenti e semplifica il processo di scrittura tecnica.

Capacità di GPT-4V di convertire input scritti a mano in codici LaTeX

Capacità di GPT-4V di convertire input scritti a mano in codici LaTeX

Estrazione di dettagli da tabelle

GPT-4V dimostra abilità nell’estrazione di dettagli da tabelle e nel rispondere a domande correlate, un asset vitale nell’analisi dei dati. Gli utenti possono utilizzare GPT-4V per setacciare tabelle, raccogliere informazioni chiave e rispondere a domande, rendendolo uno strumento robusto per gli analisti di dati e altri professionisti.

GPT-4V che comprende i dettagli nella tabella e risponde a domande correlate

GPT-4V che comprende i dettagli nella tabella e risponde a domande correlate

Comprensione del puntamento visivo

La capacità unica di GPT-4V di comprendere il puntamento visivo aggiunge una nuova dimensione all’interazione dell’utente. Comprendendo i segnali visivi, GPT-4V può rispondere a query con una comprensione del contesto più alta.

GPT-4V dimostra la capacità unica di comprendere il puntamento visivo

GPT-4V dimostra la capacità unica di comprendere il puntamento visivo

Creazione di siti web mock-up semplici utilizzando un disegno

Ispirato da questo tweet, ho cercato di creare un mock-up per il sito web unite.ai.

Mentre il risultato non ha completamente corrisposto alla mia visione iniziale, ecco il risultato che ho ottenuto.

Output HTML Frontend basato su ChatGPT Vision

Output HTML Frontend basato su ChatGPT Vision

Limitazioni e difetti di GPT-4V(ision)

Per analizzare GPT-4V, il team di Open AI ha condotto valutazioni qualitative e quantitative. Le valutazioni qualitative includevano test interni e recensioni di esperti esterni, mentre le valutazioni quantitative misuravano i rifiuti del modello e l’accuratezza in vari scenari come l’identificazione di contenuti dannosi, il riconoscimento demografico, le preoccupazioni sulla privacy, la geolocalizzazione, la sicurezza informatica e le evasioni multimodali.

Tuttavia, il modello non è perfetto.

Il documento evidenzia le limitazioni di GPT-4V, come inferenze errate e testo o caratteri mancanti nelle immagini. Può hallucinare o inventare fatti. In particolare, non è adatto per l’identificazione di sostanze pericolose nelle immagini, spesso scambiandole per altre.

Nell’imaging medico, GPT-4V può fornire risposte inconsistenti e manca di consapevolezza delle pratiche standard, portando a potenziali diagnosi errate.

Prestazioni non affidabili per scopi medici.

Prestazioni non affidabili per scopi medici (Fonte)

Non riesce inoltre a cogliere le sfumature di alcuni simboli di odio e può generare contenuti inappropriati in base agli input visivi. OpenAI consiglia di non utilizzare GPT-4V per interpretazioni critiche, specialmente in contesti medici o sensibili.

Riassunto

Creata utilizzando Fast Stable Diffusion XL

Creata utilizzando Fast Stable Diffusion XL https://huggingface.co/spaces/google/sdxl

L’arrivo di GPT-4 Vision (GPT-4V) porta con sé un mucchio di nuove possibilità e nuovi ostacoli da superare. Prima del suo lancio, è stato fatto molto per assicurarsi che i rischi, specialmente quando si tratta di immagini di persone, siano stati esaminati e ridotti. È impressionante vedere come GPT-4V abbia fatto un grande passo avanti, mostrando molta promessa in aree difficili come la medicina e la scienza.

Ora, ci sono alcune grandi domande sul tavolo. Ad esempio, questi modelli dovrebbero essere in grado di identificare personaggi famosi dalle foto? Dovrebbero indovinare il genere, la razza o le emozioni di una persona da un’immagine? E dovrebbero esserci modifiche speciali per aiutare le persone con disabilità visive? Queste domande aprono un vaso di Pandora sulla privacy, l’equità e su come l’AI dovrebbe integrarsi nella nostra vita, su cui tutti dovrebbero avere una parola da dire.

Ho trascorso gli ultimi cinque anni immergendomi nel mondo affascinante del Machine Learning e del Deep Learning. La mia passione e la mia esperienza mi hanno portato a contribuire a oltre 50 progetti di ingegneria del software diversi, con un focus particolare su AI/ML. La mia curiosità in corso mi ha anche portato verso l'elaborazione del linguaggio naturale, un campo che sono ansioso di esplorare ulteriormente.