Intelligenza Artificiale

L'intelligenza artificiale multimodale si evolve mentre ChatGPT guadagna visibilità con GPT-4V(ision)

aggiornato on Ottobre 9, 2023

Nello sforzo continuo di rendere l’intelligenza artificiale più simile agli esseri umani, i modelli GPT di OpenAI hanno continuamente ampliato i confini. GPT-4 è ora in grado di accettare richieste sia di testo che di immagini.

La multimodalità nell'intelligenza artificiale generativa denota la capacità di un modello di produrre vari output come testo, immagini o audio in base all'input. Questi modelli, addestrati su dati specifici, apprendono modelli sottostanti per generare nuovi dati simili, arricchendo le applicazioni di intelligenza artificiale.

Progressi recenti nell’intelligenza artificiale multimodale

Un recente notevole passo avanti in questo campo è stato osservato con l'integrazione di DALL-E 3 in ChatGPT, un aggiornamento significativo nella tecnologia text-to-image di OpenAI. Questa combinazione consente un'interazione più fluida in cui ChatGPT aiuta a creare suggerimenti precisi per DALL-E 3, trasformando le idee degli utenti in vivide opere d'arte generate dall'intelligenza artificiale. Pertanto, mentre gli utenti possono interagire direttamente con DALL-E 3, avere ChatGPT nel mix rende il processo di creazione dell'arte AI molto più user-friendly.

Scopri di più su DALL-E 3 e sulla sua integrazione con ChatGPT qui. Questa collaborazione non solo mostra i progressi nell’intelligenza artificiale multimodale, ma rende anche la creazione artistica basata sull’intelligenza artificiale un gioco da ragazzi per gli utenti.

https://openai.com/dall-e-3

La salute di Google, invece, ha introdotto Med-PaLM M nel giugno di quest'anno. È un modello generativo multimodale in grado di codificare e interpretare diversi dati biomedici. Ciò è stato ottenuto perfezionando PaLM-E, un modello linguistico, per soddisfare i domini medici utilizzando un benchmark open source, MultiMedBench. Questo benchmark è costituito da oltre 1 milione di campioni in 7 tipi di dati biomedici e 14 attività come la risposta a domande mediche e la generazione di report radiologici.

Vari settori stanno adottando strumenti innovativi di intelligenza artificiale multimodale per favorire l’espansione del business, semplificare le operazioni e aumentare il coinvolgimento dei clienti. I progressi nelle funzionalità dell’intelligenza artificiale vocale, video e testuale stanno stimolando la crescita dell’intelligenza artificiale multimodale.

Le imprese cercano applicazioni IA multimodali in grado di rivedere modelli e processi di business, aprendo strade di crescita nell’ecosistema dell’intelligenza artificiale generativa, dagli strumenti di dati alle applicazioni IA emergenti.

Dopo il lancio di GPT-4 a marzo, alcuni utenti hanno osservato un calo della qualità della risposta nel tempo, una preoccupazione ripresa da importanti sviluppatori e sui forum di OpenAI. Inizialmente respinto da un OpenAI, successivamente studio ha confermato il problema. Ha rivelato un calo della precisione di GPT-4 dal 97.6% al 2.4% tra marzo e giugno, indicando un calo della qualità della risposta con i successivi aggiornamenti del modello.

ChatGPT (blu) e Intelligenza artificiale (rosso) Tendenza della ricerca Google

L'hype intorno Apri IA ChatGPT è tornato ora. Ora viene fornito con una funzione di visione GPT-4V, consentendo agli utenti di fare in modo che GPT-4 analizzi le immagini fornite da loro. Questa è la funzionalità più recente che è stata aperta agli utenti.

L'aggiunta dell'analisi delle immagini a modelli linguistici di grandi dimensioni (LLM) come GPT-4 è vista da alcuni come un grande passo avanti nella ricerca e nello sviluppo dell'intelligenza artificiale. Questo tipo di LLM multimodale apre nuove possibilità, portando i modelli linguistici oltre il testo per offrire nuove interfacce e risolvere nuovi tipi di compiti, creando nuove esperienze per gli utenti.

La formazione di GPT-4V è stata completata nel 2022, con l'accesso anticipato lanciato nel marzo 2023. La funzionalità visiva di GPT-4V è alimentata dalla tecnologia GPT-4. Il processo di formazione è rimasto lo stesso. Inizialmente, il modello è stato addestrato a prevedere la parola successiva in un testo utilizzando un enorme set di dati di testo e immagini provenienti da varie fonti, incluso Internet.

Successivamente, è stato perfezionato con più dati, utilizzando un metodo chiamato apprendimento per rinforzo dal feedback umano (RLHF), per generare risultati preferiti dagli umani.

Meccanica della visione GPT-4

Le straordinarie capacità del linguaggio visivo di GPT-4, sebbene impressionanti, hanno metodi sottostanti che rimangono in superficie.

Per esplorare questa ipotesi, un nuovo modello di linguaggio-visione, miniGPT-4 è stato introdotto, utilizzando un LLM avanzato denominato Vicuna. Questo modello utilizza un codificatore di visione con componenti pre-addestrati per la percezione visiva, allineando le caratteristiche visive codificate con il modello linguistico Vicuna attraverso un singolo livello di proiezione. L'architettura di MiniGPT-4 è semplice ma efficace, con particolare attenzione all'allineamento delle funzionalità visive e linguistiche per migliorare le capacità di conversazione visiva.

L'architettura di MiniGPT-4 include un codificatore di visione con ViT e Q-Former pre-addestrati, un singolo strato di proiezione lineare e un modello di linguaggio Vicuna large avanzato.

È cresciuta anche la tendenza dei modelli linguistici autoregressivi nei compiti del linguaggio visivo, sfruttando il trasferimento intermodale per condividere la conoscenza tra domini linguistici e multimodali.

MiniGPT-4 collega i domini visivo e linguistico allineando le informazioni visive provenienti da un codificatore visivo pre-addestrato con un LLM avanzato. Il modello utilizza Vicuna come decodificatore del linguaggio e segue un approccio formativo in due fasi. Inizialmente, viene addestrato su un ampio set di dati di coppie immagine-testo per comprendere la conoscenza del linguaggio visivo, seguito da un perfezionamento su un set di dati più piccolo e di alta qualità per migliorare l'affidabilità e l'usabilità della generazione.

Per migliorare la naturalezza e l'usabilità del linguaggio generato nel MiniGPT-4, i ricercatori hanno sviluppato un processo di allineamento in due fasi, affrontando la mancanza di adeguati set di dati di allineamento visione-linguaggio. Hanno curato un set di dati specializzato a questo scopo.

Inizialmente, il modello ha generato descrizioni dettagliate delle immagini di input, migliorando i dettagli utilizzando un prompt conversazionale allineato al formato del modello linguistico Vicuna. Questa fase mirava a generare descrizioni di immagini più complete.

Richiesta descrizione immagine iniziale:

###Umano: Descrivi questa immagine in dettaglio. Fornisci quanti più dettagli possibili. Di' tutto quello che vedi. ###Assistente:

Per la post-elaborazione dei dati, eventuali incoerenze o errori nelle descrizioni generate sono stati corretti utilizzando ChatGPT, seguito da una verifica manuale per garantire un'elevata qualità.

Richiesta di regolazione fine della seconda fase:

###Umano: ###Assistente:

Questa esplorazione apre una finestra sulla comprensione dei meccanismi dell’intelligenza artificiale generativa multimodale come GPT-4, facendo luce su come le modalità di visione e linguaggio possono essere efficacemente integrate per generare risultati coerenti e contestualmente ricchi.

Esplorando GPT-4 Vision

Determinazione delle origini delle immagini con ChatGPT

GPT-4 Vision migliora la capacità di ChatGPT di analizzare le immagini e individuarne le origini geografiche. Questa funzionalità trasforma le interazioni dell'utente dal solo testo a un mix di testo e immagini, diventando uno strumento utile per chi è curioso di conoscere luoghi diversi attraverso i dati delle immagini.

Chiedere a ChatGPT dove è stata scattata un'immagine di riferimento

Concetti matematici complessi

GPT-4 Vision eccelle nell'approfondimento di idee matematiche complesse analizzando espressioni grafiche o scritte a mano. Questa funzionalità funge da strumento utile per le persone che desiderano risolvere complessi problemi matematici, rendendo GPT-4 Vision un notevole aiuto nei campi educativi e accademici.

Chiedere a ChatGPT di comprendere un concetto matematico complesso

Conversione di input scritti a mano in codici LaTeX

Una delle straordinarie capacità di GPT-4V è la sua capacità di tradurre input scritti a mano in codici LaTeX. Questa funzionalità è un vantaggio per ricercatori, accademici e studenti che spesso hanno bisogno di convertire espressioni matematiche scritte a mano o altre informazioni tecniche in un formato digitale. La trasformazione dalla scrittura a mano a LaTeX amplia l'orizzonte della digitalizzazione dei documenti e semplifica il processo di scrittura tecnica.

Capacità di GPT-4V di convertire input scritti a mano in codici LaTeX

Estrazione dei dettagli della tabella

GPT-4V mette in mostra l'abilità nell'estrarre dettagli dalle tabelle e nel rispondere alle richieste correlate, una risorsa vitale nell'analisi dei dati. Gli utenti possono utilizzare GPT-4V per esaminare tabelle, raccogliere informazioni chiave e risolvere domande basate sui dati, rendendolo uno strumento affidabile per analisti di dati e altri professionisti.

GPT-4V decifra i dettagli della tabella e risponde alle domande correlate

Comprendere il puntamento visivo

La capacità unica di GPT-4V di comprendere il puntamento visivo aggiunge una nuova dimensione all'interazione dell'utente. Comprendendo i segnali visivi, GPT-4V può rispondere alle domande con una comprensione contestuale più elevata.

GPT-4V mostra la distinta capacità di comprendere il puntamento visivo

Creazione di semplici siti Web mock-up utilizzando un disegno

Motivato da questo Tweet, ho tentato di creare un modello per il sito web unite.ai.

Anche se il risultato non corrispondeva del tutto alla mia visione iniziale, ecco il risultato che ho ottenuto.

Frontend HTML di output basato su ChatGPT Vision

Limitazioni e difetti di GPT-4V(ision)

Per analizzare GPT-4V, il team Open AI ha effettuato valutazioni qualitative e quantitative. Quelli qualitativi includevano test interni e revisioni di esperti esterni, mentre quelli quantitativi misuravano i rifiuti dei modelli e l’accuratezza in vari scenari come l’identificazione di contenuti dannosi, il riconoscimento demografico, i problemi di privacy, la geolocalizzazione, la sicurezza informatica e i jailbreak multimodali.

Tuttavia il modello non è perfetto.

Il carta evidenzia i limiti di GPT-4V, come inferenze errate e testo o caratteri mancanti nelle immagini. Può avere allucinazioni o inventare fatti. In particolare, non è adatto per identificare sostanze pericolose nelle immagini, spesso identificandole erroneamente.

Nell'imaging medico, GPT-4V può fornire risposte incoerenti e manca di consapevolezza delle pratiche standard, portando a potenziali diagnosi errate.

Prestazioni inaffidabili per scopi medici (Fonte)

Inoltre, non riesce a cogliere le sfumature di alcuni simboli di odio e può generare contenuti inappropriati in base agli input visivi. OpenAI sconsiglia l'utilizzo di GPT-4V per interpretazioni critiche, soprattutto in contesti medici o sensibili.

Avvolgere Up

Creato utilizzando Fast Stable Diffusion XL https://huggingface.co/spaces/google/sdxl

L'arrivo di GPT-4 Vision (GPT-4V) porta con sé un sacco di interessanti possibilità e nuovi ostacoli da superare. Prima di lanciarlo, sono stati fatti molti sforzi per assicurarsi che i rischi, soprattutto quando si tratta di foto di persone, siano ben esaminati e ridotti. È impressionante vedere come il GPT-4V abbia fatto passi da gigante, mostrando molte promesse in settori difficili come la medicina e la scienza.

Ora, ci sono alcune grandi domande sul tavolo. Ad esempio, questi modelli dovrebbero essere in grado di identificare personaggi famosi dalle foto? Dovrebbero indovinare il sesso, la razza o i sentimenti di una persona da un'immagine? E dovrebbero esserci modifiche speciali per aiutare le persone ipovedenti? Queste domande aprono un vaso di vetro sulla privacy, sull’equità e su come l’intelligenza artificiale dovrebbe adattarsi alle nostre vite, che è qualcosa su cui tutti dovrebbero avere voce in capitolo.

Argomenti correlati:chatgpt DALL-MI3 IA multimodale PRONTA INGEGNERIA

Avanti il prossimo

Midjourney vs diffusione stabile: la battaglia dei generatori di immagini AI

Da non perdere

Dall'Internet delle cose all'Internet of Everything: la convergenza di AI e 6G per l'intelligenza connessa

Ayush Mittal

Ho trascorso gli ultimi cinque anni immergendomi nell'affascinante mondo del Machine Learning e del Deep Learning. La mia passione e competenza mi hanno portato a contribuire a oltre 50 diversi progetti di ingegneria del software, con un focus particolare su AI/ML. La mia continua curiosità mi ha anche attirato verso l'elaborazione del linguaggio naturale, un campo che non vedo l'ora di esplorare ulteriormente.

Unite.AI

L'intelligenza artificiale multimodale si evolve mentre ChatGPT guadagna visibilità con GPT-4V(ision)

Intelligenza Artificiale

L'intelligenza artificiale multimodale si evolve mentre ChatGPT guadagna visibilità con GPT-4V(ision)

Sommario