Seguici sui social

L'intelligenza artificiale multimodale si evolve mentre ChatGPT guadagna visibilità con GPT-4V(ision)

Intelligenza Artificiale

L'intelligenza artificiale multimodale si evolve mentre ChatGPT guadagna visibilità con GPT-4V(ision)

mm
visione chatgpt

Nel continuo sforzo di rendere l'intelligenza artificiale più simile agli esseri umani, i modelli GPT di OpenAI hanno continuato a spingersi oltre i limiti. GPT-4 è ora in grado di accettare prompt sia di testo che di immagini.

La multimodalità nell'IA generativa indica la capacità di un modello di produrre output diversi, come testo, immagini o audio, in base all'input. Questi modelli, addestrati su dati specifici, apprendono modelli sottostanti per generare nuovi dati simili, arricchendo le applicazioni di IA.

Progressi recenti nell’intelligenza artificiale multimodale

Un recente notevole passo avanti in questo campo è stato compiuto con l'integrazione di DALL-E 3 in ChatGPT, un significativo aggiornamento della tecnologia text-to-image di OpenAI. Questa integrazione consente un'interazione più fluida, in cui ChatGPT aiuta a creare prompt precisi per DALL-E 3, trasformando le idee degli utenti in vivide opere d'arte generate dall'intelligenza artificiale. Pertanto, mentre gli utenti possono interagire direttamente con DALL-E 3, la presenza di ChatGPT rende il processo di creazione di opere d'arte basate sull'intelligenza artificiale molto più intuitivo.

Scopri di più su DALL-E 3 e sulla sua integrazione con ChatGPT Qui.. Questa collaborazione non solo mostra i progressi nell’intelligenza artificiale multimodale, ma rende anche la creazione artistica basata sull’intelligenza artificiale un gioco da ragazzi per gli utenti.

Google Health, invece, ha introdotto Med-PaLM M a giugno di quest'anno. Si tratta di un modello generativo multimodale in grado di codificare e interpretare diversi dati biomedici. Questo risultato è stato ottenuto perfezionando PaLM-E, un modello linguistico, per adattarlo alle esigenze del settore medico, utilizzando un benchmark open source, MultiMedBench. Questo benchmark è costituito da oltre 1 milione di campioni suddivisi in 7 tipi di dati biomedici e 14 attività, tra cui la risposta a quesiti medici e la generazione di referti radiologici.

Diversi settori stanno adottando innovativi strumenti di intelligenza artificiale multimodale per favorire l'espansione aziendale, semplificare le operazioni e migliorare il coinvolgimento dei clienti. I progressi nelle capacità di intelligenza artificiale vocale, video e testuale stanno stimolando la crescita dell'intelligenza artificiale multimodale.

Le imprese cercano applicazioni IA multimodali in grado di rivedere modelli e processi di business, aprendo strade di crescita nell’ecosistema dell’intelligenza artificiale generativa, dagli strumenti di dati alle applicazioni IA emergenti.

Dopo il lancio di GPT-4 a marzo, alcuni utenti hanno notato un calo della qualità della risposta nel tempo, una preoccupazione condivisa da sviluppatori di spicco e sui forum di OpenAI. Inizialmente respinta da OpenAI, una successiva studio ha confermato il problema. Ha rivelato un calo della precisione di GPT-4 dal 97.6% al 2.4% tra marzo e giugno, indicando un calo della qualità della risposta con i successivi aggiornamenti del modello.

chatgpt-ai

ChatGPT (blu) e Intelligenza artificiale (rosso) Tendenza della ricerca Google

L'hype intorno Apri AI ChatGPT è tornato ora. Ora viene fornito con una funzione di visione GPT-4V, consentendo agli utenti di far analizzare le immagini fornite da GPT-4. Questa è la funzionalità più recente resa disponibile agli utenti.

L'aggiunta dell'analisi delle immagini a modelli linguistici di grandi dimensioni (LLM) come GPT-4 è vista da alcuni come un grande passo avanti nella ricerca e nello sviluppo dell'intelligenza artificiale. Questo tipo di LLM multimodale apre nuove possibilità, portando i modelli linguistici oltre il testo per offrire nuove interfacce e risolvere nuovi tipi di compiti, creando nuove esperienze per gli utenti.

La formazione di GPT-4V è stata completata nel 2022, con l'accesso anticipato lanciato nel marzo 2023. La funzionalità visiva di GPT-4V è alimentata dalla tecnologia GPT-4. Il processo di formazione è rimasto lo stesso. Inizialmente, il modello è stato addestrato a prevedere la parola successiva in un testo utilizzando un enorme set di dati di testo e immagini provenienti da varie fonti, incluso Internet.

Successivamente, è stato perfezionato con più dati, utilizzando un metodo chiamato apprendimento per rinforzo dal feedback umano (RLHF), per generare risultati preferiti dagli umani.

Meccanica della visione GPT-4

Le straordinarie capacità del linguaggio visivo GPT-4, sebbene impressionanti, hanno metodi sottostanti che restano superficiali.

Per esplorare questa ipotesi, un nuovo modello di linguaggio-visione, miniGPT-4 è stato introdotto, utilizzando un LLM avanzato denominato Vicuna. Questo modello utilizza un codificatore di visione con componenti pre-addestrati per la percezione visiva, allineando le caratteristiche visive codificate con il modello linguistico Vicuna attraverso un singolo livello di proiezione. L'architettura di MiniGPT-4 è semplice ma efficace, con particolare attenzione all'allineamento delle funzionalità visive e linguistiche per migliorare le capacità di conversazione visiva.

miniGPT-4

L'architettura di MiniGPT-4 include un codificatore di visione con ViT e Q-Former pre-addestrati, un singolo strato di proiezione lineare e un modello avanzato di linguaggio Vicuna di grandi dimensioni.

È cresciuta anche la tendenza dei modelli linguistici autoregressivi nei compiti del linguaggio visivo, sfruttando il trasferimento intermodale per condividere la conoscenza tra domini linguistici e multimodali.

MiniGPT-4 collega i domini visivo e linguistico allineando le informazioni visive provenienti da un codificatore visivo pre-addestrato con un LLM avanzato. Il modello utilizza Vicuna come decodificatore del linguaggio e segue un approccio di addestramento in due fasi. Inizialmente, viene addestrato su un ampio set di dati di coppie immagine-testo per acquisire la conoscenza visiva-linguistica, seguito da un perfezionamento su un set di dati più piccolo e di alta qualità per migliorare l'affidabilità e l'usabilità della generazione.

Per migliorare la naturalezza e l'usabilità del linguaggio generato nel MiniGPT-4, i ricercatori hanno sviluppato un processo di allineamento in due fasi, affrontando la mancanza di adeguati set di dati di allineamento visione-linguaggio. Hanno curato un set di dati specializzato a questo scopo.

Inizialmente, il modello ha generato descrizioni dettagliate delle immagini di input, migliorandone il dettaglio tramite un prompt conversazionale allineato al formato del modello linguistico Vicuna. Questa fase mirava a generare descrizioni delle immagini più complete.

Richiesta descrizione immagine iniziale:

###Umano: Descrivi questa immagine in dettaglio. Fornisci quanti più dettagli possibili. Di' tutto quello che vedi. ###Assistente:

Per la post-elaborazione dei dati, eventuali incoerenze o errori nelle descrizioni generate sono stati corretti utilizzando ChatGPT, seguito da una verifica manuale per garantire un'elevata qualità.

Richiesta di regolazione fine della seconda fase:

###Umano: ###Assistente:

Questa esplorazione apre una finestra sulla comprensione dei meccanismi dell’intelligenza artificiale generativa multimodale come GPT-4, facendo luce su come le modalità di visione e linguaggio possono essere efficacemente integrate per generare risultati coerenti e contestualmente ricchi.

Esplorando GPT-4 Vision

Determinazione delle origini delle immagini con ChatGPT

GPT-4 Vision migliora la capacità di ChatGPT di analizzare le immagini e individuarne l'origine geografica. Questa funzionalità trasforma le interazioni utente da un semplice testo a un mix di testo e immagini, diventando uno strumento utile per chi è curioso di scoprire luoghi diversi attraverso i dati delle immagini.

Chatgpt-vision-GPT-4

Chiedere a ChatGPT dove è stata scattata un'immagine di riferimento

Concetti matematici complessi

GPT-4 Vision eccelle nell'approfondimento di idee matematiche complesse analizzando espressioni grafiche o scritte a mano. Questa funzionalità funge da strumento utile per le persone che desiderano risolvere complessi problemi matematici, rendendo GPT-4 Vision un notevole aiuto nei campi educativi e accademici.

Chatgpt-vision-GPT-4

Chiedere a ChatGPT di comprendere un concetto matematico complesso

Conversione di input scritti a mano in codici LaTeX

Una delle straordinarie capacità di GPT-4V è la sua capacità di tradurre input scritti a mano in codice LaTeX. Questa funzionalità è una vera e propria manna per ricercatori, accademici e studenti che spesso hanno bisogno di convertire espressioni matematiche scritte a mano o altre informazioni tecniche in un formato digitale. La trasformazione da testo scritto a mano a LaTeX amplia gli orizzonti della digitalizzazione dei documenti e semplifica il processo di scrittura tecnica.

Capacità di GPT-4V di convertire input scritti a mano in codici LaTeX

La capacità di GPT-4V di convertire l'input scritto a mano in codici LaTeX

Estrazione dei dettagli della tabella

GPT-4V mette in mostra l'abilità nell'estrarre dettagli dalle tabelle e nel rispondere alle richieste correlate, una risorsa vitale nell'analisi dei dati. Gli utenti possono utilizzare GPT-4V per esaminare tabelle, raccogliere informazioni chiave e risolvere domande basate sui dati, rendendolo uno strumento affidabile per analisti di dati e altri professionisti.

GPT-4V decifra i dettagli della tabella e risponde alle domande correlate

GPT-4V decifra i dettagli della tabella e risponde alle domande correlate

Comprendere il puntamento visivo

La capacità unica di GPT-4V di comprendere il puntamento visivo aggiunge una nuova dimensione all'interazione dell'utente. Comprendendo i segnali visivi, GPT-4V può rispondere alle domande con una comprensione contestuale più elevata.

GPT-4V dimostra la capacità unica di comprendere il puntamento visivo

GPT-4V mostra la distinta capacità di comprendere il puntamento visivo

Creazione di semplici siti Web mock-up utilizzando un disegno

Motivato da questo Tweet, ho tentato di creare un modello per il sito web unite.ai.

Anche se il risultato non corrispondeva esattamente alla mia visione iniziale, ecco il risultato che ho ottenuto.

Frontend HTML di output basato su ChatGPT Vision

Frontend HTML di output basato su ChatGPT Vision

Limitazioni e difetti di GPT-4V(ision)

Per analizzare GPT-4V, il team Open AI ha effettuato valutazioni qualitative e quantitative. Quelli qualitativi includevano test interni e revisioni di esperti esterni, mentre quelli quantitativi misuravano i rifiuti dei modelli e l’accuratezza in vari scenari come l’identificazione di contenuti dannosi, il riconoscimento demografico, i problemi di privacy, la geolocalizzazione, la sicurezza informatica e i jailbreak multimodali.

Tuttavia il modello non è perfetto.

. carta Mette in evidenza i limiti del GPT-4V, come inferenze errate e testo o caratteri mancanti nelle immagini. Può generare allucinazioni o inventare fatti. In particolare, non è adatto all'identificazione di sostanze pericolose nelle immagini, spesso erroneamente identificate.

Nell'imaging medico, GPT-4V può fornire risposte incoerenti e manca di consapevolezza delle pratiche standard, portando a potenziali diagnosi errate.

Prestazioni inaffidabili per scopi medici.

Prestazioni inaffidabili per scopi medici (Fonte)

Inoltre, non riesce a cogliere le sfumature di alcuni simboli di odio e può generare contenuti inappropriati in base agli input visivi. OpenAI sconsiglia l'utilizzo di GPT-4V per interpretazioni critiche, soprattutto in contesti medici o sensibili.

Avvolgere Up

Creato utilizzando Fast Stable Diffusion XL

Creato utilizzando Fast Stable Diffusion XL https://huggingface.co/spaces/google/sdxl

L'arrivo di GPT-4 Vision (GPT-4V) porta con sé una serie di interessanti possibilità e nuovi ostacoli da superare. Prima del suo lancio, sono stati compiuti notevoli sforzi per garantire che i rischi, soprattutto quando si tratta di immagini di persone, fossero attentamente analizzati e ridotti. È impressionante vedere come GPT-4V abbia fatto passi da gigante, dimostrando grandi potenzialità in settori complessi come la medicina e la scienza.

Ora, ci sono alcune grandi domande sul tavolo. Ad esempio, questi modelli dovrebbero essere in grado di identificare personaggi famosi dalle foto? Dovrebbero intuire il sesso, la razza o i sentimenti di una persona da una foto? E dovrebbero esserci accorgimenti specifici per aiutare le persone con disabilità visiva? Queste domande aprono un vaso di Pandora sulla privacy, l'equità e su come l'intelligenza artificiale dovrebbe inserirsi nelle nostre vite, un argomento su cui tutti dovrebbero avere voce in capitolo.

Ho trascorso gli ultimi cinque anni immergendomi nell'affascinante mondo del Machine Learning e del Deep Learning. La mia passione e competenza mi hanno portato a contribuire a oltre 50 diversi progetti di ingegneria del software, con un focus particolare su AI/ML. La mia continua curiosità mi ha anche attirato verso l'elaborazione del linguaggio naturale, un campo che non vedo l'ora di esplorare ulteriormente.