Connect with us

Intelligenza artificiale

L’intelligenza artificiale multimodale evolve mentre ChatGPT acquista la vista con GPT-4V(ision)

mm
chatgpt vision

Nel continuo sforzo di rendere l’AI più simile agli esseri umani, i modelli GPT di OpenAI hanno continuamente spinto i confini. GPT-4 è ora in grado di accettare prompt di testo e immagini.

La multimodalità nell’AI generativa denota la capacità di un modello di produrre output vari come testo, immagini o audio in base all’input. Questi modelli, addestrati su dati specifici, apprendono modelli sottostanti per generare dati nuovi simili, arricchendo le applicazioni AI.

Recenti passi avanti nell’AI multimodale

Un recente notevole balzo in questo campo si vede con l’integrazione di DALL-E 3 in ChatGPT, un significativo aggiornamento nella tecnologia di testo-immagine di OpenAI. Questa fusione consente un’interazione più fluida in cui ChatGPT aiuta a creare prompt precisi per DALL-E 3, trasformando le idee degli utenti in vivide opere d’arte generate da AI. Quindi, mentre gli utenti possono interagireettamente con DALL-E 3, avere ChatGPT nel mix rende il processo di creazione di arte AI molto più user-friendly.
Scopri di più su DALL-E 3 e la sua integrazione con ChatGPT qui. Questa collaborazione non solo mostra il progresso nell’AI multimodale, ma rende anche la creazione di arte AI una passeggiata per gli utenti.

Google’s health, d’altra parte, ha introdotto Med-PaLM M nel giugno di quest’anno. È un modello generativo multimodale in grado di codificare e interpretare diversi dati biomedici. Ciò è stato ottenuto fine-tuning PaLM-E, un modello linguistico, per adattarsi ai domini medici utilizzando un benchmark open-source, MultiMedBench. Questo benchmark consiste in oltre 1 milione di campioni in 7 tipi di dati biomedici e 14 attività come la risposta a domande mediche e la generazione di rapporti di radiologia.
Varie industrie stanno adottando strumenti AI multimodali innovativi per alimentare l’espansione aziendale, semplificare le operazioni e elevare l’engagement dei clienti. I progressi nelle capacità di voce, video e testo AI stanno trainando la crescita dell’AI multimodale.
Le aziende cercano applicazioni AI multimodali in grado di rivoluzionare i modelli e i processi aziendali, aprendo percorsi di crescita in tutto l’ecosistema AI generativa, dalle tool di dati alle applicazioni AI emergenti.
Dopo il lancio di GPT-4 nel marzo, alcuni utenti hanno osservato un calo nella qualità delle risposte nel tempo, una preoccupazione condivisa da noti sviluppatori e nei forum di OpenAI. Inizialmente liquidata da OpenAI, uno studio successivo studio ha confermato il problema. Ha rivelato un calo dell’accuratezza di GPT-4 dal 97,6% al 2,4% tra marzo e giugno, indicando un calo nella qualità delle risposte con gli aggiornamenti del modello successivi.

chatgpt-ai

ChatGPT (Blu) & Intelligenza artificiale (Rosso) Google Search Trend


Ho trascorso gli ultimi cinque anni immergendomi nel fascinante mondo del Machine Learning e del Deep Learning. La mia passione e la mia esperienza mi hanno portato a contribuire a oltre 50 progetti di ingegneria del software diversi, con un focus particolare su AI/ML. La mia curiosità continua mi ha anche portato verso l'elaborazione del linguaggio naturale, un campo che sono ansioso di esplorare ulteriormente.