Intelligenza artificiale

Intelligenza Artificiale Generativa: L’idea dietro CHATGPT, DALL-E, Midjourney e altro

Pubblicato il 8 agosto 2023

Aggiornato il 23 maggio 2026

Aayush Mittal Mittal

Il mondo dell’arte, della comunicazione e di come percepiamo la realtà sta subendo una rapida trasformazione. Se guardiamo indietro alla storia dell’innovazione umana, potremmo considerare l’invenzione della ruota o la scoperta dell’elettricità come salti monumentali. Oggi, una nuova rivoluzione sta avvenendo – colmando il divario tra la creatività umana e il calcolo delle macchine. Questo è l’Intelligenza Artificiale Generativa.

I modelli generativi hanno cancellato la linea di demarcazione tra esseri umani e macchine. Con l’avvento di modelli come GPT-4, che impiega moduli di trasformazione, ci siamo avvicinati alla generazione di linguaggio naturale e ricco di contesto. Questi progressi hanno alimentato applicazioni nella creazione di documenti, sistemi di dialogo dei chatbot e persino nella composizione di musica sintetica.

Recenti decisioni delle grandi aziende tecnologiche sottolineano la sua importanza. Microsoft sta già interrompendo la sua app Cortana questo mese per dare priorità a nuove innovazioni di Intelligenza Artificiale Generativa, come Bing Chat. Apple ha anche dedicato una parte significativa del suo $22,6 miliardi di budget per la ricerca e lo sviluppo all’Intelligenza Artificiale Generativa, come indicato dal CEO Tim Cook.

Una nuova era di modelli: Generativa vs. Discriminativa

La storia dell’Intelligenza Artificiale Generativa non riguarda solo le sue applicazioni, ma fondamentalmente il suo funzionamento interno. Nell’ecosistema dell’intelligenza artificiale, esistono due modelli: discriminativi e generativi.

I modelli discriminativi sono quelli che la maggior parte delle persone incontra nella vita quotidiana. Questi algoritmi prendono i dati di input, come un testo o un’immagine, e li accoppiano con un output di destinazione, come una traduzione di parole o una diagnosi medica. Si tratta di mappatura e previsione.

I modelli generativi, d’altra parte, sono creatori. Non si limitano a interpretare o prevedere; generano nuovi output complessi da vettori di numeri che spesso non sono nemmeno correlati a valori del mondo reale.

Le tecnologie dietro i modelli generativi

I modelli generativi devono la loro esistenza alle reti neurali profonde, strutture sofisticate progettate per imitare la funzionalità del cervello umano. Catturando e processando variazioni multifaccettate dei dati, queste reti servono come colonna vertebrale di numerosi modelli generativi.

Come vengono creati questi modelli generativi? Di solito, vengono costruiti con reti neurali profonde, ottimizzate per catturare le variazioni multifaccettate dei dati. Un esempio principe è la Rete Adversariale Generativa (GAN), dove due reti neurali, il generatore e il discriminatore, competono e imparano l’una dall’altra in un rapporto di insegnamento-studente unico. Dalle pitture al trasferimento di stile, dalla composizione musicale al gioco, questi modelli stanno evolvendo e ampliandosi in modi precedentemente inimmaginabili.

Ciò non si ferma con le GAN. I Autoencoder Variazionali (VAE), sono un altro giocatore fondamentale nel campo dei modelli generativi. I VAE si distinguono per la loro capacità di creare immagini fotorealistiche a partire da numeri apparentemente casuali. Come? Processando questi numeri attraverso un vettore latente, danno vita a opere d’arte che rispecchiano le complessità dell’estetica umana.

Tipi di Intelligenza Artificiale Generativa: Testo su Testo, Testo su Immagine

Trasformatori e LLM

Il paper “Attention Is All You Need” di Google Brain ha segnato un cambiamento nel modo in cui pensiamo alla modellazione del testo. Invece di architetture complesse e sequenziali come le Reti Neurali Ricorrenti (RNN) o le Reti Neurali Convoluzionali (CNN), il modello di Trasformazione ha introdotto il concetto di attenzione, che essenzialmente significa concentrarsi su diverse parti del testo di input a seconda del contesto. Uno dei principali vantaggi di ciò è stata la facilità di parallelizzazione. A differenza delle RNN che processano il testo in modo sequenziale, rendendole più difficili da scalare, i Trasformatori possono processare parti del testo contemporaneamente, rendendo l’addestramento più veloce e più efficiente su grandi dataset.

: Architettura del modello di Trasformazione

In un lungo testo, non ogni parola o frase che si legge ha la stessa importanza. Alcune parti richiedono più attenzione in base al contesto. Questa capacità di spostare la nostra attenzione in base alla rilevanza è ciò che il meccanismo di attenzione imita.

Per capire questo, pensa a una frase: “Unite AI Pubblica notizie di Intelligenza Artificiale e Robotica.” Ora, prevedere la parola successiva richiede una comprensione di cosa sia più importante nel contesto precedente. Il termine ‘Robotica’ potrebbe suggerire che la parola successiva potrebbe essere correlata a un avanzamento specifico o evento nel campo della robotica, mentre ‘Pubblica’ potrebbe indicare che il contesto successivo potrebbe addentrarsi in una recente pubblicazione o articolo.

: Illustrazione dell’auto-attenzione

I meccanismi di attenzione nei Trasformatori sono progettati per raggiungere questo focus selettivo. Misurano l’importanza delle diverse parti del testo di input e decidono dove “guardare” quando generano una risposta. Ciò si discosta dalle architetture più vecchie come le RNN che cercavano di comprimere l’essenza di tutto il testo di input in un singolo “stato” o “memoria”.

I meccanismi di attenzione possono essere paragonati a un sistema di recupero di chiavi-valori. Nel tentativo di prevedere la parola successiva in una frase, ogni parola precedente offre una “chiave” che suggerisce la sua potenziale rilevanza, e in base a quanto bene queste chiavi si adattano al contesto attuale (o query), contribuiscono a un “valore” o peso alla previsione.

Questi avanzati modelli di apprendimento automatico si sono integrati senza problemi in varie applicazioni, dalle migliorie del motore di ricerca di Google con BERT al Copilot di GitHub, che sfrutta la capacità dei Large Language Model (LLM) per convertire semplici snippet di codice in codici sorgente completamente funzionali.

I Large Language Model (LLM) come GPT-4, Bard e LLaMA, sono costruzioni colossali progettate per decifrare e generare linguaggio umano, codice e altro. La loro enorme dimensione, che va da miliardi a trilioni di parametri, è una delle caratteristiche distintive. Questi LLM vengono alimentati con enormi quantità di dati testuali, consentendo loro di comprendere le sfumature del linguaggio umano. Una caratteristica sorprendente di questi modelli è la loro capacità di apprendimento “a pochi esempi”. A differenza dei modelli convenzionali che richiedono grandi quantità di dati di addestramento specifici, gli LLM possono generalizzare a partire da un numero molto limitato di esempi (o “spari”)

Stato dei Large Language Model (LLM) a metà 2023

Nome del modello	Sviluppatore	Parametri	Disponibilità e accesso	Caratteristiche e remark notevoli
GPT-4	OpenAI	1,5 trilioni	Non open source, accesso solo tramite API	Prestazioni impressionanti in una varietà di compiti, può elaborare immagini e testo, lunghezza massima di input 32.768 token
GPT-3	OpenAI	175 miliardi	Non open source, accesso solo tramite API	Ha dimostrato capacità di apprendimento a pochi esempi e zero-shot. Esegue il completamento del testo in linguaggio naturale.
BLOOM	BigScience	176 miliardi	Modello scaricabile, API ospitata disponibile	LLM multilingue sviluppato attraverso una collaborazione globale. Supporta 13 lingue di programmazione.
LaMDA	Google	173 miliardi	Non open source, nessun accesso o download	Addestrato su dialoghi, può imparare a parlare di quasi tutto.
MT-NLG	Nvidia/Microsoft	530 miliardi	Accesso all’API tramite richiesta	Utilizza l’architettura Megatron basata su trasformatori per vari compiti di NLP.
LLaMA	Meta AI	7B-65B)	Scaricabile tramite richiesta	Inteso per democratizzare l’AI, offrendo l’accesso a ricercatori, governi e accademici.

Come vengono utilizzati gli LLM?

Gli LLM possono essere utilizzati in diversi modi, tra cui:

Utilizzo diretto: utilizzare un LLM pre-addestrato per la generazione di testo o l’elaborazione del linguaggio. Ad esempio, utilizzare GPT-4 per scrivere un articolo senza ulteriore addestramento.
Addestramento fine: adattare un LLM pre-addestrato per un compito specifico, un metodo noto come transfer learning. Un esempio potrebbe essere personalizzare T5 per generare riassunti per documenti in un’industria specifica.
Ricerca di informazioni: utilizzare gli LLM, come BERT o GPT, come parte di architetture più ampie per sviluppare sistemi in grado di recuperare e categorizzare informazioni.

: Architettura di addestramento fine di ChatGPT

Attenzione multi-testa: Perché una quando puoi averne molte?

Tuttavia, affidarsi a un singolo meccanismo di attenzione può essere limitante. Diverse parole o sequenze in un testo possono avere tipi di rilevanza o associazioni diversi. È qui che entra in gioco l’attenzione multi-testa. Invece di un singolo set di pesi di attenzione, l’attenzione multi-testa impiega più set, consentendo al modello di catturare una varietà più ricca di relazioni nel testo di input. Ogni “testa” di attenzione può concentrarsi su diverse parti o aspetti del testo di input, e la loro conoscenza combinata viene utilizzata per la previsione finale.

ChatGPT: Lo strumento di Intelligenza Artificiale Generativa più popolare

A partire dalla nascita di GPT nel 2018, il modello è stato essenzialmente costruito su una base di 12 layer, 12 teste di attenzione e 120 milioni di parametri, principalmente addestrato su un dataset chiamato BookCorpus. Questo è stato un inizio impressionante, offrendo uno sguardo sul futuro dei modelli linguistici.

GPT-2, presentato nel 2019, vantava un aumento quadruplo di layer e teste di attenzione. In modo significativo, il suo numero di parametri è schizzato a 1,5 miliardi. Questa versione migliorata è stata derivata dal suo addestramento su WebText, un dataset arricchito con 40GB di testo da vari collegamenti di Reddit.

GPT-3, lanciato nel maggio 2020, aveva 96 layer, 96 teste di attenzione e un numero massiccio di parametri di 175 miliardi. Ciò che ha distinto GPT-3 è stato il suo dataset di addestramento diversificato, che comprendeva CommonCrawl, WebText, Wikipedia in inglese, corpora di libri e altre fonti, per un totale di 570 GB.

Le intricatezze del funzionamento di ChatGPT rimangono un segreto ben custodito. Tuttavia, un processo chiamato ‘apprendimento per rinforzo con feedback umano’ (RLHF) è noto per essere fondamentale. Originato da un progetto ChatGPT precedente, questa tecnica è stata strumentale nel perfezionare il modello GPT-3.5 per renderlo più allineato con le istruzioni scritte.

L’addestramento di ChatGPT comprende un approccio a tre livelli:

Addestramento fine supervisionato: coinvolge la creazione di input e output conversazionali scritti da esseri umani per raffinare il modello GPT-3.5 sottostante.
Modellazione della ricompensa: gli esseri umani classificano vari output del modello in base alla qualità, aiutando a addestrare un modello di ricompensa che valuta ogni output considerando il contesto della conversazione.
Apprendimento per rinforzo: il contesto conversazionale serve come sfondo in cui il modello sottostante propone una risposta. Questa risposta viene valutata dal modello di ricompensa, e il processo viene ottimizzato utilizzando un algoritmo chiamato ottimizzazione della politica prossimale (PPO).

Per coloro che stanno iniziando a utilizzare ChatGPT, è disponibile una guida di avvio completo qui. Se si desidera approfondire l’ingegneria dei prompt con ChatGPT, è disponibile anche una guida avanzata che illustra le tecniche di prompt più recenti e all’avanguardia, disponibile su ‘ChatGPT e ingegneria dei prompt avanzata: Guida alla rivoluzione dell’AI‘.

Diffusione e modelli multimodali

Mentre modelli come VAE e GAN generano i loro output attraverso un’unica passata, quindi bloccati in ciò che producono, i modelli di diffusione hanno introdotto il concetto di “raffinamento iterativo”. Attraverso questo metodo, essi tornano indietro, raffinando gli errori dei passaggi precedenti e producendo gradualmente un risultato più raffinato.

Centrale per i modelli di diffusione è l’arte della “corruzione” e del “raffinamento”. Nella loro fase di addestramento, un’immagine tipica viene progressivamente corrotta aggiungendo livelli variabili di rumore. Questa versione rumorosa viene quindi alimentata nel modello, che tenta di “denoising” o “de-corrompere” l’immagine. Attraverso molteplici iterazioni di questo processo, il modello diventa abile nella restaurazione, comprendendo sia le sottili che le significative aberrazioni.

: Immagine generata da Midjourney

Il processo di generazione di nuove immagini dopo l’addestramento è affascinante. A partire da un input completamente casualizzato, viene continuamente raffinato utilizzando le previsioni del modello. L’obiettivo è raggiungere un’immagine perfetta con il minor numero di passaggi. Il controllo del livello di corruzione viene effettuato attraverso una “tabella dei rumori”, un meccanismo che governa quanto rumore viene applicato in diverse fasi. Un programmatore, come visto in librerie come “diffusers“, detta la natura di queste versioni rumorose in base ad algoritmi stabiliti.

Un’architettura fondamentale per molti modelli di diffusione è la U-Net, una rete neurale convoluzionale progettata per compiti che richiedono output che specchiano le dimensioni spaziali degli input. È un mix di layer di downsampling e upsampling, collegati in modo intricato per conservare i dati ad alta risoluzione, fondamentale per output legati alle immagini.

Approfondendo ulteriormente il regno dei modelli generativi, DALL-E 2 di OpenAI emerge come un esempio luminoso della fusione delle capacità di intelligenza artificiale testuale e visiva. Impiega una struttura a tre livelli:

DALL-E 2 presenta una struttura a tre livelli:

Encoder di testo: trasforma il prompt testuale in un’impronta concettuale all’interno di uno spazio latente. Questo modello non parte da zero. Si appoggia al dataset di addestramento linguistico-immagine di OpenAI, CLIP. CLIP serve come ponte tra dati visivi e testuali, imparando concetti visivi utilizzando il linguaggio naturale. Attraverso un meccanismo noto come apprendimento contrastivo, identifica e abbina immagini con le loro descrizioni testuali corrispondenti.
Il priore: l’impronta del testo derivata dall’encoder viene quindi convertita in un’impronta di immagine. DALL-E 2 ha testato sia metodi autoregressivi che di diffusione per questo compito, con quest’ultimo che ha mostrato risultati superiori. I modelli autoregressivi, come quelli visti nei Trasformatori e in PixelCNN, generano output in sequenza. D’altra parte, i modelli di diffusione, come quello utilizzato in DALL-E 2, trasformano il rumore casuale in impronte di immagine previste con l’aiuto delle impronte del testo.
Il decodificatore: la parte finale del processo, genera l’output visivo finale in base al prompt testuale e all’impronta dell’immagine dalla fase precedente. L’architettura del decodificatore di DALL-E 2 deve la sua struttura a un altro modello, GLIDE, che può anche produrre immagini realistiche da prompt testuali.

: Architettura semplificata del modello DALL-E

Gli utenti Python interessati a Langchain possono consultare il nostro tutorial dettagliato che copre tutto, dalle basi alle tecniche avanzate.

Applicazioni dell’Intelligenza Artificiale Generativa

Domini testuali

Iniziando con il testo, l’Intelligenza Artificiale Generativa ha subito una trasformazione fondamentale con chatbot come ChatGPT. Facendo affidamento su Elaborazione del Linguaggio Naturale (NLP) e Large Language Model (LLM), queste entità sono in grado di eseguire compiti che vanno dalla generazione di codice e traduzione linguistica alla creazione di riassunti e analisi dei sentimenti. ChatGPT, ad esempio, ha visto un’adozione su larga scala, diventando uno strumento essenziale per milioni di persone. Ciò è ulteriormente potenziato da piattaforme di intelligenza artificiale conversazionale, fondate su LLM come GPT-4, PaLM e BLOOM, che producono agevolmente testo, aiutano nella programmazione e offrono ragionamento matematico.

Dal punto di vista commerciale, questi modelli stanno diventando inestimabili. Le aziende li utilizzano per una miriade di operazioni, tra cui gestione dei rischi, ottimizzazione delle scorte e previsione della domanda. Alcuni esempi notevoli includono Bing AI, Google’s BARD e ChatGPT API.

Arte

Il mondo delle immagini ha subito trasformazioni drammatiche con l’Intelligenza Artificiale Generativa, in particolare dopo l’introduzione di DALL-E 2 nel 2022. Questa tecnologia, che può generare immagini da prompt testuali, ha implicazioni sia artistiche che professionali. Ad esempio, Midjourney ha sfruttato questa tecnologia per produrre immagini realistiche impressionanti. Questo post recente demistifica Midjourney in una guida dettagliata, illustrando sia la piattaforma che le sfumature dell’ingegneria dei prompt. Inoltre, piattaforme come Alpaca AI e Photoroom AI utilizzano l’Intelligenza Artificiale Generativa per funzionalità di editing di immagini avanzate, come la rimozione dello sfondo, la cancellazione di oggetti e persino il ripristino dei volti.

Produzione di video

La produzione di video, seppur ancora nella sua fase iniziale nel regno dell’Intelligenza Artificiale Generativa, sta mostrando progressi promettenti. Piattaforme come Imagen Video, Meta Make A Video e Runway Gen-2 stanno spingendo i confini di ciò che è possibile, anche se output realistici sono ancora all’orizzonte. Questi modelli offrono un’utilità sostanziale per la creazione di video digitali umani, con applicazioni come Synthesia e SuperCreator alla guida. Notabilmente, Tavus AI offre una proposta di vendita unica personalizzando video per singoli membri del pubblico, un vantaggio per le aziende.

Creazione di codice

La codifica, un aspetto indispensabile del nostro mondo digitale, non è rimasta immune all’Intelligenza Artificiale Generativa. Sebbene ChatGPT sia lo strumento preferito, sono state sviluppate diverse altre applicazioni di intelligenza artificiale per scopi di codifica. Queste piattaforme, come GitHub Copilot, Alphacode e CodeComplete, agiscono come assistenti di codifica e possono anche produrre codice da prompt testuali. Ciò che è intrigante è l’adattabilità di questi strumenti. Codex, la forza trainante dietro GitHub Copilot, può essere personalizzato per adattarsi allo stile di codifica di un individuo, sottolineando il potenziale di personalizzazione dell’Intelligenza Artificiale Generativa.

Conclusione

Fondendo la creatività umana con il calcolo delle macchine, l’Intelligenza Artificiale Generativa si è evoluta in uno strumento inestimabile, con piattaforme come ChatGPT e DALL-E 2 che spingono i confini di ciò che è concepibile. Dalla creazione di contenuti testuali alla scultura di capolavori visivi, le loro applicazioni sono vaste e variegate.

Come per qualsiasi tecnologia, le implicazioni etiche sono fondamentali. Mentre l’Intelligenza Artificiale Generativa promette una creatività senza limiti, è cruciale utilizzarla in modo responsabile, essendo consapevoli dei potenziali pregiudizi e del potere della manipolazione dei dati.

Con strumenti come ChatGPT che diventano più accessibili, ora è il momento perfetto per testare le acque e sperimentare. Sia che tu sia un artista, un programmatore o un appassionato di tecnologia, il regno dell’Intelligenza Artificiale Generativa è ricco di possibilità in attesa di essere esplorate. La rivoluzione non è all’orizzonte; è qui e ora. Quindi, tuffati!

Aayush Mittal, Mittal

Ho trascorso gli ultimi cinque anni immergendomi nel mondo affascinante del Machine Learning e del Deep Learning. La mia passione e la mia esperienza mi hanno portato a contribuire a oltre 50 progetti di ingegneria del software diversi, con un focus particolare su AI/ML. La mia curiosità in corso mi ha anche portato verso l'elaborazione del linguaggio naturale, un campo che sono ansioso di esplorare ulteriormente.