IA 101

I Modelli di Diffusione nell’IA – Tutto Ciò che Devi Sapere

mm
A collage of human faces created using AI image generator

Nell’ecosistema dell’IA, i modelli di diffusione stanno definendo la direzione e il ritmo del progresso tecnologico. Stanno rivoluzionando il modo in cui affrontiamo compiti di intelligenza artificiale generativa complessi. Questi modelli si basano sulla matematica dei principi gaussiani, della varianza, delle equazioni differenziali e delle sequenze generative. (Spiegheremo il gergo tecnico di seguito)

I prodotti e le soluzioni moderni basati sull’IA sviluppati da Nvidia, Google, Adobe e OpenAI hanno messo i modelli di diffusione al centro dell’attenzione. DALL.E 2, Stable Diffusion e Midjourney sono esempi prominenti di modelli di diffusione che stanno facendo il giro di internet di recente. Gli utenti forniscono un semplice prompt di testo come input, e questi modelli possono convertirli in immagini realistiche, come quella mostrata di seguito.

Un'immagine generata con Midjourney v5 utilizzando il prompt di input: vibrant California poppies.

Un’immagine generata con Midjourney v5 utilizzando il prompt di input: vibrant California poppies. Fonte: Midjourney

Esploriamo i principi fondamentali di funzionamento dei modelli di diffusione e come stanno cambiando le direzioni e le norme del mondo come lo vediamo oggi.

Cosa Sono i Modelli di Diffusione?

Secondo la pubblicazione di ricerca “Denoising Diffusion Probabilistic Models“, i modelli di diffusione sono definiti come:

“Un modello di diffusione o modello di diffusione probabilistico è una catena di Markov parametrizzata addestrata utilizzando l’inferenza variazionale per produrre campioni che corrispondono ai dati dopo un tempo finito”

In semplici parole, i modelli di diffusione possono generare dati simili a quelli su cui sono stati addestrati. Se il modello è addestrato su immagini di gatti, può generare immagini realistiche di gatti.

Ora cerchiamo di analizzare la definizione tecnica menzionata sopra. I modelli di diffusione traggono ispirazione dal principio di funzionamento e dalla base matematica di un modello probabilistico che può analizzare e prevedere il comportamento di un sistema che varia nel tempo, come prevedere il rendimento del mercato azionario o la diffusione di una pandemia.

La definizione afferma che sono catene di Markov parametrizzate addestrate con inferenza variazionale. Le catene di Markov sono modelli matematici che definiscono un sistema che passa tra diversi stati nel tempo. Lo stato esistente del sistema può determinare solo la probabilità di transizione a uno stato specifico. In altre parole, lo stato attuale di un sistema tiene le possibili condizioni che un sistema può seguire o acquisire in qualsiasi momento.

Addestrare il modello utilizzando l’inferenza variazionale implica calcoli complessi per le distribuzioni di probabilità. Si mira a trovare i parametri esatti della catena di Markov che corrispondono ai dati osservati (noti o effettivi) dopo un certo tempo. Questo processo minimizza il valore della funzione di perdita del modello, che è la differenza tra lo stato previsto (sconosciuto) e lo stato osservato (noto).

Una volta addestrato, il modello può generare campioni che corrispondono ai dati osservati. Questi campioni rappresentano possibili traiettorie o stati che il sistema potrebbe seguire o acquisire nel tempo, e ogni traiettoria ha una probabilità diversa di verificarsi. Pertanto, il modello può prevedere il comportamento futuro del sistema generando una serie di campioni e trovando le loro probabilità rispettive (probabilità di questi eventi).

Come Interpretare i Modelli di Diffusione nell’IA?

I modelli di diffusione sono modelli generativi profondi che funzionano aggiungendo rumore (rumore gaussiano) ai dati di addestramento disponibili (noti anche come processo di diffusione in avanti) e poi invertendo il processo (noto come denoising o processo di diffusione inversa) per recuperare i dati. Il modello impara gradualmente a rimuovere il rumore. Questo processo di denoising appreso genera nuove immagini di alta qualità da semi casuali (immagini rumorose casuali), come mostrato nell’illustrazione di seguito.

Processo di diffusione inversa: un'immagine rumorosa viene denoised per recuperare l'immagine originale (o generarne variazioni) tramite un modello di diffusione addestrato.

Processo di diffusione inversa: un’immagine rumorosa viene denoised per recuperare l’immagine originale (o generarne variazioni) tramite un modello di diffusione addestrato. Fonte: Denoising Diffusion Probabilistic Models

3 Categorie di Modelli di Diffusione

Esistono tre quadri matematici fondamentali che sostengono la scienza dietro i modelli di diffusione. Tutti e tre funzionano sui principi di aggiungere rumore e poi rimuoverlo per generare nuovi campioni. Discutiamoli di seguito.

Un modello di diffusione aggiunge e rimuove rumore da un'immagine.

Un modello di diffusione aggiunge e rimuove rumore da un’immagine. Fonte: Diffusion Models in Vision: A Survey

1. Modelli di Diffusione Probabilistici di Denoising (DDPMs)

Come spiegato sopra, i DDPMs sono modelli generativi principalmente utilizzati per rimuovere il rumore da dati visivi o audio. Hanno mostrato risultati impressionanti in vari compiti di denoising di immagini e audio. Ad esempio, l’industria cinematografica utilizza strumenti di elaborazione di immagini e video moderni per migliorare la qualità della produzione.

2. Modelli Generativi Basati su Punteggio con Rumore Condizionato (SGMs)

Gli SGMs possono generare nuovi campioni da una distribuzione data. Funzionano imparando una funzione di stima del punteggio che può stimare la log-densità della distribuzione di destinazione. La stima della log-densità fa supposizioni per i punti di dati disponibili che fanno parte di un set di dati sconosciuto (set di test). Questa funzione di punteggio può quindi generare nuovi punti di dati dalla distribuzione.

Ad esempio, i deepfake sono noti per produrre video e audio falsi di personaggi famosi. Ma sono principalmente attribuiti alle Generative Adversarial Networks (GANs). Tuttavia, gli SGMs hanno mostrato capacità simili – a volte superiore – nella generazione di volti di celebrità di alta qualità. Inoltre, gli SGMs possono aiutare ad espandere i set di dati sanitari, che non sono facilmente disponibili in grandi quantità a causa di norme e standard rigorosi dell’industria.

3. Equazioni Differenziali Stocastiche (SDEs)

Le SDEs descrivono i cambiamenti in processi casuali in relazione al tempo. Sono ampiamente utilizzate nella fisica e nei mercati finanziari che coinvolgono fattori casuali che hanno un impatto significativo sui risultati del mercato.

Ad esempio, i prezzi delle materie prime sono altamente dinamici e influenzati da una serie di fattori casuali. Le SDEs calcolano i derivati finanziari come i contratti futures (come i contratti di petrolio). Possono modellare le fluttuazioni e calcolare prezzi favorevoli con precisione per dare un senso di sicurezza.

Principali Applicazioni dei Modelli di Diffusione nell’IA

Vediamo alcune pratiche e utilizzi ampiamente adottati dei modelli di diffusione nell’IA.

Generazione di Video di Alta Qualità

Creare video di alta qualità utilizzando l’apprendimento profondo è difficile perché richiede una continuità alta dei frame del video. È qui che entrano in gioco i modelli di diffusione, poiché possono generare un subset di frame del video per riempire i frame mancanti, risultando in video di alta qualità e senza latenza.

I ricercatori hanno sviluppato le tecniche Flexible Diffusion Model e Residual Video Diffusion per servire a questo scopo. Questi modelli possono anche produrre video realistici aggiungendo in modo impeccabile frame generati dall’IA tra i frame reali.

Questi modelli possono semplicemente estendere il FPS (frame per secondo) di un video a basso FPS aggiungendo frame dummy dopo aver appreso i modelli dai frame disponibili. Con quasi nessuna perdita di frame, questi framework possono ulteriormente assistere i modelli basati sull’apprendimento profondo a generare video basati sull’IA da zero che sembrano riprese naturali da configurazioni di telecamere di alta qualità.

Una vasta gamma di notevoli generatori di video AI è disponibile nel 2023 per rendere la produzione e la modifica del contenuto video rapide e facili.

Generazione di Immagini da Testo

I modelli di testo-immagine utilizzano prompt di input per generare immagini di alta qualità. Ad esempio, dare come input “mela rossa su un piatto” e produrre un’immagine fotorealistica di una mela su un piatto. Blended diffusion e unCLIP sono due esempi prominenti di tali modelli che possono generare immagini altamente rilevanti e accurate in base all’input dell’utente.

Inoltre, GLIDE di OpenAI è un’altra soluzione ampiamente nota rilasciata nel 2021 che produce immagini fotorealistiche utilizzando l’input dell’utente. Successivamente, OpenAI ha rilasciato DALL.E-2, il suo modello di generazione di immagini più avanzato fino ad ora.

Allo stesso modo, Google ha sviluppato un modello di generazione di immagini noto come Imagen, che utilizza un grande modello linguistico per sviluppare una profonda comprensione testuale dell’input di testo e quindi genera immagini fotorealistiche.

Abbiamo menzionato altri strumenti di generazione di immagini popolari come Midjourney e Stable Diffusion (DreamStudio) sopra. Guarda un’immagine generata utilizzando Stable Diffusion di seguito.

Un collage di volti umani creato con Stable Diffusion 1.5

Un’immagine creata con Stable Diffusion 1.5 utilizzando il prompt di input: “collage, iper-realistiche, molte variazioni ritratto di vecchio Thom Yorke, variazioni di volto, cantautore, (lato) profilo, varie età, macro obiettivo, spazio liminale, di Lee Bermejo, Alphonse Mucha e Greg Rutkowski, barba grigia, viso liscio, zigomi”

I Modelli di Diffusione nell’IA – Cosa Aspettarsi nel Futuro?

I modelli di diffusione hanno rivelato un potenziale promettente come un approccio robusto per la generazione di campioni di alta qualità da set di dati di immagini e video complessi. Migliorando la capacità umana di utilizzare e manipolare i dati, i modelli di diffusione possono potenzialmente rivoluzionare il mondo come lo vediamo oggi. Possiamo aspettarci di vedere molte più applicazioni dei modelli di diffusione che diventano parte integrante della nostra vita quotidiana.

Detto ciò, i modelli di diffusione non sono l’unica tecnica di intelligenza artificiale generativa. I ricercatori utilizzano anche le Generative Adversarial Networks (GANs), gli Autoencoder Variazionali e i modelli generativi profondi basati sul flusso per generare contenuti AI. Comprendere le caratteristiche fondamentali che distinguono i modelli di diffusione da altri modelli generativi può aiutare a produrre soluzioni più efficaci nei prossimi giorni.

Per saperne di più sulle tecnologie basate sull’IA, visita Unite.ai. Controlla le nostre risorse curate sugli strumenti di intelligenza artificiale generativa di seguito.

Haziqa è uno scienziato dei dati con una vasta esperienza nella scrittura di contenuti tecnici per aziende di intelligenza artificiale e SaaS.