Connect with us

Modelli di diffusione nell’IA – Tutto ciò che devi sapere

IA 101

Modelli di diffusione nell’IA – Tutto ciò che devi sapere

mm
A collage of human faces created using AI image generator

Nell’ecosistema dell’IA, i modelli di diffusione stanno definendo la direzione e il ritmo del progresso tecnologico. Stanno rivoluzionando il modo in cui affrontiamo compiti di intelligenza artificiale generativa complessi. Questi modelli si basano sulla matematica dei principi gaussiani, della varianza, delle equazioni differenziali e delle sequenze generative. (Spiegheremo il gergo tecnico di seguito)

I moderni prodotti e soluzioni AI-centric sviluppati da Nvidia, Google, Adobe e OpenAI hanno messo i modelli di diffusione al centro dell’attenzione. DALL.E 2, Stable Diffusion e Midjourney sono esempi prominenti di modelli di diffusione che stanno facendo il giro di internet di recente. Gli utenti forniscono un semplice prompt di testo come input e questi modelli possono convertirli in immagini realistiche, come quella mostrata di seguito.

Un'immagine generata con Midjourney v5 utilizzando il prompt di input: vibrant California poppies.

Un’immagine generata con Midjourney v5 utilizzando il prompt di input: vibrant California poppies. Fonte: Midjourney

Esploriamo i principi di base del funzionamento dei modelli di diffusione e come stanno cambiando le direzioni e le norme del mondo come lo vediamo oggi.

Cosa sono i modelli di diffusione?

Secondo la pubblicazione di ricerca “Denoising Diffusion Probabilistic Models”, i modelli di diffusione sono definiti come:

“Un modello di diffusione o modello di diffusione probabilistico è una catena di Markov parametrizzata addestrata utilizzando inferenza variazionale per produrre campioni che corrispondono ai dati dopo un tempo finito”

In poche parole, i modelli di diffusione possono generare dati simili a quelli su cui sono stati addestrati. Se il modello viene addestrato su immagini di gatti, può generare immagini realistiche di gatti.

Ora proviamo a spiegare la definizione tecnica menzionata sopra. I modelli di diffusione traggono ispirazione dal principio di funzionamento e dalla base matematica di un modello probabilistico che può analizzare e prevedere il comportamento di un sistema che varia nel tempo, come prevedere il rendimento del mercato azionario o la diffusione di una pandemia.

La definizione afferma che sono catene di Markov parametrizzate addestrate con inferenza variazionale. Le catene di Markov sono modelli matematici che definiscono un sistema che passa tra diversi stati nel tempo. Lo stato attuale del sistema può determinare solo la probabilità di transizione a uno stato specifico. In altre parole, lo stato attuale di un sistema contiene gli stati possibili che un sistema può seguire o acquisire in qualsiasi momento.

L’addestramento del modello utilizzando l’inferenza variazionale implica calcoli complessi per le distribuzioni di probabilità. Si propone di trovare i parametri esatti della catena di Markov che corrispondono ai dati osservati (noti o effettivi) dopo un tempo specifico. Questo processo minimizza il valore della funzione di perdita del modello, che è la differenza tra lo stato previsto (sconosciuto) e lo stato osservato (noto).

Una volta addestrato, il modello può generare campioni che corrispondono ai dati osservati. Questi campioni rappresentano traiettorie o stati possibili che il sistema potrebbe seguire o acquisire nel tempo, e ogni traiettoria ha una probabilità diversa di verificarsi. Pertanto, il modello può prevedere il comportamento futuro del sistema generando una serie di campioni e trovando le loro probabilità rispettive (probabilità di questi eventi).

Come interpretare i modelli di diffusione nell’IA?

I modelli di diffusione sono modelli generativi profondi che funzionano aggiungendo rumore (rumore gaussiano) ai dati di addestramento disponibili (noti anche come processo di diffusione in avanti) e poi invertendo il processo (noto come denoising o processo di diffusione inversa) per recuperare i dati. Il modello impara gradualmente a rimuovere il rumore. Questo processo di denoising appreso genera nuove immagini di alta qualità da semi casuali (immagini rumorose casuali), come mostrato nell’illustrazione di seguito.

Processo di diffusione inversa: un'immagine rumorosa viene denoised per recuperare l'immagine originale (o generarne variazioni) tramite un modello di diffusione addestrato.

Processo di diffusione inversa: un’immagine rumorosa viene denoised per recuperare l’immagine originale (o generarne variazioni) tramite un modello di diffusione addestrato. Fonte: Denoising Diffusion Probabilistic Models

3 categorie di modelli di diffusione

Esistono tre quadri matematici fondamentali che sostengono la scienza dietro i modelli di diffusione. Tutti e tre funzionano sui principi di aggiungere rumore e poi rimuoverlo per generare nuovi campioni. Discutiamoli di seguito.

Un modello di diffusione aggiunge e rimuove rumore da un'immagine.

Un modello di diffusione aggiunge e rimuove rumore da un’immagine. Fonte: Diffusion Models in Vision: A Survey

1. Modelli di diffusione probabilistici di denoising (DDPMs)

Come spiegato sopra, i DDPMs sono modelli generativi principalmente utilizzati per rimuovere il rumore da dati visivi o audio. Hanno mostrato risultati impressionanti in vari compiti di denoising di immagini e audio. Ad esempio, l’industria cinematografica utilizza strumenti di elaborazione di immagini e video moderni per migliorare la qualità della produzione.

2. Modelli generativi basati su punteggi con rumore condizionato (SGMs)

Gli SGMs possono generare nuovi campioni da una distribuzione data. Funzionano imparando una funzione di punteggio di stima che può stimare la densità logaritmica della distribuzione di destinazione. La stima della densità logaritmica fa supposizioni per i punti di dati disponibili che fanno parte di un set di dati sconosciuto (set di test). Questa funzione di punteggio può quindi generare nuovi punti di dati dalla distribuzione.

Ad esempio, i deep fake sono noti per produrre video e audio falsi di personaggi famosi. Ma sono principalmente attribuiti a Generative Adversarial Networks (GANs). Tuttavia, gli SGMs hanno mostrato capacità simili – a volte superiore – nella generazione di volti di celebrità di alta qualità. Inoltre, gli SGMs possono aiutare ad espandere i set di dati sanitari, che non sono facilmente disponibili in grandi quantità a causa di norme e standard rigorosi dell’industria.

3. Equazioni differenziali stocastiche (SDEs)

Le SDEs descrivono i cambiamenti in processi casuali nel tempo. Sono ampiamente utilizzate nella fisica e nei mercati finanziari che coinvolgono fattori casuali che hanno un impatto significativo sui risultati del mercato.

Ad esempio, i prezzi delle merci sono altamente dinamici e influenzati da una serie di fattori casuali. Le SDEs calcolano derivati finanziari come contratti futures (come contratti di petrolio). Possono modellare le fluttuazioni e calcolare prezzi favorevoli con precisione per dare un senso di sicurezza.

Principali applicazioni dei modelli di diffusione nell’IA

Guardiamo alcune pratiche e utilizzi ampiamente adottati dei modelli di diffusione nell’IA.

Generazione di video di alta qualità

Creare video di alta qualità utilizzando apprendimento profondo è difficile poiché richiede una continuità alta dei frame del video. È qui che i modelli di diffusione entrano in gioco poiché possono generare un subset di frame del video per riempire i frame mancanti, risultando in video di alta qualità e senza latenza.

I ricercatori hanno sviluppato le tecniche Flexible Diffusion Model e Residual Video Diffusion per servire a questo scopo. Questi modelli possono anche produrre video realistici aggiungendo frame generati da AI tra i frame reali.

Questi modelli possono semplicemente estendere il FPS (frame per secondo) di un video a basso FPS aggiungendo frame dummy dopo aver appreso i modelli dai frame disponibili. Con quasi nessuna perdita di frame, questi framework possono ulteriormente assistere i modelli di apprendimento profondo basati su AI per generare video basati su AI da zero che sembrano riprese naturali da configurazioni di telecamere di alta qualità.

Una vasta gamma di notevoli generatori di video AI è disponibile nel 2023 per rendere la produzione e la modifica di contenuti video rapide e semplici.

Generazione di immagini da testo

I modelli di immagini da testo utilizzano prompt di input per generare immagini di alta qualità. Ad esempio, fornire l’input “mela rossa su un piatto” e produrre un’immagine fotorealistica di una mela su un piatto. Blended diffusion e unCLIP sono due esempi prominenti di tali modelli che possono generare immagini altamente rilevanti e accurate in base all’input dell’utente.

Inoltre, GLIDE di OpenAI è un’altra soluzione ampiamente conosciuta rilasciata nel 2021 che produce immagini fotorealistiche utilizzando l’input dell’utente. Successivamente, OpenAI ha rilasciato DALL.E-2, il suo modello di generazione di immagini più avanzato fino ad ora.

Allo stesso modo, Google ha sviluppato un modello di generazione di immagini noto come Imagen, che utilizza un grande modello linguistico per sviluppare una profonda comprensione testuale dell’input del testo e quindi genera immagini fotorealistiche.

Abbiamo menzionato altri strumenti di generazione di immagini popolari come Midjourney e Stable Diffusion (DreamStudio) sopra. Date un’occhiata a un’immagine generata utilizzando Stable Diffusion di seguito.

Un collage di volti umani creato con Stable Diffusion 1.5

Un’immagine creata con Stable Diffusion 1.5 utilizzando il prompt di input: “collage, iper-realistiche, molte variazioni ritratto di vecchio thom yorke, variazioni di volto, cantautore, (lato) profilo, varie età, obiettivo macro, spazio liminale, di lee bermejo, alphonse mucha e greg rutkowski, barba grigia, volto liscio, zigomi”

Modelli di diffusione nell’IA – Cosa aspettarsi nel futuro?

I modelli di diffusione hanno rivelato un potenziale promettente come un approccio robusto per generare campioni di alta qualità da set di dati di immagini e video complessi. Migliorando la capacità umana di utilizzare e manipolare i dati, i modelli di diffusione possono potenzialmente rivoluzionare il mondo come lo vediamo oggi. Possiamo aspettarci di vedere ancora più applicazioni dei modelli di diffusione che diventano parte integrante della nostra vita quotidiana.

Detto ciò, i modelli di diffusione non sono l’unico tecnica di intelligenza artificiale generativa. I ricercatori utilizzano anche Reti Adversarie Generative (GANs), Autoencoder Variazionali e modelli generativi profondi basati su flusso per generare contenuti AI. Comprendere le caratteristiche fondamentali che distinguono i modelli di diffusione da altri modelli generativi può aiutare a produrre soluzioni più efficaci nei prossimi giorni.

Per saperne di più sulle tecnologie basate su AI, visitate Unite.ai. Controllate le nostre risorse curate su strumenti di intelligenza artificiale generativa di seguito.

Haziqa è uno scienziato dei dati con una vasta esperienza nella scrittura di contenuti tecnici per aziende di intelligenza artificiale e SaaS.