Prompt engineering

Un’occhiata più da vicino a DALL-E 3 di OpenAI

mm
DALL·E 3

Nel mondo dell’Intelligenza Artificiale Generativa, stare al passo con le novità è il nome del gioco. E quando si parla di generazione di immagini, Stable Diffusion e Midjourney erano le piattaforme di cui tutti parlavano – fino ad ora.

OpenAI, supportata dal gigante tecnologico Microsoft, ha introdotto DALL·E 3 il 20 settembre 2023.

DALL-E 3 non è solo una questione di creare immagini; è una questione di portare le tue idee alla vita, proprio come le hai immaginate. E il meglio? È veloce, come, veramente veloce. Hai un’idea, la dai a DALL-E 3 e boom, la tua immagine è pronta.

Quindi, in questo articolo, ci addentreremo nel mondo di DALL-E 3. Parleremo di come funziona, cosa lo distingue dagli altri e perché potrebbe essere lo strumento di cui non sapevi di aver bisogno. Sia che tu sia un designer, un artista o solo qualcuno con un sacco di idee cool, vuoi rimanere qui per questo. Iniziamo.

Cosa c’è di nuovo in DALL·E 3 è che capisce il contesto molto meglio di DALL·E 2. Le versioni precedenti potevano aver perso alcuni dettagli o ignorato alcuni particolari qua e là, ma DALL·E 3 è preciso. Afferra i dettagli esatti di ciò che stai chiedendo, dando un’immagine che è più vicina a ciò che hai immaginato.

La parte divertente? DALL·E 3 e ChatGPT sono ora integrati insieme. Lavorano insieme per aiutare a raffinare le tue idee. Tu spari un concetto, ChatGPT aiuta a perfezionare il prompt e DALL·E 3 lo porta alla vita. Se non sei un fan dell’immagine, puoi chiedere a ChatGPT di modificare il prompt e farlo riprovare a DALL·E 3. Per una tariffa mensile di 20$, hai accesso a GPT-4, DALL·E 3 e molte altre funzionalità cool.

Il Bing Chat di Microsoft ha avuto accesso a DALL·E 3 anche prima che OpenAI lo desse a ChatGPT, e adesso non sono solo le grandi imprese a poter giocare con esso gratuitamente. L’integrazione in Bing Chat e Bing Image Creator lo rende molto più facile da usare per chiunque.

L’ascesa dei modelli di diffusione

Negli ultimi 3 anni, l’intelligenza artificiale visiva ha assistito all’ascesa dei modelli di diffusione, facendo un grande balzo in avanti, soprattutto nella generazione di immagini. Prima dei modelli di diffusione, le Reti Generative Avversarie (GAN) erano la tecnologia principale per la generazione di immagini realistiche.

GANs

GANs

Tuttavia, avevano le loro sfide, tra cui la necessità di grandi quantità di dati e potenza computazionale, che spesso li rendeva difficili da gestire.

Entra in scena il modello di diffusione. È emerso come un’alternativa più stabile ed efficiente alle GAN. A differenza delle GAN, i modelli di diffusione operano aggiungendo rumore ai dati, oscurandoli fino a quando non rimane solo casualità. Lavorano poi a ritroso per invertire questo processo, ricostruendo dati significativi dal rumore. Questo processo si è dimostrato efficace e meno dispendioso in termini di risorse, rendendo i modelli di diffusione un argomento caldo nella comunità dell’IA.

Il vero punto di svolta è arrivato intorno al 2020, con una serie di innovativi articoli e l’introduzione della tecnologia CLIP di OpenAI, che ha notevolmente avanzato le capacità dei modelli di diffusione. Ciò ha reso i modelli di diffusione eccezionalmente bravi nella sintesi di immagini da testo, permettendo loro di generare immagini realistiche da descrizioni testuali. Questi progressi non sono stati solo nella generazione di immagini, ma anche in campi come la composizione musicale e la ricerca biomedica.

Oggi, i modelli di diffusione non sono più solo un argomento di interesse accademico, ma vengono utilizzati in scenari pratici e reali.

Modellazione generativa e livelli di auto-attenzione: DALL-E 3

Una delle principali innovazioni in questo campo è stata l’evoluzione della modellazione generativa, con approcci basati su campionamento come la modellazione generativa autoregressiva e i processi di diffusione che guidano il cammino. Hanno trasformato i modelli di immagine da testo, portando a miglioramenti delle prestazioni. Scomponendo la generazione di immagini in passaggi discreti, questi modelli sono diventati più trattabili e facili per le reti neurali da imparare.

In parallelo, l’uso dei livelli di auto-attenzione ha giocato un ruolo cruciale. Questi livelli, impilati insieme, hanno aiutato nella generazione di immagini senza la necessità di pregiudizi spaziali impliciti, un problema comune con le convoluzioni. Questo passaggio ha permesso ai modelli di immagine da testo di scalare e migliorare in modo affidabile, grazie alle ben comprese proprietà di scalabilità dei transformer.

Sfide e soluzioni nella generazione di immagini

Nonostante questi progressi, la controllabilità nella generazione di immagini rimane una sfida. Problemi come il follow del prompt, dove il modello potrebbe non aderire strettamente al testo di input, sono stati diffusi. Per affrontare questo, sono state proposte nuove approcci come il miglioramento delle didascalie, finalizzato a migliorare la qualità delle coppie di testo e immagine nei set di dati di addestramento.

Miglioramento delle didascalie: un approccio innovativo

Il miglioramento delle didascalie consiste nel generare didascalie di migliore qualità per le immagini, il che a sua volta aiuta a formare modelli di immagine da testo più precisi. Ciò si ottiene attraverso un robusto sistema di didascalie delle immagini che produce descrizioni dettagliate e accurate delle immagini. Addestrando su queste didascalie migliorate, DALL-E 3 ha raggiunto risultati notevoli, molto simili a fotografie e opere d’arte prodotte dagli esseri umani.

Addestramento su dati sintetici

Il concetto di addestramento su dati sintetici non è nuovo. Tuttavia, il contributo unico qui è nella creazione di un nuovo sistema di didascalie delle immagini descrittivo. L’impatto dell’uso di didascalie sintetiche per l’addestramento dei modelli generativi è stato sostanziale, portando a miglioramenti nella capacità del modello di seguire i prompt in modo accurato.

Valutazione di DALL-E 3

Attraverso molteplici valutazioni e confronti con modelli precedenti come DALL-E 2 e Stable Diffusion XL, DALL-E 3 ha dimostrato prestazioni superiori, soprattutto in compiti legati al follow del prompt.

Confronto dei modelli di immagine da testo in varie valutazioni

Confronto dei modelli di immagine da testo in varie valutazioni

L’uso di valutazioni automatizzate e benchmark ha fornito prove chiare delle sue capacità, consolidando la sua posizione come generatore di immagini da testo all’avanguardia.

Prompt e capacità di DALL-E 3

DALL-E 3 offre un approccio più logico e raffinato alla creazione di visuali. Mentre scorri, noterai come DALL-E crea ogni immagine, con un mix di precisione e immaginazione che risuona con il prompt dato.

A differenza del suo predecessore, questa versione migliorata eccelle nell’organizzare gli oggetti in modo naturale all’interno di una scena e nel rappresentare le caratteristiche umane con accuratezza, fino al numero corretto di dita in una mano. I miglioramenti si estendono ai dettagli più fini e sono ora disponibili a una risoluzione più alta, garantendo un output più realistico e professionale.

Le capacità di rendering del testo sono state sostanzialmente migliorate. Mentre le versioni precedenti di DALL-E producevano testo senza senso, DALL-E 3 può ora generare testo leggibile e stile professionalmente (a volte), e persino loghi puliti occasionalmente.

La comprensione del modello di richieste di immagini complesse e sfumate è stata notevolmente migliorata. DALL-E 3 può ora seguire descrizioni dettagliate con accuratezza, anche in scenari con多 elementi e istruzioni specifiche, dimostrando la sua capacità di produrre immagini coerenti e ben composte. Esploriamo alcuni prompt e i relativi output che abbiamo ottenuto:

Progetta il packaging per una linea di tè biologici. Includi spazio per il nome del prodotto e la descrizione.

DALL-E 3 images based on text prompts

DALL-E 3 images based on text prompts (Nota che il poster a sinistra ha un errore di ortografia)

Crea uno stendardo web per pubblicizzare una vendita estiva di mobili da giardino. L'immagine deve avere un ambiente da spiaggia con diversi pezzi di mobili da giardino e testo che annuncia 'Risparmio estivo enorme!'

DALL-E 3 images based on text prompts

DALL-E 3 images based on text prompts

Un poster di viaggio vintage di Parigi con testo audace e stilizzato che dice 'Visita Parigi' in basso.

DALL-E 3 images based on text prompts

DALL-E 3 images based on text prompts (Nota che entrambi i poster hanno errori di ortografia)

Una scena affollata del festival di Diwali in India, con famiglie che accendono lampade, fuochi d'artificio nel cielo e dolci e decorazioni tradizionali.
DALL-E 3 images based on text prompts

DALL-E 3 images based on text prompts

Un mercato affollato nell'antica Roma, con persone in abbigliamento dell'epoca, vari beni in vendita e architettura dell'epoca.
Genera un'immagine di una figura storica famosa, come Cleopatra o Leonardo da Vinci, collocata in un ambiente contemporaneo, utilizzando tecnologia moderna come smartphone o laptop.
DALL-E 3 images based on text prompts

DALL-E 3 images based on text prompts

Limitazioni e rischi di DALL-E 3

OpenAI ha fatto importanti passi per filtrare il contenuto esplicito dai dati di addestramento di DALL-E 3, mirando a ridurre i pregiudizi e migliorare l’output del modello. Ciò include l’applicazione di filtri specifici per categorie di contenuto sensibile e una revisione delle soglie per filtri più ampi. La pila di mitigazione include anche diversi strati di salvaguardie, come meccanismi di rifiuto in ChatGPT per argomenti sensibili, classificatori di input di prompt per prevenire violazioni delle politiche, elenchi di blocco per categorie di contenuto specifiche e trasformazioni per assicurare che i prompt siano allineati con le linee guida.

Nonostante i suoi progressi, DALL-E 3 ha limitazioni nella comprensione delle relazioni spaziali, nel rendering di lungo testo in modo accurato e nella generazione di immagini specifiche. OpenAI riconosce queste sfide e sta lavorando per migliorare future versioni.

L’azienda sta anche lavorando per differenziare le immagini generate da AI da quelle create dagli esseri umani, riflettendo il loro impegno per la trasparenza e l’uso responsabile dell’IA.

DALL·E

DALL·E 3

DALL-E 3, l’ultima versione, sarà disponibile in fasi iniziali con gruppi di clienti specifici e successivamente si estenderà ai laboratori di ricerca e ai servizi API. Tuttavia, non è ancora stata confermata una data di rilascio pubblico gratuito.

OpenAI sta realmente fissando un nuovo standard nel campo dell’IA con DALL-E 3, collegando in modo fluido capacità tecniche complesse e interfacce utente-friendly. L’integrazione di DALL-E 3 in piattaforme ampiamente utilizzate come Bing riflette un passaggio da applicazioni specializzate a forme più ampie e accessibili di intrattenimento e utilità.

Il vero gioco-chiave nei prossimi anni sarà probabilmente l’equilibrio tra innovazione e potere dell’utente. Le aziende che prospereranno saranno quelle che non solo spingono i confini di ciò che l’IA può realizzare, ma forniscono anche agli utenti l’autonomia e il controllo che desiderano. OpenAI, con il suo impegno per l’IA etica, sta navigando questo percorso con attenzione. L’obiettivo è chiaro: creare strumenti di IA che non siano solo potenti, ma anche affidabili e inclusivi, garantendo che i benefici dell’IA siano accessibili a tutti.

Ho trascorso gli ultimi cinque anni immergendomi nel mondo affascinante del Machine Learning e del Deep Learning. La mia passione e la mia esperienza mi hanno portato a contribuire a oltre 50 progetti di ingegneria del software diversi, con un focus particolare su AI/ML. La mia curiosità in corso mi ha anche portato verso l'elaborazione del linguaggio naturale, un campo che sono ansioso di esplorare ulteriormente.