Prompt engineering
Mastering AI Art: A Concise Guide to Midjourney and Prompt Engineering

Introduzione all’arte generata da MidJourney AI
L’AI sta rapidamente superando le barriere dell’impossibilità e ha di recente invaso il dominio dell’arte, trasformandolo completamente. Ora, non è necessario essere un artista esperto o un esperto di Photoshop per portare alla vita le creazioni della tua immaginazione. Una semplice descrizione testuale ben articolata è tutto ciò che serve, grazie a Midjourney.
Tutto è iniziato con l’introduzione di tecnologie innovative come DALL-E, Midjourney e StableDiffusion nel 2022. Mentre ognuna di queste innovazioni ha portato il suo tocco unico sulla tela dell’AI generativa, Midjourney in particolare ha continuato il suo percorso avvincente, facendo notevoli passi avanti.
Midjourney è attualmente il principale generatore di immagini ad alta risoluzione basato su testo nel mercato e si distingue per la sua unica combinazione di generazione di immagini basata su testo, editing dei media e upsampling, e accesso alla comunità artistica attiva, il tutto a partire da 10 dollari al mese. Questa suite completa di funzionalità presenta un eccitante canovaccio per artisti, appassionati di tecnologia e professionisti dell’AI, creando un ambiente per la creatività e l’innovazione.
Il mondo dell’arte sta certamente prendendo nota, con l’AI generativa nel mercato dell’arte proiettata a crescere del 40,5% in termini di tasso di crescita annuo composto. Midjourney si distingue nel creare le immagini più realistiche e di alta qualità utilizzando l’AI.
L’ingegneria dei prompt efficace va oltre la semplice creazione; comprende le migliori pratiche. I prompt dovrebbero offrire chiarezza e essere concisi, ma fornire all’AI sufficienti indicazioni senza prescrizioni eccessive. Inoltre, il pubblico target deve essere considerato durante la progettazione, tenendo conto di variabili come età, genere e background culturale, tra gli altri.
Come funziona MidJourney?
Mid-Journey sfrutta due tecnologie di apprendimento automatico innovative – modelli linguistici e modelli di diffusione. Il modello linguistico, simile ai chatbot AI come ChatGPT, aiuta Mid-Journey a interpretare il significato dei tuoi prompt e a convertirli in vettori. Questo vettore guida poi il processo di diffusione.
Le operazioni interne di Midjourney sono in gran parte non divulgate. Tuttavia, è evidente che utilizza la generazione di immagini basata su testo da due tecnologie di apprendimento automatico relativamente nuove: modelli linguistici e modelli di diffusione. Il primo è forse familiare agli utenti di piattaforme AI come ChatGPT, e il secondo è un’aggiunta promettente nel settore della generazione di arte AI. L’intero sistema si basa sul set di dati CLIP per l’addestramento, che può essere trovato sulla pagina di ricerca di OpenAI.
Nonostante le informazioni limitate, è possibile tracciare un quadro ampio del modello di diffusione di Midjourney, opportunamente chiamato ‘Stable Diffusion’. In sostanza, Stable Diffusion è un modello open-source che trasforma abilmente i prompt testuali in immagini di vari stili e contenuti. Questa procedura sofisticata viene realizzata attraverso un modello di diffusione, un modello generativo che collega le dipendenze tra input testuali e output di immagini.
I modelli di diffusione si basano sul fondamento del metodo di denoising della diffusione, un approccio influenzato dalla termodinamica non in equilibrio. Questo metodo smonta sistematicamente la struttura dei dati e la ricostruisce in seguito. Questo approccio è stato adattato per la generazione di immagini da Ho et al. nel 2020, portando alla nascita dei modelli di diffusione che vediamo oggi.
L’addestramento dei modelli di diffusione comporta due fasi principali. Inizialmente, il processo di diffusione o forward coinvolge l’aggiunta incrementale di rumore casuale all’immagine di input fino a quando non si trasforma completamente in rumore. Questo processo è governato da una catena di Markov fissa, che aggiunge costantemente rumore gaussiano attraverso diversi passaggi successivi.
Successivamente, nella fase di ricostruzione o reverse, il modello restaura i dati originali dallo stato dominato dal rumore raggiunto nel processo di diffusione. Questo processo è guidato da una catena di Markov con transizioni gaussiane apprese, implicando che la previsione della densità di probabilità in un dato momento dipende solo dallo stato raggiunto nel passaggio temporale precedente. Poiché i latenti ‘x1, …, xT’ condividono la stessa dimensionalità dei dati, i modelli di diffusione si classificano come modelli di variabili latenti.
Costo e abbonamento di Mid-Journey
Mentre molti chatbot come ChatGPT e Bing Chat offrono un utilizzo quasi illimitato gratuito, la situazione differisce per i generatori di immagini come Mid-Journey. A causa della notevole potenza di calcolo richiesta, in particolare dalle unità di elaborazione grafica (GPU) e dall’utilizzo della memoria video per il processo di denoising, il servizio di Mid-Journey ha un prezzo.
Il piano di base inizia da 10 dollari al mese, fornendo circa 3,3 ore di tempo di utilizzo della GPU, sufficienti per circa 200 generazioni di immagini. Tuttavia, ci sono piani di livello superiore che offrono immagini illimitate in modalità Relaxed, sebbene con un tempo di attesa più lungo.
Configurazione di MidJourney
- Iniziare con MidJourney comporta la registrazione sul loro sito web ufficiale, l’abbonamento a un piano e la successiva reindirizzazione a Discord.
- Una volta trovato il canale Mid-Journey su Discord, navigare fino ai gruppi per i nuovi arrivati sul lato sinistro. Da lì, è possibile osservare altri utenti che creano prompt, imparare la meccanica di Mid-Journey e interagire in un ambiente vivace.
- Dopo essersi familiarizzato con l’ambiente, invitare il bot al proprio server privato per creare immagini senza disturbi. Il bot genera quattro immagini di anteprima in base al prompt, consentendo di selezionare la corrispondenza più vicina alla propria idea originale e di raffinare ulteriormente l’immagine.
Struttura del prompt per Midjourney
- Il comando /imagine in un canale Discord all’interno del canale Midjourney genera un’immagine unica da una breve descrizione testuale (prompt).
- Per ricreare uno stile specifico su varie immagini, è sufficiente inserire l’URL dell’immagine insieme al prompt testuale. I nuovi output coerenti uniranno elementi dall’immagine scelta e dal testo.
/imagine http://link-all-immagine –parametro1 –parametro2
È possibile generare un link all’immagine caricandola nel canale Discord. Una volta caricata, fare clic destro sull’immagine e selezionare ‘Copia link’.
Qui http://link-all-immagine e i parametri sono opzionali. - Successivamente, il bot inizia a lavorare sull’immagine, impiegando circa un minuto per offrire quattro alternative. Questo processo coinvolge l’utilizzo di unità di elaborazione grafica robuste per elaborare e interpretare ogni prompt.
- Tenere traccia dell’utilizzo della GPU utilizzando il comando /info. Consente di verificare il ‘Tempo rimanente veloce’ e di monitorare il tempo di utilizzo della GPU dell’abbonamento.
Ridimensionamento e alterazioni delle immagini
Per un’immagine più raffinata, utilizzare i pulsanti ‘U’ sotto le immagini per ridimensionare la scelta preferita. È anche possibile utilizzare i pulsanti ‘V’ per apportare modifiche a immagini specifiche. Per ulteriori modifiche a un’immagine ridimensionata, utilizzare le opzioni ‘Crea variazioni’, ‘Ridimensiona leggermente nuovamente’ e ‘Ridimensiona beta nuovamente’. Il pulsante ‘Web’ consente di visualizzare l’immagine in una dimensione più grande in una finestra separata.
Midjourney consente il ridimensionamento delle immagini fino a 2048×2048 (quadro) e 2720×1530 (schermo panoramico) attraverso la sua funzione di ridimensionamento beta, con una dimensione di griglia di generazione predefinita di 1024×1024 (quadro) e 1456×816 (schermo panoramico). Ogni immagine può essere ulteriormente migliorata attraverso le opzioni di ridimensionamento ‘U’, che migliorano parti specifiche dell’immagine.
Guarda questo prompt che produce un’opera d’arte fantastica con la versione 5.2 di Midjourney.
/imagine Un’opera d’arte raffigura un albero solitario sotto un cielo stellato, con un bambino che legge sotto, nei toni del blu sereno e dell’arancione caldo, ispirata ai pennelli dell’Impressionismo francese, ai miniature persiani, alla semplicità del Bauhaus, evocativa di illustrazioni classiche di fiabe per bambini, che raggiunge un’armonia asimmetrica, espressa in un modo affascinante, folk/naïve: –ar 15:19 –upbeta –q 2
Creazione della prima opera d’arte AI con Midjourney
- Creare il progetto di base: pensare a se stessi come un artista. Iniziare con una descrizione semplice e vivida dell’immagine che si desidera portare alla vita. Definire il soggetto principale, l’atmosfera o anche i dettagli minori che si desidera incorporare. Utilizzare punteggiature come virgole, parentesi e trattini per strutturare i pensieri. Per risultati migliori, essere espliciti sul contesto e i dettagli del proprio design. Elementi come soggetto (ad esempio, Drago, automobile d’epoca, Abraham Lincoln), mezzo (ad esempio, arte digitale, schizzo a matita), ambiente (ad esempio, spazio esterno, sott’acqua, città affollata), illuminazione (ad esempio, morbida, al neon, controlicht), colore (ad esempio, toni della terra, vibranti, smorzati), umore (ad esempio, malinconico, fantasioso, pacifico) e composizione (ad esempio, paesaggio, primo piano, ampio) possono essere cruciali. Esempi:
- Una foresta idilliaca bagnata dalla luce del sole, con un sentiero che si snoda nella distanza
- Una città che non dorme, con luci al neon che si riflettono sui marciapiedi e una folla diversificata che si aggira
- Infondere stile e parole chiave: l’AI di Midjourney è in grado di illustrare immagini in una miriade di stili come astratto, surreale o realistico. Integrando uno stile o parole chiave correlate, è possibile guidare l’AI per creare un’immagine che specchi la propria visione. Sperimentare con vari stili e parole chiave per scoprire il mix perfetto. Esempi:
- Un paesaggio dipinto che rappresenta un deserto all’alba, specchiando lo stile di Georgia O’Keeffe, con una palette di colori pastello e forme organiche.
- Una rappresentazione astratta di una foresta pacifica, con pattern geometrici che formano alberi e fogliame, ispirata alle composizioni di Piet Mondrian.
- Sfruttare le impostazioni avanzate: considerare Midjourney come la propria scatola degli attrezzi creativi, piena di impostazioni avanzate che consentono di personalizzare le immagini generate. È come avere in mano una bacchetta magica, che consente di evocare l’equilibrio perfetto di casualità, stile e variazione dell’immagine. Sfruttare appieno queste impostazioni fino a quando non si trova il mix perfetto che risuona con la propria visione. Esempi:
- Un giardino giapponese sereno con un laghetto che riflette gli alberi di ciliegio –seed 22 –s 150 –c 40
- Una città cyberpunk distopica, illuminata da luci al neon –seed 88 –s 600 –c 60
- Evidenziare elementi con pesi: immaginare l’immagine come una sinfonia, con ogni elemento che contribuisce all’ensemble grandioso. Utilizzando la notazione “::”, è possibile dettare l’importanza di vari elementi nell’immagine, consentendo di controllare il focus. Esempi:
- [Un pavone elegante]::3 appoggiato a un [albero di glicine]::1 in fiore con fiori vibranti
- [Un elefante maestoso]::2 che si crogiola nel calore di un [tramonto]::1 nella savana
- Midjourney è un processo di prova ed errore: sperimentare con elementi e caratteristiche diversi è necessario. Ogni iterazione porterà più vicino all’immagine che si desidera portare alla vita.
Parametri di Mid-Journey
Il modello di Midjourney opera utilizzando parametri regolabili che controllano l’esito del processo di generazione di immagini. Questi parametri consentono agli utenti di personalizzare e adattare la propria arte generata, perfezionando il modello per creare output che si adattino perfettamente al proprio obiettivo.
Ecco i parametri di base e avanzati, le loro funzioni e come utilizzarli per sfruttare appieno le capacità di Midjourney:
- Proporzioni (–aspect o –ar): questo parametro controlla il rapporto tra la larghezza e l’altezza dell’immagine generata. Ad esempio, un rapporto di 16:9 è perfetto per le miniature di YouTube, mentre 1:1 produce un’immagine quadrata ideale per Instagram.
- Caos (–chaos): questo parametro regola la diversità della griglia di immagini iniziale e va da 0 a 100. Valori di caos più alti daranno risultati imprevedibili e unici, mentre valori più bassi garantiranno risultati più coerenti.
- No (–no): questo parametro aiuta a eliminare elementi o caratteristiche specifici dall’immagine generata. Ad esempio, se si desidera un’immagine senza rosso, è possibile utilizzare “–no rosso”.
- Qualità (–quality o –q): questa impostazione regola il tempo necessario per generare un’immagine. Una qualità più alta richiede più tempo di elaborazione, ma produce dettagli più intricati. Questo parametro può assumere valori di .25, .5, 1 o 2.
- Seed (–seed): questo parametro determina il rumore visivo iniziale, agendo come base per l’immagine generata. Utilizzare lo stesso numero di seed con lo stesso prompt darà risultati simili. Accetta valori interi tra 0 e 4294967295.
- Stop (–stop): con questo parametro, è possibile terminare prematuramente un lavoro, producendo risultati meno dettagliati ma potenzialmente interessanti. La gamma è 10-100. Ad esempio, se si specifica ‘–stop 50’, il processo di generazione dell’immagine si fermerà al 50% del completamento, risultando in un’immagine meno dettagliata e forse astratta.
- Stilizzare (–stylize o –s): questo controlla il livello di applicazione artistica sull’immagine generata. Valori di stilizzazione più bassi producono risultati più vicini al prompt iniziale, mentre valori più alti producono interpretazioni più astratte e artistiche. In v5, il valore predefinito è 100, ma è possibile impostarlo tra 0 e 1000.
- Versione del modello: è possibile selezionare tra varie versioni del modello Midjourney utilizzando il parametro –version o –v.
- Niji: un modello specializzato in immagini nello stile anime. È possibile accedervi utilizzando il parametro –niji.
- Definizione alta: per immagini astratte e paesaggi, il parametro –hd attiva una versione del modello precedente che produce immagini più grandi e meno coerenti.
- Modelli di test: Midjourney offre modelli speciali per casi d’uso specifici. –test e –testp attivano i modelli di test standard e quelli focalizzati sulla fotografia, rispettivamente.
- Ridimensionatore: l’algoritmo Midjourney inizia con una griglia di immagini a bassa risoluzione. Offre diversi modelli di ridimensionamento per migliorare la dimensione e il dettaglio dell’immagine.
- Uplight: un ridimensionatore leggero alternativo (–uplight) fornisce immagini ridimensionate più lisce e meno dettagliate.
- Upbeta: il parametro –upbeta porta a immagini con dettagli aggiuntivi significativamente ridotti, restando più vicine all’immagine della griglia originale.
- Upanime: il ridimensionatore –upanime è progettato specificamente per funzionare con il modello Midjourney –niji.
- Peso dell’immagine: utilizzare –iw per regolare il peso del prompt dell’immagine rispetto al peso del testo. Il valore predefinito è 0,25.
- Sameseed: il parametro –sameseed garantisce che tutte le immagini nella griglia iniziale utilizzino lo stesso rumore di partenza, creando immagini generate molto simili.
- Video: Midjourney può salvare un video del processo di generazione della griglia di immagini iniziale utilizzando il parametro –video.
- Creativo: con il parametro –creative, i modelli di test e testp producono immagini più variegate e creative.
Midjourney continua a pubblicare aggiornamenti per migliorare l’esperienza dell’utente, l’ultimo dei quali è la versione 5.2, lanciata nel giugno 2023. Aggiungendo –v 5.2 al prompt o selezionandolo tramite il comando /settings, gli utenti possono accedere a questo modello avanzato. La versione 5.2 offre una migliore definizione delle immagini e comprende meglio i prompt, portando colori più vivaci e composizioni migliorate.
Comprendere i diritti d’autore per le opere d’arte generate da AI
Nel marzo 2023, l’Ufficio del copyright degli Stati Uniti ha chiarito la sua posizione sulla registrazione dei diritti d’autore per le opere generate da intelligenza artificiale. La politica afferma che mentre gli elementi creati dall’uomo nelle creazioni AI (come scritti o design unici) possono essere protetti, le immagini prodotte da AI non sono idonee per la protezione dei diritti d’autore, aderendo alle norme globali che solo le creazioni umane sono idonee per la protezione dei diritti d’autore.
Nel contesto dell’arte AI, il diritto d’autore non è semplice. Mentre l’arte digitale ha l’input dell’artista umano, l’arte generata da AI è creata senza intervento umano diretto, complicando la questione dell’autore e della proprietà. Secondo l’Ufficio del copyright degli Stati Uniti, la proprietà iniziale è concessa all’autore dell’opera – un creatore umano. Tuttavia, poiché l’AI non può essere considerata un autore, l’arte generata da AI manca di una chiara proprietà.
Le ultime linee guida dell’Ufficio del copyright degli Stati Uniti consentono la registrazione dei diritti d’autore per l’arte AI solo quando contiene sufficiente autorialità umana. Il livello di ‘sufficiente autorialità umana’ rimane indefinito e dipende dal grado di coinvolgimento umano nella creazione dell’opera d’arte AI.
In modo interessante, Midjourney, una piattaforma AI per la creazione di immagini, ha stabilito le proprie politiche per i diritti d’uso. Gli utenti della versione di prova gratuita possono utilizzare le immagini per scopi non commerciali in base alla licenza Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0), con il dovuto credito a Midjourney. Tuttavia, gli abbonati paganti possono utilizzare le immagini per qualsiasi scopo, compresi quelli commerciali, in base ai Termini commerciali generali. Questo sviluppo nello spazio dei diritti d’autore presenta una dinamica intrigante tra creatività AI e umana.
Utilizzo di Midjourney per progettazioni di UI dinamiche e generazione di loghi creativi
Dalla progettazione di interfacce utente intuitive per siti web o app mobili alla creazione di loghi e banner unici, Midjourney consente ai creatori di contenuti di generare una varietà di alternative di design nel giro di pochi secondi.
Ecco come funziona. Ogni design inizia con un prompt, che funge da canovaccio per l’AI da seguire. Supponiamo di progettare un’interfaccia utente per un’app di piattaforma di tutoring online. Un prompt tipico potrebbe essere: “/imagine Interfaccia utente della piattaforma di tutoring online, Dribbble, Alta Risoluzione, 4K, come Khan Academy”.
I risultati iniziali potrebbero non essere perfetti. Ad esempio, aggiungere “Adobe XD” al mix potrebbe aiutare Midjourney a personalizzare i propri design per renderli più compatibili con Adobe XD. Un prompt ottimizzato sarà:
/imagine Piattaforma di tutoring online, interfaccia utente, Adobe XD, Dribbble, Alta Risoluzione, 4K, design minimalista
Logo o banner ispirati al testo utilizzando Midjourney
Esploriamo come creare un banner con un logo per Unite.AI.
Innanzitutto, è necessario avere un’immagine semplice del testo che si desidera visualizzare. È possibile creare questo utilizzando qualsiasi strumento di design grafico o editor di testo e caricarlo nel canale Discord.
Il prompt per creare il banner è:
















