Prompt engineering
Maestria dell’Arte AI: Una Guida Concisa a Midjourney e Ingegneria di Prompt

Introduzione all’Arte Generata da MidJourney AI
L’AI sta rapidamente superando le barriere dell’impossibilità e ha recentemente invaso il dominio dell’arte, trasformandolo completamente. Ora, non è più necessario essere un artista esperto o un esperto di Photoshop per portare in vita le creazioni della tua immaginazione. Una semplice descrizione testuale ben articolata è tutto ciò che serve, grazie a Midjourney.
Tutto è iniziato con l’introduzione di tecnologie innovative come DALL-E, Midjourney e StableDiffusion nel 2022. Mentre ognuna di queste innovazioni ha portato il suo tocco unico alla tela dell’Intelligenza Artificiale Generativa, Midjourney in particolare ha continuato il suo percorso affascinante, facendo passi significativi.
Midjourney è attualmente il principale generatore di immagini ad alta risoluzione basato su testo nel mercato e si distingue per la sua unica combinazione di generazione di immagini da testo, editing di media e upscaling, e accesso alla comunità artistica attiva, tutto a partire da 10 dollari al mese. Questa suite completa di funzionalità presenta un quadro emozionante per artisti, appassionati di tecnologia e professionisti dell’AI, creando un ambiente per la creatività e l’innovazione.
Il mondo dell’arte sta certamente prendendo nota, con l’intelligenza artificiale generativa nel mercato dell’arte proiettata a una crescita sorprendente del 40,5% CAGR. Midjourney si distingue nel creare le immagini più realistiche e di alta qualità utilizzando l’AI.
La progettazione di prompt efficace va oltre la semplice creazione; comprende le migliori pratiche. I prompt dovrebbero offrire chiarezza e essere concisi, ma fornire all’AI sufficienti indicazioni senza prescrizioni eccessive. Inoltre, durante la progettazione, è necessario considerare il pubblico target, tenendo conto di variabili come età, genere e background culturale, tra gli altri.
Come Funziona MidJourney?
Mid-Journey sfrutta due tecnologie di apprendimento automatico innovative: i modelli linguistici e di diffusione. Il modello linguistico, simile ai chatbot AI come ChatGPT, aiuta Mid-Journey a interpretare il significato dei tuoi prompt e a convertirli in vettori. Questo vettore guida poi il processo di diffusione.
I meccanismi interni di Midjourney sono in gran parte non divulgati. Tuttavia, è evidente che utilizza la generazione di immagini da testo da due tecnologie di apprendimento automatico relativamente nuove: i modelli linguistici e di diffusione. Il primo è forse familiare agli utenti di piattaforme AI come ChatGPT, e il secondo è un’aggiunta promettente nel settore della generazione di arte AI. L’intero sistema si basa sul dataset CLIP per l’addestramento, che può essere trovato sulla pagina di ricerca di OpenAI.
Nonostante le informazioni limitate, è possibile tracciare un’immagine generale del modello di diffusione di Midjourney, opportunamente chiamato ‘Stable Diffusion’. In sostanza, Stable Diffusion è un modello open-source che trasforma abilmente i prompt testuali in immagini di vari stili e contenuti. Questa procedura sofisticata viene raggiunta attraverso un modello di diffusione, un modello generativo che collega le dipendenze tra input testuali e output di immagini.
I modelli di diffusione sono costruiti sul fondamento del metodo di diffusione di denoising, un approccio influenzato dalla termodinamica non in equilibrio. Questo metodo smonta sistematicamente la struttura dei dati e la ricostruisce successivamente. Questo approccio è stato adattato per la generazione di immagini da Ho et al. nel 2020, portando alla creazione dei modelli di diffusione che vediamo oggi.
L’addestramento dei modelli di diffusione coinvolge due fasi principali. Inizialmente, il processo di diffusione o forward coinvolge l’aggiunta incrementale di rumore casuale all’immagine di input fino a quando non si trasforma completamente in rumore. Questo processo è governato da una catena di Markov fissa, che aggiunge costantemente rumore gaussiano in più passaggi successivi.
Successivamente, nella fase di ricostruzione o inversa, il modello ripristina i dati originali dallo stato dominato dal rumore raggiunto nel processo di diffusione. Questo processo è guidato da una catena di Markov con transizioni gaussiane apprese, implicando che la previsione della densità di probabilità in un dato momento è solo dipendente dallo stato raggiunto nel passo temporale precedente. Poiché i latenti ‘x1, …, xT’ condividono la stessa dimensionalità dei dati, i modelli di diffusione si classificano come modelli di variabili latenti.
Costo e Abbonamento di Mid-Journey
Mentre molti chatbot come ChatGPT e Bing Chat offrono un utilizzo quasi illimitato gratuito, la situazione differisce per i generatori di immagini come Mid-Journey. A causa della notevole potenza di calcolo richiesta, in particolare dalle unità di elaborazione grafica (GPU) e dall’utilizzo della memoria video per il processo di denoising, il servizio di Mid-Journey ha un prezzo.
Il piano di base inizia da 10 dollari al mese, fornendo circa 3,3 ore di tempo di GPU, sufficienti per circa 200 generazioni di immagini. Tuttavia, ci sono piani di livello superiore che offrono immagini illimitate in modalità Rilassata, sebbene con un tempo di attesa più lungo.
Configurazione di MidJourney
- Per iniziare con MidJourney, è necessario iscriversi sul loro sito web ufficiale, sottoscrivere un piano e quindi essere reindirizzati a Discord.
- Una volta trovato il canale Mid-Journey su Discord, navigare verso i Gruppi per i Nuovi Arrivati sul lato sinistro. Da lì, è possibile osservare altri utenti che creano prompt, imparare la meccanica di Mid-Journey e interagire in un ambiente vivace.
- Dopo essersi familiarizzato con l’ambiente, invitare il bot nel proprio server privato per creare immagini senza distrazioni. Il bot genera quattro immagini di anteprima in base al prompt, consentendo di selezionare la corrispondenza più vicina alla propria idea originale e di raffinare ulteriormente l’immagine.
Struttura del Prompt per Midjourney
- Il comando /imagine in un canale Discord all’interno del canale Midjourney genera un’immagine unica da una breve descrizione testuale (Prompt).
- Per ricreare uno stile specifico attraverso varie immagini, è sufficiente inserire l’URL dell’immagine accanto al prompt testuale. I nuovi output consistenti combineranno elementi sia dall’immagine scelta che dal testo.
/imagine http://link-all-immagine <descrizione dell’immagine> –parametro1 –parametro2
È possibile generare un link all’immagine caricandola nel canale Discord. Una volta caricata, fare clic destro sull’immagine e selezionare ‘Copia link’.
Qui http://link-all-immagine e i parametri sono opzionali. - Successivamente, il Bot inizia a lavorare sull’immagine, impiegando circa un minuto per offrire quattro alternative. Questo processo coinvolge l’utilizzo di potenti GPU per elaborare e interpretare ogni prompt.
- Tenere traccia dell’utilizzo della GPU utilizzando il comando /info. Consente di controllare il tempo di ‘Fast Time Remaining’ e di monitorare il tempo di GPU dell’abbonamento.
Upscaling e Modifiche delle Immagini
Per un’immagine più raffinata, utilizzare i pulsanti ‘U’ sotto le immagini per aumentare la risoluzione della scelta preferita. È anche possibile utilizzare i pulsanti ‘V’ per apportare modifiche a immagini specifiche. Per ulteriori modifiche a un’immagine aumentata, utilizzare le opzioni ‘Crea variazioni’, ‘Ripeti l’upscale leggero’ e ‘Ripeti l’upscale beta’. Il pulsante ‘Web’ consente di visualizzare l’immagine in una dimensione più grande in una finestra separata.
Midjourney consente l’aumento della risoluzione delle immagini fino a 2048×2048 (quadro) e 2720×1530 (schermo largo) attraverso la funzione di upscaling beta, con una dimensione di griglia di generazione predefinita di 1024×1024 (quadro) e 1456×816 (schermo largo). Ogni immagine può essere ulteriormente migliorata attraverso le opzioni di upscaling ‘U’, che migliorano specifiche parti dell’immagine.
Guarda questo prompt che produce un’opera d’arte fantastica con la versione 5.2 di Midjourney.
/imagine Un’opera d’arte raffigura un albero solitario sotto un cielo stellato, con un bambino che legge sotto, nei toni del blu sereno e dell’arancione caldo, ispirato ai pennelli dell’Impressionismo francese, ai miniaturi persiani, alla semplicità del Bauhaus, evocativo di illustrazioni classiche di fiabe per bambini, che raggiungono un’armonia asimmetrica, espressa in un modo incantato, folk/naïf: –ar 15:19 –upbeta –q 2
Creazione della Tua Prima Opera d’Arte AI con Midjourney
- Creare il Blueprint di Base: Immaginati come un artista. Inizia con una descrizione semplice e vivida dell’immagine che desideri portare in vita. Delinea il soggetto principale, l’atmosfera o anche i dettagli minori che desideri incorporare. Utilizza la punteggiatura come virgole, parentesi e trattini per strutturare i tuoi pensieri. Per risultati migliori, sii esplicito sul contesto e i dettagli del tuo design. Elementi come soggetto (ad esempio, Drago, auto d’epoca, Abraham Lincoln), mezzo (ad esempio, arte digitale, disegno a matita), ambiente (ad esempio, spazio esterno, sott’acqua, città affollata), illuminazione (ad esempio, morbida, neon, controlicht), colore (ad esempio, toni della terra, vibranti, smussati), umore (ad esempio, malinconico, fantasioso, pacifico) e composizione (ad esempio, paesaggio, primo piano, ampio) possono essere cruciali. Esempi:
- Una foresta idillica bagnata dalla luce del sole, un sentiero che si snoda all’orizzonte
- Una città che non dorme, con luci al neon che si riflettono sui marciapiedi e una folla diversificata che si muove
- Infondi Stile e Parole Chiave: L’AI di Midjourney è in grado di illustrare immagini in una miriade di stili come astratto, surreale o realistico. Integrando uno stile o parole chiave correlate, puoi guidare l’AI per creare un’immagine che riflette la tua visione. Sperimenta con vari stili e parole chiave per scoprire il mix perfetto. Esempi:
- Un dipinto paesaggistico che raffigura un deserto all’alba, che imita lo stile di Georgia O’Keeffe, con una palette di colori pastello e forme organiche.
- Una rappresentazione astratta di una foresta pacifica, con pattern geometrici che formano alberi e fogliame, ispirato alle composizioni di Piet Mondrian.
- Sfrutta le Impostazioni Avanzate: Considera Midjourney come la tua scatola degli attrezzi creativi, piena di impostazioni avanzate che ti consentono di personalizzare le tue immagini generate. È come brandire una bacchetta magica, che ti permette di evocare l’equilibrio perfetto di casualità, stile e variazione dell’immagine. Sfrutta il tuo potenziale creativo sperimentando con queste impostazioni fino a trovare il mix perfetto che risuona con la tua visione. Esempi:
- Un giardino giapponese sereno con un laghetto che riflette gli alberi di ciliegio –seed 22 –s 150 –c 40
- Una città cyberpunk distopica, illuminata da luci al neon –seed 88 –s 600 –c 60
- Evidenzia Elementi con Pesi: Visualizza la tua immagine come una sinfonia, con ogni elemento che contribuisce all’ensemble grandioso. Utilizzando la notazione “::”, puoi indicare l’importanza di vari elementi nella tua immagine, permettendoti di controllare il focus. Esempi:
- [Un pavone elegante]::3 appollaiato su un [albero di glicine]::1 in fiore con fiori vibranti
- [Un elefante maestoso]::2 che si crogiola nel calore di un [tramonto]::1 nella savana
- Midjourney è un processo di prova ed errore: Sperimentare con diversi elementi e funzionalità è necessario. Ogni iterazione ti porterà più vicino all’immagine che hai immaginato di portare in vita.
Parametri di Mid-Journey
Il modello di Midjourney opera utilizzando parametri regolabili che controllano l’esito del processo di generazione di immagini. Questi parametri consentono agli utenti di personalizzare e adattare la loro arte generata, perfezionando il modello per creare output che si adattino perfettamente al loro obiettivo.
Di seguito sono elencati i parametri di base e avanzati, le loro funzioni e come utilizzarli per sfruttare appieno le capacità di Midjourney:
- Rapporti di Aspetto (–aspect o –ar): Questo parametro controlla il rapporto tra la larghezza e l’altezza dell’immagine generata. Ad esempio, un rapporto di 16:9 è perfetto per le miniature di YouTube, mentre 1:1 produce un’immagine quadrata ideale per Instagram.
- Caos (–chaos): Questo parametro regola la diversità della griglia di immagini iniziale e varia da 0 a 100. Valori di caos più alti daranno risultati imprevedibili e unici, mentre valori più bassi assicureranno risultati più coerenti.
- No (–no): Questo parametro aiuta a eliminare elementi o caratteristiche specifiche dall’immagine generata. Ad esempio, se si desidera un’immagine senza rosso, si può utilizzare “–no rosso”.
- Qualità (–quality o –q): Questa impostazione regola il tempo necessario per generare un’immagine. Una qualità più alta richiede più tempo di elaborazione, ma produce dettagli più intricati. Questo parametro può assumere valori di 0,25, 0,5, 1 o 2.
- Seed (–seed): Questo parametro determina il rumore visivo iniziale, agendo come base per l’immagine generata. Utilizzare lo stesso numero di seed con lo stesso prompt darà risultati simili. Accetta valori interi tra 0 e 4294967295.
- Stop (–stop): Con questo parametro, è possibile interrompere prematuramente un lavoro, producendo risultati meno dettagliati ma potenzialmente interessanti. La gamma è 10-100. Ad esempio, se si specifica ‘–stop 50’, il processo di generazione dell’immagine si fermerà al 50% del completamento, risultando in un’immagine meno dettagliata e forse astratta.
- Stilizza (–stylize o –s): Questo controlla il livello di applicazione artistica sull’immagine generata. Valori di stilizzazione più bassi producono risultati più vicini al prompt iniziale, mentre valori più alti producono interpretazioni più astratte e artistiche. Nella versione 5, il valore predefinito è 100, ma è possibile impostarlo tra 0 e 1000.
- Versione del Modello: È possibile selezionare tra varie versioni del modello Midjourney utilizzando il parametro –version o –v.
- Niji: Un modello specializzato in immagini nello stile anime. È possibile accedervi utilizzando il parametro –niji.
- Alta Definizione: Per immagini astratte e paesaggistiche, il parametro –hd attiva una versione del modello precedente che produce immagini più grandi e meno coerenti.
- Modelli di Test: Midjourney offre modelli speciali per casi d’uso specifici. I parametri –test e –testp attivano i modelli di test standard e quelli focalizzati sulla fotografia, rispettivamente.
- Upscaler: L’algoritmo di Midjourney inizia con una griglia di immagini a bassa risoluzione. Offre diversi modelli di upscaling per migliorare la dimensione e il dettaglio dell’immagine.
- Uplight: Un upscaler di luce alternativo (–uplight) fornisce immagini upscale meno dettagliate ma più lisce.
- Upbeta: Il parametro –upbeta porta a immagini con molti meno dettagli aggiuntivi, rimanendo più vicine all’immagine della griglia originale.
- Upanime: L’upscaler –upanime è progettato specificamente per funzionare con il modello Midjourney –niji.
- Peso dell’Immagine: Utilizzare –iw per regolare il peso del prompt dell’immagine rispetto al peso del testo. Il valore predefinito è 0,25.
- Sameseed: Il parametro –sameseed assicura che tutte le immagini nella griglia iniziale utilizzino lo stesso rumore di partenza, creando immagini generate molto simili.
- Video: Midjourney può salvare un video del processo di generazione della griglia di immagini iniziale utilizzando il parametro –video.
- Creativo: Con il parametro –creative, i modelli di test e testp producono immagini più variegate e creative.
Midjourney continua a rilasciare aggiornamenti per migliorare l’esperienza utente, con l’ultimo essere la versione 5.2, lanciata nel giugno 2023. Aggiungendo –v 5.2 al prompt o selezionandolo tramite il comando /settings, gli utenti possono accedere a questo modello avanzato. La versione 5.2 offre una migliore definizione delle immagini e comprende meglio i prompt, portando colori più vivaci e composizioni migliorate.
Comprensione dei Diritti d’Autore per le Opere d’Arte Generate da AI
A marzo 2023, l’Ufficio del Copyright degli Stati Uniti ha chiarito la sua posizione sulla registrazione dei diritti d’autore per le opere generate da AI. La politica afferma che mentre gli elementi creati dall’uomo nelle creazioni AI (come scritti o design unici) possono essere protetti, le immagini prodotte da AI non sono idonee per la protezione dei diritti d’autore, in conformità con le norme globali che solo le creazioni umane sono idonee per la protezione dei diritti d’autore.
Nel contesto dell’arte AI, il diritto d’autore non è semplice. Mentre l’arte digitale ha l’input dell’artista umano, l’arte generata da AI è creata senza intervento umano diretto, complicando la questione dell’autore e della proprietà. Secondo l’Ufficio del Copyright degli Stati Uniti, la proprietà iniziale è concessa all’autore dell’opera – un creatore umano. Tuttavia, poiché l’AI non può essere considerata un autore, l’arte generata da AI manca di una chiara proprietà.
Le ultime linee guida dell’Ufficio del Copyright degli Stati Uniti consentono la registrazione dei diritti d’autore per l’arte AI solo quando contiene un’autorialità umana sufficiente. Il livello di ‘autorialità umana sufficiente’ rimane indefinito e dipende dal grado di coinvolgimento umano nella creazione dell’opera d’arte AI.
In modo interessante, Midjourney, una piattaforma AI per la creazione di immagini, ha stabilito le proprie politiche per i diritti d’uso. Gli utenti della versione gratuita possono utilizzare le immagini per scopi non commerciali secondo la Licenza Creative Commons Attribuzione-NonCommerciale 4.0 Internazionale (CC BY-NC 4.0), con credito appropriato a Midjourney. Tuttavia, gli abbonati paganti possono utilizzare le immagini per qualsiasi scopo, compresi quelli commerciali, secondo i Termini Commerciali Generali. Questo sviluppo nello spazio dei diritti d’autore presenta una dinamica intrigante tra creatività umana e AI.
Utilizzo di Midjourney per Progettazioni di Interfaccia Utente Dinamiche e Generazione di Loghi Creativi
Dalla progettazione di interfacce utente intuitive per siti web o app mobili alla creazione di loghi e banner unici, Midjourney potenzia i creatori di contenuti generando una varietà di alternative di design nel giro di pochi secondi.
Ecco come funziona. Ogni progettazione inizia con un prompt, che agisce come una bozza per l’AI da seguire. Supponiamo di progettare un’interfaccia utente per un’app di piattaforma di tutoring online. Un prompt tipico potrebbe essere: “/imagine Interfaccia utente della piattaforma di tutoring online, Dribbble, Alta Risoluzione, 4K, come Khan Academy”.
I risultati iniziali potrebbero non essere perfetti. Ad esempio, aggiungere “Adobe XD” al mix potrebbe aiutare Midjourney a personalizzare i suoi design per renderli più compatibili con Adobe XD. Un prompt ottimizzato sarà:
/imagine Piattaforma di tutoring online, interfaccia utente, Adobe XD, Dribbble, Alta Risoluzione, 4K, design minimalista
Logo o Banner ispirati al Testo utilizzando Midjourney
Esploriamo come creare un banner con un logo per UNITE AI.
Prima di tutto, è necessario avere un’immagine semplice del testo che si desidera visualizzare. È possibile crearla utilizzando qualsiasi strumento di design grafico o editor di testo e caricarla nel canale Discord.
Il prompt per creare il banner è:
/imagine Lettere: <link a un’immagine semplice del testo da visualizzare> UNITE in un carattere tipografico futuristico e ispirato all’AI con lettere UNITE –v 5 –ar 16:9
Guarda questi esempi di prompt per ulteriori idee:
/imagine Un musicista solitario che esegue una melodia serena su una città fluttuante al tramonto, stile art nouveau
/imagine Un’immagine di una persona del futuro che lavora a una scrivania futuristica, circondata da schermi olografici e tecnologia avanzata. La persona indossa un abito da lavoro argenteo e ha occhiali di realtà virtuale. L’ambiente è pieno di luci al neon e ologrammi fluttuanti. L’atmosfera è futuristica e ad alta tecnologia, con un senso di eccitazione e innovazione. La macchina fotografica è una fotocamera digitale ad alta risoluzione, che cattura ogni dettaglio con precisione. Lo stile artistico è un mix di cyberpunk e minimalismo, con un focus su linee pulite e colori audaci. I registi, direttori della fotografia, fotografi, designer di moda, cartoonisti e artisti che collaborano in questa giustapposizione unica sono Christopher Nolan, Roger Deakins, Annie Leibovitz, Virgil Abloh, Hayao Miyazaki e Kaws.
/imagine Una Barbie degli anni ’40 come infermiera di guerra, in un ambiente di ospedale militare d’epoca, che si prende cura dei soldati feriti, nello stile delle illustrazioni classiche di Mattel, con un’atmosfera di fotografia in bianco e nero della seconda guerra mondiale 8k –v 5 –ar 16:9
/imagine Una cornice di una donna appoggiata a una moto volante, stile cyberpunk, paesaggi urbani giapponesi, 32k, intricato spazioporto, fugace, panorami di grattacieli, elegante
Pensieri Finali: Navigare nel Mondo dell’Arte AI con Midjourney
Ricorda, “Un’immagine vale più di mille parole”. Una descrizione dettagliata e vivida può lavorare miracoli. Sì, Midjourney non è gratuito da usare. Tuttavia, sta rivoluzionando il mondo dell’arte e ampliando le nostre possibilità creative attraverso la sua tecnologia di intelligenza artificiale all’avanguardia per la generazione di immagini da testo. Con la capacità di convertire un semplice prompt testuale in un’immagine ad alta risoluzione, è uno strumento che promette opportunità illimitate, non solo per gli artisti, ma anche per i progettisti di interfacce utente, gli appassionati di tecnologia e i professionisti dell’AI.
Ecco alcuni punti chiave da ricordare mentre si inizia la propria avventura con Midjourney:
- Impara le basi del prompt di Midjourney: Utilizza descrizioni chiare, concise e complete che catturino la tua visione per guidare efficacemente l’AI. Ricorda di considerare il tuo pubblico e non esitare a sperimentare con vari stili, umori e contesti.
- Utilizza i parametri: Migliora la tua esperienza creativa sfruttando la moltitudine di impostazioni avanzate che Midjourney offre. Dalla regolazione del rapporto di aspetto alla regolazione del parametro di caos per risultati unici, ogni dettaglio può essere personalizzato secondo le tue preferenze.
- Accetta il processo iterativo: La tua prima opera d’arte generata da AI potrebbe non essere perfetta. Accetta questo processo iterativo e impara a raffinare e ottimizzare i tuoi prompt per risultati migliori.
- Comprendi le implicazioni dei diritti d’autore: Mentre le opere d’arte generate da AI di per sé non sono idonee per la protezione dei diritti d’autore, i componenti creati dall’uomo all’interno di esse possono essere protetti.
In sostanza, l’integrazione dell’AI nell’arte ha democratizzato la creatività e ha sfumato i confini tra capolavori umani e macchina. Mentre continuiamo a testimoniare la crescita sorprendente dell’intelligenza artificiale generativa nel mercato dell’arte, è indiscutibile che la rivoluzione dell’arte AI, guidata da piattaforme come Midjourney, è solo all’inizio.























