stub Mastering AI Art: A Concise Guide to Midjourney and Prompt Engineering - Unite.AI
Anslut dig till vårt nätverk!

Snabb ingenjörskonst

Att behärska AI Art: A Concise Guide to Midjourney and Prompt Engineering

mm
Uppdaterad on
Midjourney Genererad UNITE AI LOGO

Introduktion till MidJourney AI-genererad konst

AI bryter snabbt igenom omöjlighetens barriärer och har senast invaderat konstens domän och förvandlat det helt. Nu behöver du inte vara en mästerkonstnär eller en Photoshop-expert för att väcka fantasin till liv. En enkel, välartikulerad uppmaning är allt du behöver, tack vare midjourney.

Det hela började med introduktionen av banbrytande teknologier som DALL-E, Midjourney och StableDiffusion redan 2022. Även om var och en av dessa innovationer gav sin distinkta touch till Generative AI, har i synnerhet Midjourney fortsatt sin övertygande resa och gjort anmärkningsvärda steg.

Midjourney är för närvarande den ledande högupplösta text-till-bild AI-generatorn på marknaden och den står högt med sin unika blandning av text-till-bild-generering, medieredigering och uppskalning och aktiv åtkomst till konstgemenskapen, allt från 10 USD per månad. Denna omfattande svit med funktioner presenterar en spännande arbetsyta för artister, teknikentusiaster och AI-proffs, och bygger en miljö för kreativitet och innovation.

Konstvärlden lägger verkligen märke till, med generativ AI på konstmarknaden som förväntas bevittna en häpnadsväckande tillväxt av 40.5% CAGR. Midjourney är oöverträffad när det gäller att skapa de mest realistiska och högkvalitativa bilderna med hjälp av AI.

Effektiv snabb ingenjörskonst går utöver bara skapande; den omfattar bästa praxis. Uppmaningar bör ge klarhet och vara kortfattade, men ändå ge AI tillräckligt med vägledning utan överdrivet recept. Målgruppen måste också beaktas under designen, med hänsyn till variabler som ålder, kön och kulturell bakgrund, bland annat.

Hur fungerar MidJourney?

Mid-Journey utnyttjar två nya maskininlärningstekniker – stora språk- och spridningsmodeller. Språkmodellen, liknande AI-chatbots som ChatGPT, hjälper Mid-Journey att tolka innebörden av dina uppmaningar och konvertera dem till vektorer. Denna vektor styr sedan diffusionsprocessen.

Midjourneys inre funktioner är i stort sett okänd. Ändå är det uppenbart att den använder text-till-bild-generering från två relativt nya maskininlärningsteknologier: stora språkmodeller och diffusionsmodeller. Den förra är kanske bekant för användare av AI-plattformar som ChatGPT, och den senare är ett lovande tillägg till AI-konstgenereringssektorn. Hela systemet är beroende av KLÄMMA dataset för utbildning, som finns på OpenAI:s forskningssida.

Trots den begränsade informationen är det möjligt att skissera en bred bild av Midjourney's diffusionsmodell, passande namnet 'Stable Diffusion'. I huvudsak är Stable Diffusion en modell med öppen källkod som skickligt omvandlar textmeddelanden till bilder med olika stilar och innehåll. Denna sofistikerade procedur uppnås genom en diffusionsmodell, en generativ modell som överbryggar beroenden mellan textinmatningar och bildutgångar.

Diffusionsmodeller är byggda på grunden av Denoising Diffusion-metoden, ett tillvägagångssätt som påverkas av termodynamik som inte är i jämvikt. Denna metod demonterar systematiskt datastrukturen och återställer den senare. Detta tillvägagångssätt anpassades för bildgenerering av Ho et al. år 2020, vilket ledde till lanseringen av de diffusionsmodeller vi ser idag.

Utbildningsdiffusionsmodeller involverar två primära steg. Inledningsvis involverar framåt- eller diffusionsprocessen stegvis tillägg av slumpmässigt brus till ingångsbilden tills den fullständigt förvandlas till brus. Denna process styrs av en fast Markov-kedja, som konsekvent lägger till Gaussiskt brus över flera på varandra följande steg.

Midjourney arbetar demonstration

Därefter, i omvänd- eller rekonstruktionsfasen, återställer modellen de ursprungliga data från det brusdominerade tillståndet som uppnåtts i diffusionsprocessen. Denna process drivs av en Markov-kedja med inlärda Gaussiska övergångar, vilket innebär att förutsägelsen av sannolikhetstäthet vid varje given tidpunkt enbart är beroende av det tillstånd som uppnåddes i föregående tidssteg. Eftersom de latenta "x1, ..., xT" delar samma dimensionalitet som data, klassificeras diffusionsmodeller som latenta variabelmodeller.

Kostnad och prenumeration av Mid-Journey

Medan många chatbots som ChatGPT och Bing Chat erbjuder nästan obegränsad användning gratis, skiljer sig scenariot för bildgeneratorer som Mid-Journey. På grund av den betydande datorkraft som krävs, särskilt från grafikprocessorenheterna (GPU) och videominnesanvändning för avbrutningsprocessen, kommer Mid-Journeys tjänst med en prislapp.

Grundplanen börjar från $10 per månad, vilket ger cirka 3.3 timmars GPU-tid, tillräckligt för cirka 200 bildgenerationer. Det finns dock avancerade planer som erbjuder obegränsade bilder i avslappnat läge, om än med längre väntetid.

Konfigurera din MidJourney

  1. Börjar med MidJourney innebär att registrera sig på deras officiella hemsida, prenumerera på en plan och sedan omdirigeras till Discord.
  2. När du har hittat Mid-Journey-kanalen på Discord, navigera till Newcomer Groups på vänster sida. Därifrån kan du observera andra användare som skapar uppmaningar, lära dig mekaniken i Mid-Journey och interagera i en livlig miljö.
  3. Efter att ha bekantat dig med miljön, bjud in boten till din privata server för att skapa bilder ostört. Boten genererar fyra förhandsgranskningsbilder baserat på din uppmaning, så att du kan välja den som är närmast din ursprungliga idé och förfina bilden ytterligare.

Snabb struktur för Midjourney

  1. Kommandot /imagine vid en discord-kanal inne i Midjourney-kanalen genererar en unik bild från en kort textbeskrivning (Prompt).
  2. För att återskapa en specifik stil över olika bilder, skriv bara in bildens webbadress bredvid din textuppmaning. Dina nya, konsekventa utdata kommer att slå samman element från både din valda bild och text.
    /föreställ dig http://länk-till-din-bild –parameter1 –parameter2
    Du kan skapa en länk till din bild genom att ladda upp den till Discord-kanalen. När du har laddat upp högerklickar du på bilden och väljer "Kopiera länk".
    Här är http://länk-till-din-bild och parametrar valfria.
  3. Efter detta kommer boten att arbeta med din bild, och det tar ungefär en minut att erbjuda fyra alternativ. Denna process involverar användningen av robusta grafikprocessorer (GPU) för att bearbeta och tolka varje prompt.
  4. Håll koll på din GPU-användning genom att använda kommandot /info. Det låter dig kontrollera din "Fast Time Remaining" och övervaka ditt abonnemangs GPU-tid.

/info prompt midjourney

Bilduppskalning och ändringar

För en mer förfinad bild, använd "U"-knapparna under bilderna för att skala upp ditt föredragna val. Du kan också använda 'V'-knapparna för att göra justeringar av specifika bilder. För ytterligare ändringar av en uppskalad bild, använd alternativen "Gör varianter", "Lätt uppskala om" och "Beta uppskala om". Med knappen 'Web' kan du se bilden i större storlek i ett separat fönster.

Midjourney möjliggör bilduppskalning till 2048×2048 (kvadrat) och 2720×1530 (widescreen) upplösningar via sin beta-uppskala redo-funktion, med en standardgenereringsrutnätsstorlek på 1024×1024 (kvadrat) och 1456×816 (widescreen). Varje bild kan förbättras ytterligare genom "U"-uppskalningsalternativen, som förbättrar specifika delar av bilden.

Ta en titt på denna prompt som ger fantastiska konstverk med Midjourneys V5.2-version.

/imagine Artwork porträtterar ett ensamt träd under en stjärnklar himmel, med ett barn som läser under, i nyanserna av fridfull blått och varm orange, inspirerat av penseldragen från fransk impressionism, persiska miniatyrer, Bauhaus-enkelhet, frammanande av klassiska barnsagaillustrationer, uppnå en asymmetrisk harmoni, uttryckt i ett förtrollande, folkligt/naivt: –ar 15:19 –upbeta –q 2

Exempel på Midjourney Prompt Guide

Skapa din första Midjourney AI Art

  1. Skapa den grundläggande ritningen: Se dig själv som en konstnär. Börja med en rak, levande beskrivning av bilden du strävar efter att få till liv. Beskriv huvudämnet, atmosfären eller till och med de små detaljerna du vill bädda in. Använd skiljetecken som kommatecken, parenteser och bindestreck för att strukturera dina tankar. För förbättrade resultat, var tydlig om din designs sammanhang och detaljer. Element som motiv (t.ex. drake, veteranbil, Abraham Lincoln), medium (t.ex. digital konst, pennskiss), miljö (t.ex. yttre rymden, under vattnet, livlig stad), belysning (t.ex. mjuk, neon, bakgrundsbelyst) , färg (t.ex. jordfärger, levande, dämpad), humör (t.ex. melankolisk, nyckfull, fridfull) och komposition (t.ex. landskap, närbild, vidvinkel) kan vara avgörande. Exempel:
    • En idyllisk skog badad i solljus, en gångstig som slingrar sig i fjärran
    • En stad som aldrig sover, med neonljus som reflekteras från trottoarerna och en mångsidig folkmassa som rör sig
  2. Ingjuta stil och nyckelord: Midjourney's AI kan illustrera bilder i en myriad av stilar som abstrakt, surrealistisk eller realistisk. Genom att integrera en stil eller relaterade nyckelord kan du vägleda AI att skapa en bild som speglar din vision. Experimentera med olika stilar och nyckelord för att upptäcka den perfekta blandningen. Exempel:
    • En landskapsmålning som föreställer en öken i gryningen, som speglar Georgia O'Keeffes stil, med en pastellfärgspalett och organiska former.
    • En abstrakt återgivning av en fridfull skog, med geometriska mönster som bildar träd och löv, inspirerad av Piet Mondrians kompositioner.
  3. Utnyttja avancerade inställningar: Se Midjourney som din kreativa verktygslåda, full av avancerade inställningar som låter dig finjustera dina genererade bilder. Det är som att använda ett trollspö, vilket gör att du kan trolla fram den perfekta balansen mellan slumpmässighet, stilisering och bildvariation. Släpp loss din kreativa skicklighet genom att mixtra med dessa inställningar tills du hittar den perfekta mixen som resonerar med din vision. Exempel:
    • En fridfull japansk trädgård med en damm som reflekterar körsbärsträden – frö 22 –s 150 –c 40
    • En dystopisk cyberpunkstad, upplyst av neonljus –seed 88 –s 600 –c 60
  4. Framhäv element med vikter: Visualisera din bild som en symfoni, med varje element som bidrar till den stora ensemblen. Med hjälp av notationen "::" kan du diktera betydelsen av olika element i din bild, så att du kan styra strålkastaren. Exempel:
    • [En elegant påfågel]::3 uppflugen på ett [blåregnträd]::1 som blommar med livfulla blommor
    • [En majestätisk elefant]::2 som solar sig i skenet från en [nedgående sol]::1 på savannen
  5. Midjourney är en process av trial and error: Experimentera med olika element och funktioner är nödvändigt. Varje iteration kommer att föra dig närmare bilden du föreställt dig att väcka till liv.

Mid-Journey parametrar

Modellen av Midjourney arbetar med justerbara parametrar som styr resultatet av bildgenereringsprocessen. Dessa parametrar tillåter användare att justera och skräddarsy sin genererade konst, finjustera modellen för att skapa utdata som passar deras mål perfekt.

Nedan är de grundläggande och avancerade parametrarna, deras funktioner och hur man använder dem för att fullt ut utnyttja Midjourneys möjligheter:

  • Bildförhållande (–aspect eller –ar): Denna parameter styr förhållandet mellan den genererade bildens bredd och höjd. Till exempel är ett förhållande på 16:9 perfekt för YouTube-miniatyrer, medan 1:1 ger en kvadratisk bild som är perfekt för Instagram.
  • Kaos (–kaos): Den här parametern justerar mångfalden i det ursprungliga bildrutnätet och sträcker sig från 0 till 100. Högre kaosvärden ger dig oförutsägbara och unika resultat, medan lägre värden säkerställer mer konsekventa resultat.
  • Nej (–nej): Denna parameter hjälper dig att eliminera specifika element eller egenskaper från den genererade bilden. Om du till exempel vill ha en bild utan rött kan du använda "–ingen röd".
  • Kvalitet (–kvalitet eller –q): Denna inställning justerar den tid som krävs för att skapa en bild. Högre kvalitet kräver mer handläggningstid men ger intrikata detaljer. Denna parameter kan anta värden på .25, .5, 1 eller 2.
  • Seed (–seed): Denna parameter bestämmer det visuella startbruset och fungerar som en baslinje för den genererade bilden. Att använda samma frönummer med samma prompt kommer att ge liknande utdata. Den accepterar heltalsvärden mellan 0–4294967295.
  • Stopp (–stopp): Med denna parameter kan du avsluta ett jobb i förtid, vilket ger mindre detaljerade men potentiellt intressanta utdata. Räckvidden är 10-100. Till exempel, om du anger "–stopp 50", kommer bildgenereringsprocessen att stanna vid 50 % slutförande, vilket resulterar i en mindre detaljerad, möjligen abstrakt bild.
  • Stylize (–stylize eller –s): Detta styr nivån av konstnärlig tillämpning på den genererade bilden. Lägre stiliseringsvärden ger resultat närmare den initiala prompten, medan högre värden resulterar i mer abstrakta och konstnärliga tolkningar. I v5 är standardvärdet 100, men du kan ställa in det var som helst från 0-1000.
  • Modellversion: Du kan välja mellan olika versioner av Midjourney-modellen genom att använda parametern –version eller –v.
  • Niji: En modell specialiserad på bilder i animestil. Den kan nås med parametern –niji.
  • Highmi Definition: För abstrakta och landskapsbilder aktiverar parametern –hd en tidig modellversion som ger större, mindre konsekventa bilder.
  • Testmodeller: Midjourney erbjuder speciella modeller för specifika användningsfall. –test och –testp aktiverar de standard- respektive fotofokuserade testmodellerna.
  • Uppskalare: Midjourney-algoritmen börjar med ett lågupplöst bildrutnät. Den erbjuder flera uppskalningsmodeller för att förbättra bildstorlek och detaljer.
    • Uplight: En alternativ ljusuppskalare (–uplight) ger uppskalade bilder som är mindre detaljerade men jämnare.
    • Upbeta: Parametern –upbeta leder till bilder med betydligt färre ytterligare detaljer, och förblir närmare den ursprungliga rutnätsbilden.
    • Upanime: Uppskalaren –upanime är designad speciellt för att fungera med –niji Midjourney-modellen.
  • Bildvikt: Använd –iw för att justera bildpromptens vikt i förhållande till textens vikt. Standardvärdet är 0.25.
  • Sameseed: Parametern –sameseed säkerställer att alla bilder i det initiala rutnätet använder samma startbrus, vilket skapar mycket liknande genererade bilder.
  • Video: Midjourney kan spara en förloppsvideo av den första bildrutnätsgenereringen med hjälp av parametern –video.
  • Creative: Med parametern –creative producerar test- och testp-modellerna mer varierade och kreativa bilder.

Midjourney rullar konsekvent ut uppdateringar för att förbättra användarupplevelsen, med den senaste versionen 5.2, som lanserades i juni 2023. Genom att lägga till –v 5.2 till din prompt eller välja den via /settings-kommandot kan användare komma åt den här avancerade modellen. Version 5.2 erbjuder överlägsen bilddetaljering och förstår uppmaningar mer intuitivt, vilket ger ljusare färger och förbättrade kompositioner.

Förstå upphovsrätter för AI-genererade konstverk

Midjourney Bild av Mix av AI och upphovsrättslagar

I mars 2023 förtydligade det amerikanska upphovsrättskontoret sin ståndpunkt om upphovsrätten till AI-genererade fungerar. Policyn säger att även om de mänskligt skapade elementen i AI-skapelser (som skrifter eller unika mönster) kan skyddas, kvalificerar AI-producerade bilder inte för upphovsrätt, eftersom de följer globala normer att endast mänskliga skapelser är berättigade till upphovsrättsskydd.

I samband med AI-konst är upphovsrätten inte okomplicerad. Medan digital konst har den mänskliga konstnärens input, skapas AI-genererad konst utan direkt mänsklig inblandning, vilket komplicerar frågan om författarskap och ägande. Enligt US Copyright Office beviljas det första ägandet till verkets författare – en mänsklig skapare. Men eftersom AI inte kan betraktas som en författare, saknar AI-genererad konst tydligt ägande.

Den senaste vägledningen från US Copyright Office tillåter upphovsrättsskydd av AI-konst endast när den innehåller tillräckligt mänskligt författarskap. Nivån på "tillräckligt mänskligt författarskap" förblir odefinierat och beror på graden av mänskligt engagemang i att skapa AI-konstverket.

Intressant nog har Midjourney, en AI-baserad plattform för bildskapande, etablerat sina egna policyer för användningsrättigheter. Gratis testanvändare kan använda bilderna för icke-kommersiella ändamål under Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0), med korrekt kredit till Midjourney. Betalande prenumeranter kan dock använda bilderna för alla ändamål, inklusive kommersiella, enligt de allmänna kommersiella villkoren. Denna utveckling inom upphovsrättsområdet presenterar en spännande dynamik mellan AI och mänsklig kreativitet.

Använder Midjourney för dynamisk UI-design och Creative Logo Generation

Från att designa intuitiva användargränssnitt för webbplatser eller mobilappar till att skapa unika logotyper och banners, Midjourney stärker innehållsskapare genom att generera en rad designalternativ inom några sekunder.

Så här fungerar det. Varje design börjar med en uppmaning, som fungerar som en ritning för AI:n att följa. Anta att du designar ett användargränssnitt för en online-undervisningsplattformsapp. En typisk uppmaning kan vara: "/föreställ användargränssnittet för online handledningsplattform, Dribbble, High Resolution, 4K, like Khan academy".

De initiala resultaten kanske inte träffar målet perfekt. Att till exempel lägga till "Adobe XD" i mixen kan hjälpa Midjourney att skräddarsy designen så att den blir mer Adobe XD-kompatibel. En optimerad prompt kommer att vara:

/imagine Online handledningsplattform, användargränssnitt, Adobe XD, Dribbble, High Resolution, 4K, minimalistisk design

Midjourney Bild av Desktop App UI/UX design

 

Textinspirerad logotyp eller banderoller med Midjourney

Låt oss utforska hur man skapar en banner med en logotyp för UNITE AI.

Först måste du ha en enkel bild av texten du vill visa. Du kan skapa detta med vilket grafiskt designverktyg eller textredigerare som helst och ladda upp det till din Discord-kanal.

exempeltext för UNITE LOGO
En enkel bild av text som används för att skapa UNITE-logotypen

Uppmaningen att skapa bannern är:

/imagine Bokstäver: UNITE i en futuristisk, AI-inspirerad typsnittslogotyp med bokstäverna UNITE –v 5 –ar 16:9

Funktionsskärm för Midjourney Prompt Guide

Ta en titt på dessa exempeluppmaningar för fler idéer:

/imagine En ensam musiker framför en fridfull melodi i en flytande stad i skymningen, i art nouveau-stil

Midjourney Prompt Guide: Bild av indisk konst

 

/imagine En bild av en framtida person som arbetar på ett futuristiskt skrivbord, omgivet av holografiska skärmar och avancerad teknik. Personen är klädd i en snygg, silverfärgad jumpsuit och har virtual reality-glasögon på sig. Miljön är fylld av neonljus och svävande hologram. Atmosfären är futuristisk och högteknologisk, med en känsla av spänning och innovation. Kameran är en högupplöst digitalkamera som fångar varje detalj med precision. Den konstnärliga stilen är en blandning av cyberpunk och minimalism, med fokus på rena linjer och djärva färger. Regissörer, filmfotografer, fotografer, modedesigners, serietecknare och konstnärer som samarbetar i denna unika sammanställning är Christopher Nolan, Roger Deakins, Annie Leibovitz, Virgil Abloh, Hayao Miyazaki och Kaws.

Midjourney prompt för en framtida person som arbetar

/föreställ dig 1940-talet – stil Barbie som en krigssjuksköterska, i en vintage armésjukhusmiljö, som tar hand om de skadade soldaterna, i stil med klassiska Mattel-illustrationer, med en atmosfär av sepiatonad fotografering från andra världskriget 8k –v 5 –ar 16 :9

Midjourney Prompt Guide: Bild av Barbie i unika inställningar

/imagine Ram av en kvinna lutad mot en cyberpunk, hoverbike, japansk anime, vidsträckta stadsbilder, 32k, invecklad rymdhamn, flyktig, skyskrapapanorama, elegant

Midjourney Bild av cyberpunk stil tjej

 

Sista tankar: Navigera i AI-konstvärlden med Midjourney

Kom ihåg: "En bild säger mer än tusen ord". En detaljerad, levande beskrivning kan göra underverk. Ja, Midjourney är inte gratis att använda. Ändå revolutionerar det konstvärlden och utökar våra kreativa möjligheter genom sin toppmoderna text-till-bild AI-teknik. Med möjligheten att konvertera en enkel textuppmaning till en högupplöst bild är det ett verktyg som lovar gränslösa möjligheter, inte bara för artister utan också för UI/UX-designers, teknikentusiaster och AI-proffs.

Här är några viktiga takeaways att komma ihåg när du ger dig ut på ditt Midjourney-äventyr:

  • Lär dig grunderna i Midjourney-prompten: Använd tydliga, kortfattade och omfattande beskrivningar som kapslar in din vision för att vägleda AI effektivt. Kom ihåg att ta hänsyn till din publik och tveka inte att experimentera med olika stilar, stämningar och sammanhang.
  • Använd parametrar: Förbättra din kreativa upplevelse genom att utnyttja de många avancerade inställningarna som Midjourney erbjuder. Från att kontrollera bildförhållandet till att justera kaosparametern för unika resultat, varje detalj kan skräddarsys efter dina önskemål.
  • Omfamna den iterativa processen: Ditt första AI-genererade konstverk kanske inte är perfekt. Omfamna denna iterativa process och lär dig att förfina och optimera dina meddelanden för bättre resultat.
  • Förstå de upphovsrättsliga konsekvenserna: Även om AI-genererade konstverk i sig inte är berättigade till upphovsrätt, kan de mänskliga komponenterna i dem skyddas.

I huvudsak har integreringen av AI i konsten demokratiserat kreativiteten och suddat ut gränserna mellan mänskliga och maskingjorda mästerverk. När vi fortsätter att bevittna den anmärkningsvärda tillväxten av generativ AI på konstmarknaden, är det obestridligt att AI-konstrevolutionen, ledd av plattformar som Midjourney, bara har börjat.

Jag har ägnat de senaste fem åren åt att fördjupa mig i den fascinerande världen av Machine Learning och Deep Learning. Min passion och expertis har lett mig till att bidra till över 50 olika programvaruutvecklingsprojekt, med särskilt fokus på AI/ML. Min pågående nyfikenhet har också dragit mig mot Natural Language Processing, ett område som jag är ivrig att utforska vidare.