Rask Engineering

Mastering AI Art: A Concise Guide to Midjourney and Rask Engineering

Publisert Juli 27, 2023

oppdatert April 23, 2024

Aayush Mittal Mittal

Introduksjon til MidJourney AI-generert kunst

AI bryter raskt gjennom umulighetens barrierer og har nylig invadert kunstens domene og transformert det fullstendig. Nå trenger du ikke være en mesterkunstner eller en Photoshop-ekspert for å bringe fantasien din til live. En enkel, velartikulert forespørsel er alt du trenger, takket være midt på reisen.

Det hele begynte med introduksjonen av banebrytende teknologier som DALL-E, Midjourney og StableDiffusion tilbake i 2022. Mens hver av disse innovasjonene brakte sitt særegne preg på lerretet til Generative AI, har spesielt Midjourney fortsatt sin overbevisende reise, noe som gjør bemerkelsesverdige skritt.

Midjourney er for tiden den ledende høyoppløselige tekst-til-bilde AI-generatoren på markedet, og den står høyt med sin unike blanding av tekst-til-bilde generering, medieredigering og oppskalering, og aktiv kunstfellesskapstilgang, alt fra $10 pr. måned. Denne omfattende pakken med funksjoner presenterer et spennende lerret for artister, teknologientusiaster og AI-fagfolk, og bygger et miljø for kreativitet og innovasjon.

Kunstverdenen legger absolutt merke til, med generativ kunstig intelligens i kunstmarkedet som forventes å være vitne til en svimlende vekst på 40.5% CAGR. Midjourney er uovertruffen når det gjelder å lage de mest realistiske og høykvalitets grafikk ved hjelp av AI.

Effektiv prompt engineering går utover bare skapelse; den omfatter beste praksis. Forespørsler skal gi klarhet og være kortfattede, men likevel gi AI-en nok veiledning uten overdreven resept. Målgruppen må også vurderes under utformingen, og tar hensyn til variabler som blant annet alder, kjønn og kulturell bakgrunn.

Hvordan fungerer MidJourney?

Mid-Journey utnytter to nye maskinlæringsteknologier – store språk- og diffusjonsmodeller. Språkmodellen, som ligner på AI-chatbots som ChatGPT, hjelper Mid-Journey med å tolke betydningen av spørsmålene dine og konvertere dem til vektorer. Denne vektoren styrer deretter diffusjonsprosessen.

Midjourneys indre virkemåte er stort sett ikke avslørt. Likevel er det tydelig at den bruker tekst-til-bilde-generering fra to relativt nye maskinlæringsteknologier: store språkmodeller og diffusjonsmodeller. Førstnevnte er kanskje kjent for brukere av AI-plattformer som ChatGPT, og sistnevnte er et lovende tillegg til AI-kunstgenereringssektoren. Hele systemet er avhengig av CLIP datasett for opplæring, som finnes på OpenAIs forskningsside.

Til tross for den begrensede informasjonen, er det mulig å skissere et bredt bilde av Midjourney's diffusjonsmodell, passende kalt 'Stable Diffusion'. I hovedsak er Stable Diffusion en åpen kildekode-modell som dyktig transformerer tekstmeldinger til bilder med varierende stiler og innhold. Denne sofistikerte prosedyren oppnås gjennom en diffusjonsmodell, en generativ modell som bygger bro over avhengighetene mellom tekstinndata og bildeutganger.

Diffusjonsmodeller er bygget på grunnlaget for Denoising Diffusion-metoden, en tilnærming påvirket av termodynamikk uten likevekt. Denne metoden demonterer strukturen til data systematisk og gjenoppretter den senere. Denne tilnærmingen ble tilpasset for bildegenerering av Ho et al. i 2020, noe som førte til lanseringen av diffusjonsmodellene vi ser i dag.

Treningsdiffusjonsmodeller involverer to primære stadier. Til å begynne med involverer forover- eller diffusjonsprosessen trinnvis tilføyelse av tilfeldig støy til inngangsbildet til det fullstendig forvandles til støy. Denne prosessen styres av en fast Markov-kjede, som konsekvent legger til Gaussisk støy over flere påfølgende trinn.

Deretter, i revers- eller rekonstruksjonsfasen, gjenoppretter modellen de opprinnelige dataene fra den støydominerte tilstanden oppnådd i diffusjonsprosessen. Denne prosessen er drevet av en Markov-kjede med lærte gaussiske overganger, noe som antyder at prediksjonen av sannsynlighetstetthet til enhver tid er utelukkende avhengig av tilstanden oppnådd i det foregående tidstrinnet. Siden den latente 'x1, ..., xT' deler samme dimensjonalitet som dataene, klassifiseres diffusjonsmodeller som latente variable modeller.

Kostnad og abonnement på Mid-Journey

Mens mange chatbots som ChatGPT og Bing Chat tilbyr nesten ubegrenset bruk gratis, er scenariet annerledes for bildegeneratorer som Mid-Journey. På grunn av den betydelige datakraften som kreves, spesielt fra grafikkbehandlingsenhetene (GPUer) og bruk av videominne for denoising-prosessen, leveres Mid-Journeys tjeneste med en prislapp.

Grunnplanen starter fra $10 per måned, og gir rundt 3.3 timer med GPU-tid, nok til omtrent 200 bildegenerasjoner. Imidlertid er det avanserte planer som tilbyr ubegrensede bilder i avslappet modus, om enn med lengre ventetid.

Sette opp MidJourney

Starter med MidJourney innebærer å registrere seg på deres offisielle nettside, abonnere på en plan, og deretter bli omdirigert til Discord.
Når du finner Mid-Journey-kanalen på Discord, naviger til nykommergruppene på venstre side. Derfra kan du observere andre brukere som lager forespørsler, lære mekanikken til Mid-Journey og samhandle i et travelt miljø.
Etter å ha gjort deg kjent med miljøet, inviter boten til din private server for å lage bilder uforstyrret. Boten genererer fire forhåndsvisningsbilder basert på spørsmålet ditt, slik at du kan velge den som passer best til den opprinnelige ideen din og avgrense bildet ytterligere.

Rask struktur for Midjourney

/imagine-kommandoen ved en discord-kanal inne i Midjourney-kanalen genererer et unikt bilde fra en kort tekstbeskrivelse (Prompt).
For å gjenskape en spesifikk stil på tvers av forskjellige bilder, skriv inn nettadressen til bildet ved siden av tekstmeldingen. Dine nye, konsistente utdata vil slå sammen elementer fra både det valgte bildet og teksten.
/forestill deg http://link-to-your-image –parameter1 –parameter2
Du kan generere en lenke til bildet ditt ved å laste det opp til Discord-kanalen. Når det er lastet opp, høyreklikker du bildet og velger "Kopier lenke".
Her er http://link-to-your-image og parametere valgfrie.
Etter dette begynner boten å jobbe med bildet ditt, og det tar omtrent et minutt å tilby fire alternativer. Denne prosessen innebærer bruk av robuste grafiske prosesseringsenheter (GPUer) for å behandle og tolke hver forespørsel.
Hold styr på GPU-bruken din ved å bruke /info-kommandoen. Den lar deg sjekke "Fast Time Remaining" og overvåke abonnementets GPU-tid.

Bildeoppskalering og endringer

For et mer raffinert bilde, bruk U-knappene under bildene for å oppskalere ditt foretrukne valg. Du kan også bruke 'V'-knappene for å gjøre justeringer av bestemte bilder. For ytterligere endringer i et oppskalert bilde, bruk alternativene "Gjør varianter", "Light Upscale Redo" og "Beta Upscale Redo". 'Web'-knappen lar deg se bildet i en større størrelse i et eget vindu.

Midjourney gir mulighet for bildeoppskalering til 2048×2048 (kvadrat) og 2720×1530 (widescreen) oppløsninger via sin beta-oppskalere redo-funksjon, med en standard generasjonsrutenettstørrelse på 1024×1024 (kvadrat) og 1456×816 (widescreen). Hvert bilde kan forbedres ytterligere gjennom "U"-oppskaleringsalternativene, som forbedrer spesifikke deler av bildet.

Ta en titt på denne ledeteksten som produserer fantastiske kunstverk med Midjourneys V5.2-versjon.

/imagine Artwork skildrer et ensomt tre under en stjernebelyst himmel, med et barn som leser under, i nyansene av rolig blått og varm oransje, inspirert av penselstrøkene til fransk impresjonisme, persiske miniatyrer, Bauhaus-enkelhet, stemningsfull av klassiske eventyrillustrasjoner for barn, å oppnå en asymmetrisk harmoni, uttrykt i en fortryllende, folkelig/naivistisk: –ar 15:19 –upbeta –q 2

Lag din første Midjourney AI Art

Utarbeide den grunnleggende planen: Tenk på deg selv som en kunstner. Begynn med en grei, levende beskrivelse av bildet du ønsker å bringe til live. Skisser hovedemnet, stemningen eller til og med de minste detaljene du ønsker å bygge inn. Bruk tegnsetting som komma, parentes og bindestrek for å strukturere tankene dine. For forbedrede resultater, vær tydelig om designets kontekst og detaljer. Elementer som motiv (f.eks. Drage, veteranbil, Abraham Lincoln), medium (f.eks. digital kunst, blyantskisse), miljø (f.eks. verdensrommet, undervann, travle by), belysning (f.eks. myk, neon, bakgrunnsbelyst) , farge (f.eks. jordfarger, levende, dempet), stemning (f.eks. melankolsk, lunefull, fredelig) og komposisjon (f.eks. landskap, nærbilde, vidvinkel) kan være kritiske. Eksempler:
- En idyllisk skog badet i sollys, en gangsti som bukter seg i det fjerne
- En by som aldri sover, med neonlys som reflekterer fra fortauene og en mangfoldig folkemengde som freser rundt
Infusjon av stil og nøkkelord: Midjourneys AI er i stand til å illustrere bilder i en myriade av stiler som abstrakt, surrealistisk eller realistisk. Ved å integrere en stil eller relaterte nøkkelord kan du veilede AI til å lage et bilde som speiler synet ditt. Eksperimenter med ulike stiler og nøkkelord for å finne den perfekte blandingen. Eksempler:
- Et landskapsmaleri som viser en ørken ved daggry, som speiler stilen til Georgia O'Keeffe, med en pastellfargepalett og organiske former.
- En abstrakt gjengivelse av en fredelig skog, med geometriske mønstre som danner trær og løvverk, inspirert av Piet Mondrians komposisjoner.
Utnytte avanserte innstillinger: Betrakt Midjourney som din kreative verktøykasse, full av avanserte innstillinger som lar deg finjustere de genererte bildene dine. Det er som å bruke en tryllestav, slik at du kan fremkalle den ideelle balansen mellom tilfeldighet, stilisering og bildevariasjon. Slipp løs din kreative dyktighet ved å tukle med disse innstillingene til du finner den perfekte blandingen som resonerer med visjonen din. Eksempler:
- En rolig japansk hage med en dam som reflekterer kirsebærtrærne – frø 22 –s 150 –c 40
- En dystopisk cyberpunk-by, opplyst av neonlys – frø 88 –s 600 –c 60
Fremhev elementer med vekter: Visualiser bildet ditt som en symfoni, med hvert element som bidrar til det store ensemblet. Ved å bruke "::"-notasjonen kan du diktere betydningen av ulike elementer i bildet ditt, slik at du kan kontrollere rampelyset. Eksempler:
- [En elegant påfugl]::3 plassert på et [blåregnstre]::1 som blomstrer med livlige blomster
- [En majestetisk elefant]::2 som soler seg i gløden fra en [nedgående sol]::1 på savannen
Midjourney er prosessen med prøving og feiling: Det er nødvendig å eksperimentere med forskjellige elementer og funksjoner. Hver iterasjon vil bringe deg nærmere bildet du forestilte deg å bringe til live.

Mid-Journey parametere

Modellen til Midjourney opererer ved å bruke justerbare parametere som kontrollerer resultatet av bildegenereringsprosessen. Disse parameterne lar brukere justere og skreddersy den genererte kunsten deres, og finjustere modellen for å lage utdata som passer perfekt til deres mål.

Nedenfor er de grunnleggende og avanserte parameterne, deres funksjoner og hvordan du bruker dem for å utnytte Midjourneys evner fullt ut:

Aspect Ratios (–aspect eller –ar): Denne parameteren kontrollerer forholdet mellom bredden og høyden på det genererte bildet. For eksempel er et forhold på 16:9 perfekt for YouTube-miniatyrbilder, mens 1:1 gir et firkantet bilde som er flott for Instagram.
Kaos (–kaos): Denne parameteren justerer mangfoldet i det innledende bilderutenettet og varierer fra 0 til 100. Høyere kaosverdier vil gi deg uforutsigbare og unike utfall, mens lavere verdier vil sikre mer konsistente resultater.
Nei (–nei): Denne parameteren hjelper deg å eliminere spesifikke elementer eller egenskaper fra det genererte bildet. Hvis du for eksempel vil ha et bilde uten rødt, kan du bruke "–no red".
Kvalitet (–kvalitet eller –q): Denne innstillingen justerer tiden som kreves for å generere et bilde. Høyere kvalitet krever mer behandlingstid, men gir intrikate detaljer. Denne parameteren kan ha verdier på .25, .5, 1 eller 2.
Seed (–seed): Denne parameteren bestemmer den visuelle startstøyen, og fungerer som en grunnlinje for det genererte bildet. Bruk av samme frønummer med samme ledetekst vil gi lignende utganger. Den godtar heltallsverdier mellom 0–4294967295.
Stopp (–stopp): Med denne parameteren kan du avslutte en jobb for tidlig, og produsere mindre detaljerte, men potensielt interessante utdata. Rekkevidden er 10-100. Hvis du for eksempel spesifiserer «–stopp 50», vil bildegenereringsprosessen stoppe ved 50 % fullføring, noe som resulterer i et mindre detaljert, muligens abstrakt bilde.
Stylize (–stilize eller –s): Dette kontrollerer nivået av kunstnerisk applikasjon på det genererte bildet. Lavere stiliseringsverdier gir resultater nærmere den første ledeteksten, mens høyere verdier resulterer i mer abstrakte og kunstneriske tolkninger. I v5 er standardverdien 100, men du kan sette den hvor som helst fra 0-1000.
Modellversjon: Du kan velge mellom ulike versjoner av Midjourney-modellen ved å bruke parameteren –version eller –v.
Niji: En modell spesialisert på bilder i anime-stil. Den kan nås ved å bruke –niji-parameteren.
Highmi Definition: For abstrakte og landskapsbilder aktiverer –hd-parameteren en tidlig modellversjon som gir større, mindre konsistente bilder.
Testmodeller: Midjourney tilbyr spesielle modeller for spesifikke brukstilfeller. –test og –testp aktiverer henholdsvis standard og fotografifokuserte testmodeller.
Oppskalere: Midjourney-algoritmen starter med et lavoppløselig bilderutenett. Den tilbyr flere oppskaleringsmodeller for å forbedre bildestørrelsen og detaljene.
- Uplight: En alternativ lys oppskalering (–uplight) gir oppskalerte bilder som er mindre detaljerte, men jevnere.
- Upbeta: –upbeta-parameteren fører til bilder med betydelig færre tilleggsdetaljer, og holder seg nærmere det originale rutenettbildet.
- Upanime: –upanime-oppskaleren er designet spesielt for å fungere med –niji Midjourney-modellen.
Bildevekt: Bruk –iw for å justere bildepromptens vekt i forhold til tekstvekten. Standardverdien er 0.25.
Sameseed: –sameseed-parameteren sikrer at alle bilder i det innledende rutenettet bruker samme startstøy, og skaper svært like genererte bilder.
Video: Midjourney kan lagre en fremdriftsvideo av den innledende bilderutegenereringsprosessen ved å bruke –video-parameteren.
Kreativt: Med –creative-parameteren gir test- og testp-modellene mer varierte og kreative bilder.

Midjourney ruller konsekvent ut oppdateringer for å forbedre brukeropplevelsen, med den siste versjonen 5.2, lansert i juni 2023. Ved å legge til –v 5.2 i ledeteksten eller velge den gjennom /settings-kommandoen, kan brukere få tilgang til denne avanserte modellen. Versjon 5.2 tilbyr overlegen bildedetaljering og forstår spørsmål mer intuitivt, og gir lysere farger og forbedrede komposisjoner.

Forstå opphavsrettigheter for AI-generert kunstverk

I mars 2023 avklarte det amerikanske opphavsrettskontoret sin holdning til opphavsrett til AI-generert fungerer. Policyen sier at mens de menneskeskapte elementene i AI-kreasjoner (som skrifter eller unike design) kan beskyttes, kvalifiserer ikke AI-produserte bilder for opphavsrett, og overholder globale normer om at bare menneskelige kreasjoner er kvalifisert for opphavsrettslig beskyttelse.

I sammenheng med AI-kunst er opphavsrett ikke enkelt. Mens digital kunst har den menneskelige kunstnerens innspill, skapes AI-generert kunst uten direkte menneskelig innblanding, noe som kompliserer spørsmålet om forfatterskap og eierskap. I henhold til det amerikanske opphavsrettskontoret tildeles det opprinnelige eierskapet til verkets forfatter – en menneskelig skaper. Men siden AI ikke kan betraktes som en forfatter, mangler AI-generert kunst tydelig eierskap.

Den siste veiledningen fra US Copyright Office tillater opphavsrettslig beskyttelse av kunstig intelligens kun når den inneholder tilstrekkelig menneskelig forfatterskap. Nivået på "tilstrekkelig menneskelig forfatterskap" forblir udefinert og avhenger av graden av menneskelig involvering i å lage AI-kunstverket.

Interessant nok har Midjourney, en AI-basert plattform for bildeskaping, etablert sine egne retningslinjer for bruksrettigheter. Gratis prøveversjonsbrukere kan bruke bildene til ikke-kommersielle formål under Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0), med riktig kreditt til Midjourney. Imidlertid kan betalende abonnenter bruke bildene til ethvert formål, inkludert kommersielle, under de generelle kommersielle vilkårene. Denne utviklingen i opphavsrettsområdet presenterer en spennende dynamikk mellom AI og menneskelig kreativitet.

Bruker Midjourney for dynamisk UI-design og kreativ logogenerering

Fra å designe intuitive brukergrensesnitt for nettsteder eller mobilapper til å lage unike logoer og bannere, Midjourney styrker innholdsskapere ved å generere en rekke designalternativer i løpet av sekunder.

Slik fungerer det. Hvert design begynner med en melding, som fungerer som en blåkopi for AI å følge. Anta at du designer et brukergrensesnitt for en online veiledningsplattformapp. En typisk melding kan være: "/imagine Online veiledningsplattform brukergrensesnitt, Dribbble, High Resolution, 4K, like Khan academy".

De første resultatene treffer kanskje ikke perfekt. For eksempel kan det å legge til "Adobe XD" i miksen hjelpe Midjourney med å skreddersy designene til å være mer Adobe XD-kompatible. En optimalisert ledetekst vil være:

/imagine Online veiledningsplattform, brukergrensesnitt, Adobe XD, Dribbble, høyoppløsning, 4K, minimalistisk design

Tekstinspirert logo eller bannere med Midjourney

La oss utforske hvordan du lager et banner med en logo for UNITE AI.

Først må du ha et enkelt bilde av teksten du vil vise. Du kan lage dette ved å bruke et hvilket som helst grafisk designverktøy eller tekstredigeringsprogram og laste det opp til Discord-kanalen din.

: Et enkelt bilde av tekst som brukes til å lage UNITE-logoen

Spørsmålet om å lage banneret er:

/imagine bokstaver: UNITE i en futuristisk, AI-inspirert skrifttypelogo med bokstavene UNITE –v 5 –ar 16:9

Ta en titt på disse eksemplene for flere ideer:

/imagine En ensom musiker fremfører en rolig melodi på en flytende by i skumringen, i art nouveau-stil

/imagine Et bilde av en fremtidig person som jobber på et futuristisk skrivebord, omgitt av holografiske skjermer og avansert teknologi. Personen har på seg en elegant, sølvfarget jumpsuit og har virtual reality-briller på. Miljøet er fylt med neonlys og flytende hologrammer. Atmosfæren er futuristisk og høyteknologisk, med en følelse av spenning og innovasjon. Kameraet er et digitalkamera med høy oppløsning, som fanger hver eneste detalj med presisjon. Den kunstneriske stilen er en blanding av cyberpunk og minimalisme, med fokus på rene linjer og dristige farger. Regissørene, kinematografene, fotografene, motedesignerne, tegneserieskaperne og kunstnerne som samarbeider i denne unike sammenstillingen er Christopher Nolan, Roger Deakins, Annie Leibovitz, Virgil Abloh, Hayao Miyazaki og Kaws.

/forestill deg 1940-tallet – stil Barbie som sykepleier i krigstid, i en gammel militærsykehussetting, som tar seg av de sårede soldatene, i stil med klassiske Mattel-illustrasjoner, med en atmosfære av sepia-tonet fotografering fra andre verdenskrig 8k –v 5 –ar 16 :9

/imagine Ramme av en kvinne lener seg mot en cyberpunk, hoverbike, japansk anime, viltvoksende bylandskap, 32k, intrikat romhavn, flyktig, skyskraperpanoramaer, elegant

Siste tanker: Naviger i AI-kunstverdenen med Midjourney

Husk: "Et bilde sier mer enn tusen ord". En detaljert, levende beskrivelse kan gjøre underverker. Ja, Midjourney er ikke gratis å bruke. Likevel revolusjonerer den kunstverdenen og utvider våre kreative muligheter gjennom sin toppmoderne tekst-til-bilde AI-teknologi. Med muligheten til å konvertere en enkel tekstmelding til et høyoppløselig bilde, er det et verktøy som lover grenseløse muligheter, ikke bare for artister, men også for UI/UX-designere, teknologientusiaster og AI-fagfolk.

Her er noen viktige takeaways å huske når du legger ut på Midjourney-eventyret:

Lær det grunnleggende om Midjourney-oppfordringen: Bruk klare, kortfattede og omfattende beskrivelser som innkapsler visjonen din for å veilede AI effektivt. Husk å ta hensyn til publikum, og ikke nøl med å eksperimentere med ulike stiler, stemninger og sammenhenger.
Bruk parametere: Forbedre den kreative opplevelsen din ved å utnytte de mange avanserte innstillingene som Midjourney tilbyr. Fra å kontrollere sideforholdet til å justere kaosparameteren for unike utfall, hver detalj kan skreddersys etter dine preferanser.
Omfavn den iterative prosessen: Det første AI-genererte kunstverket ditt er kanskje ikke perfekt. Omfavn denne iterative prosessen og lær å avgrense og optimalisere forespørslene dine for bedre resultater.
Forstå opphavsrettsimplikasjonene: Selv om kunstverk som er generert av kunstig intelligens ikke er kvalifisert for opphavsrett, kan de menneskeskapte komponentene i dem beskyttes.

I hovedsak har integreringen av AI i kunsten demokratisert kreativiteten og visket ut grensene mellom menneskelige og maskinlagde mesterverk. Ettersom vi fortsetter å være vitne til den bemerkelsesverdige veksten av generativ AI i kunstmarkedet, er det ubestridelig at AI-kunstrevolusjonen, ledet av plattformer som Midjourney, bare begynner.

Relaterte temaer:kunstig intelligens hvordan å veilede midt på reisen PROMPT ENGINEERING

Neste

ChatGPT & Advanced Prompt Engineering: Driving the AI Evolution

Ikke gå glipp av

The Essential Guide to Prompt Engineering i ChatGPT

Aayush Mittal

Jeg har brukt de siste fem årene på å fordype meg i den fascinerende verdenen av maskinlæring og dyplæring. Min lidenskap og ekspertise har ført til at jeg har bidratt til over 50 ulike programvareprosjekter, med spesielt fokus på AI/ML. Min pågående nysgjerrighet har også trukket meg mot naturlig språkbehandling, et felt jeg er ivrig etter å utforske videre.

Unite.AI