Prompt engineering
Mesteri kunstig intelligens-kunst: En kompakt guide til Midjourney og promptingeniørvirksomhet

Introduksjon til MidJourney AI-generert kunst
AI bryter raskt gjennom barrierer av umulighet og har nylig invadert kunstens domene, og transformerer det fullstendig. Nå trenger du ikke å være en mesterkunstner eller en Photoshop-ekspert for å bringe forestillingene dine til live. En enkel, velartikulert prompt er alt du trenger, takket være Midjourney.
Det begynte med introduksjonen av banebrytende teknologier som DALL-E, Midjourney og StableDiffusion i 2022. Mens hver av disse innovasjonene bragte sin distinkte berøring til generativ AI-kunst, har Midjourney i særlig grad fortsatt sin kompellende reise, og gjort bemerkelsesverdige skritt.
Midjourney er for tiden den ledende høyoppløselige tekst-til-bilde AI-generatoren på markedet, og står tall med sin unike blanding av tekst-til-bilde-generering, medie-redigering og oppskalering, og aktiv kunstner-samfunn-tilgang, alt fra 10 dollar per måned. Dette omfattende sett med funksjoner presenterer en spennende canvas for kunstnere, teknologi-entusiaster og AI-eksperter, og bygger en miljø for kreativitet og innovasjon.
Kunstverdenen tar uten tvil merke til dette, med generativ AI i kunstmarkedet projektert å vitne en imponerende vekst på 40,5% CAGR. Midjourney står uforlignelig i å lage de mest realistiske og høykvalitetsvisuelle bilder med AI.
Effektiv promptingeniørvirksomhet går langt utenfor bare skapelse; det omfatter beste praksis. Prompts skal tilby klarhet, og være konsist, men gi AI-en nok veiledning uten å være for preskriptiv. Også må målgruppen være vurdert under design, med hensyn til variabler som alder, kjønn og kulturell bakgrunn, blant andre.
Hvordan fungerer MidJourney?
Mid-Journey utnytter to nye maskinlærings-teknologier – stor språk- og diffusjonsmodeller. Språkmodellen, lik AI-chatboter som ChatGPT, hjelper Mid-Journey med å tolke betydningen av dine prompts og konvertere dem til vektorer. Denne vektoren guidere deretter diffusjonsprosessen.
Midjourneys indre virkemåte er i stor grad ukjent. Likevel er det tydelig at det bruker tekst-til-bilde-generering fra to relativt nye maskinlærings-teknologier: store språkmodeller og diffusjonsmodeller. Den første er kanskje kjent for brukere av AI-plattformer som ChatGPT, og den siste er en lovende tillegg til AI-kunst-genererings-sektoren. Hele systemet avhenger av CLIP-datasettet for trening, som kan finnes på OpenAI’s forskningsside.
Til tross for begrensede informasjon, er det mulig å skisse en bred bildesammenfatting av Midjourneys diffusjonsmodell, passende kalt ‘Stable Diffusion’. Essensielt er Stable Diffusion en åpen kilde-modell som dyktig transformerer tekst-prompts til bilder av varierende stil og innhold. Denne sofistikerte prosessen oppnås gjennom en diffusjonsmodell, en generativ modell som broer avhengigheter mellom tekstlige inndata og bilde-utdata.
Diffusjonsmodeller er bygget på grunnlag av den støyende diffusjons-metoden, en tilnærming influert av ikke-likvid termodynamikk. Denne metoden demonterer systematisk strukturen av data og restaurerer den senere. Denne tilnærmingen ble tilpasset for bilde-generering av Ho et al. i 2020, og ledet til oppfinnelsen av diffusjonsmodellene vi ser i dag.
Trening av diffusjonsmodeller involverer to primære stadier. Først innebærer den fremover- eller diffusjons-prosessen inkrementell tilføyelse av tilfeldig støy til inndata-bildet til det fullstendig forvandler seg til støy. Denne prosessen styres av en fast Markov-kjede, som konsistent tilføyer Gaussisk støy over flere påfølgende steg.
Deretter, i den bakover- eller rekonstruksjons-fasen, restaurerer modellen den opprinnelige data fra støy-dominert tilstand oppnådd i diffusjons-prosessen. Denne prosessen drives av en Markov-kjede med lærte Gaussiske overganger, hvilket betyr at forutsigelsen av sannsynlighets-tetthet på et gitt tidspunkt kun avhenger av tilstanden oppnådd i det foregående tidspunktet. Ettersom de latente ‘x1, …, xT’ deler samme dimensjonalitet som data, klassifiserer diffusjonsmodeller som latente variabel-modeller.
Kostnad og abonnement for Mid-Journey
Mens mange chatboter som ChatGPT og Bing Chat tilbyr nesten ubegrenset bruk gratis, er scenariet annerledes for bilde-genereringer som Mid-Journey. På grunn av den betydelige datamaskinkraften som kreves, spesielt fra grafikk-prosesserings-enhetene (GPU-er) og video-minne-bruk for den av-støyende prosessen, kommer Mid-Journeys tjeneste med en prislapp.
Grundplanen starter fra 10 dollar per måned, og gir omtrent 3,3 timers GPU-tid, nok for omtrent 200 bilde-genereringer. Det finnes imidlertid høyere planer som tilbyr ubegrenset bilder i Relaxed-modus, om enn med lengre ventetid.
Oppsett av din MidJourney
- Starten med MidJourney innebærer å melde deg på deres offisielle nettsted, abonnere på en plan, og deretter bli omdirigert til Discord.
- Når du finner Mid-Journey-kanalen på Discord, naviger til Newcomer-grupper på venstre side. Derfra kan du observere andre brukere som lager prompts, lære mekanismene til Mid-Journey, og interagere i en travelt miljø.
- Etter å ha kjent deg med miljøet, inviter boten til din private server for å lage bilder uten forstyrrelser. Boten genererer fire forhåndsvisnings-bilder basert på din prompt, og lar deg velge det nærmeste matchet til din opprinnelige idé og deretter forbedre bildet.
Prompt-struktur for Midjourney
- Den /imagine-kommandoen i en Discord-kanal innenfor Midjourney-kanalen genererer et unikt bilde fra en kort tekst-beskrivelse (Prompt).
- For å gjenskape en bestemt stil over flere bilder, skriv bare inn bildets URL sammen med din tekst-prompt. Dine nye, konsistente utdata vil kombinere elementer fra både ditt valgte bilde og tekst.
/imagine http://link-til-ditt-bilde <bildes-beskrivelse> –parameter1 –parameter2
Du kan generere en lenke til ditt bilde ved å laste det opp til Discord-kanalen. Når du har lastet det opp, høyreklikk på bildet og velg ‘Kopier lenke’.
Her http://link-til-ditt-bilde og parameterne er valgfrie. - Deretter setter boten i gang på ditt bilde, og tar omtrent ett minutt å tilby fire alternativer. Denne prosessen innebærer bruk av robuste grafikk-prosesserings-enhetene (GPU-er) for å prosessere og tolke hver prompt.
- Hold øye på din GPU-bruk ved å bruke /info-kommandoen. Den lar deg sjekke din ‘Fast Time Remaining’ og overvåke din abonnements GPU-tid.
Bilde-opp-skalerings- og endringer
For et mer raffinert bilde, bruk ‘U’-knappene under bildene for å oppskalere ditt foretrukne valg. Du kan også bruke ‘V’-knappene til å gjøre justeringer på bestemte bilder. For ytterligere endringer på et oppskalert bilde, bruk ‘Lag variasjoner’, ‘Lys oppskalering gjør om’ og ‘Beta oppskalering gjør om’-alternativene. ‘Web’-knappen lar deg vise bildet i en større størrelse i et eget vindu.
Midjourney lar deg oppskalere bilder til 2048×2048 (kvadratisk) og 2720×1530 (widescreen)-oppløsninger via sin beta oppskalering-gjør-om-funksjon, med en standard genererings-rutenett-størrelse på 1024×1024 (kvadratisk) og 1456×816 (widescreen). Hvert bilde kan bli ytterligere forbedret gjennom “U”-opp-skalerings-alternativene, som forbedrer bestemte deler av bildet.
Se på denne prompten som produserer fantastisk kunst med Midjourneys V5.2-versjon.
/imagine Kunstverk som viser en ensom tre under en stjerne-lyst himmel, med et barn som leser under, i fargene blå og varm oransje, inspirert av pensel-strøkene til fransk impresjonisme, persiske miniaturer, Bauhaus-enkelhet, som klassiske barne-eventyr-illustrasjoner, oppnår en asymmetrisk harmoni, uttrykt i en fortryllende, folke-/naiv: –ar 15:19 –upbeta –q 2
Opprettelse av ditt første Midjourney AI-kunst
- Utforming av den grunnleggende blåkopien: Tenk på deg selv som en kunstner. Begynn med en enkel, livlig beskrivelse av bildet du ønsker å bringe til live. Skissér hoved-temaet, atmosfæren eller selv de minste detaljene du ønsker å innlemme. Bruk punktum som kommaer, klammer og bindestreker til å strukturere dine tanker. For bedre resultater, vær eksplisitt om din designs kontekst og detaljer. Elementer som tema (f.eks. Drage, vintage-bil, Abraham Lincoln), medium (f.eks. digital kunst, blyant-tegning), miljø (f.eks. verdensrommet, under vann, travelt by-miljø), lys (f.eks. mykt, neon, bak-lyst), farge (f.eks. jord-toner, livlige, dæmpede), humør (f.eks. melankolsk, eventyrlig, fredelig), og komposisjon (f.eks. landskap, nærbilde, vidvinkel) kan være kritiske. Eksempler:
- En idyllisk skog badet i sollys, en sti som slynger seg inn i horisonten
- En by som aldri sover, med neon-lys som reflekterer av fortauet og en mangfoldig folkemengde som vandrer rundt
- Innføring av stil og nøkkelord: Midjourneys AI er i stand til å illustrere bilder i en mangfold av stiler, som abstrakt, surrealistisk eller realistisk. Ved å integrere en stil eller relaterte nøkkelord, kan du guide AI-en til å lage et bilde som speiler din visjon. Eksperimenter med ulike stiler og nøkkelord for å finne den perfekte blandingen. Eksempler:
- Et landskaps-maleri som viser en ørken ved daggry, som speiler stilen til Georgia O’Keeffe, med en pastell-farge-paletten og organiske former.
- En abstrakt gjengivelse av en fredelig skog, med geometriske mønster som danner trær og løvverk, inspirert av Piet Mondrians komposisjoner.
- Utnytting av avanserte innstillinger: Tenk på Midjourney som ditt kreative verktøy, fullt av avanserte innstillinger som lar deg finjustere dine genererte bilder. Det er som å håndtere en magisk tryllestav, som lar deg konstruere den perfekte balansen av tilfeldighet, stilisering og bilde-variasjon. Uttrykk din kreative kraft ved å leke med disse innstillingene til du finner den perfekte blandingen som resonerer med din visjon. Eksempler:
- En seren japansk hage med en dam som reflekterer kirsebær-trærne, -seed 22 -s 150 -c 40
- En dystopisk cyberpunk-by, opplyst av neon-lys -seed 88 -s 600 -c 60
- Highlighting av elementer med vekter: Forestill deg ditt bilde som en symfoni, hvor hvert element bidrar til det store ensemblet. Ved å bruke “::”-notasjonen, kan du diktere betydningen av ulike elementer i ditt bilde, og lar deg kontrollere spot-lyset. Eksempler:
- [En elegant papegøye]::3 som sitter på en [visteria-tre]::1 som blomstrer med fargerike blomster
- [En majestetisk elefant]::2 som bader i gløden av en [solnedgang]::1 på savannen
- Midjourney er en prosess av prøving og feiling: Eksperimentering med ulike elementer og funksjoner er nødvendig. Hver iterasjon vil bringe deg nærmere bildet du ønsker å bringe til live.
Mid-Journey-parametere
Modellen til Midjourney opererer med justerbare parametere som kontrollerer resultatet av bilde-genererings-prosessen. Disse parameterne lar brukerne finjustere og tilpasse sine genererte kunst-verk, og fin-tune modellen til å lage utdata som passer perfekt til deres mål.
Under er de grunnleggende og avanserte parameterne, deres funksjoner og hvordan du kan bruke dem til å fullt utnytte Midjourneys kapasiteter:
- Aspekt-forhold (–aspect eller –ar): Denne parameteren kontrollerer forholdet mellom bredden og høyden på det genererte bildet. For eksempel er et forhold på 16:9 perfekt for YouTube-miniatur-bilder, mens 1:1 produserer et kvadratisk bilde som er bra for Instagram.
- Kaos (–chaos): Denne parameteren justerer mangfoldet av den innledende bilde-rutenettet og varierer fra 0 til 100. Høyere kaos-verdier vil gi deg uforutsigbare og unike resultater, mens lavere verdier vil sikre mer konsistente resultater.
- Nei (–no): Denne parameteren hjelper deg å eliminere bestemte elementer eller egenskaper fra det genererte bildet. For eksempel, hvis du ønsker et bilde uten noen rød farge, kan du bruke “–no rød”.
- Kvalitet (–kvalitet eller –q): Denne innstillingen justerer tiden som kreves for å generere et bilde. Høyere kvalitet krever mer prosesserings-tid, men gir intrikate detaljer. Denne parameteren kan ta på verdiene 0,25, 0,5, 1 eller 2.
- Frø (–seed): Denne parameteren bestemmer den innledende visuelle støyen, som fungerer som en basis for det genererte bildet. Ved å bruke samme frø-nummer med samme prompt, vil du få lignende resultater. Den aksepterer heltalls-verdier mellom 0 og 4294967295.
- Stopp (–stop): Med denne parameteren kan du avbryte en jobb for tidlig, og produsere mindre detaljerte, men potensielt interessante resultater. Verdiområdet er 10-100. For eksempel, hvis du spesifiserer ‘–stop 50’, vil bild-genererings-prosessen avbrytes på 50% fullføring, og resultere i et mindre detaljert, muligens abstrakt bilde.
- Stilisering (–stylize eller –s): Denne kontrollerer nivået av kunstnerisk anvendelse på det genererte bildet. Lavere stilisering-verdier gir resultater nærmere den innledende prompten, mens høyere verdier resulterer i mer abstrakte og kunstneriske tolkninger. I v5 er standard-verdien 100, men du kan sette den til hvilket som helst verdi mellom 0 og 1000.
- Modell-versjon: Du kan velge mellom ulike versjoner av Midjourney-modellen ved å bruke –versjon eller –v-parameteren.
- Niji: En modell spesialisert i anime-inspirerte bilder. Den kan aksesseres ved å bruke –niji-parameteren.
- Highmi-definisjon: For abstrakte og landskaps-bilder, aktiverer –hd-parameteren en tidlig modell-versjon som produserer større, mindre konsistente bilder.
- Test-modeller: Midjourney tilbyr spesielle modeller for bestemte brukstilfeller. –test og –testp aktiverer standard- og fotografi-fokuserte test-modellene, henholdsvis.
- Oppskaler: Midjourney-algoritmen starter med et lav-oppløst bilde-rutenett. Den tilbyr flere oppskalings-modeller for å forbedre bilde-størrelse og detalj.
Midjourney ruller kontinuerlig ut oppdateringer for å forbedre bruker-erfaringen, med den siste versjonen 5.2 lansert i juni 2023. Ved å legge til –v 5.2 til din prompt eller velge den gjennom /settings-kommandoen, kan brukerne aksessere denne avanserte modellen. Versjon 5.2 tilbyr overlegen bilde-detajering og forstår prompts mer intuitivt, og bringer lysere farger og forbedrede komposisjoner.
Forståelse av opphavsrett for AI-generert kunst
I mars 2023, klargjorde det amerikanske opphavsretts-kontoret sin holdning til opphavsrettsbeskyttelse av AI-generert arbeid. Politikken fastslår at mens de menneskeskapte elementene i AI-kreasjoner (som skrifter eller unike design) kan beskyttes, kvalifiserer AI-produserte bilder ikke for opphavsrett, i samsvar med globale normer som fastslår at bare menneskeskapte verk er berettiget til opphavsretts-beskyttelse.
I sammenheng med AI-kunst er opphavsrett ikke enkel. Mens digital kunst har den menneskeskapte kunstnerens innsats, er AI-generert kunst skapt uten direkte menneskelig inngripen, noe som kompliserer spørsmålet om forfatterskap og eierskap. Ifølge det amerikanske opphavsretts-kontoret, tildeles opphavsrett til arbeidets forfatter – en menneskelig skaper. Imidlertid, siden AI ikke kan betraktes som en forfatter, mangler AI-generert kunst tydelig eierskap.
Den siste retningslinjen fra det amerikanske opphavsretts-kontoret tillater opphavsretts-beskyttelse av AI-kunst bare når den inneholder tilstrekkelig menneskelig forfatterskap. Nivået av “tilstrekkelig menneskelig forfatterskap” forblir udefinert og avhenger av graden av menneskelig innsats i å skape AI-kunst-verket.
Interessant nok har Midjourney, en AI-basert plattform for bilde-skaping, etablert sine egne retningslinjer for bruks-rettigheter. Brukere av gratis prøveversjon kan bruke bildene for ikke-kommersielle formål under Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0), med korrekt kreditering til Midjourney. Imidlertid kan betalende abonnenter bruke bildene til enhver formål, inkludert kommersielle, under Generelle kommersielle vilkår. Denne utviklingen i opphavsretts-rommet presenterer en interessant dynamikk mellom AI og menneskelig kreativitet.
Utnytting av Midjourney for dynamisk UI-design og kreativ logo-generering
Fra å designe intuitive UI-er for nettsider eller mobil-apper til å skape unike logoer og banner, Midjourney gir kreatørene mulighet til å generere en rekke design-alternativer innen sekunder.
Her er hvordan det fungerer. Hvert design begynner med en prompt, som fungerer som en blåkopi for AI-en å følge. Anta at du designer en UI for en nett-basert undervisnings-plattform-app. En typisk prompt kan være: “/imagine Nett-basert undervisnings-plattform-brukergrensesnitt, Dribbble, høy oppløsning, 4K, lik khan-akademi”.
Initial-resultater kan kanskje ikke være fullstendig perfekte. For eksempel, å legge til “Adobe XD” i blandingen kan hjelpe Midjourney til å tilpasse sine design til å være mer Adobe XD-kompatibelt. En optimalisert prompt vil være:
/imagine Nett-basert undervisnings-plattform, brukergrensesnitt, Adobe XD, Dribbble, høy oppløsning, 4K, minimalistisk design
Tekst-inspirert logo eller banner med Midjourney
La oss utforske hvordan du kan lage en banner med en logo for Unite.AI.
Først må du ha et enkelt bilde av teksten du ønsker å vise. Du kan lage dette ved å bruke en grafisk design-verktøy eller tekst-editor og laste det opp til din Discord-kanal.
Prompten for å lage banneret er:
/imagine Bokstaver: <lenke til et enkelt bilde av tekst som skal vises> UNITE i en fremtidsrettet, AI-inspirert typografi-logo med bokstaver UNITE –v 5 –ar 16:9
Se på disse eksempel-promptene for flere ideer:
/imagine En enslig musiker som fremfører en seren melodi på en flytende by ved skumringen, art nouveau-stil
/imagine Et bilde av en fremtidig person som arbeider på en fremtidsrettet skrivebord, omgitt av holografiske skjermer og avansert teknologi. Personen er iført en strømlinjeformet, sølv-drakt og har virtuell-reality-briller på. Miljøet er fylt med neon-lys og flytende hologram. Atmosfæren er fremtidsrettet og høy-teknologisk, med en følelse av spenning og innovasjon. Kameraet er et høy-oppløst digitalt kamera, som fanger hver enkelt detalj med presisjon. Den kunstneriske stilen er en blanding av cyberpunk og minimalisme, med fokus på rene linjer og sterke farger. Regissørene, filmfotografene, fotografene, motedesignerne, tegneserie-kunstnerne og kunstnerne som samarbeider i denne unike sammenstillingen er Christopher Nolan, Roger Deakins, Annie Leibovitz, Virgil Abloh, Hayao Miyazaki og Kaws.
/imagine 1940-talls-stil Barbie som en krigstids-sykepleier, i en vintage armé-sykehus-innredning, som pleier de sårede soldatene, i stilen til klassiske Mattel-illustrasjoner, med atmosfæren til sepia-tonet andre verdenskrigs-fotografering 8k –v 5 –ar 16:9
/imagine Ramme av en kvinne som lener seg mot en cyberpunk, hover-bike, japansk anime, sprengende by-landskap, 32k, intrikat rom-stasjon, flyktig, skyskraper-panoramabilder, strømlinjeformet
Slutt-tanker: Navigering i AI-kunst-verdenen med Midjourney
Husk, “Et bilde er verdt mer enn tusen ord”. En detaljert, livlig beskrivelse kan virke under. Ja, Midjourney er ikke gratis å bruke. Likevel er det revolusjonerer kunst-verdenen og utvider våre kreative muligheter gjennom sin state-of-the-art tekst-til-bilde AI-teknologi. Med evnen til å konvertere en enkel tekst-prompt til et høy-oppløst bilde, er det et verktøy som lover ubegrensede muligheter, ikke bare for kunstnere, men også for UI/UX-designere, teknologi-entusiaster og AI-eksperter.
Her er noen viktige punkter å huske når du begynner din Midjourney-reise:
- Lær deg grunnleggende Midjourney-prompt: Bruk klare, konsise og omfattende beskrivelser som omfatter din visjon for å guide AI-en effektivt. Husk å vurdere din målgruppe, og tøv ikke med å eksperimentere med ulike stiler, humør og kontekster.
- Utnytt parametere: Forbedre din kreative erfaring ved å utnytte de mange avanserte innstillingene som Midjourney tilbyr. Fra å kontrollere aspekt-forhold til å justere kaos-parameteren for unike resultater, kan hver enkelt detalj tilpasses til din preferanse.
- Omfavne den iterative prosessen: Ditt første AI-genererte kunst-verk kan kanskje ikke være fullstendig perfekt. Omfavne denne iterative prosessen og lær å finjustere og optimalisere dine prompts for bedre resultater.
- Forstå opphavsretts-implikasjonene: Mens AI-genererte kunst-verk i seg selv ikke er berettiget til opphavsrett, kan de menneskeskapte komponentene innen dem beskyttes.
I essensen har integreringen av AI i kunst demokratisert kreativitet og utvisket grensene mellom menneske- og maskin-skapt mesterverk. Ettersom vi fortsatt vitner den bemerkelsesverdige veksten av generativ AI i kunst-markedet, er det uimotståelig at AI-kunst-revolusjonen, ledet av plattformer som Midjourney, er bare i begynnelsen.





















