Prompt Engineering
Meisterung von KI-Kunst: Ein kompakter Leitfaden zu Midjourney und Prompt-Engineering

Einführung in MidJourney-Kunst, die von KI generiert wird
KI durchbricht rasch die Barrieren der Unmöglichkeit und hat kürzlich das Gebiet der Kunst erobert, indem sie diese vollständig transformiert. Jetzt müssen Sie kein Meisterkünstler oder Experte in Photoshop sein, um die Gebilde Ihrer Vorstellungskraft zum Leben zu erwecken. Ein einfacher, gut artikulierter Prompt ist alles, was Sie benötigen, dank Midjourney.
Alles begann mit der Einführung von bahnbrechenden Technologien wie DALL-E, Midjourney und StableDiffusion im Jahr 2022. Während jede dieser Innovationen ihren eigenen Stil auf die Leinwand der generativen KI aufbrachte, hat Midjourney insbesondere ihre fesselnde Reise fortgesetzt und bemerkenswerte Schritte unternommen.
Midjourney ist derzeit der führende Hochauflösungs-Text-zu-Bild-KI-Generator auf dem Markt und ragt mit seiner einzigartigen Kombination aus Text-zu-Bild-Generierung, Medienbearbeitung und Upscaling sowie Zugang zu einer aktiven Kunstgemeinschaft, alles ab 10 Dollar pro Monat, hervor. Diese umfassende Suite von Funktionen bietet eine spannende Leinwand für Künstler, Technikbegeisterte und KI-Experten, die eine Umgebung für Kreativität und Innovation schaffen.
Die Kunstwelt nimmt mit Sicherheit Notiz, da die generative KI auf dem Kunstmarkt voraussichtlich ein beeindruckendes Wachstum von 40,5 % erleben wird. Midjourney ragt unübertroffen in der Schaffung der realistischsten und hochwertigsten visuellen Darstellungen mit KI hervor.
Effektives Prompt-Engineering geht über die reine Erstellung hinaus; es umfasst Best Practices. Prompts sollten Klarheit bieten und prägnant, aber dennoch dem KI-System genügend Anleitung ohne übermäßige Vorschrift geben. Außerdem muss bei der Gestaltung die Zielgruppe berücksichtigt werden, wobei Variablen wie Alter, Geschlecht und kultureller Hintergrund usw. zu berücksichtigen sind.
Wie funktioniert MidJourney?
Mid-Journey nutzt zwei neuartige maschinelle Lernalgorithmen – Large Language und Diffusionsmodelle. Das Sprachmodell, ähnlich wie KI-Chatbots wie ChatGPT, hilft Mid-Journey dabei, die Bedeutung Ihrer Prompts zu interpretieren und diese in Vektoren umzuwandeln. Dieser Vektor leitet dann den Diffusionsprozess.
Die inneren Abläufe von Midjourney sind größtenteils unveröffentlicht. Dennoch ist offensichtlich, dass es Text-zu-Bild-Generierung aus zwei relativ neuen maschinellen Lernalgorithmen nutzt: Large Language Modelle und Diffusionsmodelle. Erstere ist vielleicht Benutzern von KI-Plattformen wie ChatGPT vertraut, und letztere ist eine vielversprechende Ergänzung im Sektor der KI-Kunstgenerierung. Das gesamte System basiert auf dem CLIP-Datensatz für die Schulung, der auf der Forschungsseite von OpenAI gefunden werden kann.
Trotz der begrenzten Informationen ist es möglich, ein breites Bild von Midjourneys Diffusionsmodell zu skizzieren, passend benannt ‘Stable Diffusion’. Im Wesentlichen ist Stable Diffusion ein Open-Source-Modell, das Textprompts geschickt in Bilder unterschiedlicher Stile und Inhalte umwandelt. Dieser aufwändige Prozess wird durch ein Diffusionsmodell erreicht, ein generatives Modell, das die Abhängigkeiten zwischen textuellen Eingaben und Bildausgaben verbindet.
Diffusionsmodelle basieren auf der Grundlage der Denoising-Diffusionsmethode, einem Ansatz, der von der Nichtgleichgewichtsthermodynamik beeinflusst wird. Diese Methode zerlegt systematisch die Struktur der Daten und stellt sie später wieder her. Dieser Ansatz wurde 2020 von Ho et al. für die Bildgenerierung adaptiert, was zur Entstehung der heutigen Diffusionsmodelle führte.
Das Training von Diffusionsmodellen umfasst zwei primäre Stadien. Zunächst umfasst der Vorwärts- oder Diffusionsprozess die schrittweise Hinzufügung von zufälligem Rauschen zum Eingabebild, bis es vollständig in Rauschen umgewandelt wird. Dieser Prozess wird von einer festen Markov-Kette gesteuert, die konsistent über mehrere aufeinanderfolgende Schritte hinweg Gauß-Rauschen hinzufügt.
Anschließend wird im umgekehrten oder Rekonstruktionsprozess das ursprüngliche Datenbild aus dem durch Rauschen dominierten Zustand, der im Diffusionsprozess erreicht wurde, wiederhergestellt. Dieser Prozess wird von einer Markov-Kette mit erlernten Gauß-Übergängen angetrieben, was bedeutet, dass die Vorhersage der Wahrscheinlichkeitsdichte zu jedem gegebenen Zeitpunkt ausschließlich vom Zustand abhängt, der im vorherigen Zeitpunkt erreicht wurde. Da die latenten ‘x1, …, xT’ dieselbe Dimensionalität wie die Daten aufweisen, klassifizieren Diffusionsmodelle als latente Variablenmodelle.
Kosten und Abonnement von Mid-Journey
Während viele Chatbots wie ChatGPT und Bing Chat fast uneingeschränkte Nutzung kostenlos anbieten, unterscheidet sich die Situation für Bildgeneratoren wie Mid-Journey. Aufgrund der erheblichen Rechenleistung, insbesondere von Grafikprozessoren (GPUs) und Video-Speicher für den Entrauschungsprozess, kommt Mid-Journeys Dienst mit einem Preis.
Der Grundplan beginnt bei 10 Dollar pro Monat und bietet etwa 3,3 Stunden GPU-Zeit, ausreichend für etwa 200 Bildgenerierungen. Es gibt jedoch höhere Pläne, die unbegrenzte Bilder im Entspannt-Modus anbieten, allerdings mit einer längeren Wartezeit.
Einrichten von MidJourney
- Das Starten mit MidJourney beinhaltet die Anmeldung auf ihrer offiziellen Website, das Abonnieren eines Plans und die anschließende Weiterleitung zu Discord.
- Sobald Sie den Mid-Journey-Kanal auf Discord gefunden haben, navigieren Sie zu den Newcomer-Gruppen auf der linken Seite. Von dort aus können Sie beobachten, wie andere Benutzer Prompts erstellen, die Mechanik von Mid-Journey lernen und in einer lebendigen Umgebung interagieren.
- Nachdem Sie sich mit der Umgebung vertraut gemacht haben, laden Sie den Bot in Ihren privaten Server ein, um Bilder ungestört zu erstellen. Der Bot generiert vier Vorschau-Bilder basierend auf Ihrem Prompt, sodass Sie das beste Bild für Ihre ursprüngliche Idee auswählen und das Bild weiter verfeinern können.
Prompt-Struktur für Midjourney
- Der /imagine-Befehl in einem Discord-Kanal innerhalb des Midjourney-Kanals generiert ein einzigartiges Bild aus einer kurzen Textbeschreibung (Prompt).
- Um einen bestimmten Stil über verschiedene Bilder hinweg zu reproduzieren, geben Sie einfach die Bild-URL zusammen mit Ihrem Text-Prompt ein. Ihre neuen, konsistenten Ausgaben werden Elemente aus Ihrem gewählten Bild und Text verbinden.
/imagine http://link-zu-ihrem-bild <Bildbeschreibung> –parameter1 –parameter2
Sie können einen Link zu Ihrem Bild erstellen, indem Sie es in den Discord-Kanal hochladen. Sobald es hochgeladen ist, klicken Sie mit der rechten Maustaste auf das Bild und wählen “Link kopieren”.
Hier http://link-zu-ihrem-bild und Parameter sind optional. - Im Anschluss daran beginnt der Bot mit der Arbeit an Ihrem Bild und benötigt etwa eine Minute, um vier Alternativen anzubieten. Dieser Prozess beinhaltet die Verwendung robuster Grafikprozessoren, um jeden Prompt zu verarbeiten und zu interpretieren.
- Verfolgen Sie Ihre GPU-Nutzung mit dem /info-Befehl. Er ermöglicht es Ihnen, Ihre “Verbleibende schnelle Zeit” zu überprüfen und Ihre GPU-Zeit Ihres Abonnements zu überwachen.
Bildvergrößerung und Änderungen
Für ein verfeinertes Bild verwenden Sie die “U”-Schaltflächen unter den Bildern, um Ihr bevorzugtes Bild zu vergrößern. Sie können auch die “V”-Schaltflächen verwenden, um Anpassungen an bestimmten Bildern vorzunehmen. Für weitere Änderungen an einem vergrößerten Bild verwenden Sie die Optionen “Variationen erstellen”, “Licht-Vergrößerung neu” und “Beta-Vergrößerung neu”. Die “Web”-Schaltfläche ermöglicht es Ihnen, das Bild in einem größeren Fenster zu betrachten.
Midjourney ermöglicht die Bildvergrößerung auf 2048×2048 (Quadrat) und 2720×1530 (Breitbild) Auflösungen über seine Beta-Vergrößerungsfunktion, mit einer Standard-Generierungsgrid-Größe von 1024×1024 (Quadrat) und 1456×816 (Breitbild). Jedes Bild kann durch die “U”-Vergrößerungsoptionen weiter verbessert werden, die bestimmte Teile des Bildes verbessern.
Betrachten Sie diesen Prompt, der mit Midjourneys Version 5.2 fantastische Kunstwerke erzeugt.
/imagine Kunstwerk, das einen einsamen Baum unter einem sternklaren Himmel darstellt, mit einem Kind, das darunter liest, in den Farben sanften Blaus und warmen Oranges, inspiriert von den Pinselstrichen des französischen Impressionismus, persischen Miniaturen, Bauhaus-Einfachheit, erinnernd an klassische Kinder-Märchen-Illustrationen, erreichend eine asymmetrische Harmonie, ausgedrückt in einer zauberhaften, volkstümlichen / naiven: –ar 15:19 –upbeta –q 2
Erstellung Ihres ersten Midjourney-KI-Kunstwerks
- Erstellung der grundlegenden Blaupause: Stellen Sie sich vor, Sie seien ein Künstler. Beginnen Sie mit einer einfachen, lebendigen Beschreibung des Bildes, das Sie zum Leben erwecken möchten. Umreißen Sie das Hauptthema, die Atmosphäre oder sogar die kleinen Details, die Sie einbetten möchten. Verwenden Sie Interpunktionen wie Kommata, Klammern und Bindestriche, um Ihre Gedanken zu strukturieren. Für bessere Ergebnisse seien Sie explizit über den Kontext und die Details Ihres Designs. Elemente wie Thema (z. B. Drache, Oldtimer, Abraham Lincoln), Medium (z. B. digitale Kunst, Bleistiftskizze), Umgebung (z. B. Weltraum, Unterwasser, belebte Stadt), Beleuchtung (z. B. weich, Neon, gegen das Licht), Farbe (z. B. Erdtöne, lebendig, gedämpft), Stimmung (z. B. melancholisch, scherzhaft, friedlich) und Komposition (z. B. Landschaft, Nahaufnahme, Weitwinkel) können entscheidend sein. Beispiele:
- Ein idyllischer Wald, der in Sonnenlicht gebadet ist, mit einem Fußweg, der in die Ferne führt
- Eine Stadt, die niemals schläft, mit Neonlichtern, die von den Straßen reflektiert werden, und einer vielfältigen Menge, die herumwuselt
- Einfügen von Stil und Schlüsselwörtern: Midjourneys KI ist in der Lage, Bilder in einer Vielzahl von Stilen wie abstrakt, surrealistisch oder realistisch zu erstellen. Durch die Integration eines Stils oder verwandter Schlüsselwörter können Sie die KI anleiten, ein Bild zu erstellen, das Ihrem Blick entspricht. Experimentieren Sie mit verschiedenen Stilen und Schlüsselwörtern, um die perfekte Mischung zu entdecken. Beispiele:
- Ein Landschaftsbild, das eine Wüste bei Sonnenaufgang darstellt, im Stil von Georgia O’Keeffe, mit einer Pastellfarbpalette und organischen Formen.
- Eine abstrakte Darstellung eines friedlichen Waldes, mit geometrischen Mustern, die Bäume und Laubwerk bilden, inspiriert von Piet Mondrians Kompositionen.
- Nutzen von erweiterten Einstellungen: Betrachten Sie Midjourney als Ihr kreatives Werkzeug, das mit erweiterten Einstellungen vollgestopft ist, die es Ihnen ermöglichen, Ihre generierten Bilder zu feinjustieren. Es ist wie das Schwingen eines Zauberstabs, der es Ihnen ermöglicht, den idealen Ausgleich zwischen Zufall, Stilisierung und Bildvariation herzustellen. Entfesseln Sie Ihre kreative Macht, indem Sie mit diesen Einstellungen experimentieren, bis Sie die perfekte Mischung finden, die mit Ihrer Vision übereinstimmt. Beispiele:
- Ein japanischer Garten mit einem Teich, der die Kirschblütenbäume widerspiegelt – Seed 22 – s 150 – c 40
- Eine dystopische Cyberpunk-Stadt, beleuchtet von Neonlichtern – Seed 88 – s 600 – c 60
- Hervorheben von Elementen mit Gewichten: Stellen Sie sich Ihr Bild als eine Symphonie vor, bei der jedes Element zur großen Ensemble-Performance beiträgt. Mit der “::”-Notation können Sie die Bedeutung verschiedener Elemente in Ihrem Bild diktieren, was es Ihnen ermöglicht, die Beleuchtung zu kontrollieren. Beispiele:
- [Ein eleganter Pfau]::3, der auf einem [Wisteria-Baum]::1 sitzt, der mit lebendigen Blumen blüht
- [Ein majestätischer Elefant]::2, der in der Glut einer [untergehenden Sonne]::1 in der Savanne badet
- Midjourney ist ein Prozess des Trial-and-Error: Das Experimentieren mit verschiedenen Elementen und Funktionen ist notwendig. Jede Iteration bringt Sie Ihrem Zielbild näher.
Mid-Journey-Parameter
Das Modell von Midjourney funktioniert mit anpassbaren Parametern, die das Ergebnis des Bildgenerierungsprozesses steuern. Diese Parameter ermöglichen es Benutzern, ihre generierte Kunst anzupassen und das Modell zu feinjustieren, um Ausgaben zu erstellen, die genau ihren Zielen entsprechen.
Unten finden Sie die grundlegenden und erweiterten Parameter, ihre Funktionen und wie Sie sie nutzen können, um die Fähigkeiten von Midjourney voll auszuschöpfen:
- Seitenverhältnisse (–aspect oder –ar): Dieser Parameter steuert das Verhältnis zwischen der Breite und Höhe des generierten Bildes. Zum Beispiel ist ein Verhältnis von 16:9 ideal für YouTube-Vorschaubilder, während 1:1 ein quadratisches Bild für Instagram erzeugt.
- Chaos (–chaos): Dieser Parameter passt die Vielfalt des initialen Bildrasters an und reicht von 0 bis 100. Höhere Werte für Chaos führen zu unvorhersehbaren und einzigartigen Ergebnissen, während niedrigere Werte konsistentere Ergebnisse liefern.
- Keine (–no): Dieser Parameter hilft Ihnen, bestimmte Elemente oder Merkmale aus dem generierten Bild zu entfernen. Wenn Sie beispielsweise ein Bild ohne Rot haben möchten, können Sie “–no rot” verwenden.
- Qualität (–quality oder –q): Diese Einstellung passt die Zeit an, die zum Generieren eines Bildes benötigt wird. Eine höhere Qualität erfordert mehr Verarbeitungszeit, liefert aber detailliertere Ergebnisse. Dieser Parameter kann Werte von .25, .5, 1 oder 2 annehmen.
- Seed (–seed): Dieser Parameter bestimmt das anfängliche visuelle Rauschen, das als Grundlage für das generierte Bild dient. Die Verwendung der gleichen Seed-Nummer mit dem gleichen Prompt ergibt ähnliche Ergebnisse. Er akzeptiert ganze Zahlen zwischen 0 und 4294967295.
- Stoppen (–stop): Mit diesem Parameter können Sie einen Job vorzeitig beenden und weniger detaillierte, aber möglicherweise interessante Ergebnisse erzeugen. Der Bereich reicht von 10 bis 100. Wenn Sie beispielsweise “–stop 50” angeben, wird der Bildgenerierungsprozess bei 50 % abgeschlossen, was zu einem weniger detaillierten, möglicherweise abstrakten Bild führt.
- Stilisieren (–stylize oder –s): Dieser Parameter steuert die Stärke der künstlerischen Anwendung auf dem generierten Bild. Niedrigere Stilisierungswerte liefern Ergebnisse, die näher am ursprünglichen Prompt liegen, während höhere Werte abstraktere und künstlerischere Interpretationen erzeugen. In der Version 5 ist der Standardwert 100, aber Sie können ihn auf Werte zwischen 0 und 1000 setzen.
- Modellversion: Sie können zwischen verschiedenen Versionen des Midjourney-Modells wählen, indem Sie den –version- oder –v-Parameter verwenden.
- Niji: Ein Modell, das auf Anime-Style-Bilder spezialisiert ist. Es kann über den –niji-Parameter aufgerufen werden.
- Highmi-Definition: Für abstrakte und Landschaftsbilder aktiviert der –hd-Parameter eine frühe Modellversion, die größere, weniger konsistente Bilder liefert.
- Testmodelle: Midjourney bietet spezielle Modelle für bestimmte Anwendungsfälle. –test und –testp aktivieren die Standard- und fotografiefokussierten Testmodelle.
- Upscaler: Midjourneys Algorithmus beginnt mit einem niedrigauflösenden Bildraster. Er bietet mehrere Upscaling-Modelle, um die Bildgröße und -detail zu verbessern.
- Uplight: Ein alternativer Leicht-Upscaler (–uplight) liefert aufgeskalte Bilder, die weniger detailliert, aber glatter sind.
- Upbeta: Der –upbeta-Parameter führt zu Bildern mit wesentlich weniger zusätzlichen Details, die näher am ursprünglichen Rasterbild bleiben.
- Upanime: Der –upanime-Upscaler ist speziell für das –niji-Midjourney-Modell konzipiert.
- Bildgewicht: Verwenden Sie –iw, um das Bild-Prompt-Gewicht im Verhältnis zum Textgewicht anzupassen. Der Standardwert beträgt 0,25.
- Sameseed: Der –sameseed-Parameter stellt sicher, dass alle Bilder im initialen Raster das gleiche Start-Rauschen verwenden, was sehr ähnliche generierte Bilder erzeugt.
- Video: Midjourney kann ein Fortschrittsvideo der initialen Bildrastergenerierung über den –video-Parameter speichern.
- Kreativ: Mit dem –creative-Parameter liefern die Test- und Testp-Modelle vielfältigere und kreativere Bilder.
Midjourney rollt kontinuierlich Updates aus, um die Benutzererfahrung zu verbessern, mit der neuesten Version 5.2, die im Juni 2023 veröffentlicht wurde. Durch das Anfügen von –v 5.2 an Ihren Prompt oder die Auswahl über den /settings-Befehl können Benutzer auf dieses fortschrittliche Modell zugreifen. Version 5.2 bietet eine überlegene Bilddetailierung und versteht Prompts intuitiver, was zu lebhafteren Farben und verbesserten Kompositionen führt.
Verständnis von Urheberrechten für KI-generierte Kunstwerke
Im März 2023 hat das US-Urheberrechtsamt seine Haltung zu Urheberrechten für KI-generierte Werke klargestellt. Die Richtlinie besagt, dass zwar die von Menschen erstellten Elemente in KI-Kreationen (wie Schriften oder einzigartige Designs) geschützt werden können, KI-erzeugte Bilder selbst jedoch nicht für den Urheberrechtsschutz in Frage kommen, was den globalen Normen entspricht, dass nur menschliche Schöpfungen für den Urheberrechtsschutz in Frage kommen.
Im Kontext von KI-Kunst ist das Urheberrecht nicht einfach. Während digitale Kunst die Eingabe des menschlichen Künstlers hat, wird KI-generierte Kunst ohne direkte menschliche Intervention erstellt, was die Frage der Urheberschaft und des Eigentums kompliziert. Laut dem US-Urheberrechtsamt wird das anfängliche Eigentum dem Urheber des Werks gewährt – einem menschlichen Schöpfer. Da jedoch KI nicht als Urheber angesehen werden kann, fehlt es KI-generierten Kunstwerken an klarem Eigentum.
Die neuesten Richtlinien des US-Urheberrechtsamts ermöglichen das Urheberrecht für KI-Kunst nur, wenn sie ausreichend menschliche Urheberschaft enthält. Das Maß an “ausreichender menschlicher Urheberschaft” bleibt undefiniert und hängt vom Grad der menschlichen Beteiligung bei der Erstellung des KI-Kunstwerks ab.
Interessanterweise hat Midjourney, eine KI-basierte Plattform für Bildgenerierung, ihre eigenen Richtlinien für Nutzungsrechte etabliert. Benutzer der kostenlosen Testversion können Bilder für nichtkommerzielle Zwecke unter der Creative-Commons-Lizenz Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) mit ordnungsgemäßer Nennung von Midjourney nutzen. Zahlende Abonnenten können Bilder hingegen für jeden Zweck, einschließlich kommerzieller, unter den Allgemeinen Geschäftsbedingungen nutzen. Diese Entwicklung im Urheberrechtsschutz präsentiert eine faszinierende Dynamik zwischen KI und menschlicher Kreativität.
Nutzung von Midjourney für dynamische UI-Designs und kreative Logo-Generierung
Von der Gestaltung von intuitiven Benutzeroberflächen für Websites oder Mobile Apps bis hin zur Erstellung einzigartiger Logos und Banner ermöglicht Midjourney Content-Erstellern, innerhalb von Sekunden eine Vielzahl von Designalternativen zu generieren.
Hier ist, wie es funktioniert. Jedes Design beginnt mit einem Prompt, der als Blaupause für die KI dient. Nehmen wir an, Sie entwerfen eine Benutzeroberfläche für eine Online-Lernplattform-App. Ein typischer Prompt könnte lauten: “/imagine Online-Lernplattform-Benutzeroberfläche, Dribbble, Hochauflösung, 4K, wie Khan Academy”.
Anfängliche Ergebnisse mögen nicht vollkommen passen. Zum Beispiel kann das Hinzufügen von “Adobe XD” dazu beitragen, dass Midjourney seine Designs anpasst, um Adobe-XD-kompatibel zu sein. Ein optimierter Prompt wäre:
/imagine Online-Lernplattform, Benutzeroberfläche, Adobe XD, Dribbble, Hochauflösung, 4K, minimalistisches Design
Text-inspirierte Logos oder Banner mit Midjourney
Lassen Sie uns erkunden, wie man ein Banner mit einem Logo für Unite AI erstellt.
Zunächst benötigen Sie ein einfaches Bild des Textes, den Sie anzeigen möchten. Sie können dies mit einem Grafikdesign-Tool oder Texteditor erstellen und in Ihren Discord-Kanal hochladen.
Der Prompt, um das Banner zu erstellen, lautet:
















