Connect with us

Prompt engineering

Opanuj sztukę AI: Zwięzły przewodnik po Midjourney i inżynierii promptów

mm
Midjourney Generated UNITE AI LOGO

Wprowadzenie do sztuki generowanej przez AI MidJourney

AI szybko przełamuje bariery niemożliwego i ostatnio wkroczyło w dziedzinę sztuki, całkowicie ją przekształcając. Dzięki Midjourney, aby ożywić wytwory swojej wyobraźni, nie musisz już być mistrzem-artystą ani ekspertem od Photoshopa. Wystarczy prosty, dobrze sformułowany prompt. Wszystko zaczęło się od wprowadzenia przełomowych technologii, takich jak DALL-E, Midjourney i StableDiffusion w 2022 roku. Chociaż każda z tych innowacji wniosła swój niepowtarzalny wkład w rozwój generatywnej sztucznej inteligencji, to Midjourney kontynuuje swoją fascynującą podróż, odnotowując znaczące postępy. Midjourney jest obecnie wiodącym generatorem AI tekst-obraz o wysokiej rozdzielczości na rynku i wyróżnia się unikalnym połączeniem generowania obrazów z tekstu, edycji multimediów i ich skalowania oraz dostępu do aktywnej społeczności artystycznej, wszystko zaczynając od 10 dolarów miesięcznie. Ten kompleksowy zestaw funkcji stanowi ekscytujące pole do popisu dla artystów, entuzjastów technologii i profesjonalistów AI, tworząc środowisko sprzyjające kreatywności i innowacjom. Świat sztuki z pewnością to zauważa, a rynek generatywnej AI w sztuce ma według prognoz odnotować oszałamiający wzrost na poziomie 40,5% CAGR. Midjourney pozostaje bezkonkurencyjne w tworzeniu najbardziej realistycznych i wysokiej jakości wizualizacji przy użyciu AI. Skuteczna inżynieria promptów wykracza poza samo tworzenie; obejmuje najlepsze praktyki. Prompty powinny być jasne, zwięzłe, a jednocześnie dostarczać AI wystarczających wskazówek bez nadmiernej preskryptywności. Należy również wziąć pod uwagę docelową grupę odbiorców podczas projektowania, uwzględniając zmienne takie jak wiek, płeć i pochodzenie kulturowe, między innymi.

Jak działa MidJourney?

Mid-Journey wykorzystuje dwie nowatorskie technologie uczenia maszynowego – duże modele językowe i modele dyfuzyjne. Model językowy, podobny do chatbotów AI takich jak ChatGPT, pomaga Mid-Journey interpretować znaczenie twoich promptów i przekształcać je w wektory. Ten wektor następnie kieruje procesem dyfuzji. Działanie Midjourney jest w dużej mierze nieujawnione. Niemniej jednak wiadomo, że wykorzystuje generowanie obrazów z tekstu za pomocą dwóch stosunkowo nowych technologii uczenia maszynowego: dużych modeli językowych i modeli dyfuzyjnych. Pierwsze z nich są być może znane użytkownikom platform AI takich jak ChatGPT, a drugie to obiecujące uzupełnienie sektora generowania sztuki AI. Cały system opiera się na zbiorze danych CLIP do trenowania, który można znaleźć na stronie badawczej OpenAI. Mimo ograniczonych informacji, możliwe jest nakreślenie ogólnego obrazu modelu dyfuzyjnego Midjourney, odpowiednio nazwanego ‘Stable Diffusion’. Zasadniczo Stable Diffusion to model open-source, który umiejętnie przekształca prompty tekstowe w obrazy o różnych stylach i treściach. Ten wyrafinowany proces jest osiągany za pomocą modelu dyfuzyjnego, czyli modelu generatywnego, który łączy zależności między danymi tekstowymi a wynikami obrazowymi. Modele dyfuzyjne są zbudowane na fundamencie metody Denoising Diffusion, podejścia inspirowanego termodynamiką nierównowagową. Metoda ta systematycznie rozbija strukturę danych, a następnie ją odtwarza. Podejście to zostało zaadaptowane do generowania obrazów przez Ho i innych w 2020 roku, co doprowadziło do powstania modeli dyfuzyjnych, które znamy dzisiaj. Trenowanie modeli dyfuzyjnych obejmuje dwa główne etapy. Początkowo, proces forward lub dyfuzji polega na stopniowym dodawaniu losowego szumu do obrazu wejściowego, aż całkowicie przekształci się on w szum. Proces ten jest kontrolowany przez stały łańcuch Markowa, który konsekwentnie dodaje szum Gaussa w kilku kolejnych krokach. Demonstracja działania Midjourney Następnie, w fazie reverse lub rekonstrukcji, model przywraca oryginalne dane ze stanu zdominowanego przez szum osiągniętego w procesie dyfuzji. Proces ten jest napędzany przez łańcuch Markowa z wyuczonymi przejściami Gaussa, co oznacza, że przewidywanie gęstości prawdopodobieństwa w dowolnym momencie zależy wyłącznie od stanu osiągniętego w poprzednim kroku czasowym. Ponieważ ukryte ‘x1, …, xT’ mają taki sam wymiar jak dane, modele dyfuzyjne klasyfikuje się jako modele zmiennych ukrytych.

Koszt i subskrypcja Mid-Journey

Podczas gdy wiele chatbotów, takich jak ChatGPT i Bing Chat, oferuje niemal nieograniczone użycie za darmo, scenariusz jest inny dla generatorów obrazów, takich jak Mid-Journey. Ze względu na znaczną moc obliczeniową wymaganą, zwłaszcza od jednostek przetwarzania graficznego (GPU) i użycie pamięci wideo do procesu usuwania szumu, usługa Mid-Journey wiąże się z ceną. Podstawowy plan zaczyna się od 10 dolarów miesięcznie, zapewniając około 3,3 godziny czasu GPU, wystarczającego na wygenerowanie około 200 obrazów. Istnieją jednak plany wyższego szczebla oferujące nieograniczoną liczbę obrazów w trybie Relaxed, choć z dłuższym czasem oczekiwania.

Konfiguracja Twojego MidJourney

  1. Rozpoczęcie pracy z MidJourney polega na zarejestrowaniu się na ich oficjalnej stronie, wykupieniu subskrypcji, a następnie przekierowaniu na Discorda.
  2. Po zlokalizowaniu kanału Mid-Journey na Discordzie, przejdź do Grup dla Nowych Użytkowników po lewej stronie. Stamtąd możesz obserwować, jak inni użytkownicy tworzą prompty, poznawać mechanikę Mid-Journey i uczestniczyć w tętniącym życiem środowisku.
  3. Po zapoznaniu się ze środowiskiem, zaproś bota na swój prywatny serwer, aby tworzyć obrazy bez zakłóceń. Bot generuje cztery obrazy podglądowe na podstawie twojego promptu, pozwalając ci wybrać ten najbliższy twojemu pierwotnemu pomysłowi i dalej udoskonalać obraz.

Struktura promptów dla Midjourney

  1. Polecenie /imagine na kanale Discord wewnątrz kanału Midjourney generuje unikalny obraz z krótkiego opisu tekstowego (Prompt).
  2. Aby odtworzyć określony styl w różnych obrazach, po prostu wprowadź adres URL obrazu wraz z promptem tekstowym. Twoje nowe, spójne wyniki połączą elementy z wybranego obrazu i tekstu. /imagine http://link-to-your-image <opis obrazu> –parameter1 –parameter2 Możesz wygenerować link do swojego obrazu, przesyłając go na kanał Discord. Po przesłaniu kliknij prawym przyciskiem myszy obraz i wybierz ‘Kopiuj link’. Tutaj http://link-to-your-image i parametry są opcjonalne.
  3. Następnie Bot zabiera się do pracy nad twoim obrazem, zajmując mu to około minuty, aby zaproponować cztery alternatywy. Proces ten obejmuje użycie wydajnych jednostek przetwarzania graficznego (GPU) do przetwarzania i interpretacji każdego promptu.
  4. Śledź swoje użycie GPU za pomocą polecenia /info. Pozwala ono sprawdzić ‘Pozostały czas szybki’ i monitorować czas GPU twojej subskrypcji.

/info prompt midjourney

Skalowanie i modyfikacje obrazów

Aby uzyskać bardziej dopracowany obraz, użyj przycisków ‘U’ pod obrazami, aby przeskalować swój preferowany wybór. Możesz również użyć przycisków ‘V’, aby wprowadzić poprawki do konkretnych obrazów. Aby wprowadzić dalsze zmiany do przeskalowanego obrazu, użyj opcji ‘Make variations’, ‘Light Upscale Redo’ i ‘Beta Upscale Redo’. Przycisk ‘Web’ pozwala wyświetlić obraz w większym rozmiarze w osobnym oknie. Midjourney umożliwia skalowanie obrazów do rozdzielczości 2048×2048 (kwadrat) i 2720×1530 (szeroki ekran) za pomocą funkcji beta upscale redo, z domyślnym rozmiarem siatki generowania 1024×1024 (kwadrat) i 1456×816 (szeroki ekran). Każdy obraz można dodatkowo ulepszyć za pomocą opcji skalowania “U”, które poprawiają określone części obrazu. Spójrz na ten prompt, który tworzy fantastyczne dzieło sztuki w wersji V5.2 Midjourney. /imagine Artwork portrays a solitary tree under a starlit sky, with a child reading beneath, in the hues of serene blue and warm orange, inspired by the brushstrokes of French Impressionism, Persian miniatures, Bauhaus simplicity, evocative of classic children’s fairy tale illustrations, achieving an asymmetrical harmony, expressed in an enchanting, folk/ naïve: –ar 15:19 –upbeta –q 2 Przykład z przewodnika po promptach Midjourney

Tworzenie swojej pierwszej sztuki AI w Midjourney

  1. Tworzenie podstawowego planu: Wyobraź sobie, że jesteś artystą. Zacznij od prostego, żywego opisu obrazu, który chcesz ożywić. Zarysuj główny temat, atmosferę, a nawet drobne szczegóły, które chcesz osadzić. Używaj interpunkcji, takiej jak przecinki, nawiasy i myślniki, aby uporządkować swoje myśli. Dla lepszych rezultatów, bądź precyzyjny co do kontekstu i szczegółów swojego projektu. Elementy takie jak temat (np. smok, zabytkowy samochód, Abraham Lincoln), medium (np. sztuka cyfrowa, szkic ołówkiem), środowisko (np. przestrzeń kosmiczna, podwodne, tętniące życiem miasto), oświetlenie (np. miękkie, neonowe, podświetlane od tyłu), kolor (np. kolory ziemi, żywe, stonowane), nastrój (np. melancholijny, kapryśny, spokojny) i kompozycja (np. krajobraz, zbliżenie, szeroki kąt) mogą być kluczowe. Przykłady:
    • Sielski las skąpany w słońcu, ścieżka wijąca się w oddali
    • Miasto, które nigdy nie śpi, z neonami odbijającymi się od chodników i różnorodnym tłumem krzątającym się wokół
  2. Wprowadzanie stylu i słów kluczowych: AI Midjourney jest zdolne do ilustrowania obrazów w niezliczonych stylach, takich jak abstrakcyjny, surrealistyczny czy realistyczny. Poprzez integrację stylu lub powiązanych słów kluczowych, możesz pokierować AI do stworzenia obrazu odzwierciedlającego twoją wizję. Eksperymentuj z różnymi stylami i słowami kluczowymi, aby odkryć idealne połączenie. Przykłady:
    • Obraz krajobrazu przedstawiający pustynię o świcie, odzwierciedlający styl Georgii O’Keeffe, z pastelową paletą barw i organicznymi formami.
    • Abstrakcyjne przedstawienie spokojnego lasu, z geometrycznymi wzorami tworzącymi drzewa i liście, inspirowane kompozycjami Pieta Mondriana.
  3. Wykorzystanie zaawansowanych ustawień: Potraktuj Midjourney jako swoją kreatywną skrzynkę z narzędziami, pełną zaawansowanych ustawień, które pozwalają dostroić generowane obrazy. To jak władanie magiczną różdżką, umożliwiającą przywołanie idealnej równowagi losowości, stylizacji i wariacji obrazu. Uwolnij swoją kreatywność, majsterkując przy tych ustawieniach, aż znajdziesz idealną mieszankę, która rezonuje z twoją wizją. Przykłady:
    • Spokojny japoński ogród ze stawem odbijającym drzewa wiśni –seed 22 –s 150 –c 40
    • Dystopijne miasto cyberpunkowe, oświetlone neonami –seed 88 –s 600 –c 60
  4. Podkreślanie elementów za pomocą wag: Wyobraź sobie swój obraz jako symfonię, w której każdy element przyczynia się do wielkiego zespołu. Używając notacji “::”, możesz dyktować znaczenie różnych elementów w swoim obrazie, pozwalając kontrolować punkt skupienia. Przykłady:
    • [Elegancki paw]::3 siedzący na [drzewie glicynii]::1 kwitnącym żywymi kwiatami
    • [Majestatyczny słoń]::2 wygrzewający się w blasku [zachodzącego słońca]::1 na sawannie
  5. Midjourney to proces

I have spent the past five years immersing myself in the fascinating world of Machine Learning and Deep Learning. My passion and expertise have led me to contribute to over 50 diverse software engineering projects, with a particular focus on AI/ML. My ongoing curiosity has also drawn me toward Natural Language Processing, a field I am eager to explore further.