Connect with us

Майстерність AI-містецтва: Конденсоване керівництво до Midjourney та інженерії промпта

Промпт-інжиніринг

Майстерність AI-містецтва: Конденсоване керівництво до Midjourney та інженерії промпта

mm
Midjourney Generated UNITE AI LOGO

Введення в AI-генероване мистецтво MidJourney

AI швидко проривається через бар’єри неможливості і最近侵入 у царину мистецтва, перетворюючи його повністю. Тепер вам не потрібно бути майстром-художником або експертом Photoshop, щоб оживити фрагменти вашої уяви. Просто добре сформульований промпт – все, що вам потрібно, завдяки Midjourney.

Все почалося з введення революційних технологій, таких як DALL-E, Midjourney і StableDiffusion у 2022 році. Хоча кожна з цих інновацій принесла свій особливий дотик до полотна генерації AI, Midjourney, зокрема, продовжила свою переконливу подорож, роблячи помітні кроки.

Midjourney зараз є лідером серед високорозрішених текст-до-образу генераторів AI на ринку і стоїть високо зі своєю унікальною сумішшю генерації текст-до-образу, редагування медіа та підвищення якості, а також доступу до активної мистецької спільноти, все починаючи з $10 на місяць. Цей комплексний набір функцій представляє собою цікаву палітру для художників, технічних ентузіастів і фахівців AI, створюючи середовище для творчості та інновацій.

Світ мистецтва, безумовно, звертає увагу, з генерацією AI на ринку мистецтва, яка очікує приголомшливого зростання на 40,5% ЦAGR. Midjourney стоїть безперечним у створенні найбільш реалістичних і високоякісних візуальних зображень за допомогою AI.

Ефективна інженерія промпта виходить за рамки простої творчості; вона охоплює найкращі практики. Промпти повинні пропонувати ясність, бути лаконічними, але надавати AI достатньо керівництва без надмірної рецептури. Також під час дизайну необхідно враховувати цільову аудиторію, беручи до уваги такі змінні, як вік, стать і культурний фон, серед інших.

Як працює MidJourney?

Mid-Journey використовує дві нові технології машинного навчання – великі мовні та дифузійні моделі. Модель мови, подібна до AI-чатботів, таких як ChatGPT, допомагає Mid-Journey інтерпретувати значення ваших промптів і перетворювати їх у вектори. Цей вектор потім керує процесом дифузії.

Внутрішня робота Midjourney у великому ступені не розголошується. Тим не менш, очевидно, що вона використовує генерацію текст-до-образу з двох відносно нових машинно-навчальних технологій: великих мовних моделей і моделей дифузії. Перша, можливо, знайома користувачам платформ AI, таких як ChatGPT, а друга – це перспективне доповнення до сектора генерації AI-містецтва. Ціла система залежить від CLIP набору даних для навчання, який можна знайти на сторінці дослідження OpenAI.

Незважаючи на обмежену інформацію, можна намалювати широкий образ моделі дифузії Midjourney, під назвою ‘Stable Diffusion’. По суті, Stable Diffusion – це відкритий модель, яка майстерно перетворює текстові промпти у зображення різноманітних стилів і змісту. Ця складна процедура досягається за допомогою моделі дифузії, генеративної моделі, яка зв’язує залежності між текстовими входами та виходами зображень.

Моделі дифузії побудовані на основі методу деноїзингу дифузії, підходу, що впливає на термодинаміку нерозуміння. Цей метод систематично розбирає структуру даних і пізніше відновлює її. Цей підхід був адаптований для генерації зображень Хо та ін. у 2020 році, що призвело до виникнення моделей дифузії, які ми бачимо сьогодні.

Навчання моделей дифузії включає два основних етапи. Спочатку процес дифузії або прямого процесу включає поступове додавання випадкового шуму до вхідного зображення, поки воно повністю не перетвориться на шум. Цей процес керується фіксованою ланцюгом Маркова, який постійно додає гауссовський шум протягом кількох послідовних кроків.

Демонстрація роботи Midjourney

Пізніше, у зворотному або відновному етапі модель відновлює оригінальні дані з шумоподібного стану, досягнутого під час процесу дифузії. Цей процес керується ланцюгом Маркова з навченими гауссовськими переходами, що означає, що передбачення ймовірності щоденної щільності залежить лише від стану, досягнутого на попередньому етапі. Оскільки латентні ‘x1, …, xT’ мають ту ж саму розмірність, що й дані, моделі дифузії класифікуються як латентні змінні моделі.

Вартість і підписка Mid-Journey

Хоча багато чатботів, таких як ChatGPT і Bing Chat, пропонують майже необмежене використання безкоштовно, ситуація відрізняється для генераторів зображень, таких як Mid-Journey. Через суттєву обчислювальну потужність, необхідну, особливо з графічних процесорів (GPU) і використання відеопам’яті для процесу деноїзингу, послуга Mid-Journey супроводжується ціною.

Базовий план починається з $10 на місяць, надаючи близько 3,3 годин часу GPU, достатньо для приблизно 200 генерацій зображень. Тим не менш, є плани вищого рівня, які пропонують необмежену кількість зображень у режимі Relaxed, хоча з тривалим часом очікування.

Налаштування вашого MidJourney

  1. Початок роботи з MidJourney включає реєстрацію на їхньому офіційному сайті, підписку на план і подальше перенаправлення на Discord.
  2. Як тільки ви знаходитесь у каналі Mid-Journey на Discord, перейдіть до групи Newcomer на лівому боці. Звідти ви можете спостерігати, як інші користувачі створюють промпти, вивчати механіку Mid-Journey і взаємодіяти у живому середовищі.
  3. Після ознайомлення з середовищем запрошуйте бота до вашого приватного сервера, щоб створювати зображення без перешкод. Бот генерує чотири попередні зображення на основі вашого промпту, що дозволяє вам вибрати найближчу відповідність вашій оригінальній ідеї та подальше уточнення зображення.

Структура промпта для Midjourney

  1. Команда /imagine у каналі Discord всередині каналу Midjourney генерує унікальне зображення з короткого текстового опису (промпту).
  2. Щоб відтворити певний стиль у різних зображеннях, просто введіть URL-адресу зображення поряд з вашим текстовим промптом. Ваші нові, послідовні виходи будуть поєднувати елементи з обраного зображення та тексту.
    /imagine http://link-to-your-image –parameter1 –parameter2
    Ви можете створити посилання на зображення, завантаживши його до каналу Discord. Як тільки воно завантажено, клацніть правою кнопкою миші на зображенні та виберіть ‘Копіювати посилання’.
    Тут http://link-to-your-image і параметри є необов’язковими.
  3. Після цього бот починає працювати над вашим зображенням, витрачаючи приблизно одну хвилину на пропозицію чотирьох альтернатив. Цей процес включає використання потужних графічних процесорів для обробки та інтерпретації кожного промпту.
  4. Відстежуйте свій час використання GPU за допомогою команди /info. Це дозволяє вам перевірити свій ‘Залишній швидкий час’ і моніторити час GPU вашої підписки.

/info промпт Midjourney

Масштабування зображення та зміни

Для більш розвиненого зображення використовуйте кнопки ‘U’ під зображеннями, щоб збільшити ваш вибір. Ви також можете використовувати кнопки ‘V’, щоб зробити корективи до конкретних зображень. Для подальших змін до збільшеного зображення використовуйте варіанти ‘Створити варіації’, ‘Переделати збільшення світла’ і ‘Переделати бета-збільшення’. Кнопка ‘Веб’ дозволяє переглянути зображення у більшому розмірі в окремому вікні.

Midjourney дозволяє збільшувати зображення до 2048×2048 (квадрат) і 2720×1530 (широкий екран) роздільної здатності за допомогою функції бета-збільшення, з стандартним розміром генерації 1024×1024 (квадрат) і 1456×816 (широкий екран). Кожне зображення можна додатково покращити за допомогою варіантів “U” збільшення, які покращують конкретні частини зображення.

Подивіться на цей промпт, який створює фантастичні твори мистецтва з версією V5.2 Midjourney.

/imagine Мистецтво зображує самотній дерево під зоряним небом, з дитиною, яка читає під ним, у тонах спокійного синього та теплого жовтого, натхненного мазками французького імпресіонізму, перських мініатюр, баухаусної простоти, що викликає класичні дитячі казкові ілюстрації, досягаючи асиметричної гармонії, вираженої у чарівному, фольклорному/наївному стилі: –ar 15:19 –upbeta –q 2

Посібник з промпту Midjourney

Створення вашого першого мистецтва Midjourney AI

  1. Створення базової схеми: Подумайте про себе як про художника. Почніть з простого, яскравого опису зображення, яке ви хочете оживити. Накресліть основний предмет, атмосферу або навіть дрібні деталі, які ви хочете впровадити. Використовуйте пунктуацію, таку як кому, дужки та дефіси, щоб структурувати свої думки. Для кращих результатів будьте явними щодо контексту та деталей вашого дизайну. Елементи, такі як предмет (наприклад, дракон, старовинний автомобіль, Авраам Лінкольн), середовище (наприклад, космос, під водою, завантажений місто), освітлення (наприклад, м’яке, неонове, проти-світло), колір (наприклад, земні тони, яскраві, приглушені), настрій (наприклад, меланхолічний, фантастичний, мирний) та композиція (наприклад, пейзаж, крупний план, широкий кут), можуть бути критичними. Приклади:
    • Ідилічний ліс, залитий сонячним світлом, з дорогою, що тягнеться у відстань
    • Місто, яке ніколи не спить, з неоновими вогнями, що відбиваються від тротуарів, і різноманітною юрбою, що перемішується
  2. Наповнення стилем і ключовими словами: AI Midjourney здатна зображувати зображення у багатьох стилях, таких як абстрактний, сюрреалістичний або реалістичний. Інтегруючи стиль або пов’язані ключові слова, ви можете спрямувати AI на створення зображення, яке відображає вашу бачення. Експериментуйте з різними стилями та ключовими словами, щоб відкрити ідеальну суміш. Приклади:
    • Пейзажний живопис, що зображує пустелю на світанку, дзеркальний стиль Джорджії О’Кіф, з пастельною кольоровою палітрою та органічними формами.
    • Абстрактне зображення мирного лісу, з геометричними формами, що утворюють дерева та листя, натхненне композиціями Піта Мондріяна.
  3. Використання розширених налаштувань: Розгляньте Midjourney як вашу творчу скриньку, наповнену розширеними налаштуваннями, які дозволяють вам дошліфувати згенеровані зображення. Це як володіння магічною паличкою, що дозволяє вам створити ідеальний баланс випадковості, стилізації та варіації зображення. Розкрийте свій творчий потенціал, експериментуючи з цими налаштуваннями, поки не знайдете ідеальну суміш, яка резонує з вашим баченням. Приклади:
    • Спокійний японський сад з прудом, що відбивається від вишневих дерев, -seed 22 -s 150 -c 40
    • Дистопічний кіберпанковий місто, освітлене неоновими вогнями -seed 88 -s 600 -c 60
  4. Підкреслення елементів вагами: Уявіть своє зображення як симфонію, де кожен елемент сприяє великому ансамблю. Використовуючи позначення “::”, ви можете диктувати значення різних елементів у вашому зображенні, дозволяючи вам контролювати центр уваги. Приклади:
    • [Елегантний павич]::3, що сидить на [вістерії дерево]::1, що цвіте яскравими квітами
    • [Могутній слон]::2, що купається у світлі [захід сонця]::1 на савані
  5. Midjourney – це процес проб і помилок: Експериментування з різними елементами та функціями є необхідним. Кожна ітерація приведе вас ближче до зображення, яке ви хотіли б оживити.

Параметри Mid-Journey

Модель Midjourney працює з налаштовуваними параметрами, які контролюють результат процесу генерації зображення. Ці параметри дозволяють користувачам налаштовувати та адаптувати згенеровані твори мистецтва, дошліфовуючи модель для створення виходів, які ідеально підходять їхній меті.

Нижче наведені базові та розширені параметри, їх функції та те, як використовувати їх, щоб повністю розкрити можливості Midjourney:

  • Відношення сторін (–aspect або –ar): Цей параметр контролює співвідношення між шириною та висотою згенерованого зображення. Наприклад, співвідношення 16:9 ідеально підходить для зображень YouTube, тоді як 1:1 створює квадратне зображення, яке підходить для Instagram.
  • Хаос (–chaos): Цей параметр регулює розмаїття початкової сітки зображення та варіюється від 0 до 100. Вищі значення хаосу дають непередбачувані та унікальні результати, тоді як нижчі значення забезпечують більш послідовні результати.
  • Ні (–no): Цей параметр допомагає видалити певні елементи або характеристики з згенерованого зображення. Наприклад, якщо ви хочете зображення без червоного кольору, ви можете використовувати “–no червоний”.
  • Якість (–quality або –q): Це налаштування регулює час, необхідний для генерації зображення. Вища якість вимагає більше часу обробки, але забезпечує детальні деталі. Цей параметр може приймати значення .25, .5, 1 або 2.
  • Насіння (–seed): Цей параметр визначає початковий візуальний шум, який служить базою для згенерованого зображення. Використання того ж номера насіння з тим же промптом дасть подібні результати. Він приймає цілі значення між 0 і 4294967295.
  • Стоп (–stop): За допомогою цього параметру ви можете передчасно припинити роботу, створюючи менш деталізовані, але потенційно цікаві результати. Діапазон становить 10-100. Наприклад, якщо ви вказали ‘–stop 50’, процес генерації зображення зупиниться на 50% завершення, що призведе до менш деталізованого, можливо, абстрактного зображення.
  • Стилізація (–stylize або –s): Цей параметр контролює рівень художньої обробки згенерованого зображення. Нижчі значення стилізації дають результати, ближчі до початкового промпту, тоді як вищі значення призводять до більш абстрактних та художніх інтерпретацій. У версії 5 значення за замовчуванням становить 100, але ви можете встановити його в діапазоні від 0 до 1000.
  • Версія моделі: Ви можете вибрати з різних версій моделі Midjourney, використовуючи параметр –version або –v.
  • Niji: Модель, спеціалізована на аніме-стилі зображень. До неї можна звернутися за допомогою параметру –niji.
  • Високоефектне збільшення: Для абстрактних та пейзажних зображень параметр –hd активує рання версію моделі, яка дає більші, менш послідовні зображення.
  • Тестові моделі: Midjourney пропонує спеціальні моделі для конкретних випадків використання. –test і –testp активують стандартну та фотографічну тестову модель відповідно.
  • Збільшувач зображення: Алгоритм Midjourney починається з низькорозрішеного зображення. Він пропонує кілька моделей збільшення, щоб покращити розмір та деталі зображення.
    • Uplight: Альтернативний легкий збільшувач (–uplight) пропонує збільшені зображення, які менш деталізовані, але гладші.
    • Upbeta: Параметр –upbeta призводить до зображень з значно меншою кількістю додаткових деталей, залишаючись ближчими до оригінальної сітки.
    • Upanime: Збільшувач –upanime призначений спеціально для роботи з моделлю Midjourney –niji.
  • Вага зображення: Використовуйте –iw, щоб регулювати відносну вагу промпту зображення до ваги тексту. Значення за замовчуванням становить 0,25.
  • Сеймсід: Параметр –sameseed забезпечує, щоб усі зображення в початковій сітці використовували той же початковий шум, створюючи дуже схожі згенеровані зображення.
  • Відео: Midjourney може зберегти відео прогресу генерації початкової сітки зображення за допомогою параметру –video.
  • Креатив: З параметром –creative моделі тест і тестп видають більш різноманітні та креативні зображення.

Midjourney постійно оновлює свої можливості, щоб покращити досвід користувача, останнє оновлення – версія 5.2, випущена у червні 2023 року. Додавши –v 5.2 до вашого промпту або вибравши його через команду /settings, користувачі можуть отримати доступ до цієї покращеної моделі. Версія 5.2 пропонує кращу деталізацію зображення та краще розуміє промпти, забезпечуючи яскравіші кольори та покращені композиції.

Поняття про авторські права для AI-генерованого мистецтва

Зображення Midjourney суміші AI та авторських прав

У березні 2023 року Управління з питань авторських прав США уточнило свою позицію щодо авторських прав на роботи, створені за допомогою AI. Політика свідчить, що хоча людські елементи в творах AI (наприклад, написи чи унікальні дизайни) можуть бути захищені, зображення, створені за допомогою AI, не кваліфікуються для авторських прав, дотримуючись глобальних норм, які передбачають, що тільки людські твори мають право на захист авторських прав.

У контексті AI-містецтва авторські права не є простими. Хоча цифрове мистецтво має людський внесок художника, AI-генероване мистецтво створюється без прямого людського втручання, що ускладнює питання авторства та власності. Згідно з Управлінням з питань авторських прав США, первинна власність надається автору роботи – людській особі. Однак, оскільки AI не може бути розглянута як автор, AI-генероване мистецтво не має чіткої власності.

Останнє керівництво Управління з питань авторських прав США дозволяє авторські права на AI-містецтво тільки у разі, якщо воно містить достатню людську творчість. Рівень “достатньої людської творчості” залишається невизначеним і залежить від рівня людського втручання при створенні AI-містецтва.

Цікаво, що Midjourney, платформа AI для створення зображень, встановила свої власні політики щодо прав на використання. Користувачі безкоштовної пробної версії можуть використовувати зображення для некомерційних цілей згідно з ліцензією Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0), з належним посиланням на Midjourney. Однак платні абоненти можуть використовувати зображення для будь-якої мети, включаючи комерційну, згідно з Загальними комерційними умовами. Це розвиток у сфері авторських прав представляє цікаву динаміку між AI та людською творчістю.

Використання Midjourney для динамічних дизайнів інтерфейсу користувача та генерації логотипів

Від дизайну інтуїтивних інтерфейсів для веб-сайтів або мобільних додатків до створення унікальних логотипів та банерів, Midjourney надає можливість творчим особам генерувати ряд дизайнерських альтернатив протягом секунд.

Ось як це працює. Кожен дизайн починається з промпту, який служить планом для AI. Наприклад, якщо ви проектуєте інтерфейс для онлайн-платформи навчання, типовий промпт може бути: “/imagine Інтерфейс онлайн-платформи навчання, Dribbble, Висока роздільна здатність, 4K, як у Khan Academy”.

Початкові результати можуть не ідеально відповідати вашим очікуванням. Наприклад, додавання “Adobe XD” до промпту може допомогти Midjourney адаптувати свої дизайни до сумісності з Adobe XD. Оптимізований промпт буде:

/imagine Інтерфейс онлайн-платформи навчання, інтерфейс користувача, Adobe XD, Dribbble, Висока роздільна здатність, 4K, мінімалістичний дизайн

Зображення Midjourney дизайну інтерфейсу програми для робочого столу

 

Логотипи чи банери, натхненні текстом, за допомогою Midjourney

Давайте дослідимо, як створити банер з логотипом для Unite.AI.

Спочатку вам потрібно мати просте зображення тексту, який ви хочете відображати. Ви можете створити це, використовуючи будь-який графічний редактор або текстовий редактор, і завантажити його до вашого каналу Discord.

Зразок тексту для логотипу Unite
Просте зображення тексту, використане для створення логотипу Unite

Промпт для створення банера:

/imagine Літери: Unite у футуристичному, AI-інспірований шрифт логотипу з літерами Unite –v 5 –ar 16:9

Посібник з промпту Midjourney

Подивіться на ці приклади промптів для більшої кількості ідей:

/imagine Самотній музикант виконує спокійну мелодію на літаючому місті під вечір, у стилі арт-нуво

Посібник з промпту Midjourney: зображення індійського мистецтва

 

/imagine Зображення людини майбутнього, яка працює на футуристичному робочому місці, оточеному голографічними екранами та передовими технологіями. Людина носить стильний срібний костюм і має окуляри віртуальної реальності. Середовище наповнене неоновими вогнями та плаваючими голографічними зображеннями. Атмосфера футуристична та високотехнологічна, з відчуттям збудження та інновацій. Камера – це високорозрізна цифрова камера, яка захоплює кожну деталь із точністю. Художній стиль – це поєднання кіберпанку та мінімалізму, з акцентом на чистих лініях та яскравих кольорах. Режисери, оператори, фотографи, дизайнери моди, карикатуристи та художники, які співпрацюють у цьому унікальному поєднанні, – це Крістофер Нолан, Роджер Дікінс, Енні Лейбовіц, Вірджил Абло, Хаяо Міядзакі та Кавс.

Промпт Midjourney для людини майбутнього, яка працює

/imagine 1940-ті – стиль Барбі як військової медсестри, у винтажному військовому госпіталі, доглядаючи за пораненими солдатами, у стилі класичних ілюстрацій Mattel, з атмосферою сепійних фотографій Другої світової війни 8k –v 5 –ar 16:9

Посібник з промпту Midjourney: зображення Барбі у унікальних умовах

/imagine Кадр жінки, яка спирається на кіберпанковий, японський аніме, розкинутий міський пейзаж, 32k, складний космічний порт, мимолетний, панорами міста, стильний

Зображення Midjourney дівчини у кіберпанковському стилі

 

Заключні думки: Навігація у світі AI-містецтва з Midjourney

Пам’ятайте, “Картинка вартує тисяч слів”. Детальний, яскравий опис може працювати чудеса. Так, Midjourney не безкоштовний у використанні. Однак він революціонізує світ мистецтва та розширює наші творчі можливості за допомогою своєї передової текст-до-образу технології AI. З можливістю перетворити простий текстовий промпт у високорозрішене зображення, це інструмент, який обіцяє безмежні можливості, не тільки для художників, але й для дизайнерів інтерфейсу користувача, технічних ентузіастів та фахівців AI.

Ось кілька основних моментів, які потрібно пам’ятати, коли ви починаєте свою подорож з Midjourney:

  • Навчіться основам промпту Midjourney: Використовуйте чіткі, лаконічні та повні описи, які охоплюють ваше бачення, щоб ефективно спрямувати AI. Пам’ятайте про свою аудиторію та не бояться експериментувати з різними стилями, настроями та контекстами.
  • Використовуйте параметри: Покращуйте свій творчий досвід, використовуючи розширені налаштування, які пропонує Midjourney. Від контролю співвідношення сторін до регулювання параметра хаосу для унікальних результатів, кожна деталь може бути адаптована до вашого смaku.
  • Принцип ітеративного процесу: Ваше перше AI-генероване мистецтво може не бути ідеальним. Прийміть цей ітеративний процес та навчитеся дошліфовувати та оптимізувати свої промпти для кращих результатів.
  • Поняття про авторські права: Хоча самі AI-генеровані твори не мають права на авторські права, людські компоненти всередині них можуть бути захищені.

По суті, інтеграція AI у мистецтво демократизувала творчість та розмила межі між людьми та машинами. Коли ми продовжимо свідчити приголомшливого зростання генерації AI на ринку мистецтва, не заперечується, що революція AI-містецтва, очолювана платформами, такими як Midjourney, тільки починається.

Я провів останні п'ять років, занурючись у захопливий світ машинного навчання та глибокого навчання. Моя пристрасть та експертиза привели мене до внеску у понад 50 різноманітних проектів програмної інженерії, з особливим акцентом на AI/ML. Моя триваюча цікавість також привела мене до обробки природної мови, галузі, яку я бажаю дослідити далі.