заглушки Освоєння штучного інтелекту: стислий посібник із проміжної роботи та швидкого проектування - Unite.AI
Зв'язатися з нами

Оперативна інженерія

Освоєння мистецтва штучного інтелекту: стислий посібник із проміжного та швидкого проектування

mm
оновлений on
Midjourney створений ЛОГОТИП UNITE AI

Вступ до мистецтва, створеного штучним інтелектом MidJourney

ШІ стрімко долає бар’єри неможливості й нещодавно вторгся у сферу мистецтва, повністю її трансформуючи. Тепер вам не потрібно бути майстерним художником чи експертом у Photoshop, щоб втілити в життя плоди своєї уяви. Дякую, все, що вам потрібно, — це проста, добре сформульована підказка Серед подорожі.

Все почалося з впровадження таких революційних технологій, як DALL-E, Midjourney і StableDiffusion ще в 2022 році. Хоча кожна з цих інновацій привнесла свій виразний штрих у полотно Generative AI, Midjourney, зокрема, продовжила свій переконливий шлях, зробивши варті уваги кроки.

Наразі Midjourney є провідним на ринку генератором штучного інтелекту з високою роздільною здатністю, який перетворює текст у зображення та має унікальне поєднання генерування тексту в зображення, редагування й масштабування медіафайлів, а також активного доступу до художньої спільноти, починаючи з 10 доларів США за місяць. Цей повний набір функцій представляє захоплююче полотно для художників, ентузіастів технологій і професіоналів штучного інтелекту, створюючи середовище для творчості та інновацій.

Світ мистецтва, безперечно, звертає увагу на те, що генеративний штучний інтелект на ринку мистецтва, за прогнозами, спостерігатиме приголомшливе зростання 40.5% CAGR. Midjourney не має собі рівних у створенні найреалістичніших і високоякісних зображень за допомогою ШІ.

Ефективне швидке проектування виходить за рамки простого створення; він охоплює найкращі практики. Підказки повинні пропонувати ясність і бути лаконічними, але надавати штучному інтелекту достатньо вказівок без надмірних приписів. Крім того, під час проектування необхідно враховувати цільову аудиторію, беручи до уваги такі змінні, як вік, стать та культурне походження тощо.

Як працює MidJourney?

Mid-Journey використовує дві новітні технології машинного навчання – велику мову та моделі дифузії. Мовна модель, подібна до чат-ботів ШІ, таких як ChatGPT, допомагає Mid-Journey інтерпретувати значення ваших підказок і перетворювати їх у вектори. Потім цей вектор керує процесом дифузії.

Внутрішня робота Midjourney майже не розкрита. Тим не менш, очевидно, що він використовує генерацію тексту в зображення за допомогою двох відносно нових технологій машинного навчання: великих мовних моделей і дифузійних моделей. Перший, мабуть, знайомий користувачам платформ штучного інтелекту, таких як ChatGPT, а другий є багатообіцяючим доповненням до сектору створення мистецтва штучного інтелекту. Вся система спирається на CLIP набір даних для навчання, який можна знайти на сторінці досліджень OpenAI.

Незважаючи на обмежену інформацію, можна скласти загальну картину Midjourney's дифузійна модель, влучно названий «Стабільна дифузія». По суті, Stable Diffusion — це модель із відкритим вихідним кодом, яка вміло перетворює текстові підказки на зображення різного стилю та вмісту. Ця складна процедура досягається за допомогою дифузійної моделі, генеративної моделі, яка поєднує залежності між текстовими входами та виходами зображень.

Дифузійні моделі побудовано на основі методу шумозаглушення дифузії, підходу під впливом нерівноважної термодинаміки. Цей метод систематично демонтує структуру даних і згодом відновлює її. Цей підхід був адаптований для створення зображень Хо та ін. у 2020 році, що призвело до створення дифузійних моделей, які ми бачимо сьогодні.

Навчальні дифузійні моделі включають два основних етапи. Спочатку процес прямого або розповсюдження передбачає поступове додавання випадкового шуму до вхідного зображення, поки воно повністю не перетвориться на шум. Цей процес регулюється фіксованим ланцюгом Маркова, який послідовно додає гаусівський шум через кілька послідовних кроків.

Робоча демонстрація в дорозі

Згодом, у фазі реверсу або реконструкції, модель відновлює вихідні дані зі стану з домінуванням шуму, досягнутого в процесі дифузії. Цей процес керується ланцюгом Маркова з вивченими гаусовими переходами, що означає, що передбачення щільності ймовірності в будь-який момент часу залежить виключно від стану, досягнутого на попередньому кроці часу. Оскільки латентні «x1, …, xT» мають ту саму розмірність, що й дані, дифузійні моделі класифікуються як моделі латентних змінних.

Вартість і передплата Mid-Journey

Хоча багато чат-ботів, як-от ChatGPT і Bing Chat, пропонують майже необмежену кількість безкоштовного використання, сценарій відрізняється для генераторів зображень, таких як Mid-Journey. Через значну обчислювальну потужність, яка потрібна, особливо від графічних процесорів (GPU) і використання відеопам’яті для процесу шумозаглушення, служба Mid-Journey поставляється з цінник.

Базовий тарифний план починається від 10 доларів на місяць і забезпечує приблизно 3.3 години графічного процесора, чого достатньо приблизно для 200 генерацій зображень. Однак є тарифні плани вищого класу, які пропонують необмежену кількість зображень у режимі Relaxed, хоча й із довшим часом очікування.

Налаштування вашого MidJourney

  1. Починаючи з Серед Подорожі передбачає реєстрацію на їхньому офіційному веб-сайті, підписку на план, а потім перенаправлення на Discord.
  2. Коли ви знайдете канал Mid-Journey Discord, перейдіть до Групи новачків ліворуч. Звідти ви можете спостерігати, як інші користувачі створюють підказки, вивчати механізми Mid-Journey і взаємодіяти в гамірному середовищі.
  3. Ознайомившись із середовищем, запросіть бота на свій приватний сервер, щоб він спокійно створював зображення. Бот генерує чотири зображення попереднього перегляду на основі вашої підказки, дозволяючи вам вибрати найбільш схоже з вашою оригінальною ідеєю та додатково вдосконалити зображення.

Швидка структура для Midjourney

  1. Команда /imagine на каналі Discord всередині каналу Midjourney створює унікальне зображення з короткого текстового опису (підказка).
  2. Щоб відтворити певний стиль для різних зображень, просто введіть URL-адресу зображення поруч із текстовим запитом. Ваші нові узгоджені результати об’єднають елементи як із вибраного зображення, так і з тексту.
    /imagine http://link-to-your-image –параметр1 –параметр2
    Ви можете створити посилання на своє зображення, завантаживши його на канал Discord. Після завантаження клацніть зображення правою кнопкою миші та виберіть «Копіювати посилання».
    Тут http://link-to-your-image і параметри необов’язкові.
  3. Після цього бот починає працювати над вашим зображенням, займаючи приблизно хвилину, щоб запропонувати чотири альтернативи. Цей процес передбачає використання надійних графічних процесорів (GPU) для обробки та інтерпретації кожного запиту.
  4. Слідкуйте за використанням графічного процесора за допомогою команди /info. Це дозволяє вам швидко перевірити час, що залишився, і контролювати час GPU вашої підписки.

/info підказка в середині шляху

Масштабування та зміни зображення

Щоб отримати більш витончене зображення, використовуйте кнопки «U» під зображеннями, щоб підвищити масштаб бажаного вибору. Ви також можете використовувати кнопки «V», щоб налаштувати певні зображення. Для подальших змін у покращеному зображенні скористайтеся параметрами «Зробити варіанти», «Повторити з легким масштабом» і «Бета-повторити з підвищеним масштабом». Кнопка «Інтернет» дозволяє переглядати зображення у збільшеному розмірі в окремому вікні.

Midjourney дозволяє масштабувати зображення до роздільної здатності 2048 × 2048 (квадрат) і 2720 × 1530 (широкоекранний) за допомогою бета-функції повторного масштабування, із стандартним розміром сітки генерації 1024 × 1024 (квадрат) і 1456 × 816 (широкоекранний). Кожне зображення можна додатково покращити за допомогою параметрів підвищення масштабу «U», які покращують окремі частини зображення.

Подивіться на цю підказку, яка створює фантастичні ілюстрації з версією Midjourney V5.2.

/imagine Artwork зображує самотнє дерево під зоряним небом із дитиною, яка читає внизу, у відтінках безтурботного блакитного та теплого помаранчевого кольорів, натхненних мазками французького імпресіонізму, перськими мініатюрами, простотою Баухаузу, що нагадує класичні ілюстрації дитячих казок, досягнення асиметричної гармонії, вираженої в чарівному, народному/наївному: –ar 15:19 –upbeta –q 2

Приклад підказки про середину подорожі

Створення вашого першого проміжного AI Art

  1. Створення основного плану: думайте про себе як про художника. Почніть із простого, яскравого опису образу, який ви прагнете втілити в життя. Окресліть головний предмет, атмосферу чи навіть дрібні деталі, які ви хочете вставити. Використовуйте такі знаки пунктуації, як коми, дужки та дефіси, щоб структурувати свої думки. Щоб отримати кращі результати, чітко пояснюйте контекст і деталі свого дизайну. Такі елементи, як предмет (наприклад, Дракон, старовинний автомобіль, Авраам Лінкольн), середній (наприклад, цифрове мистецтво, ескіз олівцем), оточення (наприклад, космічний простір, підводний світ, гамірне місто), освітлення (наприклад, м’яке, неонове, підсвічування) , колір (наприклад, земляні тони, яскравий, приглушений), настрій (наприклад, меланхолійний, химерний, спокійний) і композиція (наприклад, пейзаж, крупний план, ширококутний) можуть мати вирішальне значення. приклади:
    • Ідилічний ліс, залитий сонячним світлом, стежка звивається вдалину
    • Місто, яке ніколи не спить, з неоновим світлом, що відбивається від тротуарів, і різноманітним натовпом, що крутиться навколо
  2. Вливання стилю та ключових слів: ШІ Midjourney здатний ілюструвати зображення в безлічі стилів, таких як абстрактний, сюрреалістичний або реалістичний. Інтегрувавши стиль або пов’язані ключові слова, ви можете керувати штучним інтелектом для створення зображення, яке відображає ваше бачення. Експериментуйте з різними стилями та ключовими словами, щоб знайти ідеальне поєднання. приклади:
    • Пейзаж із зображенням пустелі на світанку, що відображає стиль Джорджії О'Кіфф, має пастельну палітру кольорів та органічні форми.
    • Абстрактне зображення тихого лісу з геометричними візерунками, що утворюють дерева та листя, натхненне композиціями Піта Мондріана.
  3. Використання розширених налаштувань: розглядайте Midjourney як свій творчий інструментарій, наповнений розширеними налаштуваннями, які дозволяють точніше налаштовувати створені зображення. Це ніби володіння чарівною паличкою, що дозволяє створити ідеальний баланс випадковості, стилізації та варіації зображення. Дайте волю своїм творчим здібностям, змінюючи ці налаштування, доки не знайдете ідеальне поєднання, яке резонуватиме з вашим баченням. приклади:
    • Спокійний японський сад із ставком, у якому відображаються квіти вишні – насіння 22 – s 150 – c 40
    • Антиутопічне кіберпанк-місто, освітлене неоновими вогнями –seed 88 –s 600 –c 60
  4. Виділення елементів за допомогою ваги: ​​візуалізуйте своє зображення як симфонію, у якій кожен елемент вносить свій внесок у великий ансамбль. Використовуючи нотацію «::», ви можете диктувати значення різних елементів у вашому зображенні, дозволяючи вам керувати прожектором. приклади:
    • [Елегантний павич]::3 сидить на [дереві гліцинії]::1, яке розквітає яскравими квітами
    • [Величний слон]::2 ніжиться в сяйві [призахідного сонця]::1 у савані
  5. Проміжний шлях — це процес проб і помилок: необхідно експериментувати з різними елементами та функціями. Кожна ітерація наближає вас до образу, який ви мріяли оживити.

Параметри середини подорожі

Модель Midjourney працює з використанням регульованих параметрів, які контролюють результат процесу генерації зображення. Ці параметри дозволяють користувачам налаштовувати та адаптувати створене ними мистецтво, точно налаштовуючи модель для створення результатів, які ідеально відповідають їхнім цілям.

Нижче наведено основні та розширені параметри, їхні функції та те, як їх використовувати для повного використання можливостей Midjourney:

  • Співвідношення сторін (–aspect або –ar): цей параметр керує співвідношенням між шириною та висотою створеного зображення. Наприклад, співвідношення 16:9 ідеально підходить для ескізів YouTube, тоді як 1:1 створює квадратне зображення, чудове для Instagram.
  • Хаос (–хаос): цей параметр регулює різноманітність початкової сітки зображення та варіюється від 0 до 100. Вищі значення хаосу дадуть вам непередбачувані та унікальні результати, тоді як нижчі значення забезпечать більш узгоджені результати.
  • Ні (–ні): цей параметр допомагає виключити певні елементи чи характеристики зі створеного зображення. Наприклад, якщо ви бажаєте зображення без червоного, ви можете використати «–no red».
  • Якість (–якість або –q): цей параметр регулює час, необхідний для створення зображення. Вища якість вимагає більше часу на обробку, але дає складні деталі. Цей параметр може приймати значення 25, 5, 1 або 2.
  • Seed (–seed): цей параметр визначає початковий візуальний шум, який діє як базова лінія для створеного зображення. Використання того самого початкового номера з однаковою підказкою дасть схожі результати. Він приймає цілі значення від 0 до 4294967295.
  • Зупинка (–зупинка): за допомогою цього параметра ви можете передчасно припинити роботу, створюючи менш детальні, але потенційно цікаві результати. Діапазон 10-100. Наприклад, якщо ви вкажете «–stop 50», процес створення зображення зупиниться на 50% завершення, що призведе до менш детального, можливо, абстрактного зображення.
  • Стилізація (–stylize або –s): контролює рівень художнього застосування створеного зображення. Нижчі значення стилізації дають результати, ближчі до початкової підказки, тоді як вищі значення призводять до більш абстрактних і художніх інтерпретацій. У v5 стандартним значенням є 100, але ви можете встановити будь-яке значення від 0 до 1000.
  • Версія моделі: Ви можете вибрати з різних версій моделі Midjourney за допомогою параметра –version або –v.
  • Niji: модель, що спеціалізується на образах у стилі аніме. Доступ до нього можна отримати за допомогою параметра –niji.
  • Highmi Definition: для абстрактних і пейзажних зображень параметр –hd активує ранню версію моделі, яка дає більші, менш узгоджені зображення.
  • Тестові моделі: Midjourney пропонує спеціальні моделі для конкретних випадків використання. –test і –testp активують стандартну та зосереджену на фотографії тестові моделі відповідно.
  • Upscaler: алгоритм Midjourney починається з сітки зображень із низькою роздільною здатністю. Він пропонує кілька моделей масштабування для збільшення розміру та деталізації зображення.
    • Uplight: Альтернативний засіб підвищення масштабу світла (–uplight) забезпечує покращені зображення, які менш деталізовані, але більш плавні.
    • Upbeta: Параметр –upbeta дає зображення зі значно меншою кількістю додаткових деталей, які залишаються ближчими до вихідного зображення сітки.
    • Upanime: засіб підвищення масштабу –upanime розроблено спеціально для роботи з моделлю –niji Midjourney Model.
  • Вага зображення: використовуйте –iw, щоб налаштувати вагу підказки зображення відносно щільності тексту. Значення за замовчуванням 0.25.
  • Sameseed: Параметр –sameseed гарантує, що всі зображення у початковій сітці використовують однаковий початковий шум, створюючи дуже схожі згенеровані зображення.
  • Відео: Midjourney може зберігати відео прогресу початкового процесу створення сітки зображення за допомогою параметра –video.
  • Creative: з параметром –creative моделі test і testp видають більш різноманітні та творчі зображення.

Midjourney постійно розгортає оновлення для покращення взаємодії з користувачем, останньою з яких є версія 5.2, запущена в червні 2023 року. Додавши –v 5.2 до підказки або вибравши її за допомогою команди /settings, користувачі отримають доступ до цієї вдосконаленої моделі. Версія 5.2 пропонує чудову деталізацію зображення та більш інтуїтивно зрозумілі підказки, надаючи яскравіші кольори та покращені композиції.

Розуміння авторських прав на твори мистецтва, створені ШІ

Midjourney Image Mix of AI and copyright laws

У березні 2023 року Бюро захисту авторських прав США пояснило свою позицію щодо авторського права на Роботи, створені штучним інтелектом. У політиці стверджується, що хоча створені людиною елементи у творах ШІ (наприклад, тексти чи унікальні дизайни) можна захистити, створені ШІ зображення не підпадають під авторське право, дотримуючись глобальних норм, згідно з якими авторським правом захищаються лише твори людини.

У контексті штучного інтелекту авторське право не є простим. У той час як у цифрове мистецтво входить людина-митець, мистецтво, створене ШІ, створюється без прямого втручання людини, що ускладнює питання авторства та власності. Згідно з Бюро авторських прав США, початкове право власності надається автору твору – людині-творцю. Однак, оскільки штучний інтелект не можна вважати автором, мистецтву, створеному штучним інтелектом, бракує чіткої власності.

Останні вказівки Бюро авторських прав США дозволяють захищати авторські права на мистецтво штучного інтелекту, лише якщо воно містить достатню кількість авторства людини. Рівень «достатнього авторства людини» залишається невизначеним і залежить від ступеня участі людини у створенні мистецтва ШІ.

Цікаво, що Midjourney, платформа для створення зображень на основі ШІ, встановила власну політику щодо прав використання. Користувачі безкоштовної пробної версії можуть використовувати зображення в некомерційних цілях згідно з міжнародною ліцензією Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0) із належним посиланням на Midjourney. Однак платні передплатники можуть використовувати зображення для будь-яких цілей, у тому числі комерційних, відповідно до Загальних комерційних умов. Цей розвиток у сфері авторського права представляє інтригуючу динаміку між ШІ та людською творчістю.

Використання Midjourney для динамічного дизайну інтерфейсу користувача та креативного створення логотипу

Від розробки інтуїтивно зрозумілих інтерфейсів користувача для веб-сайтів або мобільних додатків до створення унікальних логотипів і банерів, Midjourney дає змогу розробникам контенту, генеруючи низку альтернатив дизайну за лічені секунди.

Ось як це працює. Кожна конструкція починається з підказки, яка слугує схемою, яку ШІ слідує. Припустімо, ви розробляєте користувальницький інтерфейс для додатка платформи онлайн-навчання. Типовим запитом може бути: «/imagine Інтерфейс користувача платформи онлайн-навчання, Dribbble, High Resolution, 4K, like khan academy».

Початкові результати можуть бути не ідеальними. Наприклад, додавання «Adobe XD» у суміш може допомогти Midjourney адаптувати свої проекти, щоб бути більш сумісними з Adobe XD. Оптимізована підказка буде:

/imagine Онлайн-платформа навчання, інтерфейс користувача, Adobe XD, Dribbble, висока роздільна здатність, 4K, мінімалістичний дизайн

Проміжне зображення дизайну UI/UX настільного додатка

 

Текстовий логотип або банери з використанням Midjourney

Давайте розберемося, як створити банер з логотипом для UNITE AI.

По-перше, вам потрібно мати просте зображення тексту, який ви хочете відобразити. Ви можете створити це за допомогою будь-якого інструменту графічного дизайну чи текстового редактора та завантажити на свій канал Discord.

зразок тексту для UNITE LOGO
Просте зображення тексту, яке використовується для створення логотипу UNITE

Підказка для створення банера:

/imagine Letters: UNITE у футуристичному шрифтовому логотипі, натхненному штучним інтелектом, із літерами UNITE –v 5 –ar 16:9

Екран функцій довідника з підказками про середину

Подивіться на ці приклади підказок, щоб отримати більше ідей:

/imagine Самотній музикант, який виконує спокійну мелодію над плавучим містом у сутінках, стиль модерн

Підказка про середину подорожі: образ індійського мистецтва

 

/imagine Зображення людини майбутнього, що працює за футуристичним столом, оточеним голографічними екранами та передовими технологіями. Людина одягнена в гладкий сріблястий комбінезон і має окуляри віртуальної реальності. Навколишнє середовище наповнене неоновими вогнями та ширяючими голограмами. Атмосфера футуристична та високотехнологічна, з відчуттям азарту та інновацій. Це цифрова камера з високою роздільною здатністю, яка з точністю фіксує кожну деталь. Художній стиль — це поєднання кіберпанку та мінімалізму з акцентом на чисті лінії та сміливі кольори. Режисери, оператори, фотографи, модельєри, мультиплікатори та художники, які співпрацюють у цьому унікальному зіставленні, — Крістофер Нолан, Роджер Дікінс, Енні Лейбовіц, Вірджил Абло, Хаяо Міядзакі та Каус.

Проміжна підказка для майбутньої особи, що працює

/уявіть собі 1940-ті – стиль Барбі як медсестра часів війни, у старовинному армійському госпіталі, яка доглядає за пораненими солдатами, у стилі класичних ілюстрацій Mattel, з атмосферою фотографії Другої світової війни в тонах сепії 8k –v 5 –ar 16 :9

Посібник із підказками про середину шляху: зображення Барбі в унікальних налаштуваннях

/imagine Кадр із зображенням жінки, що притулилася до кіберпанку, ховербайка, японського аніме, розлогих міських пейзажів, 32k, заплутаного космодрому, швидкоплинного, панорами хмарочоса, витонченого

Midjourney Образ дівчини в стилі кіберпанк

 

Останні думки: навігація у світі мистецтва штучного інтелекту за допомогою Midjourney

Пам’ятайте: «Зображення варте тисячі слів». Детальний, яскравий опис може творити чудеса. Так, використання Midjourney не є безкоштовним. І все ж він революціонізує світ мистецтва та розширює наші творчі можливості завдяки своїй найсучаснішій технології ШІ для перетворення тексту в зображення. Завдяки можливості перетворювати просту текстову підказку на зображення високої роздільної здатності, це інструмент, який обіцяє безмежні можливості не лише для художників, а й для дизайнерів інтерфейсу користувача/UX, ентузіастів технологій і професіоналів зі штучного інтелекту.

Ось кілька важливих висновків, які варто запам’ятати, вирушаючи у свою пригоду Midjourney:

  • Вивчіть основи підказки Midjourney: використовуйте чіткі, лаконічні та вичерпні описи, які містять ваше бачення, щоб ефективно керувати ШІ. Пам’ятайте про свою аудиторію та не соромтеся експериментувати з різними стилями, настроями та контекстами.
  • Використовуйте параметри: покращуйте свій творчий досвід, використовуючи безліч розширених налаштувань, які пропонує Midjourney. Від керування співвідношенням сторін до налаштування параметра хаосу для отримання унікальних результатів, кожну деталь можна адаптувати відповідно до ваших уподобань.
  • Скористайтеся ітераційним процесом: ваш перший твір мистецтва, створений ШІ, може бути не ідеальним. Спробуйте цей ітеративний процес і навчіться вдосконалювати й оптимізувати свої підказки для кращих результатів.
  • Зрозумійте наслідки авторського права: хоча твори мистецтва, створені штучним інтелектом, самі по собі не підлягають авторському праву, створені людиною компоненти в них можна захистити.

По суті, інтеграція штучного інтелекту в мистецтво демократизувала творчість і стерла межі між людськими та машинними шедеврами. Оскільки ми продовжуємо спостерігати надзвичайне зростання генеративного штучного інтелекту на арт-ринку, безперечно, що мистецька революція штучного інтелекту, очолювана такими платформами, як Midjourney, тільки починається.

Останні п’ять років я провів, занурюючись у захоплюючий світ машинного та глибокого навчання. Моя пристрасть і досвід допомогли мені внести свій внесок у понад 50 різноманітних проектів розробки програмного забезпечення, зосередивши особливу увагу на ШІ/ML. Моя постійна цікавість також привела мене до обробки природної мови, галузі, яку я хочу досліджувати далі.