Connect with us

Освоение искусства ИИ: краткое руководство по Midjourney и инженерии запросов

Промпт-инжиниринг

Освоение искусства ИИ: краткое руководство по Midjourney и инженерии запросов

mm
Midjourney Generated UNITE AI LOGO

Введение в искусство, сгенерированное ИИ MidJourney

ИИ быстро пробивает барьеры невозможного и最近 вторгся в область искусства, полностью преобразив его. Теперь вам не нужно быть мастером или экспертом в Photoshop, чтобы оживить фрагменты вашего воображения. Просто хорошо сформулированный запрос – все, что вам нужно, благодаря Midjourney.

Все началось с введения революционных технологий, таких как DALL-E, Midjourney и StableDiffusion, в 2022 году. Хотя каждое из этих инноваций привнесло свой уникальный штрих на холст генеративного ИИ, Midjourney, в частности, продолжил свою увлекательную поездку, делая заметные шаги.

Midjourney в настоящее время является ведущим высокоразрешающим текстово-изображающим генератором ИИ на рынке и стоит высоко с его уникальной смесью текстово-изображающей генерации, редактирования медиа и масштабирования, а также доступа к активному художественному сообществу, все начиная с 10 долларов в месяц. Этот комплексный набор функций представляет собой захватывающую картину для художников, техников и профессионалов ИИ, создавая среду для творчества и инноваций.

Мир искусства, безусловно, принимает во внимание, что генеративный ИИ на рынке искусства, как ожидается, будет расти на 40,5% CAGR. Midjourney стоит безраздельно в создании наиболее реалистичных и высококачественных визуальных эффектов с помощью ИИ.

Эффективная инженерия запросов выходит за рамки простого создания; она включает в себя лучшие практики. Запросы должны предлагать ясность и быть краткими, но предоставлять ИИ с достаточным руководством без чрезмерного предписания. Кроме того, целевая аудитория должна быть рассмотрена при проектировании, принимая во внимание переменные, такие как возраст, пол и культурный фон, среди прочих.

Как работает MidJourney?

Mid-Journey использует две новые технологии машинного обучения – крупные языковые и диффузионные модели. Языковая модель, аналогичная ИИ-чатботам, таким как ChatGPT, помогает Mid-Journey интерпретировать смысл ваших запросов и преобразовывать их в векторы. Этот вектор затем направляет процесс диффузии.

Внутренние механизмы Midjourney в значительной степени не раскрыты. Тем не менее, очевидно, что он использует текстово-изображающую генерацию из двух относительно новых технологий машинного обучения: крупных языковых моделей и диффузионных моделей. Первая, возможно, знакома пользователям ИИ-платформ, таких как ChatGPT, а вторая – это перспективное дополнение к сектору генерации искусства ИИ. Всю систему можно найти на странице исследований OpenAI CLIP.

Несмотря на ограниченную информацию, можно набросать широкую картину диффузионной модели Midjourney, названной ‘Stable Diffusion’. По сути, Stable Diffusion – это открытая модель, которая умело преобразует текстовые запросы в изображения различных стилей и содержания. Этот сложный процесс достигается с помощью диффузионной модели, генеративной модели, которая соединяет зависимости между текстовыми входами и изображениями.

Диффузионные модели построены на основе метода денойзинга диффузии, подхода, под влиянием термодинамики неравновесия. Этот метод систематически разрушает структуру данных, а затем восстанавливает ее. Этот подход был адаптирован для генерации изображений Хо и др. в 2020 году, что привело к созданию диффузионных моделей, которые мы видим сегодня.

Обучение диффузионных моделей включает в себя два основных этапа. Первоначально процесс диффузии или прямой процесс включает в себя постепенное добавление случайного шума к входному изображению, пока оно полностью не превратится в шум. Этот процесс управляется фиксированной цепью Маркова, которая последовательно добавляет гауссовский шум на нескольких последовательных шагах.

Демонстрация работы Midjourney

Затем, на этапе обратного или восстановительного процесса, модель восстанавливает исходные данные из шумоподобного состояния, достигнутого на этапе диффузии. Этот процесс управляется цепью Маркова с обученными гауссовскими переходами, что означает, что предсказание плотности вероятности в любой момент времени зависит только от состояния, достигнутого на предыдущем шаге. Поскольку скрытые ‘x1, …, xT’ имеют ту же размерность, что и данные, диффузионные модели классифицируются как модели скрытых переменных.

Стоимость и подписка Mid-Journey

Хотя многие чат-боты, такие как ChatGPT и Bing Chat, предлагают почти неограниченное использование бесплатно, ситуация отличается для генераторов изображений, таких как Mid-Journey. Из-за значительной вычислительной мощности, необходимой, особенно от графических процессоров (GPU) и видеопамяти для процесса денойзинга, услуги Mid-Journey имеют цену.

Базовый план начинается с 10 долларов в месяц, предоставляя около 3,3 часов времени GPU, достаточно для примерно 200 генераций изображений. Однако есть более высокие планы, предлагающие неограниченное количество изображений в режиме Relaxed, хотя с более длительным временем ожидания.

Настройка MidJourney

  1. Начало работы с MidJourney включает в себя регистрацию на их официальном сайте, подписку на план и последующее перенаправление на Discord.
  2. Как только вы найдете канал Mid-Journey на Discord, перейдите к группам Newcomer на левой стороне. Оттуда вы можете наблюдать, как другие пользователи создают запросы, учиться механизмам Mid-Journey и взаимодействовать в оживленной среде.
  3. После ознакомления с окружением пригласите бота в ваш приватный сервер, чтобы создавать изображения без помех. Бот генерирует четыре предварительных изображения на основе вашего запроса, позволяя вам выбрать наиболее подходящий вариант и дальнейшее усовершенствование изображения.

Структура запроса для Midjourney

  1. Команда /imagine в канале Discord внутри канала Midjourney генерирует уникальное изображение из краткого текстового описания (запроса).
  2. Чтобы воссоздать определенный стиль в различных изображениях, просто введите URL-адрес изображения вместе с вашим текстовым запросом. Ваши новые, последовательные выходные данные будут объединять элементы из обоих вашего выбранного изображения и текста.
    /imagine http://link-to-your-image –parameter1 –parameter2
    Вы можете сгенерировать ссылку на ваше изображение, загрузив его в канал Discord. Как только оно загружено, щелкните правой кнопкой мыши на изображении и выберите ‘Скопировать ссылку’.
    Здесь http://link-to-your-image и параметры являются необязательными.
  3. Затем бот приступает к работе над вашим изображением, затрачивая примерно минуту, чтобы предложить четыре альтернативы. Этот процесс включает в себя использование прочных графических процессоров (GPU) для обработки и интерпретации каждого запроса.
  4. Отслеживайте использование GPU с помощью команды /info. Она позволяет вам проверить ‘Оставшееся время Fast’ и контролировать время GPU вашей подписки.

Запрос /info Midjourney

Масштабирование и изменение изображений

Для более совершенного изображения используйте кнопки ‘U’ под изображениями, чтобы масштабировать ваш предпочитаемый вариант. Вы также можете использовать кнопки ‘V’, чтобы внести изменения в конкретные изображения. Для дальнейших изменений масштабированного изображения используйте опции ‘Создать вариации’, ‘Повторное масштабирование’ и ‘Бета-масштабирование’. Кнопка ‘Веб’ позволяет просматривать изображение в более крупном размере в отдельном окне.

Midjourney позволяет масштабировать изображения до 2048×2048 (квадрат) и 2720×1530 (широкоэкранный) разрешений через свою функцию бета-масштабирования, с размером генерации по умолчанию 1024×1024 (квадрат) и 1456×816 (широкоэкранный). Каждое изображение можно дополнительно улучшить с помощью опций масштабирования ‘U’, которые улучшают конкретные части изображения.

Взгляните на этот запрос, который производит фантастические произведения искусства с версией Midjourney V5.2.

/imagine Произведение искусства изображает одинокое дерево под звездным небом, с ребенком, читающим под ним, в оттенках спокойного синего и теплого оранжевого, вдохновленного мазками французского импрессионизма, персидских миниатюр, баухаусской простоты, напоминающим классические иллюстрации детских сказок, достигающим асимметричной гармонии, выраженной в очаровательном, фольклорном/наивном стиле: –ar 15:19 –upbeta –q 2

Пример запроса Midjourney

Создание вашего первого произведения искусства Midjourney

  1. Создание базового плана: Думайте о себе как об художнике. Начните с простого, яркого описания изображения, которое вы хотите оживить. Нарисуйте основной предмет, атмосферу или даже мелкие детали, которые вы хотите внедрить. Используйте пунктуацию, такую как запятые, скобки и тире, чтобы структурировать свои мысли. Для лучших результатов будьте явными о контексте и деталях вашего дизайна. Элементы, такие как предмет (например, дракон, винтажная машина, Авраам Линкольн), среда (например, цифровое искусство, эскиз карандашом), окружение (например, космос, под водой, оживленный город), освещение (например, мягкое, неоновое, подсвеченное), цвет (например, земные тона, яркие, приглушенные), настроение (например, меланхолическое, причудливое, мирное) и композиция (например, пейзаж, крупный план, широкий угол) могут быть важными. Примеры:
    • Идиллический лес, купающийся в солнечном свете, с дорожкой, извивающейся вдали
    • Город, который никогда не спит, с неоновыми огнями, отражающимися от тротуаров, и разнообразной толпой, снующей вокруг
  2. Внедрение стиля и ключевых слов: ИИ Midjourney способен иллюстрировать изображения в различных стилях, таких как абстрактный, сюрреалистический или реалистичный. Включая стиль или связанные ключевые слова, вы можете направить ИИ на создание изображения, которое отражает ваше видение. Экспериментируйте с различными стилями и ключевыми словами, чтобы открыть идеальную смесь. Примеры:
    • Пейзажная картина, изображающая пустыню на рассвете, отражающая стиль Джорджии О’Киф, с пастельной цветовой палитрой и органическими формами.
    • Абстрактное представление мирного леса, с геометрическими узорами, образующими деревья и листву, вдохновленное композициями Пита Мондриана.
  3. Использование расширенных настроек: Рассматривайте Midjourney как ваш творческий инструментарий, наполненный расширенными настройками, которые позволяют вам усовершенствовать сгенерированные изображения. Это как владение волшебной палочкой, позволяющей вам создать идеальный баланс случайности, стилизации и вариаций изображения. Освободите свою творческую силу, экспериментируя с этими настройками, пока не найдете идеальную смесь, которая резонирует с вашим видением. Примеры:
    • Спокойный японский сад с прудом, отражающим вишневые деревья -seed 22 -s 150 -c 40
    • Дистопический киберпанковский город, освещенный неоновыми огнями -seed 88 -s 600 -c 60
  4. Подчеркивание элементов с весами: Представьте свое изображение как симфонию, где каждый элемент вносит свой вклад в большое ансамбль. Используя обозначение “::”, вы можете диктовать важность различных элементов в вашем изображении, позволяя вам контролировать центр внимания. Примеры:
    • [Элегантный павлин]::3, сидящий на [вишневом дереве]::1, цветущем с яркими цветами
    • [Величественный слон]::2, купающийся в свете [заката]::1 в саванне
  5. Midjourney – это процесс проб и ошибок: экспериментирование с различными элементами и функциями необходимо. Каждая итерация приведет вас ближе к изображению, которое вы хотите оживить.

Параметры Mid-Journey

Модель Midjourney работает с помощью настраиваемых параметров, которые контролируют результат процесса генерации изображений. Эти параметры позволяют пользователям настраивать и совершенствовать сгенерированное искусство, настраивая модель для создания выходных данных, которые идеально подходят их цели.

Ниже приведены основные и расширенные параметры, их функции и как использовать их, чтобы полностью раскрыть возможности Midjourney:

  • Отношения сторон (–aspect или –ar): Этот параметр контролирует соотношение между шириной и высотой сгенерированного изображения. Например, соотношение 16:9 идеально подходит для миниатюр YouTube, в то время как 1:1 производит квадратное изображение, идеальное для Instagram.
  • Хаос (–chaos): Этот параметр регулирует разнообразие начальной сетки изображения и варьируется от 0 до 100. Более высокие значения хаоса дадут вам непредсказуемые и уникальные результаты, в то время как более низкие значения обеспечат более последовательные результаты.
  • Нет (–no): Этот параметр помогает вам исключить определенные элементы или характеристики из сгенерированного изображения. Например, если вы хотите изображение без красного, вы можете использовать “–no красный”.
  • Качество (–quality или –q): Этот параметр регулирует время, необходимое для генерации изображения. Более высокое качество требует больше времени обработки, но дает более детальные детали. Этот параметр может принимать значения .25, .5, 1 или 2.
  • Семя (–seed): Этот параметр определяет начальную визуальную шум, служащую основой для сгенерированного изображения. Использование одного и того же номера семени с одним и тем же запросом даст схожие результаты. Он принимает целые значения от 0 до 4294967295.
  • Остановка (–stop): С помощью этого параметра вы можете преждевременно завершить задание, производя менее детальные, но потенциально интересные результаты. Диапазон составляет 10-100. Например, если вы укажете ‘–stop 50’, процесс генерации изображения остановится на 50% завершения, в результате чего получится менее детальное, возможно, абстрактное изображение.
  • Стилизация (–stylize или –s): Этот параметр контролирует уровень художественного применения на сгенерированном изображении. Более низкие значения стилизации дают результаты, более близкие к исходному запросу, в то время как более высокие значения приводят к более абстрактным и художественным интерпретациям. В версии 5 значение по умолчанию составляет 100, но вы можете установить его в диапазоне от 0 до 1000.
  • Версия модели: Вы можете выбрать из различных версий модели Midjourney, используя параметр –version или –v.
  • Niji: Модель, специализирующаяся на изображениях в стиле аниме. Ее можно активировать, используя параметр –niji.
  • Высокое разрешение: Для абстрактных и пейзажных изображений параметр –hd активирует раннюю версию модели, которая дает более крупные, менее последовательные изображения.
  • Тестовые модели: Midjourney предлагает специальные модели для конкретных случаев использования. Параметры –test и –testp активируют стандартную и фотографическую тестовую модель соответственно.
  • Масштабирование: Алгоритм Midjourney начинается с низкокачественной сетки изображения. Он предлагает несколько моделей масштабирования, чтобы улучшить размер и детали изображения.
    • Uplight: Альтернативный световой масштабировщик (–uplight) дает масштабированные изображения, которые менее детализированы, но более гладкие.
    • Upbeta: Параметр –upbeta приводит к изображениям с значительно меньшим количеством дополнительных деталей, оставаясь ближе к исходной сетке изображения.
    • Upanime: Масштабировщик –upanime предназначен специально для работы с моделью Midjourney –niji.
  • Вес изображения: Используйте –iw, чтобы регулировать вес запроса изображения относительно веса текста. Значение по умолчанию составляет 0,25.
  • Семя одинаковых: Параметр –sameseed гарантирует, что все изображения в начальной сетке используют одно и то же начальную шум, создавая очень похожие сгенерированные изображения.
  • Видео: Midjourney может сохранить прогрессивное видео процесса генерации начальной сетки изображения, используя параметр –video.
  • Креативность: С параметром –creative тестовые и тестовые модели производят более разнообразные и творческие изображения.

Midjourney постоянно выпускает обновления, чтобы улучшить опыт пользователя, последнее из которых – версия 5.2, выпущенная в июне 2023 года. Добавляя –v 5.2 к вашему запросу или выбирая его через команду /settings, пользователи могут получить доступ к этой продвинутой модели. Версия 5.2 предлагает лучшую детализацию изображения и более интуитивно понимает запросы, принося более яркие цвета и улучшенные композиции.

Понимание авторских прав для искусства, сгенерированного ИИ

Изображение Midjourney смеси ИИ и законов об авторских правах

В марте 2023 года Управление по авторским правам США уточнило свою позицию по вопросу авторских прав на произведения, сгенерированные ИИ. Политика гласит, что, хотя человеческие элементы в творениях ИИ (например, написанные или уникальные дизайны) могут быть защищены, изображения, сгенерированные ИИ, не имеют права на авторское право, придерживаясь глобальных норм, согласно которым только человеческие творения имеют право на защиту авторских прав.

В контексте искусства ИИ авторское право не является простым. Хотя цифровое искусство имеет человеческий вклад, искусство, сгенерированное ИИ, создается без прямого человеческого вмешательства, что осложняет вопрос авторства и владения. Согласно Управлению по авторским правам США, первоначальная собственность предоставляется автору работы – человеческому создателю. Однако, поскольку ИИ не может быть рассмотрен как автор, искусство, сгенерированное ИИ, не имеет четкой собственности.

Последнее руководство Управления по авторским правам США позволяет копировать искусство ИИ только тогда, когда оно содержит достаточное человеческое авторство. Уровень ‘достаточного человеческого авторства’ остается неопределенным и зависит от степени участия человека в создании произведения искусства ИИ.

Интересно, что Midjourney, платформа ИИ для создания изображений, установила свои собственные политики для прав использования. Пользователи бесплатной пробной версии могут использовать изображения для некоммерческих целей в соответствии с лицензией Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0), с надлежащим указанием Midjourney. Однако платящие подписчики могут использовать изображения для любой цели, включая коммерческую, в соответствии с общими коммерческими условиями. Это развитие в области авторских прав представляет собой интересную динамику между ИИ и человеческой творческой деятельностью.

Использование Midjourney для динамических дизайнов UI и творческой генерации логотипов

От проектирования интуитивных интерфейсов для веб-сайтов или мобильных приложений до создания уникальных логотипов и баннеров Midjourney наделяет создателей контента возможностью генерировать ряд альтернатив дизайна в течение нескольких секунд.

Вот как это работает. Каждый дизайн начинается с запроса, который служит планом для ИИ. Предположим, вы проектируете UI для онлайн-платформы для обучения. Типичный запрос может быть: “/imagine Интерфейс онлайн-платформы для обучения, Dribbble, высокое разрешение, 4K, как академия Хана”.

Первоначальные результаты могут не идеально попасть в цель. Например, добавление “Adobe XD” в смесь может помочь Midjourney адаптировать свои дизайны, чтобы они были более совместимы с Adobe XD. Оптимизированный запрос будет:

/imagine Платформа онлайн-обучения, интерфейс, Adobe XD, Dribbble, высокое разрешение, 4K, минималистичный дизайн

Изображение Midjourney дизайна UI/UX для настольного приложения

 

Логотипы или баннеры, вдохновленные текстом, с помощью Midjourney

Давайте исследуем, как создать баннер с логотипом для Unite.AI.

Сначала вам нужно иметь простое изображение текста, который вы хотите отобразить. Вы можете создать это, используя любой инструмент графического дизайна или редактор текста, и загрузить его в ваш канал Discord.

Пример текста для логотипа Unite
Простое изображение текста, используемого для создания логотипа Unite

Запрос для создания баннера:

/imagine Буквы: Unite в футуристическом, вдохновленном ИИ типе логотипа с буквами Unite –v 5 –ar 16:9

Руководство по запросу Midjourney

Взгляните на эти примеры запросов для получения дополнительных идей:

/imagine Одинокий музыкант, исполняющий спокойную мелодию на парящем городе на закате, в стиле ар-нуво

Руководство по запросу Midjourney: изображение индийского искусства

 

/imagine Изображение человека будущего, работающего на футуристическом столе, окруженного голографическими экранами и передовой технологией. Человек носит стильный, серебряный комбинезон и имеет очки виртуальной реальности. Окружение наполнено неоновыми огнями и плавающими голографами. Атмосфера футуристическая и высокотехнологичная, с чувством волнения и инноваций. Камера – высокоразрешающая цифровая камера, которая захватывает каждую деталь с точностью. Художественный стиль представляет собой смесь киберпанка и минимализма, с упором на чистые линии и смелые цвета. Режиссеры, операторы, фотографы, дизайнеры моды, карикатуристы и художники, сотрудничающие в этом уникальном сочетании, – это Кристофер Нолан, Роджер Дикинс, Энни Лейбовиц, Вирджил Абло, Хаяо Миядзаки и КAWS.

Запрос Midjourney для человека будущего, работающего

/imagine Кукла Барби в стиле 1940-х годов как медсестра во время войны, в винтажной армейской больнице, ухаживающая за ранеными солдатами, в стиле классических иллюстраций Мэттель, с атмосферой сепиатонировой фотографии Второй мировой войны 8k –v 5 –ar 16:9

Руководство по запросу Midjourney: изображение Барби в уникальных условиях

/imagine Кадр женщины, опирающейся на киберпанковский, парящий мотоцикл, японский аниме, пейзажи городов, 32k, сложный космодром, мимолетный, панорамы небоскребов, стильный

Изображение Midjourney киберпанковской девушки

 

Заключительные мысли: Навигация в мире искусства ИИ с Midjourney

Помните, “Картинка стоит тысячи слов”. Подробное, яркое описание может творить чудеса. Да, Midjourney не бесплатен для использования. Однако он революционизирует мир искусства и расширяет наши творческие возможности с помощью своей передовой текстово-изображающей технологии ИИ. С возможностью преобразовать простой текстовый запрос в высокоразрешающее изображение, это инструмент, который обещает бесконечные возможности, не только для художников, но и для дизайнеров UI/UX, техников и профессионалов ИИ.

Вот некоторые важные выводы, которые следует помнить, когда вы начинаете свое приключение с Midjourney:

  • Изучите основы запроса Midjourney: Используйте четкие, краткие и полные описания, которые воплощают ваше видение, чтобы направить ИИ эффективно. Помните, чтобы рассмотреть вашу аудиторию, и не стесняйтесь экспериментировать с различными стилями, настроениями и контекстами.
  • Используйте параметры: Улучшите свой творческий опыт, используя множество расширенных настроек, которые предлагает Midjourney. От контроля соотношения сторон до регулирования параметра хаоса для уникальных результатов, каждая деталь может быть адаптирована к вашим предпочтениям.
  • Примите итеративный процесс: Ваше первое произведение искусства, сгенерированное ИИ, может не быть идеальным. Примите этот итеративный процесс и научитесь усовершенствовать и оптимизировать свои запросы для лучших результатов.
  • Поймите последствия авторских прав: Хотя сами произведения искусства, сгенерированные ИИ, не имеют права на авторское право, человеческие элементы, созданные в них, могут быть защищены.

По сути, интеграция ИИ в искусство демократизировала творчество и стерла границы между человеческими и машинными шедеврами. Когда мы продолжаем свидетелем замечательного роста генеративного ИИ на рынке искусства, неоспоримо, что революция искусства ИИ, возглавляемая платформами, такими как Midjourney, только начинается.

Я провел последние пять лет, погружаясь в увлекательный мир Machine Learning и Deep Learning. Моя страсть и экспертиза привели меня к участию в более чем 50 различных проектах по разработке программного обеспечения, с особым акцентом на AI/ML. Мое непрекращающееся любопытство также привело меня к Natural Language Processing, области, которую я с нетерпением жду возможности изучить более подробно.