заглушки Овладение искусством искусственного интеллекта: краткое руководство по промежуточному этапу и оперативному проектированию - Unite.AI
Свяжитесь с нами:

Быстрый инжиниринг

Овладение искусством искусственного интеллекта: краткое руководство по путешествию и оперативному проектированию

mm
обновленный on
Midjourney создал логотип UNITE AI LOGO

Введение в искусство MidJourney, созданное искусственным интеллектом

ИИ быстро преодолевает барьеры невозможности и совсем недавно вторгся в область искусства, полностью изменив ее. Теперь вам не нужно быть мастером-художником или экспертом в Photoshop, чтобы воплотить в жизнь свои фантазии. Простое, четко сформулированное приглашение — это все, что вам нужно, благодаря Середина пути.

Все началось с внедрения новаторских технологий, таких как DALL-E, Midjourney и StableDiffusion, еще в 2022 году. Хотя каждое из этих нововведений привнесло свой особый штрих в канву генеративного ИИ, Midjourney, в частности, продолжила свой захватывающий путь, делая заметные успехи.

Midjourney в настоящее время является ведущим на рынке генератором искусственного интеллекта для преобразования текста в изображение с высоким разрешением, и он выделяется своим уникальным сочетанием преобразования текста в изображение, редактирования и масштабирования мультимедиа, а также активным доступом к художественному сообществу. месяц. Этот всеобъемлющий набор функций представляет собой захватывающее полотно для художников, технических энтузиастов и профессионалов в области искусственного интеллекта, создавая среду для творчества и инноваций.

Мир искусства, безусловно, обращает на это внимание, поскольку генеративный ИИ на арт-рынке, по прогнозам, станет свидетелем ошеломляющего роста 40.5% CAGR. Midjourney не имеет себе равных в создании самых реалистичных и высококачественных визуальных эффектов с использованием ИИ.

Эффективная оперативная разработка выходит за рамки простого создания; он включает в себя передовой опыт. Подсказки должны быть ясными и краткими, но в то же время давать ИИ достаточно указаний без чрезмерных предписаний. Кроме того, при разработке дизайна необходимо учитывать целевую аудиторию, принимая во внимание такие переменные, как возраст, пол и культурное происхождение.

Как работает MidJourney?

Mid-Journey использует две новые технологии машинного обучения — модели большого языка и модели диффузии. Языковая модель, аналогичная чат-ботам с искусственным интеллектом, таким как ChatGPT, помогает Mid-Journey интерпретировать значение ваших подсказок и преобразовывать их в векторы. Этот вектор затем направляет процесс диффузии.

Внутренняя работа Midjourney в значительной степени не разглашается. Тем не менее очевидно, что он использует генерацию текста в изображение с помощью двух относительно новых технологий машинного обучения: больших языковых моделей и моделей распространения. Первое, возможно, знакомо пользователям таких платформ ИИ, как ChatGPT, а второе является многообещающим дополнением к сектору создания произведений искусства ИИ. Вся система опирается на CLIP набор данных для обучения, который можно найти на исследовательской странице OpenAI.

Несмотря на ограниченность информации, можно составить общее представление о Midjourney. диффузионная модель, метко названный «Стабильная диффузия». По сути, Stable Diffusion — это модель с открытым исходным кодом, которая умело преобразует текстовые подсказки в изображения различного стиля и содержания. Эта сложная процедура достигается с помощью диффузионной модели, генеративной модели, которая связывает зависимости между текстовыми входными данными и выходными изображениями.

Модели диффузии построены на основе метода Denoising Diffusion, подхода, на который повлияла неравновесная термодинамика. Этот метод систематически разбирает структуру данных, а затем восстанавливает ее. Этот подход был адаптирован для создания изображений Ho et al. в 2020 году, что привело к появлению моделей распространения, которые мы видим сегодня.

Модели распространения обучения включают два основных этапа. Первоначально прямой или диффузионный процесс включает постепенное добавление случайного шума к входному изображению до тех пор, пока оно полностью не превратится в шум. Этот процесс управляется фиксированной цепью Маркова, которая последовательно добавляет гауссовский шум на нескольких последовательных шагах.

Рабочая демонстрация в середине пути

Впоследствии, в обратной фазе или фазе реконструкции, модель восстанавливает исходные данные из состояния с преобладанием шума, достигнутого в процессе распространения. Этот процесс управляется цепью Маркова с изученными гауссовыми переходами, подразумевая, что предсказание плотности вероятности в любой момент времени зависит исключительно от состояния, достигнутого на предыдущем временном шаге. Поскольку скрытые «x1, …, xT» имеют ту же размерность, что и данные, модели диффузии классифицируются как модели со скрытыми переменными.

Стоимость и подписка Mid-Journey

В то время как многие чат-боты, такие как ChatGPT и Bing Chat, предлагают почти неограниченное использование бесплатно, сценарий отличается для генераторов изображений, таких как Mid-Journey. Из-за требуемой значительной вычислительной мощности, особенно от графических процессоров (GPU) и использования видеопамяти для процесса шумоподавления, услуга Mid-Journey поставляется с ценник.

Базовый план начинается с 10 долларов в месяц и обеспечивает около 3.3 часов работы графического процессора, чего достаточно примерно для 200 поколений изображений. Однако есть более дорогие планы, предлагающие неограниченное количество изображений в расслабленном режиме, хотя и с более длительным временем ожидания.

Настройка середины пути

  1. Начиная с Середина пути включает в себя регистрацию на их официальном сайте, подписку на план, а затем перенаправление на Discord.
  2. Как только вы найдете канал Mid-Journey на Discord, перейдите к группам новичков с левой стороны. Оттуда вы можете наблюдать, как другие пользователи создают подсказки, изучать механику Mid-Journey и взаимодействовать в оживленной среде.
  3. После ознакомления с окружением пригласите бота на свой приватный сервер, чтобы он спокойно создавал изображения. Бот создает четыре изображения для предварительного просмотра на основе вашего запроса, позволяя вам выбрать наиболее близкое к вашей первоначальной идее и дополнительно уточнить изображение.

Структура подсказки для Midjourney

  1. Команда /imagine на канале разногласий внутри канала Midjourney генерирует уникальное изображение из короткого текстового описания (Подсказка).
  2. Чтобы воссоздать определенный стиль для различных изображений, просто введите URL-адрес изображения рядом с текстовым приглашением. Ваши новые согласованные результаты будут объединять элементы как из выбранного вами изображения, так и из текста.
    /imagine http://ссылка-на-ваше-изображение –параметр1 –параметр2
    Вы можете сгенерировать ссылку на свое изображение, загрузив его на канал Discord. После загрузки щелкните правой кнопкой мыши изображение и выберите «Копировать ссылку».
    Здесь http://link-to-your-image и параметры необязательны.
  3. После этого бот начинает работать над вашим изображением, примерно за минуту предлагая четыре варианта. Этот процесс включает использование надежных графических процессоров (GPU) для обработки и интерпретации каждого приглашения.
  4. Отслеживайте использование графического процессора с помощью команды /info. Это позволяет вам проверить «Fast Time Remaining» и отслеживать время GPU вашей подписки.

/info подсказка в пути

Масштабирование изображения и изменения

Чтобы получить более качественное изображение, используйте кнопки «U» под изображениями, чтобы увеличить желаемый вариант. Вы также можете использовать кнопки «V», чтобы настроить определенные изображения. Для дальнейших изменений изображения с увеличенным масштабом используйте параметры «Создать варианты», «Повторить с небольшим увеличением» и «Повторить с увеличением в бета-версии». Кнопка «Интернет» позволяет просмотреть изображение в большем размере в отдельном окне.

Midjourney позволяет масштабировать изображение до разрешений 2048 × 2048 (квадрат) и 2720 × 1530 (широкоэкранный) с помощью бета-функции повторного масштабирования с размером сетки генерации по умолчанию 1024 × 1024 (квадрат) и 1456 × 816 (широкоэкранный). Каждое изображение можно дополнительно улучшить с помощью параметров повышения масштаба «U», которые улучшают определенные части изображения.

Взгляните на эту подсказку, которая создает фантастические изображения с версией Midjourney V5.2.

/imagine Artwork изображает одинокое дерево под звездным небом, с ребенком, читающим под ним, в оттенках безмятежного синего и теплого оранжевого, вдохновленных мазками французского импрессионизма, персидскими миниатюрами, простотой Баухауза, вызывающими воспоминания о классических детских иллюстрациях к сказкам, достижение асимметричной гармонии, выраженной в чарующем народном/наивном: –ar 15:19 –upbeta –q 2

Пример руководства по подсказкам в середине пути

Создание вашего первого ИИ-арта Midjourney

  1. Создание базовой схемы: подумайте о себе как о художнике. Начните с простого, яркого описания изображения, которое вы стремитесь воплотить в жизнь. Обрисуйте основной предмет, атмосферу или даже мельчайшие детали, которые вы хотите встроить. Используйте знаки препинания, такие как запятые, скобки и дефисы, чтобы структурировать свои мысли. Для улучшения результатов четко указывайте контекст и детали вашего дизайна. Такие элементы, как предмет (например, дракон, старинный автомобиль, Авраам Линкольн), среда (например, цифровое искусство, карандашный набросок), окружающая среда (например, открытый космос, подводный мир, шумный город), освещение (например, мягкое, неоновое, с подсветкой) , цвет (например, земляные тона, яркие, приглушенные), настроение (например, меланхоличное, причудливое, мирное) и композиция (например, пейзаж, крупный план, широкий угол) могут иметь решающее значение. Примеры:
    • Идиллический лес, залитый солнечным светом, тропинка, уходящая вдаль
    • Город, который никогда не спит, с неоновыми огнями, отражающимися от тротуаров, и разнообразной толпой, слоняющейся вокруг.
  2. Добавление стиля и ключевых слов: ИИ Midjourney способен иллюстрировать изображения во множестве стилей, таких как абстрактный, сюрреалистический или реалистичный. Интегрируя стиль или связанные ключевые слова, вы можете направить ИИ на создание изображения, отражающего ваше видение. Поэкспериментируйте с различными стилями и ключевыми словами, чтобы найти идеальное сочетание. Примеры:
    • Пейзажная картина, изображающая пустыню на рассвете, отражающая стиль Джорджии О'Киф, отличающаяся пастельной цветовой палитрой и органическими формами.
    • Абстрактное изображение мирного леса с геометрическими узорами, формирующими деревья и листву, вдохновленное композициями Пита Мондриана.
  3. Использование расширенных настроек. Считайте Midjourney своим творческим набором инструментов, наполненным расширенными настройками, которые позволяют точно настраивать сгенерированные изображения. Это как волшебная палочка, позволяющая создать идеальный баланс случайности, стилизации и вариации изображения. Дайте волю своему творческому мастерству, изменяя эти настройки, пока не найдете идеальное сочетание, соответствующее вашему видению. Примеры:
    • Безмятежный японский сад с прудом, отражающим цветущие вишневые деревья –seed 22 –s 150 –c 40
    • Антиутопический киберпанк-город, освещенный неоновыми огнями – сид ​​88 – s 600 – c 60
  4. Выделение элементов с помощью веса: визуализируйте свое изображение как симфонию, где каждый элемент вносит свой вклад в грандиозный ансамбль. Используя нотацию «::», вы можете указать значение различных элементов вашего изображения, что позволит вам управлять центром внимания. Примеры:
    • [Элегантный павлин]::3 сидит на [дереве глицинии]::1 с яркими цветами
    • [Величественный слон]::2 греется в лучах [заходящего солнца]::1 в саванне
  5. Midjourney — это процесс проб и ошибок: необходимо экспериментировать с различными элементами и функциями. Каждая итерация будет приближать вас к изображению, которое вы хотели воплотить в жизнь.

Промежуточные параметры

Модель Midjourney работает с использованием настраиваемых параметров, которые контролируют результат процесса генерации изображения. Эти параметры позволяют пользователям настраивать и адаптировать созданное ими искусство, точно настраивая модель для создания результатов, которые идеально соответствуют их цели.

Ниже приведены основные и расширенные параметры, их функции и способы их использования для полного использования возможностей Midjourney:

  • Соотношения сторон (-aspect или -ar): этот параметр управляет соотношением между шириной и высотой сгенерированного изображения. Например, соотношение 16:9 идеально подходит для миниатюр на YouTube, а соотношение 1:1 позволяет получить квадратное изображение, идеально подходящее для Instagram.
  • Хаос (–chaos): этот параметр регулирует разнообразие исходной сетки изображения и находится в диапазоне от 0 до 100. Более высокие значения хаоса дадут вам непредсказуемые и уникальные результаты, а более низкие значения обеспечат более стабильные результаты.
  • Нет (–no): этот параметр помогает исключить определенные элементы или характеристики из сгенерированного изображения. Например, если вы хотите, чтобы изображение было без красного цвета, вы можете использовать «–no red».
  • Качество (-качество или -q): этот параметр регулирует время, необходимое для создания изображения. Более высокое качество требует больше времени на обработку, но дает сложные детали. Этот параметр может принимать значения 25, 5, 1 или 2.
  • Seed (–seed): этот параметр определяет начальный визуальный шум, выступающий в качестве базовой линии для сгенерированного изображения. Использование одного и того же начального числа с одним и тем же приглашением даст аналогичные результаты. Он принимает целочисленные значения от 0 до 4294967295.
  • Остановить (–stop): с помощью этого параметра вы можете преждевременно завершить задание, выдав менее подробные, но потенциально интересные результаты. Диапазон 10-100. Например, если вы укажете «–stop 50», процесс создания изображения остановится на 50%, что приведет к менее детализированному, возможно, абстрактному изображению.
  • Стилизация (-stylize или -s): управляет уровнем художественного применения сгенерированного изображения. Более низкие значения стилизации дают результаты, более близкие к исходной подсказке, в то время как более высокие значения приводят к более абстрактным и художественным интерпретациям. В v5 значение по умолчанию равно 100, но вы можете установить его в диапазоне от 0 до 1000.
  • Версия модели: вы можете выбрать одну из различных версий модели Midjourney, используя параметр –version или –v.
  • Ниджи: модель, специализирующаяся на изображениях в стиле аниме. Доступ к нему можно получить с помощью параметра –niji.
  • Highmi Definition: для абстрактных и ландшафтных изображений параметр –hd активирует раннюю версию модели, которая дает более крупные и менее согласованные изображения.
  • Тестовые модели: Midjourney предлагает специальные модели для конкретных случаев использования. –test и –testp активируют стандартную тестовую модель и тестовую модель, ориентированную на фотографию, соответственно.
  • Upscaler: Алгоритм Midjourney начинается с сетки изображений с низким разрешением. Он предлагает несколько моделей масштабирования для увеличения размера и детализации изображения.
    • Uplight: Альтернативный инструмент увеличения масштаба света (-uplight) обеспечивает увеличенные изображения, которые менее детализированы, но более плавные.
    • Upbeta: Параметр –upbeta приводит к изображениям со значительно меньшим количеством дополнительных деталей, оставаясь ближе к исходному изображению сетки.
    • Upanime: апскейлер –upanime разработан специально для работы с моделью –niji Midjourney.
  • Вес изображения: Используйте –iw, чтобы отрегулировать вес подсказки изображения относительно веса текста. Значение по умолчанию — 0.25.
  • Sameseed: Параметр –sameseed гарантирует, что все изображения в исходной сетке используют один и тот же начальный шум, создавая очень похожие сгенерированные изображения.
  • Видео: Midjourney может сохранять видео процесса создания исходной сетки изображений, используя параметр –video.
  • Creative: с параметром –creative модели test и testp выводят более разнообразные и креативные изображения.

Midjourney постоянно выпускает обновления для улучшения взаимодействия с пользователем, последняя из которых — версия 5.2, выпущенная в июне 2023 года. Добавляя –v 5.2 к приглашению или выбирая его с помощью команды /settings, пользователи могут получить доступ к этой расширенной модели. Версия 5.2 предлагает превосходную детализацию изображения и более интуитивно понимает подсказки, обеспечивая более яркие цвета и улучшенные композиции.

Понимание авторских прав на произведения искусства, созданные искусственным интеллектом

Midjourney Изображение сочетания ИИ и законов об авторском праве

В марте 2023 года Бюро регистрации авторских прав США разъяснило свою позицию в отношении защиты авторских прав AI-генерируемые работы. В политике говорится, что, хотя созданные человеком элементы в творениях ИИ (например, письменные работы или уникальные дизайны) могут быть защищены, изображения, созданные ИИ, не подпадают под действие авторских прав, что соответствует глобальным нормам, согласно которым только творения человека имеют право на защиту авторских прав.

В контексте искусства ИИ авторское право не так просто. В то время как в цифровом искусстве участвует художник-человек, искусство, созданное искусственным интеллектом, создается без прямого вмешательства человека, что усложняет проблему авторства и права собственности. Согласно Бюро регистрации авторских прав США, первоначальное право собственности предоставляется автору произведения — человеку-создателю. Однако, поскольку ИИ не может считаться автором, искусству, созданному ИИ, не хватает четкого права собственности.

Последнее руководство Бюро регистрации авторских прав США разрешает охранять авторские права на искусство ИИ только в том случае, если оно содержит достаточное количество человеческого авторства. Уровень «достаточного человеческого авторства» остается неопределенным и зависит от степени участия человека в создании произведения искусства ИИ.

Интересно, что Midjourney, платформа для создания изображений на основе искусственного интеллекта, установила собственную политику прав использования. Пользователи бесплатной пробной версии могут использовать изображения в некоммерческих целях в соответствии с международной лицензией Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0) со ссылкой на Midjourney. Однако платные подписчики могут использовать изображения в любых целях, включая коммерческие, в соответствии с Общими коммерческими условиями. Это развитие в области авторского права представляет собой интригующую динамику между ИИ и человеческим творчеством.

Использование Midjourney для динамического дизайна пользовательского интерфейса и креативного создания логотипов

От разработки интуитивно понятных пользовательских интерфейсов для веб-сайтов или мобильных приложений до создания уникальных логотипов и баннеров — Midjourney расширяет возможности создателей контента, создавая множество вариантов дизайна за считанные секунды.

Вот как это работает. Каждый дизайн начинается с подсказки, действующей как план, которому должен следовать ИИ. Предположим, вы разрабатываете пользовательский интерфейс для приложения платформы онлайн-обучения. Типичная подсказка может быть такой: «/Imagine Пользовательский интерфейс платформы онлайн-обучения, Dribbble, высокое разрешение, 4K, как в Академии Хана».

Первоначальные результаты могут не соответствовать действительности. Например, добавление «Adobe XD» может помочь Midjourney адаптировать свои проекты, чтобы они были более совместимы с Adobe XD. Оптимизированная подсказка будет:

/imagin Платформа онлайн-обучения, пользовательский интерфейс, Adobe XD, Dribbble, высокое разрешение, 4K, минималистичный дизайн

Midjourney Изображение дизайна UI/UX для настольных приложений

 

Текстовый логотип или баннеры с использованием Midjourney

Давайте рассмотрим, как создать баннер с логотипом для UNITE AI.

Во-первых, вам нужно иметь простое изображение текста, который вы хотите отобразить. Вы можете создать его с помощью любого инструмента графического дизайна или текстового редактора и загрузить на свой канал Discord.

образец текста для логотипа UNITE
Простое изображение текста, используемого для создания логотипа UNITE.

Приглашение создать баннер:

/воображаемые буквы: UNITE в футуристическом логотипе, вдохновленном искусственным интеллектом, с буквами UNITE –v 5 –ar 16:9

Экран функций подсказок в путешествии

Взгляните на эти примеры подсказок для большего количества идей:

/imagine Одинокий музыкант, исполняющий безмятежную мелодию над плавучим городом в сумерках, стиль ар-нуво

Путеводитель на полпути: образ индийского искусства

 

/imagine Изображение человека будущего, работающего за футуристическим столом в окружении голографических экранов и передовых технологий. На человеке гладкий серебристый комбинезон и очки виртуальной реальности. Окружающая среда наполнена неоновыми огнями и плавающими голограммами. Атмосфера футуристическая и высокотехнологичная, с чувством азарта и инноваций. Камера представляет собой цифровую камеру с высоким разрешением, точно фиксирующую каждую деталь. Художественный стиль представляет собой смесь киберпанка и минимализма с упором на четкие линии и смелые цвета. Режиссеры, кинематографисты, фотографы, модельеры, карикатуристы и художники, сотрудничающие в этом уникальном сочетании, — Кристофер Нолан, Роджер Дикинс, Энни Лейбовиц, Вирджил Абло, Хаяо Миядзаки и Каус.

Midjourney подсказка для будущего человека, работающего

/imagine 1940-е — стиль Барби в образе медсестры военного времени, в старинном армейском госпитале, ухаживающей за ранеными солдатами, в стиле классических иллюстраций Mattel, с атмосферой фотографий Второй мировой войны в оттенках сепии 8k –v 5 –ar 16 :9

Подсказка Midjourney: изображение Барби в уникальных настройках

/imagine Кадр женщины, прислонившейся к киберпанку, ховербайк, японское аниме, раскидистые городские пейзажи, 32k, замысловатый космопорт, мимолетное, панорамы небоскребов, гладкие

Midjourney Образ девушки в стиле киберпанк

 

Заключительные мысли: навигация по миру искусства ИИ с помощью Midjourney

Помните: «Картинка стоит тысячи слов». Подробное, яркое описание может творить чудеса. Да, Midjourney нельзя использовать бесплатно. Тем не менее, он революционизирует мир искусства и расширяет наши творческие возможности благодаря своей современной технологии искусственного интеллекта, преобразующей текст в изображение. Благодаря возможности конвертировать простую текстовую подсказку в изображение с высоким разрешением, этот инструмент открывает безграничные возможности не только для художников, но и для UI/UX-дизайнеров, технических энтузиастов и специалистов по искусственному интеллекту.

Вот несколько важных выводов, которые следует помнить, отправляясь в приключение Midjourney:

  • Изучите основы подсказки Midjourney: используйте четкие, краткие и исчерпывающие описания, которые отражают ваше видение, чтобы эффективно управлять ИИ. Не забывайте учитывать свою аудиторию и не стесняйтесь экспериментировать с различными стилями, настроениями и контекстами.
  • Используйте параметры: улучшите свой творческий опыт, используя множество расширенных настроек, которые предлагает Midjourney. От управления соотношением сторон до настройки параметра хаоса для уникальных результатов — каждая деталь может быть адаптирована к вашим предпочтениям.
  • Примите итеративный процесс: ваша первая работа, созданная искусственным интеллектом, может быть не идеальной. Воспользуйтесь этим итеративным процессом и научитесь улучшать и оптимизировать подсказки для достижения лучших результатов.
  • Поймите последствия авторских прав: хотя произведения искусства, созданные искусственным интеллектом, сами по себе не подлежат авторскому праву, их компоненты, созданные руками человека, могут быть защищены.

По сути, интеграция ИИ в искусство демократизировала творчество и стерла границы между человеческими и машинными шедеврами. Поскольку мы продолжаем наблюдать значительный рост генеративного ИИ на рынке искусства, нельзя отрицать, что художественная революция ИИ, возглавляемая такими платформами, как Midjourney, только начинается.

Последние пять лет я погружался в увлекательный мир машинного обучения и глубокого обучения. Моя страсть и опыт позволили мне принять участие в более чем 50 различных проектах по разработке программного обеспечения, уделяя особое внимание AI/ML. Мое постоянное любопытство также привлекло меня к обработке естественного языка, области, которую я очень хочу исследовать дальше.