Быстрый инжиниринг
Овладение искусством искусственного интеллекта: краткое руководство по путешествию и оперативному проектированию

Введение в искусство MidJourney, созданное искусственным интеллектом
ИИ быстро преодолевает барьеры невозможности и совсем недавно вторгся в область искусства, полностью изменив ее. Теперь вам не нужно быть мастером-художником или экспертом в Photoshop, чтобы воплотить в жизнь свои фантазии. Простое, четко сформулированное приглашение — это все, что вам нужно, благодаря Середина пути.
Все началось с внедрения новаторских технологий, таких как DALL-E, Midjourney и StableDiffusion, еще в 2022 году. Хотя каждое из этих нововведений привнесло свой особый штрих в канву генеративного ИИ, Midjourney, в частности, продолжила свой захватывающий путь, делая заметные успехи.
Midjourney в настоящее время является ведущим на рынке генератором искусственного интеллекта для преобразования текста в изображение с высоким разрешением, и он выделяется своим уникальным сочетанием преобразования текста в изображение, редактирования и масштабирования мультимедиа, а также активным доступом к художественному сообществу. месяц. Этот всеобъемлющий набор функций представляет собой захватывающее полотно для художников, технических энтузиастов и профессионалов в области искусственного интеллекта, создавая среду для творчества и инноваций.
Мир искусства, безусловно, обращает на это внимание, поскольку генеративный ИИ на арт-рынке, по прогнозам, станет свидетелем ошеломляющего роста 40.5% CAGR. Midjourney не имеет себе равных в создании самых реалистичных и высококачественных визуальных эффектов с использованием ИИ.
Эффективная оперативная разработка выходит за рамки простого создания; он включает в себя передовой опыт. Подсказки должны быть ясными и краткими, но в то же время давать ИИ достаточно указаний без чрезмерных предписаний. Кроме того, при разработке дизайна необходимо учитывать целевую аудиторию, принимая во внимание такие переменные, как возраст, пол и культурное происхождение.
Как работает MidJourney?
Mid-Journey использует две новые технологии машинного обучения — модели большого языка и модели диффузии. Языковая модель, аналогичная чат-ботам с искусственным интеллектом, таким как ChatGPT, помогает Mid-Journey интерпретировать значение ваших подсказок и преобразовывать их в векторы. Этот вектор затем направляет процесс диффузии.
Внутреннее устройство Midjourney практически не раскрывается. Тем не менее, очевидно, что он использует генерацию текста в изображения с помощью двух относительно новых технологий машинного обучения: больших языковых моделей и моделей диффузии. Первая, возможно, знакома пользователям ИИ-платформ, таких как ChatGPT, а вторая — многообещающее дополнение к сфере ИИ-генерации произведений искусства. Вся система основана на CLIP набор данных для обучения, который можно найти на странице исследований OpenAI.
Несмотря на ограниченность информации, можно обрисовать общую картину Миджорни. диффузионная модель, метко названный «Стабильная диффузия». По сути, «Стабильная диффузия» — это модель с открытым исходным кодом, которая умело преобразует текстовые подсказки в изображения различных стилей и содержания. Эта сложная процедура реализуется с помощью модели диффузии — генеративной модели, которая связывает зависимости между текстовыми входными данными и выходными изображениями.
Модели диффузии построены на основе метода Denoising Diffusion, подхода, на который повлияла неравновесная термодинамика. Этот метод систематически разбирает структуру данных, а затем восстанавливает ее. Этот подход был адаптирован для создания изображений Ho et al. в 2020 году, что привело к появлению моделей распространения, которые мы видим сегодня.
Модели распространения обучения включают два основных этапа. Первоначально прямой или диффузионный процесс включает постепенное добавление случайного шума к входному изображению до тех пор, пока оно полностью не превратится в шум. Этот процесс управляется фиксированной цепью Маркова, которая последовательно добавляет гауссовский шум на нескольких последовательных шагах.
Затем, на этапе обратной реконструкции, модель восстанавливает исходные данные из состояния с доминированием шума, достигнутого в процессе диффузии. Этот процесс управляется цепью Маркова с обученными гауссовыми переходами, что подразумевает, что прогноз плотности вероятности в любой момент времени зависит исключительно от состояния, достигнутого на предыдущем временном шаге. Поскольку латентные переменные x1, …, xT имеют ту же размерность, что и данные, модели диффузии классифицируются как модели со скрытыми переменными.
Стоимость и подписка Mid-Journey
Хотя многие чат-боты, такие как ChatGPT и Bing Chat, предлагают практически неограниченное использование бесплатно, для генераторов изображений, таких как Mid-Journey, ситуация иная. В связи с высокой вычислительной мощностью, особенно используемой графическими процессорами (GPU) и видеопамятью для шумоподавления, сервис Mid-Journey предоставляет… ценник.
Базовый план начинается с 10 долларов в месяц и обеспечивает около 3.3 часов работы графического процессора, чего достаточно примерно для 200 поколений изображений. Однако есть более дорогие планы, предлагающие неограниченное количество изображений в расслабленном режиме, хотя и с более длительным временем ожидания.
Настройка середины пути
- Начиная с Середина пути включает в себя регистрацию на их официальном сайте, подписку на план, а затем перенаправление на Discord.
- Как только вы найдете канал Mid-Journey на Discord, перейдите к группам новичков с левой стороны. Оттуда вы можете наблюдать, как другие пользователи создают подсказки, изучать механику Mid-Journey и взаимодействовать в оживленной среде.
- После ознакомления с окружением пригласите бота на свой приватный сервер, чтобы он спокойно создавал изображения. Бот создает четыре изображения для предварительного просмотра на основе вашего запроса, позволяя вам выбрать наиболее близкое к вашей первоначальной идее и дополнительно уточнить изображение.
Структура подсказки для Midjourney
- Команда /imagine на канале разногласий внутри канала Midjourney генерирует уникальное изображение из короткого текстового описания (Подсказка).
- Чтобы воссоздать определенный стиль для различных изображений, просто введите URL-адрес изображения рядом с текстовым приглашением. Ваши новые согласованные результаты будут объединять элементы как из выбранного вами изображения, так и из текста.
/imagine http://ссылка-на-ваше-изображение –параметр1 –параметр2
Вы можете создать ссылку на изображение, загрузив его на канал Discord. После загрузки щёлкните правой кнопкой мыши по изображению и выберите «Копировать ссылку».
Здесь http://link-to-your-image и параметры необязательны. - После этого бот начинает работать над вашим изображением, примерно за минуту предлагая четыре варианта. Этот процесс включает использование надежных графических процессоров (GPU) для обработки и интерпретации каждого приглашения.
- Отслеживайте использование графического процессора с помощью команды /info. Она позволяет проверить оставшееся время загрузки и отслеживать время использования графического процессора по вашей подписке.
Масштабирование изображения и изменения
Для более качественного изображения используйте кнопки «U» под изображениями, чтобы увеличить масштаб выбранного изображения. Вы также можете использовать кнопки «V» для корректировки отдельных изображений. Для дальнейшего редактирования увеличенного изображения используйте функции «Внести изменения», «Повторить лёгкое масштабирование» и «Повторить бета-масштабирование». Кнопка «Веб» позволяет просмотреть изображение в увеличенном размере в отдельном окне.
Midjourney позволяет масштабировать изображение до разрешений 2048 × 2048 (квадрат) и 2720 × 1530 (широкоэкранный) с помощью бета-функции повторного масштабирования с размером сетки генерации по умолчанию 1024 × 1024 (квадрат) и 1456 × 816 (широкоэкранный). Каждое изображение можно дополнительно улучшить с помощью параметров повышения масштаба «U», которые улучшают определенные части изображения.
Взгляните на эту подсказку, которая создает фантастические иллюстрации с помощью версии Midjourney V5.2.
/imagine Работа изображает одинокое дерево под звездным небом, а внизу — читающего ребенка, в оттенках спокойного синего и теплого оранжевого, вдохновленная мазками французского импрессионизма, персидскими миниатюрами, простотой Баухауса, вызывающей в памяти иллюстрации классических детских сказок, достигая асимметричной гармонии, выраженной в очаровательном, народном/наивном: –ar 15:19 –upbeta –q 2
Создание вашего первого ИИ-арта Midjourney
- Создание базового чертежа: Представьте себя художником. Начните с простого и живого описания изображения, которое вы стремитесь воплотить в жизнь. Опишите основной объект, атмосферу или даже мельчайшие детали, которые вы хотите включить. Используйте знаки препинания, такие как запятые, скобки и дефисы, чтобы структурировать свои мысли. Для достижения наилучших результатов четко опишите контекст и детали вашего дизайна. Такие элементы, как объект (например, дракон, старинный автомобиль, Авраам Линкольн), средство (например, цифровое искусство, карандашный набросок), окружающая среда (например, открытый космос, подводный мир, шумный город), освещение (например, мягкое, неоновое, с подсветкой), цвет (например, землистые тона, яркий, приглушенный), настроение (например, меланхоличное, причудливое, умиротворяющее) и композиция (например, пейзаж, крупный план, широкоугольный снимок) могут иметь решающее значение. Примеры:
- Идиллический лес, залитый солнечным светом, тропинка, уходящая вдаль
- Город, который никогда не спит, с неоновыми огнями, отражающимися от тротуаров, и разнообразной толпой, слоняющейся вокруг.
- Добавление стиля и ключевых слов: искусственный интеллект Midjourney способен создавать иллюстрации в самых разных стилях, таких как абстрактный, сюрреалистический или реалистичный. Интегрируя стиль или связанные с ним ключевые слова, вы можете указать ИИ на создание изображения, отражающего ваше видение. Экспериментируйте с различными стилями и ключевыми словами, чтобы найти идеальное сочетание. Примеры:
- Пейзажная картина, изображающая пустыню на рассвете, выполненная в стиле Джорджии О'Киф с использованием пастельной цветовой палитры и органических форм.
- Абстрактное изображение мирного леса с геометрическими узорами в форме деревьев и листвы, вдохновленное композициями Пита Мондриана.
- Использование расширенных настроек. Считайте Midjourney своим творческим набором инструментов, наполненным расширенными настройками, которые позволяют точно настраивать сгенерированные изображения. Это как волшебная палочка, позволяющая создать идеальный баланс случайности, стилизации и вариации изображения. Дайте волю своему творческому мастерству, изменяя эти настройки, пока не найдете идеальное сочетание, соответствующее вашему видению. Примеры:
- Безмятежный японский сад с прудом, отражающим цветущие вишневые деревья –seed 22 –s 150 –c 40
- Антиутопический киберпанк-город, освещенный неоновыми огнями – сид 88 – s 600 – c 60
- Выделение элементов с помощью веса: визуализируйте свое изображение как симфонию, где каждый элемент вносит свой вклад в грандиозный ансамбль. Используя нотацию «::», вы можете указать значение различных элементов вашего изображения, что позволит вам управлять центром внимания. Примеры:
- [Элегантный павлин]::3 сидит на [дереве глицинии]::1 с яркими цветами
- [Величественный слон]::2 греется в лучах [заходящего солнца]::1 в саванне
- Midjourney — это процесс проб и ошибок: необходимо экспериментировать с различными элементами и функциями. Каждая итерация будет приближать вас к изображению, которое вы хотели воплотить в жизнь.
Промежуточные параметры
Модель Midjourney работает с использованием настраиваемых параметров, которые контролируют результат процесса генерации изображения. Эти параметры позволяют пользователям настраивать и адаптировать созданное ими искусство, точно настраивая модель для создания результатов, которые идеально соответствуют их цели.
Ниже приведены основные и расширенные параметры, их функции и способы их использования для полного раскрытия возможностей Midjourney:
- Соотношения сторон (-aspect или -ar): этот параметр управляет соотношением между шириной и высотой сгенерированного изображения. Например, соотношение 16:9 идеально подходит для миниатюр на YouTube, а соотношение 1:1 позволяет получить квадратное изображение, идеально подходящее для Instagram.
- Хаос (–chaos): этот параметр регулирует разнообразие исходной сетки изображения и находится в диапазоне от 0 до 100. Более высокие значения хаоса дадут вам непредсказуемые и уникальные результаты, а более низкие значения обеспечат более стабильные результаты.
- Нет (–no): этот параметр помогает исключить определенные элементы или характеристики из сгенерированного изображения. Например, если вы хотите, чтобы изображение было без красного цвета, вы можете использовать «–no red».
- Качество (-качество или -q): этот параметр регулирует время, необходимое для создания изображения. Более высокое качество требует больше времени на обработку, но дает сложные детали. Этот параметр может принимать значения 25, 5, 1 или 2.
- Seed (–seed): этот параметр определяет начальный визуальный шум, выступающий в качестве базовой линии для сгенерированного изображения. Использование одного и того же начального числа с одним и тем же приглашением даст аналогичные результаты. Он принимает целочисленные значения от 0 до 4294967295.
- Стоп (–stop): с помощью этого параметра можно преждевременно завершить задание, получив менее детализированные, но потенциально интересные результаты. Диапазон значений: от 10 до 100. Например, если указать «–stop 50», процесс генерации изображения остановится на 50% завершения, что приведет к получению менее детализированного, возможно, абстрактного изображения.
- Стилизация (-stylize или -s): управляет уровнем художественного применения сгенерированного изображения. Более низкие значения стилизации дают результаты, более близкие к исходной подсказке, в то время как более высокие значения приводят к более абстрактным и художественным интерпретациям. В v5 значение по умолчанию равно 100, но вы можете установить его в диапазоне от 0 до 1000.
- Версия модели: вы можете выбрать одну из различных версий модели Midjourney, используя параметр –version или –v.
- Ниджи: модель, специализирующаяся на изображениях в стиле аниме. Доступ к нему можно получить с помощью параметра –niji.
- Highmi Definition: для абстрактных и ландшафтных изображений параметр –hd активирует раннюю версию модели, которая дает более крупные и менее согласованные изображения.
- Тестовые модели: Midjourney предлагает специальные модели для конкретных случаев использования. –test и –testp активируют стандартную тестовую модель и тестовую модель, ориентированную на фотографию, соответственно.
- Upscaler: Алгоритм Midjourney начинается с сетки изображений с низким разрешением. Он предлагает несколько моделей масштабирования для увеличения размера и детализации изображения.
- Uplight: Альтернативный инструмент увеличения масштаба света (-uplight) обеспечивает увеличенные изображения, которые менее детализированы, но более плавные.
- Upbeta: Параметр –upbeta приводит к изображениям со значительно меньшим количеством дополнительных деталей, оставаясь ближе к исходному изображению сетки.
- Upanime: апскейлер –upanime разработан специально для работы с моделью –niji Midjourney.
- Вес изображения: Используйте –iw, чтобы отрегулировать вес подсказки изображения относительно веса текста. Значение по умолчанию — 0.25.
- Sameseed: Параметр –sameseed гарантирует, что все изображения в исходной сетке используют один и тот же начальный шум, создавая очень похожие сгенерированные изображения.
- Видео: Midjourney может сохранять видео процесса создания исходной сетки изображений, используя параметр –video.
- Creative: с параметром –creative модели test и testp выводят более разнообразные и креативные изображения.
Midjourney постоянно выпускает обновления для улучшения взаимодействия с пользователем, последняя из которых — версия 5.2, выпущенная в июне 2023 года. Добавляя –v 5.2 к приглашению или выбирая его с помощью команды /settings, пользователи могут получить доступ к этой расширенной модели. Версия 5.2 предлагает превосходную детализацию изображения и более интуитивно понимает подсказки, обеспечивая более яркие цвета и улучшенные композиции.
Понимание авторских прав на произведения искусства, созданные искусственным интеллектом
В марте 2023 года Бюро регистрации авторских прав США разъяснило свою позицию в отношении защиты авторских прав AI-генерируемые работы. В политике говорится, что, хотя созданные человеком элементы в творениях ИИ (например, письменные работы или уникальные дизайны) могут быть защищены, изображения, созданные ИИ, не подпадают под действие авторских прав, что соответствует глобальным нормам, согласно которым только творения человека имеют право на защиту авторских прав.
В контексте искусства, созданного с помощью искусственного интеллекта, авторское право не является однозначным. В то время как цифровое искусство подразумевает участие человека в создании произведения, произведения, созданные с помощью искусственного интеллекта, создаются без прямого вмешательства человека, что усложняет вопрос авторства и права собственности. Согласно Бюро по авторским правам США, первоначальное право собственности принадлежит автору произведения – человеку, создавшему его. Однако, поскольку ИИ не может считаться автором, у произведений, созданных с помощью искусственного интеллекта, нет чёткого права собственности.
Согласно последним рекомендациям Бюро по авторским правам США, авторские права на произведения ИИ могут быть защищены только при наличии в них достаточного человеческого авторства. Уровень «достаточного человеческого авторства» остаётся неопределённым и зависит от степени участия человека в создании произведения ИИ.
Интересно, что Midjourney, платформа для создания изображений на основе искусственного интеллекта, установила собственную политику прав использования. Пользователи бесплатной пробной версии могут использовать изображения в некоммерческих целях в соответствии с международной лицензией Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0) со ссылкой на Midjourney. Однако платные подписчики могут использовать изображения в любых целях, включая коммерческие, в соответствии с Общими коммерческими условиями. Это развитие в области авторского права представляет собой интригующую динамику между ИИ и человеческим творчеством.
Использование Midjourney для динамического дизайна пользовательского интерфейса и креативного создания логотипов
От разработки интуитивно понятных пользовательских интерфейсов для веб-сайтов или мобильных приложений до создания уникальных логотипов и баннеров — Midjourney расширяет возможности создателей контента, создавая множество вариантов дизайна за считанные секунды.
Вот как это работает. Каждый проект начинается с подсказки, которая служит своего рода шаблоном для ИИ. Предположим, вы разрабатываете пользовательский интерфейс для платформы онлайн-репетиторства. Типичная подсказка может выглядеть так: «/imagine Пользовательский интерфейс платформы онлайн-репетиторства, Dribbble, высокое разрешение, 4K, как у Khan Academy».
Первоначальные результаты могут не соответствовать действительности. Например, добавление «Adobe XD» может помочь Midjourney адаптировать свои проекты, чтобы они были более совместимы с Adobe XD. Оптимизированная подсказка будет:
/imagin Платформа онлайн-обучения, пользовательский интерфейс, Adobe XD, Dribbble, высокое разрешение, 4K, минималистичный дизайн
Текстовый логотип или баннеры с использованием Midjourney
Давайте рассмотрим, как создать баннер с логотипом для UNITE AI.
Во-первых, вам нужно иметь простое изображение текста, который вы хотите отобразить. Вы можете создать его с помощью любого инструмента графического дизайна или текстового редактора и загрузить на свой канал Discord.
Приглашение создать баннер:
/воображаемые буквы: UNITE в футуристическом логотипе, вдохновленном искусственным интеллектом, с буквами UNITE –v 5 –ar 16:9
Взгляните на эти примеры подсказок для большего количества идей:
/imagine Одинокий музыкант, исполняющий безмятежную мелодию над плавучим городом в сумерках, стиль ар-нуво
/imagine Изображение человека будущего, работающего за футуристическим столом в окружении голографических экранов и передовых технологий. На человеке гладкий серебристый комбинезон и очки виртуальной реальности. Окружающая среда наполнена неоновыми огнями и плавающими голограммами. Атмосфера футуристическая и высокотехнологичная, с чувством азарта и инноваций. Камера представляет собой цифровую камеру с высоким разрешением, точно фиксирующую каждую деталь. Художественный стиль представляет собой смесь киберпанка и минимализма с упором на четкие линии и смелые цвета. Режиссеры, кинематографисты, фотографы, модельеры, карикатуристы и художники, сотрудничающие в этом уникальном сочетании, — Кристофер Нолан, Роджер Дикинс, Энни Лейбовиц, Вирджил Абло, Хаяо Миядзаки и Каус.
/imagine 1940-е — стиль Барби в образе медсестры военного времени, в старинном армейском госпитале, ухаживающей за ранеными солдатами, в стиле классических иллюстраций Mattel, с атмосферой фотографий Второй мировой войны в оттенках сепии 8k –v 5 –ar 16 :9
/imagine Кадр женщины, прислонившейся к киберпанку, ховербайк, японское аниме, раскидистые городские пейзажи, 32k, замысловатый космопорт, мимолетное, панорамы небоскребов, гладкие
Заключительные мысли: навигация по миру искусства ИИ с помощью Midjourney
Помните: «Картинка стоит тысячи слов». Подробное, яркое описание творит чудеса. Да, Midjourney не бесплатный. Тем не менее, он производит революцию в мире искусства и расширяет наши творческие возможности благодаря передовой технологии искусственного интеллекта, преобразующей текст в изображение. Благодаря возможности преобразовывать простые текстовые подсказки в изображения высокого разрешения, этот инструмент открывает безграничные возможности не только для художников, но и для UI/UX-дизайнеров, энтузиастов и профессионалов в области искусственного интеллекта.
Вот несколько важных выводов, которые следует помнить, отправляясь в приключение Midjourney:
- Изучите основы работы с подсказками Midjourney: используйте чёткие, лаконичные и исчерпывающие описания, отражающие ваше видение, чтобы эффективно направлять ИИ. Не забывайте учитывать свою аудиторию и не стесняйтесь экспериментировать с различными стилями, настроениями и контекстами.
- Используйте параметры: улучшите свой творческий опыт, используя множество расширенных настроек, которые предлагает Midjourney. От управления соотношением сторон до настройки параметра хаоса для уникальных результатов — каждая деталь может быть адаптирована к вашим предпочтениям.
- Примите итеративный процесс: ваша первая работа, созданная искусственным интеллектом, может быть не идеальной. Воспользуйтесь этим итеративным процессом и научитесь улучшать и оптимизировать подсказки для достижения лучших результатов.
- Поймите последствия авторских прав: хотя произведения искусства, созданные искусственным интеллектом, сами по себе не подлежат авторскому праву, их компоненты, созданные руками человека, могут быть защищены.
По сути, интеграция ИИ в искусство демократизировала творчество и стерла границы между человеческими и машинными шедеврами. Поскольку мы продолжаем наблюдать значительный рост генеративного ИИ на рынке искусства, нельзя отрицать, что художественная революция ИИ, возглавляемая такими платформами, как Midjourney, только начинается.





















