кочан Овладяване на AI Art: Кратко ръководство за междинно пътуване и бързо инженерство – Unite.AI
Свържете се с нас

Бърз инженеринг

Овладяване на AI Art: Кратко ръководство за междинно пътуване и бързо инженерство

mm
Обновено on
Midjourney Генерирано UNITE AI LOGO

Въведение в изкуството, генерирано от изкуствен интелект MidJourney

AI бързо преодолява бариерите на невъзможността и наскоро нахлу в областта на изкуството, трансформирайки го изцяло. Сега не е нужно да сте майстор художник или експерт по Photoshop, за да вдъхнете живот на плода на вашето въображение. Една проста, добре формулирана подкана е всичко, от което се нуждаете, благодарение По средата на пътуването.

Всичко започна с въвеждането на новаторски технологии като DALL-E, Midjourney и StableDiffusion през 2022 г. Въпреки че всяка от тези иновации внесе своя отличителен щрих в платното на Generative AI, Midjourney, по-специално, продължи своето завладяващо пътуване, правейки забележителни крачки.

В момента Midjourney е водещият AI генератор на текст към изображение с висока разделителна способност на пазара и стои високо с уникалното си съчетание от генериране на текст към изображение, редактиране и мащабиране на медия и активен достъп до арт общността, всички започващи от $10 на месец. Този изчерпателен набор от функции представя вълнуващо платно както за художници, технически ентусиасти, така и за професионалисти в областта на изкуствения интелект, като изгражда среда за творчество и иновации.

Светът на изкуството определено забелязва, като генеративният AI на пазара на изкуство се очаква да стане свидетел на зашеметяващ растеж на 40.5% CAGR. Midjourney е ненадминат в създаването на най-реалистичните и висококачествени визуализации с помощта на AI.

Ефективното бързо инженерство надхвърля простото създаване; то включва най-добрите практики. Подканите трябва да предлагат яснота и да са кратки, но да предоставят на AI достатъчно насоки без прекомерни предписания. Освен това целевата аудитория трябва да се вземе предвид по време на проектирането, като се вземат предвид променливи като възраст, пол и културен произход, наред с други.

Как работи MidJourney?

Mid-Journey използва две нови технологии за машинно обучение – големи езикови и дифузионни модели. Езиковият модел, подобен на AI chatbots като ChatGPT, помага на Mid-Journey да интерпретира значението на вашите подкани и да ги преобразува във вектори. След това този вектор ръководи процеса на дифузия.

Вътрешната работа на Midjourney е до голяма степен неразкрита. Въпреки това е очевидно, че използва генериране на текст към изображение от две сравнително нови технологии за машинно обучение: големи езикови модели и дифузионни модели. Първото може би е познато на потребителите на AI платформи като ChatGPT, а второто е обещаващо допълнение към сектора за генериране на изкуство с AI. Цялата система разчита на CLIP набор от данни за обучение, който може да бъде намерен на страницата за изследване на OpenAI.

Въпреки ограничената информация е възможно да се скицира обща картина на Midjourney's дифузионен модел, подходящо наречен „Стабилна дифузия“. По същество Stable Diffusion е модел с отворен код, който умело трансформира текстови подкани в изображения с различни стилове и съдържание. Тази сложна процедура се постига чрез дифузионен модел, генеративен модел, който свързва зависимостите между текстови входове и изходни изображения.

Дифузионните модели са изградени на основата на метода на обезшумяване на дифузията, подход, повлиян от неравновесната термодинамика. Този метод систематично демонтира структурата на данните и по-късно я възстановява. Този подход беше адаптиран за генериране на изображения от Ho et al. през 2020 г., което води до създаването на дифузионните модели, които виждаме днес.

Моделите на дифузия на обучение включват два основни етапа. Първоначално процесът напред или дифузия включва постепенно добавяне на произволен шум към входното изображение, докато то напълно се превърне в шум. Този процес се управлява от фиксирана верига на Марков, която последователно добавя шум на Гаус в няколко последователни стъпки.

Работна демонстрация по средата на пътуването

Впоследствие, в обратната фаза или фазата на реконструкция, моделът възстановява оригиналните данни от доминираното от шум състояние, постигнато в процеса на дифузия. Този процес се задвижва от верига на Марков с научени гаусови преходи, което означава, че прогнозата за плътността на вероятността във всеки даден момент зависи единствено от състоянието, постигнато в предходната времева стъпка. Тъй като латентните „x1, …, xT“ споделят същата размерност като данните, дифузионните модели се класифицират като модели на латентни променливи.

Цена и абонамент за средата на пътуването

Въпреки че много чатботове като ChatGPT и Bing Chat предлагат почти неограничена употреба безплатно, сценарият е различен за генератори на изображения като Mid-Journey. Поради необходимата значителна изчислителна мощност, особено от графичните процесори (GPU) и използването на видео памет за процеса на премахване на шума, услугата на Mid-Journey се предлага с Етикет.

Основният план започва от $10 на месец, осигурявайки около 3.3 часа GPU време, достатъчно за приблизително 200 поколения изображения. Има обаче планове от по-висок клас, предлагащи неограничен брой изображения в спокоен режим, макар и с по-дълго време на изчакване.

Настройване на вашия MidJourney

  1. Като се започне с MidJourney включва регистрация на официалния им уебсайт, абониране за план и след това пренасочване към Discord.
  2. След като намерите канала Mid-Journey на раздор, отидете до групите за новодошли от лявата страна. Оттам можете да наблюдавате как други потребители създават подкани, да научите механиката на Mid-Journey и да си взаимодействате в оживена среда.
  3. След като се запознаете със средата, поканете бота на вашия частен сървър, за да създава необезпокоявани изображения. Ботът генерира четири изображения за предварителен преглед въз основа на вашата подкана, което ви позволява да изберете най-близкото съвпадение с вашата оригинална идея и допълнително да прецизирате изображението.

Бърза структура за Midjourney

  1. Командата /imagine в канал на discord в канала Midjourney генерира уникално изображение от кратко текстово описание (подкана).
  2. За да пресъздадете конкретен стил в различни изображения, просто въведете URL адреса на изображението до текстовата подкана. Вашите нови, последователни резултати ще обединят елементи от избраното от вас изображение и текст.
    /представете си http://link-to-your-image –параметър1 –параметър2
    Можете да генерирате връзка към вашето изображение, като го качите в канала на Discord. След като го качите, щракнете с десния бутон върху изображението и изберете „Копиране на връзката“.
    Тук http://link-to-your-image и параметрите не са задължителни.
  3. След това ботът започва да работи върху вашето изображение, като отнема около минута, за да предложи четири алтернативи. Този процес включва използването на стабилни графични процесори (GPU) за обработка и интерпретация на всяка подкана.
  4. Проследявайте използването на GPU с помощта на командата /info. Позволява ви да проверите вашето „Бързо оставащо време“ и да наблюдавате GPU времето на вашия абонамент.

/info подкана по средата на пътуването

Увеличаване на изображението и промени

За по-прецизно изображение използвайте бутоните 'U' под изображенията, за да увеличите размера на предпочитания от вас избор. Можете също така да използвате бутоните „V“, за да направите корекции на конкретни изображения. За по-нататъшни промени в увеличено изображение, използвайте опциите „Направете варианти“, „Повторно повторение в светъл мащаб“ и „Повторяване на бета мащабиране“. Бутонът „Уеб“ ви позволява да видите изображението в по-голям размер в отделен прозорец.

Midjourney позволява мащабиране на изображения до 2048 × 2048 (квадрат) и 2720 × 1530 (широк екран) чрез своята бета функция за повторно мащабиране с мащабиране на мрежата по подразбиране от 1024 × 1024 (квадрат) и 1456 × 816 (широк екран). Всяко изображение може да бъде допълнително подобрено чрез опциите за увеличаване на мащаба „U“, които подобряват определени части от изображението.

Разгледайте тази подкана, която създава фантастични произведения на изкуството с версия V5.2 на Midjourney.

/представете си Произведението изобразява самотно дърво под осветено от звезди небе, с дете, което чете отдолу, в нюансите на спокойно синьо и топло оранжево, вдъхновени от мазките на френския импресионизъм, персийските миниатюри, простотата на Баухаус, напомнящи за класически илюстрации на детски приказки, постигане на асиметрична хармония, изразена в омагьосващ, народен/ наивен: –ar 15:19 –upbeta –q 2

Пример за ръководство за подсказки в средата на пътуването

Създаване на вашето първо междинно пътуване AI Art

  1. Изработване на основния план: Мислете за себе си като за художник. Започнете с ясно, ярко описание на изображението, което се стремите да оживите. Очертайте основния обект, атмосферата или дори дребните детайли, които искате да вградите. Използвайте препинателни знаци като запетаи, скоби и тирета, за да структурирате мислите си. За по-добри резултати, бъдете изрични относно контекста и детайлите на вашия дизайн. Елементи като обект (напр. Дракон, ретро автомобил, Ейбрахам Линкълн), среда (напр. дигитално изкуство, скица с молив), среда (напр. космическо пространство, под вода, оживен град), осветление (напр. меко, неоново, със задно осветяване) , цвят (напр. земни тонове, жизнени, приглушени), настроение (напр. меланхолично, причудливо, спокойно) и композиция (напр. пейзаж, близък план, широкоъгълен) могат да бъдат критични. Примери:
    • Идилична гора, обляна в слънчева светлина, пешеходна пътека, криволичеща в далечината
    • Град, който никога не спи, с неонови светлини, отразяващи се от тротоарите, и разнообразна тълпа, която се движи наоколо
  2. Вливане на стил и ключови думи: AI на Midjourney е в състояние да илюстрира изображения в безброй стилове като абстрактен, сюрреалистичен или реалистичен. Чрез интегриране на стил или свързани ключови думи можете да насочите AI да създаде изображение, което отразява вашето виждане. Експериментирайте с различни стилове и ключови думи, за да откриете перфектната комбинация. Примери:
    • Пейзажна картина, изобразяваща пустиня в зори, отразяваща стила на Джорджия О'Кийф, включваща пастелна цветова палитра и органични форми.
    • Абстрактно изобразяване на спокойна гора с геометрични шарки, образуващи дървета и зеленина, вдъхновени от композициите на Пит Мондриан.
  3. Използване на разширени настройки: Считайте Midjourney за своя креативна кутия с инструменти, пълна с разширени настройки, които ви позволяват да прецизирате генерираните от вас изображения. Това е като да размахвате магическа пръчица, която ви позволява да създадете идеалния баланс на произволност, стилизация и вариация на изображението. Дайте воля на творческата си мощ, като бърникате с тези настройки, докато намерите идеалната комбинация, която резонира с вашата визия. Примери:
    • Спокойна японска градина с езерце, отразяващо цъфналите черешови дървета – семена 22 – s 150 – c 40
    • Дистопичен киберпънк град, осветен от неонови светлини –seed 88 –s 600 –c 60
  4. Открояване на елементи с тежести: Визуализирайте изображението си като симфония, като всеки елемент допринася за големия ансамбъл. Използвайки нотацията „::“, можете да диктувате значението на различни елементи във вашето изображение, което ви позволява да контролирате светлината на прожекторите. Примери:
    • [Елегантен паун]::3 кацнал на [дърво глициния]::1 цъфтящо с живи цветя
    • [Величествен слон]::2 припичащ се на блясъка на [залязващо слънце]::1 в саваната
  5. Midjourney е процес на проба и грешка: Експериментирането с различни елементи и функции е необходимо. Всяка итерация ще ви доближи до образа, който сте си представяли да оживите.

Параметри по средата на пътуването

Моделът на Midjourney работи с регулируеми параметри, които контролират резултата от процеса на генериране на изображение. Тези параметри позволяват на потребителите да настройват и приспособяват генерираното от тях изкуство, като фино настройват модела, за да създадат резултати, които идеално отговарят на тяхната цел.

По-долу са основните и разширените параметри, техните функции и как да ги използвате, за да използвате напълно възможностите на Midjourney:

  • Пропорции (–aspect или –ar): Този параметър контролира съотношението между ширината и височината на генерираното изображение. Например, съотношение 16:9 е идеално за миниатюри в YouTube, докато 1:1 създава квадратно изображение, чудесно за Instagram.
  • Хаос (–хаос): Този параметър настройва разнообразието на първоначалната решетка на изображението и варира от 0 до 100. По-високите стойности на хаоса ще ви дадат непредвидими и уникални резултати, докато по-ниските стойности ще осигурят по-последователни резултати.
  • Не (–не): Този параметър ви помага да премахнете конкретни елементи или характеристики от генерираното изображение. Например, ако искате картина без червено, можете да използвате „–без червено“.
  • Качество (–качество или –q): Тази настройка регулира времето, необходимо за генериране на изображение. По-високото качество изисква повече време за обработка, но дава сложни детайли. Този параметър може да приема стойности от .25, .5, 1 или 2.
  • Seed (–seed): Този параметър определя началния визуален шум, действащ като базова линия за генерираното изображение. Използването на един и същ начален номер с една и съща подкана ще даде подобни резултати. Приема цели числа между 0–4294967295.
  • Стоп (–стоп): С този параметър можете преждевременно да прекратите задание, произвеждайки по-малко подробни, но потенциално интересни резултати. Диапазонът е 10-100. Например, ако зададете „–stop 50“, процесът на генериране на изображение ще спре при 50% завършеност, което ще доведе до по-малко детайлно, вероятно абстрактно изображение.
  • Стилизиране (–stylize или –s): Това контролира нивото на артистично приложение върху генерираното изображение. По-ниските стойности на стилизация водят до резултати, по-близки до първоначалната подкана, докато по-високите стойности водят до по-абстрактни и артистични интерпретации. Във v5 стойността по подразбиране е 100, но можете да я зададете навсякъде от 0-1000.
  • Версия на модела: Можете да избирате от различни версии на модела Midjourney, като използвате параметъра –version или –v.
  • Niji: Модел, специализиран в изображения в стил аниме. Той може да бъде достъпен с помощта на параметъра –niji.
  • Highmi Definition: За абстрактни и пейзажни изображения параметърът –hd активира версия на ранен модел, която дава по-големи, по-малко последователни изображения.
  • Тестови модели: Midjourney предлага специални модели за конкретни случаи на употреба. –test и –testp активират съответно стандартните и фокусирани върху фотографията тестови модели.
  • Upscaler: Алгоритъмът на Midjourney започва с решетка с изображения с ниска разделителна способност. Той предлага няколко модела за увеличаване на мащаба за подобряване на размера и детайлите на изображението.
    • Uplight: Алтернативен инструмент за повишаване на мащаба на светлината (–uplight) предоставя увеличени изображения, които са по-малко детайлни, но по-плавни.
    • Upbeta: Параметърът –upbeta води до изображения със значително по-малко допълнителни детайли, оставащи по-близки до оригиналното мрежово изображение.
    • Upanime: –upanime upscaler е проектиран специално за работа с –niji Midjourney Model.
  • Тегло на изображението: Използвайте –iw, за да регулирате теглото на подканата на изображението спрямо теглото на текста. Стойността по подразбиране е 0.25.
  • Sameseed: Параметърът –sameed гарантира, че всички изображения в първоначалната мрежа използват един и същ начален шум, създавайки много сходни генерирани изображения.
  • Видео: Midjourney може да запише видео за напредъка на процеса на генериране на първоначалната решетка на изображението, като използва параметъра –video.
  • Creative: С параметъра –creative моделите test и testp извеждат по-разнообразни и креативни изображения.

Midjourney последователно пуска актуализации за подобряване на потребителското изживяване, като най-новата е версия 5.2, стартирана през юни 2023 г. Чрез добавяне на –v 5.2 към подканата ви или чрез избиране чрез командата /settings, потребителите могат да получат достъп до този усъвършенстван модел. Версия 5.2 предлага превъзходни детайли на изображението и разбира подканите по-интуитивно, като предоставя по-ярки цветове и подобрени композиции.

Разбиране на авторските права за произведения на изкуството, генерирани от AI

Midjourney Изображение на комбинация от AI и закони за авторското право

През март 2023 г. Службата за авторско право на САЩ изясни позицията си относно авторските права на Работи, генерирани от AI. Политиката гласи, че макар създадените от човека елементи в творенията на AI (като писания или уникални дизайни) да могат да бъдат защитени, изображенията, произведени от AI, не отговарят на изискванията за авторско право, като се придържат към глобалните норми, че само човешки творения отговарят на условията за защита на авторските права.

В контекста на AI изкуството авторското право не е просто. Докато дигиталното изкуство има приноса на човека художник, генерираното от AI изкуство се създава без пряка човешка намеса, което усложнява въпроса за авторството и собствеността. Според Службата за авторско право на САЩ, първоначалната собственост се предоставя на автора на произведението – човек-създател. Въпреки това, тъй като AI не може да се счита за автор, генерираното от AI изкуство няма ясна собственост.

Последните насоки от Службата за авторско право на САЩ позволяват авторски права върху изкуство с изкуствен интелект само когато съдържат достатъчно човешко авторство. Нивото на „достатъчно човешко авторство“ остава недефинирано и зависи от степента на човешко участие в създаването на произведението на изкуствения интелект.

Интересното е, че Midjourney, базирана на AI платформа за създаване на изображения, е установила свои собствени политики за правата за използване. Потребителите на безплатна пробна версия могат да използват изображенията за некомерсиални цели съгласно международния лиценз Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0), с надлежно кредитиране на Midjourney. Плащащите абонати обаче могат да използват изображенията за всякакви цели, включително търговски, съгласно Общите търговски условия. Това развитие в областта на авторското право представя интригуваща динамика между AI и човешкото творчество.

Използване на Midjourney за динамичен UI дизайн и творческо генериране на лого

От проектиране на интуитивен потребителски интерфейс за уебсайтове или мобилни приложения до изработване на уникални лога и банери, Midjourney дава възможност на създателите на съдържание, като генерира набор от алтернативи на дизайна за секунди.

Ето как работи. Всеки дизайн започва с подкана, действаща като план, който AI да следва. Да предположим, че проектирате потребителски интерфейс за приложение на платформа за онлайн обучение. Типична подкана може да бъде: „/представете си потребителски интерфейс на платформа за онлайн обучение, Dribbble, висока разделителна способност, 4K, като Khan academy“.

Първоначалните резултати може да не достигнат идеално. Например, добавянето на „Adobe XD“ в микса може да помогне на Midjourney да приспособи дизайна си, за да бъде по-съвместим с Adobe XD. Оптимизирана подкана ще бъде:

/представете си онлайн платформа за обучение, потребителски интерфейс, Adobe XD, Dribbble, висока разделителна способност, 4K, минималистичен дизайн

Midjourney Изображение на UI/UX дизайни на настолни приложения

 

Текстово вдъхновено лого или банери, използващи Midjourney

Нека проучим как да създадем банер с лого за UNITE AI.

Първо, трябва да имате просто изображение на текста, който искате да покажете. Можете да създадете това с помощта на всеки инструмент за графичен дизайн или текстов редактор и да го качите във вашия канал в Discord.

примерен текст за UNITE LOGO
Просто изображение на текст, използвано за създаване на лого UNITE

Подканата за създаване на банера е:

/представете си букви: UNITE във футуристично, вдъхновено от AI шрифтово лого с букви UNITE –v 5 –ar 16:9

Екран с функции за ръководство за подсказки по средата на пътуването

Разгледайте тези примерни подкани за още идеи:

/представете си самотен музикант, изпълняващ спокойна мелодия върху плаващ град по здрач, стил ар нуво

Подсказка за средата на пътуването: Изображение на индийското изкуство

 

/представете си Изображение на бъдещ човек, работещ върху футуристично бюро, заобиколен от холографски екрани и напреднали технологии. Човекът носи елегантен сребрист гащеризон и има очила за виртуална реалност. Околната среда е изпълнена с неонови светлини и плаващи холограми. Атмосферата е футуристична и високотехнологична, с усещане за вълнение и иновация. Камерата е цифров фотоапарат с висока резолюция, улавящ всеки детайл с прецизност. Артистичният стил е смесица от киберпънк и минимализъм, с акцент върху изчистени линии и смели цветове. Режисьори, оператори, фотографи, модни дизайнери, карикатуристи и художници, които си сътрудничат в това уникално съпоставяне, са Кристофър Нолан, Роджър Дийкинс, Ани Лейбовиц, Върджил Абло, Хаяо Миязаки и Каус.

Midjourney подкана за бъдещ работещ човек

/представете си 1940-те години на миналия век – в стил Барби като медицинска сестра от войната, в ретро обстановка на армейска болница, обгрижваща ранените войници, в стила на класическите илюстрации на Mattel, с атмосферата на тонирана в сепия фотография от Втората световна война 8k –v 5 –ar 16 :9

Ръководство за подсказки по средата на пътуването: Изображение на Барби в уникални настройки

/представете си кадър на жена, облегната на киберпънк, ховърбайк, японско аниме, разпръснати градски пейзажи, 32k, сложен космодрум, мимолетни, панорами на небостъргач, елегантен

Midjourney Изображение на момиче в стил киберпънк

 

Последни мисли: Навигиране в света на изкуството с изкуствен интелект с Midjourney

Запомнете, „Една снимка струва повече от хиляда думи“. Едно подробно, живо описание може да направи чудеса. Да, Midjourney не е безплатен за използване. И все пак той революционизира света на изкуството и разширява нашите творчески възможности чрез своята най-съвременна AI технология за текст към изображение. С възможността за преобразуване на проста текстова подкана в изображение с висока разделителна способност, това е инструмент, който обещава неограничени възможности не само за художници, но и за UI/UX дизайнери, ентусиасти на технологии и професионалисти в областта на изкуствения интелект.

Ето някои основни неща, които трябва да запомните, когато се впускате в приключението си Midjourney:

  • Научете основите на подканата Midjourney: Използвайте ясни, кратки и изчерпателни описания, които капсулират вашето виждане, за да ръководите ефективно AI. Не забравяйте да вземете предвид аудиторията си и не се колебайте да експериментирате с различни стилове, настроения и контексти.
  • Използвайте параметри: Подобрете вашето творческо изживяване, като използвате множеството разширени настройки, които Midjourney предлага. От контролиране на пропорциите до регулиране на параметъра на хаоса за уникални резултати, всеки детайл може да бъде съобразен с вашите предпочитания.
  • Прегърнете итеративния процес: Вашето първо произведение на изкуството, генерирано от AI, може да не е перфектно. Прегърнете този итеративен процес и се научете да прецизирате и оптимизирате вашите подкани за по-добри резултати.
  • Разберете последиците от авторското право: Въпреки че самите произведения на изкуството, генерирани от AI, не отговарят на условията за авторско право, компонентите, създадени от човека в тях, могат да бъдат защитени.

По същество интегрирането на AI в изкуството демократизира креативността и разми границите между човешки и машинно създадени шедьоври. Тъй като продължаваме да сме свидетели на забележителния растеж на генеративния AI на пазара на изкуство, безспорно е, че революцията в изкуството на AI, водена от платформи като Midjourney, едва започва.

Прекарах последните пет години, потапяйки се в завладяващия свят на машинното обучение и дълбокото обучение. Моята страст и опит ме накараха да допринеса за над 50 различни проекта за софтуерно инженерство, със специален фокус върху AI/ML. Продължаващото ми любопитство също ме насочи към обработката на естествен език, област, която нямам търпение да проуча по-нататък.