Зв'язатися з нами

Як стабільна дифузія може розвиватися як основний споживчий продукт

Штучний Інтелект

Як стабільна дифузія може розвиватися як основний споживчий продукт

mm
оновлений on

Як не дивно, Стабільна дифузіяn, нова структура синтезу зображень штучного інтелекту, яка захопила світ штурмом, не є ані стабільною, ані насправді «розпорошеною» – принаймні, поки що.

Весь спектр можливостей системи розповсюджений у різноманітному асортименті пропозицій, що постійно змінюються, від кількох розробників, які несамовито обмінюються найновішою інформацією та теоріями в різноманітних бесідах на Discord – і переважна більшість процедур інсталяції для створюваних ними пакунків або модифікації дуже далекі від «підключи та працюй».

Швидше, вони, як правило, вимагають командного рядка або керований BAT інсталяція через GIT, Conda, Python, Miniconda та інші передові фреймворки розробки – програмні пакети настільки рідкісні серед звичайних споживачів, що їх інсталяція часто позначається постачальниками антивірусів і засобів захисту від зловмисного програмного забезпечення як доказ скомпрометованої хост-системи.

Лише невеликий вибір етапів у рукавичці, який зараз вимагає стандартна установка Stable Diffusion. Для багатьох дистрибутивів також потрібні певні версії Python, які можуть конфліктувати з існуючими версіями, встановленими на комп’ютері користувача, хоча цього можна уникнути за допомогою встановлення на основі Docker і, певною мірою, за допомогою середовища Conda.

Лише невеликий вибір етапів у рукавичці, який зараз вимагає стандартна установка Stable Diffusion. Для багатьох дистрибутивів також потрібні певні версії Python, які можуть конфліктувати з існуючими версіями, встановленими на комп’ютері користувача, хоча цього можна уникнути за допомогою встановлення на основі Docker і, певною мірою, за допомогою середовища Conda.

Потоки повідомлень у спільнотах SFW і NSFW Stable Diffusion переповнені порадами та хитрощами, пов’язаними зі зломом сценаріїв Python і стандартних установок, щоб увімкнути покращену функціональність або вирішити часті помилки залежностей, а також низку інших проблем.

Це залишає пересічного споживача зацікавленим створення дивовижних образів від текстових підказок, значною мірою залежать від зростаючої кількості монетизованих веб-інтерфейсів API, більшість з яких пропонують мінімальну кількість безкоштовних генерацій зображень перед тим, як вимагати покупки токенів.

Крім того, майже всі ці веб-пропозиції відмовляються виводити вміст NSFW (значна частина якого може стосуватися непорнографічних предметів загального інтересу, таких як «війна»), що відрізняє Stable Diffusion від послуг DALL-E від OpenAI. 2.

«Photoshop для стабільної дифузії»

Спокушаний казковими, пишними або незвичайними зображеннями, які щодня заповнюють хештег Twitter #stablediffusion, світ, мабуть, чекає «Photoshop для стабільної дифузії» – крос-платформна програма для встановлення, яка поєднує в собі найкращу та найпотужнішу функціональність архітектури Stability.ai, а також різноманітні геніальні інновації нової спільноти розробників SD, без будь-яких плаваючих вікон CLI, незрозумілих і постійно мінливих установок і оновлень процедури або відсутні функції.

Те, що ми зараз маємо, у більшості інсталяцій із більшою можливістю, — це різноманітно елегантна веб-сторінка, охоплена невтіленим вікном командного рядка, URL якої є портом локального хосту:

Подібно до додатків для синтезу, керованих CLI, таких як FaceSwap і DeepFaceLab, орієнтований на BAT, «попередня» інсталяція Stable Diffusion демонструє коріння командного рядка, доступ до інтерфейсу здійснюється через порт локального хосту (див. верхнє зображення вище), який обмінюється даними із функцією стабільної дифузії на основі CLI.

Подібно до додатків для синтезу, керованих CLI, таких як FaceSwap і DeepFaceLab, орієнтований на BAT, «попередня» інсталяція Stable Diffusion демонструє коріння командного рядка, доступ до інтерфейсу здійснюється через порт локального хосту (див. верхнє зображення вище), який обмінюється даними із функцією стабільної дифузії на основі CLI.

Безсумнівно, з’явиться більш оптимізована програма. Уже є кілька інтегрованих програм на основі Patreon, які можна завантажити, наприклад GRisk та НМКД (див. зображення нижче) – але жодна з них поки що не об’єднує повний набір функцій, які можуть запропонувати деякі з більш просунутих і менш доступних реалізацій Stable Diffusion.

Ранні пакети Stable Diffusion на основі Patreon, незначно «додані». NMKD є першим, хто інтегрував вихід CLI безпосередньо в GUI.

Ранні пакети Stable Diffusion на основі Patreon, незначно «додані». NMKD є першим, хто інтегрував вихід CLI безпосередньо в GUI.

Давайте подивимося, як зрештою може виглядати більш відшліфована та цілісна реалізація цього дивовижного дива з відкритим кодом – і з якими проблемами вона може зіткнутися.

Юридичні аспекти щодо повністю фінансованої комерційної стабільної дифузійної програми

Фактор NSFW

Вихідний код Stable Diffusion було випущено під назвою надзвичайно дозволена ліцензія який не забороняє комерційне повторне впровадження та похідні роботи, які широко будуються з вихідного коду.

Окрім вищезгаданої та зростаючої кількості збірок Stable Diffusion на основі Patreon, а також великої кількості плагінів програм, які розробляються для Figma, Крита, Photoshop, GIMP та змішувач (серед іншого), немає практичний причина, чому добре фінансована компанія з розробки програмного забезпечення не може розробити набагато складнішу та ефективнішу програму Stable Diffusion. З точки зору ринку, є всі підстави вважати, що кілька таких ініціатив уже активно реалізуються.

Тут такі спроби негайно стикаються з дилемою щодо того, чи дозволятиме, як і більшість веб-інтерфейсів API для Stable Diffusion, програма використовувати рідний фільтр NSFW Stable Diffusion (а фрагмент коду), які потрібно вимкнути.

«Поховання» комутатора NSFW

Хоча ліцензія Stability.ai з відкритим вихідним кодом для Stable Diffusion включає широкий перелік програм, для яких вона може НЕ використовувати (можливо, включаючи порнографічний вміст та deepfakes), єдиним способом, яким постачальник міг би ефективно заборонити таке використання, було б скомпілювати фільтр NSFW у непрозорий виконуваний файл замість параметра у файлі Python, або ж застосувати порівняння контрольних сум у файлі Python або DLL, що містить директиву NSFW, тому візуалізація не може відбуватися, якщо користувачі змінюють цей параметр.

Це залишить передбачувану програму «кастрованою» приблизно так само, як і DALL-E 2 зараз є, зменшуючи його комерційну привабливість. Крім того, неминуче декомпільовані «підготовлені» версії цих компонентів (або оригінальні елементи середовища виконання Python, або скомпільовані DLL-файли, які зараз використовуються в лінійці Topaz інструментів покращення зображень ШІ), ймовірно, з’являться в торрент-спільноті/хакерській спільноті, щоб розблокувати такі обмеження. , просто замінивши елементи, що перешкоджають, і заперечуючи будь-які вимоги до контрольної суми.

Зрештою, постачальник може просто повторити застереження Stability.ai щодо неправильного використання, яке характеризує перший запуск багатьох поточних дистрибутивів Stable Diffusion.

Однак невеликі розробники з відкритим кодом, які зараз використовують випадкові застереження, не можуть втратити порівняно з програмною компанією, яка вклала значні суми часу та грошей у створення повнофункціональної та доступної Stable Diffusion, що вимагає глибшого розгляду.

Відповідальність Deepfake

Як у нас нещодавно зазначив, база даних LAION-aesthetics, яка є частиною 4.2 мільярда зображень, на яких тренувалися поточні моделі Stable Diffusion, містить велику кількість зображень знаменитостей, що дозволяє користувачам ефективно створювати глибокі фейки, включно з глибокими фейками порно знаменитостей.

З нашої нещодавньої статті чотири етапи Дженніфер Коннеллі протягом чотирьох десятиліть її кар’єри, виведені з Stable Diffusion.

З нашої нещодавньої статті чотири етапи Дженніфер Коннеллі протягом чотирьох десятиліть її кар’єри, виведені з Stable Diffusion.

Це окреме та більш спірне питання, ніж створення (зазвичай) легального «абстрактного» порно, яке не зображує «реальних» людей (хоча такі зображення виводяться на основі кількох реальних фотографій у навчальному матеріалі).

Оскільки все більше штатів і країн США розробляють або запровадили закони проти підробленої порнографії, здатність Stable Diffusion створювати порнографію зі знаменитостями може означати, що комерційна програма, яка не повністю піддається цензурі (тобто, яка може створювати порнографічні матеріали), все ще може потребувати деяких здатність фільтрувати сприйняті обличчя знаменитостей.

Одним із методів було б створити вбудований «чорний список» термінів, які не будуть прийняті в підказках користувача, пов’язаних із іменами знаменитостей і вигаданими персонажами, з якими вони можуть бути пов’язані. Імовірно, такі параметри потрібно було б запровадити не лише англійською, оскільки вихідні дані містять інші мови. Іншим підходом може бути включення систем розпізнавання знаменитостей, таких як розроблені Clarifai.

Виробникам програмного забезпечення може знадобитися включити такі методи, можливо, спочатку вимкнені, щоб допомогти запобігти повноцінній автономній програмі Stable Diffusion від створення облич знаменитостей до прийняття нового законодавства, яке може зробити таку функціональність незаконною.

Однак знову ж таки, така функціональність може бути неминуче декомпільована та скасована зацікавленими сторонами; однак виробник програмного забезпечення може, у такому випадку, стверджувати, що це фактично несанкціонований вандалізм – доки цей вид зворотного проектування не буде зроблено надто легким.

Функції, які можуть бути включені

Основні функції в будь-якому дистрибутиві Stable Diffusion очікувалися б від будь-якої добре фінансованої комерційної програми. Вони включають можливість використовувати текстові підказки для створення відповідних зображень (перетворення тексту в зображення); можливість використовувати ескізи або інші зображення як орієнтири для нових згенерованих зображень (зображення до зображення); засоби для регулювання того, наскільки «творчою» є система, яка повинна бути; спосіб компромісу між часом візуалізації та якістю; та інші «основи», такі як додаткове автоматичне архівування зображень/підказок і регулярне додаткове масштабування через RealESRGAN, і принаймні елементарне «виправлення обличчя» з GFPGAN or CodeFormer.

Це досить «ванільна інсталяція». Давайте поглянемо на деякі з більш просунутих функцій, які зараз розробляються або розширюються, і які можна включити в повноцінну «традиційну» програму Stable Diffusion.

Стохастичне заморожування

Навіть якщо ти повторно використовувати насіння з попереднього успішного рендерингу дуже важко змусити Stable Diffusion точно повторити трансформацію, якщо будь-яка частина підказки або вихідне зображення (або обидва) змінено для наступного рендерингу.

Це проблема, якщо ви хочете використовувати EbSynth щоб застосувати трансформації Stable Diffusion до реального відео у зв’язаний у часі спосіб – хоча ця техніка може бути дуже ефективною для простих знімків голови та плечей:

Обмежений рух може зробити EbSynth ефективним засобом для перетворення трансформацій Stable Diffusion у реалістичне відео. Джерело: https://streamable.com/u0pgzd

Обмежений рух може зробити EbSynth ефективним засобом для перетворення трансформацій Stable Diffusion у реалістичне відео. Джерело: https://streamable.com/u0pgzd

EbSynth працює шляхом екстраполяції невеликої добірки «змінених» ключових кадрів у відео, яке було відтворено в серію файлів зображень (і які пізніше можна знову зібрати у відео).

У цьому прикладі з сайту EbSynth невелика жменька кадрів із відео намальована художньо. EbSynth використовує ці кадри як керівництво по стилю, щоб таким же чином змінити все відео так, щоб воно відповідало намальованому стилю. Джерело: https://www.youtube.com/embed/eghGQtQhY38

У цьому прикладі з сайту EbSynth невелика жменька кадрів із відео намальована художньо. EbSynth використовує ці кадри як керівництво по стилю, щоб таким же чином змінити все відео так, щоб воно відповідало намальованому стилю. Джерело: https://www.youtube.com/embed/eghGQtQhY38

У наведеному нижче прикладі, де (справжня) блондинка інструктор з йоги ліворуч майже не рухається, Stable Diffusion все ще має труднощі зі збереженням узгодженого обличчя, оскільки три зображення, які трансформуються як «ключові кадри», не є повністю ідентичними, навіть якщо всі вони мають однакове числове насіння.

Тут, навіть з однаковою підказкою та початковим значенням у всіх трьох трансформаціях і дуже мало змін між вихідними кадрами, м’язи тіла змінюються за розміром і формою, але, що важливіше, обличчя є непослідовним, що перешкоджає часовій узгодженості в потенційному рендері EbSynth.

Тут, навіть з однаковою підказкою та початковим значенням у всіх трьох трансформаціях і дуже мало змін між вихідними кадрами, м’язи тіла змінюються за розміром і формою, але, що важливіше, обличчя є непослідовним, що перешкоджає часовій узгодженості в потенційному рендері EbSynth.

Хоча наведене нижче відео SD/EbSynth є дуже винахідливим, де пальці користувача перетворено на (відповідно) пару штанин і качку, невідповідність штанів є символом проблеми, яку має Stable Diffusion у підтримці узгодженості в різних ключових кадрах. , навіть якщо вихідні фрейми схожі один на одного, а початкове число узгоджено.

Завдяки Stable Diffusion і EbSynth пальці людини стають людиною, що йде, і качкою. Джерело: https://old.reddit.com/r/StableDiffusion/comments/x92itm/proof_of_concept_using_img2img_ebsynth_to_animate/

Завдяки Stable Diffusion і EbSynth пальці людини стають людиною, що йде, і качкою. Джерело: https://old.reddit.com/r/StableDiffusion/comments/x92itm/proof_of_concept_using_img2img_ebsynth_to_animate/

Користувач, який створив це відео прокоментував що трансформація качки, мабуть, більш ефективна з двох, хоча й менш вражаюча та оригінальна, вимагала лише одного трансформованого ключового кадру, тоді як необхідно було відтворити 50 зображень стабільної дифузії, щоб створити прогулянкові штани, які демонструють більше тимчасового зображення невідповідність. Користувач також зазначив, що для досягнення узгодженості для кожного з 50 ключових кадрів знадобилося п’ять спроб.

Тому для справді комплексної програми Stable Diffusion було б дуже корисно забезпечити функціональні можливості, які максимально зберігають характеристики ключових кадрів.

Одна з можливостей полягає в тому, щоб програма дозволила користувачеві «заморозити» стохастичне кодування для перетворення на кожному кадрі, чого наразі можна досягти, лише змінивши вихідний код вручну. Як показує наведений нижче приклад, це сприяє часовій узгодженості, хоча, звичайно, не вирішує її:

Один користувач Reddit перетворив відео з веб-камери, на яких зображено себе на різних відомих людей, не просто зберігши зерно (що може зробити будь-яка реалізація Stable Diffusion), але й переконавшись, що параметр stochastic_encode() був ідентичним у кожному перетворенні. Це було досягнуто шляхом зміни коду, але легко могло стати доступним для користувача перемикачем. Однак очевидно, що це не вирішує всіх тимчасових проблем. Джерело: https://old.reddit.com/r/StableDiffusion/comments/wyeoqq/turning_img2img_into_vid2vid/

Один користувач Reddit перетворив відео з веб-камери, на яких зображено себе на різних відомих людей, не просто зберігши зерно (що може зробити будь-яка реалізація Stable Diffusion), але й переконавшись, що параметр stochastic_encode() був ідентичним у кожному перетворенні. Це було досягнуто шляхом зміни коду, але легко могло стати доступним для користувача перемикачем. Однак очевидно, що це не вирішує всіх тимчасових проблем. Джерело: https://old.reddit.com/r/StableDiffusion/comments/wyeoqq/turning_img2img_into_vid2vid/

Хмарна текстова інверсія

Кращим рішенням для виявлення узгоджених у часі символів і об’єктів є «запікати» їх у a Текстова інверсія – файл розміром 5 КБ, який можна навчити за кілька годин на основі лише п’яти анотованих зображень, які потім можна отримати за допомогою спеціального '*' підказка, уможливлюючи, наприклад, постійну появу нових персонажів для включення в розповідь.

Зображення, пов’язані з відповідними тегами, можна перетворити на окремі сутності за допомогою текстової інверсії та викликати без двозначності, у правильному контексті та стилі за допомогою спеціальних символічних слів. Джерело: https://huggingface.co/docs/diffusers/training/text_inversion

Зображення, пов’язані з відповідними тегами, можна перетворити на окремі сутності за допомогою текстової інверсії та викликати без двозначності, у правильному контексті та стилі за допомогою спеціальних символічних слів. Джерело: https://huggingface.co/docs/diffusers/training/text_inversion

Текстові інверсії є додатковими файлами до дуже великої та повністю навченої моделі, яку використовує Stable Diffusion, і фактично «вставляються» в процес виявлення/підказки, щоб вони могли брати участь у створених моделями сценах і скористайтеся перевагами величезної бази даних моделі про об’єкти, стилі, середовища та взаємодії.

Однак, незважаючи на те, що навчання текстової інверсії не займає багато часу, вона потребує значного обсягу VRAM; згідно з різними поточними інструкціями, десь між 12, 20 і навіть 40 Гб.

Оскільки більшість звичайних користувачів навряд чи матимуть у своєму розпорядженні таку потужність GPU, уже з’являються хмарні сервіси, які впораються з цією операцією, включаючи версію Hugging Face. Хоча є Впровадження Google Colab які можуть створювати текстові інверсії для Stable Diffusion, необхідна VRAM і вимоги до часу можуть зробити це складним для користувачів безкоштовного рівня Colab.

Для потенційної повномасштабної та добре інвестованої програми Stable Diffusion (установленої) передача цього важкого завдання на хмарні сервери компанії здається очевидною стратегією монетизації (за умови, що недорога або безкоштовна програма Stable Diffusion пронизана такими не- безкоштовна функціональність, яка здається ймовірною у багатьох можливих програмах, які з’являться на основі цієї технології протягом наступних 6-9 місяців).

Крім того, досить складний процес анотування та форматування надісланих зображень і тексту може виграти від автоматизації в інтегрованому середовищі. Потенційний «фактор звикання» створення унікальних елементів, які можуть досліджувати величезні світи Stable Diffusion і взаємодіяти з ними, здається потенційно примусовим як для звичайних ентузіастів, так і для молодих користувачів.

Універсальне швидке зважування

Існує багато поточних реалізацій, які дозволяють користувачеві призначати більший акцент на частину довгого текстового підказки, але інструментарій досить сильно відрізняється між ними, і часто є незграбним або неінтуїтивним.

Дуже популярна вилка Stable Diffusion від AUTOMATIC1111, наприклад, може зменшити або підвищити значення слова підказки, уклавши його в одну або декілька дужок (для зняття наголосу) або квадратних дужок для додаткового наголосу.

Квадратні та/або круглі дужки можуть змінити ваш сніданок у цій версії вагових підказок Stable Diffusion, але в будь-якому випадку це кошмар холестерину.

Квадратні та/або круглі дужки можуть змінити ваш сніданок у цій версії вагових підказок Stable Diffusion, але в будь-якому випадку це кошмар холестерину.

Інші ітерації Stable Diffusion використовують знаки оклику для виділення, тоді як найбільш універсальні дозволяють користувачам призначати ваги кожному слову в підказці через графічний інтерфейс користувача.

Система також повинна передбачати негативні швидкі ваги – не тільки для шанувальники жахів, але тому, що в латентному просторі Stable Diffusion може бути менш тривожних і більш повчальних таємниць, ніж може викликати наше обмежене використання мови.

Перемальовування

Невдовзі після сенсаційного відкритого вихідного коду Stable Diffusion, OpenAI намагався – здебільшого марно – повернути частину свого DALL-E 2 грому за допомогою оголошуючи «замальовування», яке дозволяє користувачеві розширити зображення за його межі за допомогою семантичної логіки та візуальної зв’язності.

Природно, з тих пір це було реалізовані в різних формах для стабільної дифузії, а також у Krita, і, безумовно, має бути включено до повної версії Stable Diffusion у стилі Photoshop.

Мозаїчне доповнення може майже нескінченно розширювати стандартний рендер 512x512, якщо це дозволяють підказки, існуюче зображення та семантична логіка. Джерело: https://github.com/lkwq007/stablediffusion-infinity

Мозаїчне доповнення може майже нескінченно розширювати стандартний рендер 512×512, якщо це дозволяють підказки, існуюче зображення та семантична логіка. Джерело: https://github.com/lkwq007/stablediffusion-infinity

Оскільки Stable Diffusion тренується на зображеннях розміром 512x512 пікселів (і з низки інших причин), він часто відрізає голови (або інші важливі частини тіла) людей, навіть якщо підказка чітко вказує на «виділення голови» тощо.

Типові приклади «обезглавлення» стабільної дифузії; але замальовування могло б повернути Джорджа на картину.

Типові приклади «обезглавлення» стабільної дифузії; але замальовування могло б повернути Джорджа на картину.

Будь-яка реалізація outpainting типу, зображеного на анімаційному зображенні вище (яка базується виключно на бібліотеках Unix, але має бути здатною до реплікації у Windows), також має бути розроблена як засіб для вирішення цієї проблеми одним клацанням миші/підказкою.

Наразі багато користувачів розширюють полотно «знеголових» зображень угору, приблизно заповнюють область голови та використовують img2img для завершення невдалого рендерингу.

Ефективне маскування, яке розуміє контекст

Маскування може бути жахливо помилковою справою в Stable Diffusion, залежно від форка чи версії. Часто там, де взагалі можливо намалювати цілісну маску, зазначена область у підсумку замальовується вмістом, який не враховує весь контекст зображення.

Одного разу я замаскував рогівку зображення обличчя та надав підказку 'блакитні очі' як намальована маска – лише для того, щоб виявити, що я, здавалося, дивлюся двома вирізаними людськими очима на віддалену картину неземного вигляду вовка. Мабуть, мені пощастило, що це був не Френк Сінатра.

Семантичне редагування також можливо за допомогою визначення шуму який створив зображення в першу чергу, що дозволяє користувачеві звертатися до конкретних структурних елементів візуалізації, не втручаючись у решту зображення:

Зміна одного елемента в зображенні без традиційного маскування та без зміни суміжного вмісту шляхом ідентифікації шуму, який спочатку створив зображення, і вирішення тих його частин, які внесли свій внесок у цільову область. Джерело: https://old.reddit.com/r/StableDiffusion/comments/xboy90/a_better_way_of_doing_img2img_by_finding_the/

Зміна одного елемента в зображенні без традиційного маскування та без зміни суміжного вмісту шляхом ідентифікації шуму, який уперше породив зображення, і звернення до його частин, які внесли вклад у цільову область. Джерело: https://old.reddit.com/r/StableDiffusion/comments/xboy90/a_better_way_of_doing_img2img_by_finding_the/

Цей метод заснований на Пробник K-Diffusion.

Семантичні фільтри для фізіологічних помилок

Як ми вже згадували раніше, Stable Diffusion може часто додавати або віднімати кінцівки, головним чином через проблеми з даними та недоліки в анотаціях, які супроводжують зображення, які її тренували.

Подібно до того хлопчика, який висунув язик на шкільному груповому фото, біологічні звірства Stable Diffusion не завжди очевидні, і ви можете додати в Instagram свій останній шедевр ШІ, перш ніж помітити додаткові руки чи оплавлені кінцівки.

Подібно до того хлопчика, який висунув язик на шкільному груповому фото, біологічні звірства Stable Diffusion не завжди очевидні, і ви можете додати в Instagram свій останній шедевр ШІ, перш ніж помітити додаткові руки чи оплавлені кінцівки.

Виправити такі помилки настільки важко, що було б корисно, якби повнорозмірна програма Stable Diffusion містила якусь систему анатомічного розпізнавання, яка б використовувала семантичну сегментацію, щоб обчислити, чи містить вхідне зображення серйозні анатомічні недоліки (як на зображенні вище). ), і відкидає його на користь нового відтворення перед тим, як представити його користувачеві.

Звичайно, ви можете захотіти відобразити богиню Калі чи Доктора Восьминога або навіть врятувати неушкоджену частину зображення з ураженою кінцівкою, тому ця функція має бути додатковим перемикачем.

Якби користувачі могли терпіти аспект телеметрії, такі осічки могли б навіть передаватися анонімно в рамках колективних зусиль федеративного навчання, що може допомогти майбутнім моделям покращити розуміння анатомічної логіки.

Автоматичне покращення обличчя на основі LAION

Як я зазначив у своїй попередній вигляд на три речі, які Stable Diffusion може вирішити в майбутньому, не слід залишати будь-якій версії GFPGAN намагатися «поліпшити» відрендерені грані в першому рендері.

«Покращення» GFPGAN є жахливо загальними, часто підривають ідентичність зображеної особи та діють виключно на обличчі, яке зазвичай відтворюється погано, оскільки воно отримало не більше часу чи уваги, ніж будь-яка інша частина зображення.

Тому професійна стандартна програма для Stable Diffusion повинна мати можливість розпізнавати обличчя (за допомогою стандартної та відносно легкої бібліотеки, такої як YOLO), застосовувати всю доступну потужність графічного процесора для його повторного відтворення та або змішувати покращене обличчя з вихідний повноконтекстний рендер або збережіть його окремо для ручного перекомпонування. Наразі це досить «практична» операція.

У випадках, коли Stable Diffusion було навчено на достатній кількості зображень знаменитостей, можна зосередити всю потужність графічного процесора на наступній візуалізації лише обличчя візуалізованого зображення, що зазвичай є помітним покращенням – і, на відміну від GFPGAN , використовує інформацію з даних, навчених LAION, а не просто коригує відтворені пікселі.

У випадках, коли Stable Diffusion було навчено на достатній кількості зображень знаменитостей, можна зосередити всю потужність графічного процесора на наступній візуалізації лише обличчя візуалізованого зображення, що зазвичай є помітним покращенням – і, на відміну від GFPGAN , використовує інформацію з даних, навчених LAION, а не просто коригує відтворені пікселі.

Пошуки в програмі LAION

Оскільки користувачі почали розуміти, що пошук понять, людей і тем у базі даних LAION може виявитися помічником у кращому використанні Stable Diffusion, було створено кілька онлайн-дослідників LAION, зокрема haveibeentrained.com.

Функція пошуку на сайті haveibeentrained.com дозволяє користувачам досліджувати зображення, що забезпечують стабільну дифузію, і з’ясовувати, чи об’єкти, люди чи ідеї, які вони могли б отримати від системи, ймовірно, були навчені їй. Такі системи також корисні для виявлення суміжних об’єктів, наприклад способу групування знаменитостей або «наступної ідеї», яка веде до поточної. Джерело: https://haveibeentrained.com/?search_text=bowl%20of%20fruit

Функція пошуку на сайті haveibeentrained.com дозволяє користувачам досліджувати зображення, що забезпечують стабільну дифузію, і з’ясовувати, чи об’єкти, люди чи ідеї, які вони могли б отримати від системи, ймовірно, були навчені їй. Такі системи також корисні для виявлення суміжних об’єктів, наприклад способу групування знаменитостей або «наступної ідеї», яка веде до поточної. Джерело: https://haveibeentrained.com/?search_text=bowl%20of%20fruit

Хоча такі веб-бази даних часто розкривають деякі теги, які супроводжують зображення, процес узагальнення що відбувається під час навчання моделі, означає, що малоймовірно, що будь-яке конкретне зображення можна викликати, використовуючи його тег як підказку.

Крім того, видалення стоп-слова а практика виведення коренів і лемматизації в обробці природної мови означає, що багато фраз, які демонструються, були розділені або пропущені перед тим, як їх навчити стабільній дифузії.

Тим не менш, те, як естетичні групи об’єднуються в ці інтерфейси, може навчити кінцевого користувача багато чому про логіку (або, можливо, «особистість») Stable Diffusion, і стати помічником для кращого створення зображення.

Висновок

Є багато інших функцій, які я хотів би бачити в повній нативній реалізації Stable Diffusion для робочого столу, наприклад нативний аналіз зображень на основі CLIP, який змінює стандартний процес Stable Diffusion і дозволяє користувачеві виявляти фрази та слова, які система природним чином асоціюється з вихідним зображенням або рендером.

Крім того, справжнє масштабування на основі плиток було б бажаним доповненням, оскільки ESRGAN є майже таким же тупим інструментом, як GFPGAN. На щастя, планує інтегрувати txt2imghd впровадження GOBIG швидко робить це реальністю в усіх дистрибутивах, і це здається очевидним вибором для ітерації настільного комп’ютера.

Деякі інші популярні запити від спільнот Discord цікавлять мене менше, наприклад інтегровані швидкі словники та відповідні списки виконавців і стилів, хоча блокнот у додатку чи настроюваний лексикон фраз виглядатимуть логічним доповненням.

Подібним чином поточні обмеження орієнтованої на людину анімації в Stable Diffusion, хоч і були започатковані CogVideo та різними іншими проектами, залишаються неймовірно зародженими та залежать від попередніх досліджень часових попередніх, пов’язаних із справжнім рухом людини.

Наразі відео Stable Diffusion є суворим психоделічний, хоча це може мати набагато світліше найближче майбутнє у глибокому фейковому ляльковому театрі через EbSynth та інші ініціативи з перетворення тексту у відео, які відносно зароджуються (і варто відзначити відсутність синтезованих або «змінених» людей у ​​Runway останнє рекламне відео).

Іншою важливою функціональністю може бути прозорий Photoshop pass-through, давно використаний у редакторі текстур Cinema4D серед інших подібних реалізацій. Завдяки цьому можна легко переміщати зображення між програмами та використовувати кожну програму для виконання перетворень, у яких вона чудова.

Нарешті, і, мабуть, найважливіше, повноцінна програма Stable Diffusion для настільного комп’ютера повинна мати можливість не лише легко перемикатися між контрольними точками (тобто версіями основної моделі, яка забезпечує роботу системи), але також повинна мати можливість оновлювати створені на замовлення текстові інверсії, які працювали з попередніми офіційними випусками моделі, але може бути порушено пізнішими версіями моделі (як зазначили розробники з офіційного Discord, це може бути).

За іронією долі, Adobe, яка має найкращі можливості для створення такої потужної та інтегрованої матриці інструментів для Stable Diffusion, так сильно об’єдналася з Ініціатива автентичності вмісту що це може здатися ретроградним піар-промахом для компанії – якщо тільки не обмежити генеративні можливості Stable Diffusion так само ретельно, як це зробив OpenAI з DALL-E 2, і натомість позиціонувати його як природну еволюцію її значних запасів у стоковій фотографії.

 

Вперше опубліковано 15 вересня 2022 р.