Искусственный интеллект

Как стабильное распространение может превратиться в основной потребительский продукт

опубликованный 15 сентября, 2022

обновлено 9 декабря 2022

Мартин Андерсон

Как ни странно, Стабильная диффузияn, новая структура синтеза изображений на основе ИИ, которая произвела фурор во всем мире, не является ни стабильной, ни «распространенной» — по крайней мере, пока.

Весь спектр возможностей системы распределен по разнообразному шведскому столу постоянно меняющихся предложений горстки разработчиков, лихорадочно обменивающихся последней информацией и теориями в разнообразных дискуссиях на Discord, а подавляющее большинство процедур установки пакетов, которые они создают или изменяют, очень далеки от принципа «подключи и работай».

Скорее, они, как правило, требуют командной строки или управляемый BAT установка через GIT, Conda, Python, Miniconda и другие передовые среды разработки — программные пакеты, настолько редкие среди обычных потребителей, что их установка часто помечается поставщиками антивирусных и антивредоносных программ как свидетельство скомпрометированной хост-системы.

Только небольшой выбор этапов в перчатке, которая в настоящее время требуется для стандартной установки Stable Diffusion. Для многих дистрибутивов также требуются определенные версии Python, которые могут конфликтовать с существующими версиями, установленными на компьютере пользователя, хотя этого можно избежать с помощью установок на основе Docker и, в определенной степени, с помощью сред Conda.

Стандартная установка Stable Diffusion в настоящее время требует лишь небольшого набора этапов. Многие дистрибутивы также требуют определённых версий Python, которые могут конфликтовать с существующими версиями, установленными на компьютере пользователя, хотя этого можно избежать с помощью установки на основе Docker и, в определённой степени, с помощью сред Conda.

Потоки сообщений в сообществах SFW и NSFW Stable Diffusion переполнены советами и рекомендациями, связанными со взломом скриптов Python и стандартной установкой, чтобы обеспечить улучшенную функциональность или устранить частые ошибки зависимостей, а также ряд других проблем.

Это оставляет среднего потребителя, заинтересованного в создание потрясающих образов из текстовых подсказок, в значительной степени во власти растущего числа монетизированных веб-интерфейсов API, большинство из которых предлагают минимальное количество бесплатных поколений изображений, прежде чем потребуется покупка токенов.

Кроме того, почти все эти веб-предложения отказываются выводить контент NSFW (большая часть которого может относиться к непорнографическим темам общего интереса, таким как «война»), что отличает Stable Diffusion от упрощенных сервисов OpenAI DALL-E 2.

«Photoshop для стабильной диффузии»

Под влиянием сказочных, пикантных или потусторонних образов, которые ежедневно появляются в хэштеге #stablediffusion в Twitter, весь остальной мир, вероятно, ждет «Photoshop для стабильной диффузии» – кроссплатформенное устанавливаемое приложение, которое объединяет в себе лучшие и наиболее мощные функциональные возможности архитектуры Stability.ai, а также различные гениальные инновации развивающегося сообщества разработчиков SD, без каких-либо плавающих окон CLI, непонятных и постоянно меняющихся процедур установки и обновления или отсутствующих функций.

То, что у нас есть в настоящее время, в большинстве более функциональных установок, представляет собой элегантную веб-страницу, окруженную бестелесным окном командной строки, и URL-адрес которой является портом локального хоста:

Подобно приложениям для синтеза на основе CLI, таким как FaceSwap и ориентированному на BAT DeepFaceLab, «предварительная» установка Stable Diffusion показывает свои корни командной строки с доступом к интерфейсу через локальный порт (см. с функциональностью Stable Diffusion на основе CLI.

Подобно приложениям синтеза на основе CLI, таким как FaceSwap и DeepFaceLab, ориентированным на BAT, предупакованная установка Stable Diffusion демонстрирует свои корни командной строки, при этом доступ к интерфейсу осуществляется через порт localhost (см. верхнюю часть изображения выше), который взаимодействует с функциональностью Stable Diffusion на основе CLI.

Без сомнения, грядет более оптимизированное приложение. Уже есть несколько встроенных приложений на основе Patreon, которые можно загрузить, например, ГРиск и НМКД (см. изображение ниже).

Ранние пакеты Stable Diffusion на основе Patreon, слегка «приложенные». NMKD первым интегрировал вывод командной строки непосредственно в графический интерфейс.

Ранние пакеты Stable Diffusion, основанные на Patreon, слегка «прикладные». NMKD — первый, кто интегрировал вывод CLI непосредственно в графический интерфейс.

Давайте посмотрим, как в конечном итоге может выглядеть более совершенная и целостная реализация этого удивительного чуда с открытым исходным кодом, и с какими трудностями она может столкнуться.

Юридические аспекты полностью финансируемого коммерческого приложения стабильной диффузии

Фактор NSFW

Исходный код Stable Diffusion был выпущен под лицензией чрезвычайно либеральная лицензия который не запрещает коммерческие повторные реализации и производные работы, которые в значительной степени основаны на исходном коде.

Помимо вышеупомянутого и растущего числа сборок Stable Diffusion на основе Patreon, а также большого количества плагинов приложений, разрабатываемых для Figma, Krita, Photoshop, GIMP и смеситель (среди прочих) нет практический Причина, по которой хорошо финансируемая компания по разработке программного обеспечения не может разработать гораздо более сложное и функциональное приложение Stable Diffusion. С точки зрения рынка есть все основания полагать, что несколько таких инициатив уже реализуются.

Здесь такие усилия сразу же сталкиваются с дилеммой относительно того, будет ли приложение, как и большинство веб-API для Stable Diffusion, разрешать собственный фильтр NSFW Stable Diffusion ( фрагмент кода), чтобы быть выключенным.

«Похороны» NSFW-переключателя

Хотя лицензия Stability.ai с открытым исходным кодом для Stable Diffusion включает в себя широко интерпретируемый список приложений, для которых она может не использоваться (возможно, в том числе порнографическое содержание и deepfakes), единственный способ, которым поставщик может эффективно запретить такое использование, — это скомпилировать фильтр NSFW в непрозрачный исполняемый файл вместо параметра в файле Python или принудительно применить сравнение контрольной суммы в файле Python или DLL, содержащем директиву NSFW. так что рендеринг не может произойти, если пользователи изменят этот параметр.

Это оставило бы предполагаемое приложение «кастрированным» во многом таким же образом, как DALL-E 2 в настоящее время, что снижает его коммерческую привлекательность. Кроме того, неизбежно в торрент-сообществе/хакерском сообществе появятся декомпилированные «подправленные» версии этих компонентов (либо оригинальные элементы среды выполнения Python, либо скомпилированные DLL-файлы, которые сейчас используются в линейке инструментов улучшения изображений Topaz с использованием ИИ), позволяющие обойти эти ограничения, просто заменив блокирующие элементы и отменив любые требования к контрольной сумме.

В конце концов, поставщик может просто повторить предупреждение Stability.ai о ненадлежащем использовании, которое характеризует первый запуск многих текущих распределений Stable Diffusion.

Тем не менее, небольшие разработчики с открытым исходным кодом, которые в настоящее время используют случайные заявления об отказе от ответственности, мало что теряют по сравнению с компанией-разработчиком программного обеспечения, которая вложила значительное количество времени и денег в то, чтобы сделать Stable Diffusion полнофункциональным и доступным, что требует более глубокого рассмотрения.

Ответственность за дипфейк

Поскольку у нас есть недавно отметилБаза данных LAION-aesthetics, часть 4.2 млрд изображений, на которых обучались текущие модели Stable Diffusion, содержит большое количество изображений знаменитостей, что позволяет пользователям эффективно создавать дипфейки, включая дипфейковую порнографию со знаменитостями.

Из нашей недавней статьи четыре этапа Дженнифер Коннелли за четыре десятилетия ее карьеры, выведенные из стабильной диффузии.

Это отдельный и более спорный вопрос, чем создание (обычно) легальной «абстрактной» порнографии, в которой не изображены «реальные» люди (хотя такие изображения выводятся из множества реальных фотографий в обучающих материалах).

Поскольку все большее число штатов и стран США разрабатывают или уже ввели законы против фейковой порнографии, способность Stable Diffusion создавать порнографию со знаменитостями может означать, что коммерческое приложение, которое не подвергается полной цензуре (т.е. может создавать порнографические материалы), все равно может нуждаться в некоторой возможности отфильтровывать воспринимаемые лица знаменитостей.

Один из методов — создать встроенный «чёрный список» терминов, которые не будут приниматься в качестве запроса пользователя, включая имена знаменитостей и вымышленных персонажей, с которыми они могут быть связаны. Предположительно, такие настройки потребуется реализовать не только на английском языке, поскольку исходные данные содержат информацию и на других языках. Другой подход может заключаться во внедрении систем распознавания знаменитостей, подобных тем, что разработаны Clarifai.

Производителям программного обеспечения может быть необходимо включить такие методы, которые, возможно, изначально были отключены, что может помочь предотвратить создание полноценным автономным приложением Stable Diffusion лиц знаменитостей до принятия нового законодательства, которое может сделать такую функциональность незаконной.

Однако и в этом случае такая функциональность неизбежно может быть декомпилирована и изменена заинтересованными сторонами; однако производитель программного обеспечения может в этом случае заявить, что это фактически несанкционированный вандализм - до тех пор, пока этот вид реверс-инжиниринга не будет чрезмерно упрощен.

Возможности, которые могут быть включены

Основные функциональные возможности любого дистрибутива Stable Diffusion можно ожидать от любого хорошо финансируемого коммерческого приложения. К ним относится возможность использовать текстовые подсказки для создания подходящих изображений (текст в изображение); возможность использовать эскизы или другие изображения в качестве руководства для новых сгенерированных изображений (изображение к изображению); средства настройки того, насколько «изобретательной» должна быть система; способ достижения компромисса между временем рендеринга и качеством; и другие «базовые» функции, такие как опциональное автоматическое архивирование изображений/запросов и обычное опциональное масштабирование с помощью РеалESRGAN, и по крайней мере базовая «коррекция лица» с помощью ГФПГАН or КодФормер.

Это довольно простая установка. Давайте рассмотрим некоторые из более продвинутых функций, которые сейчас разрабатываются или расширяются и которые можно включить в полноценное «традиционное» приложение Stable Diffusion.

Стохастическая заморозка

Даже если ты повторно использовать семя из предыдущего успешного рендера ужасно сложно заставить Stable Diffusion точно повторять трансформацию, если любая часть подсказки или исходного изображения (или обоих) изменяется для последующего рендеринга.

Это проблема, если вы хотите использовать ЭбСинт для наложения преобразований Stable Diffusion на реальное видео с временной согласованностью — хотя эта техника может быть очень эффективна для простых кадров «голова и плечи»:

Ограниченное движение может сделать EbSynth эффективной средой для превращения преобразований Stable Diffusion в реалистичное видео. Источник: https://streamable.com/u0pgzd

EbSynth работает, экстраполируя небольшой набор «измененных» ключевых кадров в видео, которое затем преобразуется в серию файлов изображений (которые впоследствии можно собрать обратно в видео).

В этом примере с сайта EbSynth небольшое количество кадров из видео нарисовано в художественной манере. EbSynth использует эти кадры в качестве руководства по стилю, чтобы аналогичным образом изменить все видео, чтобы оно соответствовало нарисованному стилю. Источник: https://www.youtube.com/embed/eghGQtQhY38

В примере ниже, где слева изображена практически неподвижная светловолосая инструктор по йоге, Stable Diffusion все еще испытывает трудности с сохранением постоянства лица, поскольку три изображения, преобразуемые в «ключевые кадры», не полностью идентичны, хотя все они имеют одинаковое числовое начальное значение.

Здесь, даже с одним и тем же приглашением и начальным значением для всех трех преобразований и очень небольшими изменениями между исходными кадрами, мышцы тела различаются по размеру и форме, но, что более важно, лицо непоследовательно, что препятствует временной согласованности в потенциальном рендеринге EbSynth.

Хотя представленное ниже видео SD/EbSynth весьма изобретательно, в котором пальцы пользователя трансформировались (соответственно) в пару шагающих штанов и утку, непоследовательность брюк наглядно демонстрирует проблему Stable Diffusion в поддержании последовательности в разных ключевых кадрах, даже если исходные кадры похожи друг на друга, а начальное число является постоянным.

Пальцы человека становятся ходячим человеком и уткой с помощью Stable Diffusion и EbSynth. Источник: https://old.reddit.com/r/StableDiffusion/comments/x92itm/proof_of_concept_using_img2img_ebsynth_to_animate/

Пальцы человека превращаются в идущего человека и утку с помощью Stable Diffusion и EbSynth. Источник: https://old.reddit.com/r/StableDiffusion/comments/x92itm/proof_of_concept_using_img2img_ebsynth_to_animate/

Пользователь, создавший это видео заявила что преобразование утки, возможно, более эффективное из двух, хотя и менее яркое и оригинальное, потребовало только одного ключевого кадра преобразования, в то время как для создания прогулочных брюк, которые демонстрируют более временную ориентацию, необходимо было выполнить рендеринг 50 изображений Stable Diffusion. непоследовательность. Пользователь также отметил, что потребовалось пять попыток для достижения согласованности для каждого из 50 ключевых кадров.

Поэтому было бы большим преимуществом, если бы действительно комплексное приложение Stable Diffusion обеспечивало функциональность, максимально сохраняющую характеристики по ключевым кадрам.

Одна из возможностей заключается в том, чтобы приложение позволяло пользователю «замораживать» стохастическое кодирование для преобразования в каждом кадре, что в настоящее время возможно только путём ручного редактирования исходного кода. Как показано в примере ниже, это способствует временной согласованности, хотя, конечно, не решает её:

Один пользователь Reddit трансформировал кадры с веб-камеры, на которых он запечатлен, в разных известных людей, не просто сохраняя начальное число (что может сделать любая реализация Stable Diffusion), но и гарантируя, что параметр stochastic_encode() идентичен при каждом преобразовании. Это было достигнуто путем изменения кода, но может легко стать доступным для пользователя переключателем. Ясно, однако, что это не решает всех временных проблем. Источник: https://old.reddit.com/r/StableDiffusion/comments/wyeoqq/turning_img2img_into_vid2vid/

Облачная инверсия текста

Лучшим решением для выявления временных согласованных персонажей и объектов является их «запекание» в Текстовая инверсия – файл размером 5 КБ, который можно обучить за несколько часов на основе всего пяти аннотированных изображений, которые затем можно извлечь с помощью специального '*' подсказка, позволяющая, например, постоянное появление новых персонажей для включения в повествование.

Изображения, связанные с соответствующими тегами, могут быть преобразованы в отдельные объекты с помощью инверсии текста и вызваны без двусмысленности, в правильном контексте и стиле с помощью специальных слов-символов. Источник: https://huggingface.co/docs/diffusers/training/text_inversion

Текстовые инверсии являются дополнительными файлами для очень большой и полностью обученной модели, которую использует Stable Diffusion, и эффективно «встраиваются» в процесс извлечения/подсказывания, так что они могут участвовать в сценах, созданных на основе модели, и воспользоваться огромной базой данных модели, содержащей знания об объектах, стилях, средах и взаимодействиях.

Однако, хотя обучение текстовой инверсии не занимает много времени, для нее требуется большой объем видеопамяти; согласно различным текущим пошаговым инструкциям, где-то между 12, 20 и даже 40 ГБ.

Поскольку большинство случайных пользователей вряд ли будут иметь в своем распоряжении такой вес графического процессора, уже появляются облачные сервисы, которые справятся с этой операцией, включая версию Hugging Face. Хотя есть Реализации Google Colab которые могут создавать текстовые инверсии для Stable Diffusion, необходимая видеопамять и требования к времени могут сделать это сложным для пользователей бесплатного уровня Colab.

Для потенциально полноценного и хорошо проинвестированного (установленного) приложения Stable Diffusion передача этой сложной задачи на облачные серверы компании представляется очевидной стратегией монетизации (при условии, что недорогое или бесплатное приложение Stable Diffusion наполнено такой несвободной функциональностью, что, по всей вероятности, будет иметь место во многих возможных приложениях, которые появятся на основе этой технологии в течение следующих 6–9 месяцев).

Кроме того, довольно сложный процесс аннотирования и форматирования представленных изображений и текста мог бы выиграть от автоматизации в интегрированной среде. Потенциальный «фактор привыкания» к созданию уникальных элементов, позволяющих исследовать и взаимодействовать с обширными мирами Stable Diffusion, может показаться потенциально непреодолимым как для обычных энтузиастов, так и для молодых пользователей.

Универсальное взвешивание подсказок

Существует множество текущих реализаций, которые позволяют пользователю выделять часть длинного текстового приглашения, но инструментальные средства довольно сильно различаются между ними и часто бывают неуклюжими или неинтуитивными.

Очень популярная вилка Stable Diffusion. АВТОМАТИЧЕСКИЙ1111, например, может понизить или повысить значение слова-подсказки, заключив его в одну или несколько квадратных скобок (для уменьшения акцента) или в квадратные скобки для дополнительного выделения.

Квадратные скобки и/или круглые скобки могут преобразить ваш завтрак в этой версии весов подсказок Stable Diffusion, но в любом случае это кошмар холестерина.

Квадратные скобки и/или круглые скобки могут преобразить ваш завтрак в этой версии подсказок по весу стабильной диффузии, но в любом случае это кошмар для холестерина.

В других итерациях Stable Diffusion для выделения используются восклицательные знаки, а наиболее универсальные позволяют пользователям назначать вес каждому слову в подсказке через графический интерфейс.

Система также должна позволять отрицательные мгновенные веса - не только для фанаты ужасов, а потому, что в скрытом пространстве Устойчивой Диффузии могут быть менее тревожные и более поучительные тайны, чем те, которые мы можем обнаружить, используя ограниченное использование языка.

Перекраска

Вскоре после сенсационного открытия Stable Diffusion с открытым исходным кодом OpenAI попыталась — по большей части тщетно — вернуть часть своего успеха DALL-E 2 с помощью объявляющий «перерисовка», которая позволяет пользователю расширить изображение за его границы с помощью семантической логики и визуальной связности.

Естественно, с тех пор это ввело в различных формах для стабильной диффузии, а также в Крите, и, безусловно, должен быть включен в комплексную версию Stable Diffusion в стиле Photoshop.

Расширение на основе тайлов может почти бесконечно расширять стандартный рендеринг 512x512, если это позволяют подсказки, существующее изображение и семантическая логика. Источник: https://github.com/lkwq007/stablediffusion-infinity

Аугментация на основе тайлов может почти бесконечно расширять стандартный рендеринг 512×512, если это позволяют подсказки, существующее изображение и семантическая логика. Источник: https://github.com/lkwq007/stablediffusion-infinity

Поскольку Stable Diffusion обучается на изображениях размером 512x512 пикселей (и по ряду других причин), он часто отрезает головы (или другие существенные части тела) у людей, даже когда в подсказке четко указано «выделение головы» и т. д.

Типичные примеры «обезглавливания» стабильной диффузии; но перекрашивание могло вернуть Джорджа на сцену.

Типичные примеры «обезглавливания» в результате устойчивой диффузии; однако закрашивание может вернуть Джорджа на место.

Любая реализация перерисовки типа, показанного на анимированном изображении выше (которая основана исключительно на библиотеках Unix, но должна быть способна быть воспроизведена в Windows), также должна быть инструментом для решения этой проблемы одним щелчком мыши / подсказкой.

В настоящее время ряд пользователей расширяют холст «обезглавленных» изображений вверх, грубо заполняют область головы и используют img2img для завершения неудачного рендеринга.

Эффективная маскировка с учетом контекста

Маскировка В Stable Diffusion может быть ужасно непредсказуемым явлением, в зависимости от используемой версии или форка. Зачастую, даже там, где удаётся нарисовать целостную маску, указанная область оказывается закрашенной содержимым, не учитывающим весь контекст изображения.

Однажды я замаскировал роговицы изображения лица и предоставил подсказку. 'голубые глаза' как маска, нарисованная в краске, – и обнаружил, что смотрю сквозь два вырезанных человеческих глаза на далёкую картину с изображением волка неземного вида. Наверное, мне повезло, что это был не Фрэнк Синатра.

Также возможно семантическое редактирование определение шума который создает изображение в первую очередь, что позволяет пользователю обращаться к определенным структурным элементам в рендеринге, не мешая остальной части изображения:

Изменение одного элемента изображения без традиционного маскирования и без изменения соседнего содержимого путем определения шума, из-за которого изображение изначально возникло, и устранения его частей, которые внесли свой вклад в целевую область. Источник: https://old.reddit.com/r/StableDiffusion/comments/xboy90/a_better_way_of_doing_img2img_by_finding_the/

Этот метод основан на К-диффузионный пробоотборник.

Семантические фильтры для физиологических глупостей

Как мы уже упоминали ранее, Stable Diffusion может часто добавлять или убирать конечности, в основном из-за проблем с данными и недостатков в аннотациях, сопровождающих изображения, на которых он обучался.

Как и тот заблудший ребенок, который высунул язык на школьной групповой фотографии, биологические злодеяния Stable Diffusion не всегда сразу очевидны, и вы, возможно, разместили в Instagram свой последний шедевр искусственного интеллекта, прежде чем заметите дополнительные руки или расплавленные конечности.

Как и тот непослушный ребенок, высунувший язык на групповой школьной фотографии, биологические зверства Stable Diffusion не всегда очевидны сразу, и вы, возможно, выложили в Instagram свой последний шедевр ИИ, прежде чем заметили дополнительные руки или расплавленные конечности.

Исправить такие ошибки настолько сложно, что было бы полезно, если бы полноразмерное приложение Stable Diffusion содержало какую-то систему распознавания анатомических данных, которая использовала бы семантическую сегментацию для вычисления того, имеет ли входящее изображение серьезные анатомические дефекты (как на изображении выше). ) и отбрасывает его в пользу нового рендера, прежде чем представить его пользователю.

Конечно, вы можете захотеть изобразить богиню Кали или Доктора Осьминога или даже спасти нетронутую часть изображения с пораженными конечностями, поэтому эта функция должна быть необязательным переключателем.

Если бы пользователи могли терпеть аспект телеметрии, такие осечки могли бы даже передаваться анонимно в рамках коллективных усилий федеративного обучения, что может помочь будущим моделям улучшить их понимание анатомической логики.

Автоматическое улучшение лица на основе LAION

Как я отметил в своем предыдущий вид Среди трех вещей, которые Stable Diffusion может решить в будущем, нельзя оставлять попытки «улучшить» визуализированные лица при первом рендеринге исключительно на усмотрение какой-либо версии GFPGAN.

«Усовершенствования» GFPGAN ужасно шаблонны, часто подрывают индивидуальность изображенного человека и работают исключительно с лицом, которое, как правило, визуализируется плохо, поскольку ему уделяется не больше времени или внимания при обработке, чем любой другой части изображения.

Поэтому профессиональная программа для Stable Diffusion должна уметь распознавать лицо (с помощью стандартной и относительно лёгкой библиотеки, такой как YOLO), задействовать все доступные ресурсы графического процессора для его повторного рендеринга и либо добавлять улучшенное лицо в исходный полноконтекстный рендер, либо сохранять его отдельно для ручной рекомпозиции. В настоящее время это довольно «ручная» операция.

В тех случаях, когда Stable Diffusion был обучен на достаточном количестве изображений знаменитости, можно сосредоточить всю мощность GPU на последующем рендеринге исключительно лица визуализируемого изображения, что обычно является заметным улучшением — и, в отличие от GFPGAN , использует информацию из данных, обученных LAION, а не просто корректирует отображаемые пиксели.

В случаях, когда Stable Diffusion обучен на достаточном количестве изображений знаменитости, можно сосредоточить всю мощность графического процессора на последующем рендеринге исключительно лица рендерированного изображения, что обычно является заметным улучшением — и, в отличие от GFPGAN, использует информацию из данных, обученных LAION, а не просто корректирует рендеринговые пиксели.

Поиски в приложении LAION

С тех пор, как пользователи начали понимать, что поиск концепций, людей и тем в базе данных LAION может оказаться полезным для более эффективного использования Stable Diffusion, было создано несколько онлайн-исследователей LAION, включая haveibeentrained.com.

Функция поиска на сайте haveibeentrained.com позволяет пользователям исследовать изображения, лежащие в основе стабильной диффузии, и узнавать, были ли объекты, люди или идеи, которые они хотели бы извлечь из системы, обучены ей. Такие системы также полезны для обнаружения смежных объектов, таких как группировка знаменитостей или «следующая идея», которая следует за текущей. Источник: https://haveibeentrained.com/?search_text=bowl%20of%20fruit

Функция поиска на сайте haveibeentrained.com позволяет пользователям изучать изображения, лежащие в основе Stable Diffusion, и определять, были ли объекты, люди или идеи, которые они хотели бы получить от системы, обучены ей. Такие системы также полезны для поиска смежных сущностей, например, способа кластеризации знаменитостей или «следующей идеи», вытекающей из текущей. Источник: https://haveibeentrained.com/?search_text=bowl%20of%20fruit

Хотя такие веб-базы данных часто раскрывают некоторые теги, сопровождающие изображения, процесс обобщение то, что происходит во время обучения модели, означает, что маловероятно, что какое-либо конкретное изображение может быть вызвано с использованием его тега в качестве подсказки.

Кроме того, удаление «стоп-слова» а практика стемминга и лемматизации в обработке естественного языка означает, что многие отображаемые фразы были разделены или опущены до того, как они были обучены стабильной диффузии.

Тем не менее, способ, которым эстетические группировки связываются в этих интерфейсах, может многому научить конечного пользователя относительно логики (или, возможно, «индивидуальности») Stable Diffusion и оказаться средством для лучшего создания изображений.

Заключение

Есть много других функций, которые я хотел бы видеть в полноценной нативной реализации Stable Diffusion для настольных компьютеров, например, встроенный анализ изображений на основе CLIP, который меняет стандартный процесс Stable Diffusion и позволяет пользователю извлекать фразы и слова, которые система естественным образом связывает с исходным изображением или рендерингом.

Кроме того, истинное масштабирование на основе тайлов было бы желанным дополнением, поскольку ESRGAN является почти таким же грубым инструментом, как и GFPGAN. К счастью, планируется интегрировать txt2imghd реализация GOBIG быстро делает это реальностью во всех дистрибутивах, и это кажется очевидным выбором для настольной итерации.

Некоторые другие популярные запросы от сообществ Discord меня интересуют меньше, такие как встроенные словари подсказок и применимые списки исполнителей и стилей, хотя блокнот в приложении или настраиваемый словарь фраз казались бы логичным дополнением.

Точно так же текущие ограничения ориентированной на человека анимации в Stable Diffusion, хотя и были запущены CogVideo и различными другими проектами, остаются невероятно зарождающимися и зависят от предшествующих исследований временных априорных данных, касающихся подлинного человеческого движения.

На данный момент видео Stable Diffusion строго психоделики, хотя у него может быть гораздо более светлое ближайшее будущее в искусстве кукольного искусства с использованием EbSynth и других относительно новых инициатив преобразования текста в видео (и стоит отметить отсутствие синтезированных или «измененных» людей в сериале «Подиум» последний рекламный ролик).

Ещё одной ценной функцией является прозрачный сквозной режим Photoshop, давно реализованный в редакторе текстур Cinema4D и других подобных реализациях. Благодаря этому можно легко переносить изображения между приложениями и использовать каждое из них для выполнения преобразований, в которых оно превосходно справляется.

Наконец, и, возможно, это наиболее важно, полнофункциональная программа Stable Diffusion должна иметь возможность не только легко переключаться между контрольными точками (то есть версиями базовой модели, на которой работает система), но также должна иметь возможность обновлять пользовательские текстовые инверсии, которые работали. с предыдущими официальными выпусками модели, но в противном случае может быть нарушена более поздними версиями модели (как указали разработчики в официальном Discord).

По иронии судьбы, Adobe, организация, которая имеет наилучшие возможности для создания такой мощной и интегрированной матрицы инструментов для Stable Diffusion, так сильно объединилась с Инициатива аутентичности контента что это может показаться ретроградной ошибкой в связях с общественностью компании — если только она не попытается ограничить генеративные возможности Stable Diffusion так же основательно, как OpenAI сделала с DALL-E 2, и вместо этого позиционировать ее как естественное развитие своих значительных активов в области стоковой фотографии.

Впервые опубликовано 15 сентября 2022 г.