Свяжитесь с нами:

Перед стабильной диффузией стоят три задачи

Искусственный интеллект

Перед стабильной диффузией стоят три задачи

mm

Команда освободить стабильной диффузии stable.ai скрытая диффузия Модель синтеза изображений пару недель назад может стать одним из самых значительных технологических раскрытий после DeCSS в 1999 г.; это, безусловно, самое крупное событие в области создания изображений с помощью искусственного интеллекта с 2017 года код дипфейков был скопирован на GitHub и разветвлен на то, что станет DeepFaceLab и обмен лицами, а также программное обеспечение для потоковой передачи дипфейков в реальном времени. DeepFaceLive.

При инсульте, разочарование пользователя за ограничения контента в API синтеза изображений DALL-E 2 были отброшены, поскольку выяснилось, что фильтр NSFW Stable Diffusion можно отключить, изменив единственная строка кода. Почти сразу же возникли порно-ориентированные Stable Diffusion Reddits, которые так же быстро были вырублены, в то время как лагерь разработчиков и пользователей разделил Discord на официальное и NSFW-сообщества, а Twitter начал наполняться фантастическими творениями Stable Diffusion.

На данный момент кажется, что каждый день приносит какие-то удивительные инновации от разработчиков, которые приняли систему, с плагинами и сторонними дополнениями, которые наспех пишутся для Krita, Photoshop, Cinema4D, смесительи многие другие платформы приложений.

В то же время, подсказка – теперь уже профессиональное искусство «нашептывания ИИ», которое может оказаться самым коротким вариантом карьеры со времен «переплетчика Filofax» – уже становится промышленное, а ранняя монетизация Stable Diffusion происходит на Уровень патреона, с уверенностью, что в будущем появятся более сложные предложения для тех, кто не хочет ориентироваться на основе Conda установки исходного кода или запрещающие фильтры NSFW веб-реализаций.

Темпы развития и чувство свободного исследования со стороны пользователей настолько головокружительны, что трудно заглядывать далеко вперёд. По сути, мы пока точно не знаем, с чем имеем дело и какие ограничения и возможности могут существовать.

Тем не менее, давайте рассмотрим три наиболее интересных и сложных препятствия, с которыми придется столкнуться быстро формирующемуся и быстро растущему сообществу Stable Diffusion и, как мы надеемся, преодолеть их.

1: Оптимизация конвейеров на основе тайлов

Учитывая ограниченные аппаратные ресурсы и жесткие ограничения на разрешение обучающих изображений, вполне вероятно, что разработчики найдут обходные пути для улучшения как качества, так и разрешения вывода Stable Diffusion. Многие из этих проектов предполагают использование ограничений системы, таких как ее собственное разрешение всего 512×512 пикселей.

Как всегда в случае с инициативами по компьютерному зрению и синтезу изображений, Stable Diffusion обучалась на изображениях с квадратным соотношением, в данном случае передискретизированных до 512×512, чтобы исходные изображения можно было упорядочить и вписаться в ограничения графических процессоров, которые обучил модель.

Следовательно, Stable Diffusion «думает» (если вообще думает) в терминах 512×512, и уж точно в квадратных. Многие пользователи, исследующие возможности системы, отмечают, что Stable Diffusion даёт наиболее надёжные и наименее глючные результаты при таком довольно ограниченном соотношении сторон (см. раздел «Устранение экстремальных ситуаций» ниже).

Хотя различные реализации поддерживают масштабирование через РеалESRGAN (и может исправить плохо отрисованные лица с помощью ГФГАН) несколько пользователей в настоящее время разрабатывают методы разделения изображений на секции размером 512x512 пикселей и объединения изображений в более крупные составные работы.

Этот рендеринг 1024x576, разрешение, обычно невозможное в одном рендере Stable Diffusion, был создан путем копирования и вставки файла Python внимание.py из ответвления DoggettX Stable Diffusion (версия, которая реализует масштабирование на основе тайлов) в другое ответвление. Источник: https://old.reddit.com/r/StableDiffusion/comments/x6yeam/1024x576_with_6gb_nice/

Этот рендеринг 1024×576, разрешение, обычно невозможное в одном рендере Stable Diffusion, был создан путем копирования и вставки файла Python внимание.py из ДоггетX ответвление Stable Diffusion (версия, реализующая масштабирование на основе тайлов) в другое ответвление. Источник: https://old.reddit.com/r/StableDiffusion/comments/x6yeam/1024x576_with_6gb_nice/

Хотя некоторые инициативы такого рода используют исходный код или другие библиотеки, порт txt2imghd of GOBIG (режим в требовательном к VRAM ProgRockDiffusion) настроен на скорое предоставление этой функциональности основной ветке. Хотя txt2imghd является выделенным портом GOBIG, другие усилия разработчиков сообщества включают различные реализации GOBIG.

Удобное абстрактное изображение в исходном рендере 512x512px (слева и второе слева); увеличено с помощью ESGRAN, который теперь более или менее встроен во все дистрибутивы Stable Diffusion; и уделено «особое внимание» через реализацию GOBIG, производя детали, которые, по крайней мере, в пределах раздела изображения, кажутся лучше увеличенными. Источник: https://old.reddit.com/r/StableDiffusion/comments/x72460/stable_diffusion_gobig_txt2imghd_easy_mode_colab/

Удобное абстрактное изображение в исходном рендере размером 512x512 пикселей (слева и второе слева); масштабирование выполнено с помощью ESGRAN, который теперь более или менее встроен во все распределения Stable Diffusion; и ему уделено «особое внимание» с помощью реализации GOBIG, создающей детали, которые, по крайней мере в пределах области изображения, выглядят лучше при масштабировании. Sисточник: https://old.reddit.com/r/StableDiffusion/comments/x72460/stable_diffusion_gobig_txt2imghd_easy_mode_colab/

Вид абстрактного примера, показанного выше, имеет много «маленьких королевств» деталей, которые соответствуют этому солипсическому подходу к масштабированию, но которые могут потребовать более сложных решений на основе кода для создания неповторяющегося, связного масштабирования, которое не смотреть Как будто он был собран из множества деталей. Это особенно заметно в случае с человеческими лицами, поскольку мы необычайно восприимчивы к аберрациям и «резким» артефактам. Поэтому для распознавания лиц в конечном итоге может потребоваться специальное решение.

В настоящее время Stable Diffusion не располагает механизмом, позволяющим фокусировать внимание на лице во время рендеринга так же, как люди приоритизируют информацию о лице. Хотя некоторые разработчики в Discord-сообществах рассматривают методы реализации такого «повышенного внимания», в настоящее время гораздо проще вручную (а в перспективе и автоматически) улучшить лицо после первоначального рендеринга.

Человеческое лицо имеет внутреннюю и полную семантическую логику, которую невозможно найти в «плитке» нижнего угла (например) здания, и поэтому в настоящее время можно очень эффективно «увеличить» и повторно отобразить «эскизное» лицо в выходных данных Stable Diffusion.

Слева: первоначальная работа Stable Diffusion с подсказкой: «Цветная фотография Кристины Хендрикс в полный рост в людном месте в плаще; Canon50, зрительный контакт, высокая детализация, высокая детализация лица». Справа: улучшенное лицо, полученное путем подачи размытого и схематичного лица из первого рендера обратно в полное внимание Stable Diffusion с использованием Img2Img (см. анимированные изображения ниже).

Слева: первоначальный результат Stable Diffusion с подсказкой «Цветное фото Кристины Хендрикс в полный рост, входящей в людное место в плаще; Canon 50, зрительный контакт, высокая детализация, высокая детализация лица». Справа: улучшенное лицо, полученное путём передачи размытого и схематичного изображения с первого рендера обратно в Stable Diffusion с помощью Img2Img (см. анимированные изображения ниже).

В отсутствие специального решения Textual Inversion (см. ниже) это будет работать только для изображений знаменитостей, где рассматриваемый человек уже хорошо представлен в подмножествах данных LAION, которые обучили Stable Diffusion. Поэтому он будет работать с такими людьми, как Том Круз, Брэд Питт, Дженнифер Лоуренс и ограниченным кругом подлинных медиа-светил, которые присутствуют в большом количестве изображений в исходных данных.

Создание правдоподобного изображения для прессы с подсказкой «Цветная фотография Кристины Хендрикс в полный рост, входящей в людное место в плаще; Canon50, зрительный контакт, высокая детализация, высокая детализация лица».

Создание правдоподобного пресс-фото с подсказкой «Цветное фото Кристины Хендрикс в полный рост, входящей в многолюдное место в плаще; Canon 50, зрительный контакт, высокая детализация, высокая детализация лица».

Для знаменитостей с долгой и стабильной карьерой Стабильная диффузия обычно генерирует образ человека в недавнем (т.е. более старшем) возрасте, и будет необходимо добавить оперативные дополнения, такие как 'молодой' or «в году [ГОД]» для создания более молодых изображений.

Актриса Дженнифер Коннелли с выдающейся, часто фотографируемой и последовательной карьерой, охватывающей почти 40 лет, является одной из немногих знаменитостей в LAION, которые позволяют Stable Diffusion представлять целый ряд возрастов. Источник: препак Stable Diffusion, локальный, контрольная точка v1.4; возрастные подсказки.

Актриса Дженнифер Коннелли с выдающейся, часто фотографируемой и последовательной карьерой, охватывающей почти 40 лет, является одной из немногих знаменитостей в LAION, которые позволяют Stable Diffusion представлять целый ряд возрастов. Источник: препак Stable Diffusion, локальный, контрольная точка v1.4; возрастные подсказки.

Во многом это связано с распространением цифровой (а не дорогой фотоэмульсионной) пресс-фотографии с середины 2000-х годов и более поздним ростом объема выходных изображений из-за увеличения скорости широкополосного доступа.

Визуализированное изображение передается в Img2Img в Stable Diffusion, где выбирается «область фокусировки», и новый рендер максимального размера выполняется только для этой области, что позволяет Stable Diffusion сосредоточить все доступные ресурсы на воссоздании лица.

Визуализированное изображение передается в Img2Img в Stable Diffusion, где выбирается «зона фокусировки» и создается новый рендер максимального размера только для этой области, что позволяет Stable Diffusion сосредоточить все доступные ресурсы на воссоздании лица.

Вставка лица «высокого внимания» обратно в исходный рендер. Помимо лиц, этот процесс будет работать только с объектами, которые имеют потенциально известный, связный и целостный внешний вид, например, часть исходной фотографии, на которой есть отдельный объект, например, часы или автомобиль. Масштабирование части, например, стены приведет к очень странному виду повторно собранной стены, потому что рендеринг плитки не имел более широкого контекста для этого «кусочка головоломки» во время рендеринга.

Возвращаем «лицо, привлекающее внимание» на исходный рендер. Помимо лиц, этот процесс будет работать только с сущностями, имеющими потенциально известный, связный и целостный вид, например, с фрагментом исходной фотографии, содержащим отдельный объект, например, часы или автомобиль. Увеличение масштаба фрагмента, например, стены, приведёт к очень странному виду восстановленной стены, поскольку при рендеринге плиток не учитывался более широкий контекст для этого «фрагмента пазла».

Некоторые знаменитости в базе данных «предварительно заморожены» во времени, либо потому, что они рано умерли (например, Мэрилин Монро), либо приобрели лишь мимолетную известность, создав большое количество изображений за ограниченный период времени. Можно утверждать, что Polling Stable Diffusion предоставляет своего рода «текущий» индекс популярности современных и пожилых звёзд. Для некоторых знаменитостей старшего возраста и нынешних звёзд в исходных данных недостаточно изображений для получения очень хорошего сходства, в то время как устойчивая популярность некоторых давно умерших или потускневших звёзд гарантирует, что система сможет получить их приемлемое сходство.

Рендеринг Stable Diffusion быстро показывает, какие известные лица хорошо представлены в обучающих данных. Несмотря на свою огромную популярность в качестве старшего подростка на момент написания, Милли Бобби Браун была моложе и менее известна, когда исходные наборы данных LAION были извлечены из Интернета, что сделало проблематичным на данный момент высококачественное сходство со Stable Diffusion.

Рендеринг Stable Diffusion быстро показывает, какие известные лица хорошо представлены в обучающих данных. Несмотря на свою огромную популярность в качестве старшего подростка на момент написания, Милли Бобби Браун была моложе и менее известна, когда исходные наборы данных LAION были извлечены из Интернета, что сделало проблематичным на данный момент высококачественное сходство со Stable Diffusion.

Там, где данные доступны, решения повышения разрешения на основе тайлов в Stable Diffusion могут пойти дальше, чем наведение на лицо: они потенциально могут обеспечить еще более точные и подробные лица, разбивая черты лица и отключая всю силу локального графического процессора. ресурсы по существенным функциям по отдельности, до повторной сборки — процесс, который в настоящее время, опять же, выполняется вручную.

Это не ограничивается лицами, но ограничивается частями объектов, которые, по крайней мере, так же предсказуемо расположены в более широком контексте основного объекта и соответствуют высокоуровневым вложениям, которые можно было бы разумно ожидать найти в гипермасштабе. набор данных.

Реальным ограничением является объем доступных справочных данных в наборе данных, поскольку в конечном итоге глубоко итерированные детали станут полностью «галлюцинаторными» (т. е. вымышленными) и менее достоверными.

Такое высокоуровневое гранулярное расширение работает в случае с Дженнифер Коннелли, потому что она хорошо представлена ​​в разных возрастных категориях. LAION-эстетика (первичное подмножество ЛАИОН 5Б (используемый Stable Diffusion) и в целом по LAION; во многих других случаях точность может пострадать из-за отсутствия данных, что потребует либо тонкой настройки (дополнительного обучения, см. «Настройка» ниже), либо текстовой инверсии (см. ниже).

Плитки — это мощный и относительно дешевый способ, позволяющий стабильной диффузии производить выходные данные с высоким разрешением, но алгоритмическое мозаичное масштабирование такого типа, если ему не хватает какого-то более широкого механизма внимания более высокого уровня, может не оправдать надежды. для стандартов в различных типах контента.

2: Решение проблем с человеческими конечностями

Stable Diffusion не оправдывает своего названия, когда дело касается описания сложности человеческих конечностей. Руки могут размножаться случайным образом, пальцы срастаться, третьи ноги появляются сами собой, а существующие конечности исчезают бесследно. В свою защиту, Stable Diffusion разделяет эту проблему со своими собратьями по конюшне, и, конечно же, с DALL-E 2.

Неотредактированные результаты DALL-E 2 и Stable Diffusion (1.4) в конце августа 2022 года, оба показывают проблемы с конечностями. Подсказка: «Женщина обнимает мужчину».

Неотредактированные результаты DALL-E 2 и Stable Diffusion (1.4) от конца августа 2022 года. В обоих случаях наблюдаются проблемы с конечностями. В подсказке: «Женщина обнимает мужчину».

Поклонники стабильной диффузии, надеющиеся, что предстоящая контрольная точка 1.5 (более интенсивно обученная версия модели с улучшенными параметрами) решит путаницу с конечностями, скорее всего, будут разочарованы. Новая модель, которая выйдет в около двух недель, премьера которого в настоящее время проходит на коммерческом портале стабильности.ай. DreamStudio, в котором по умолчанию используется 1.5, и где пользователи могут сравнить новый вывод с рендерами из своих локальных или других систем 1.4:

Источник: предварительный пакет Local 1.4 и https://beta.dreamstudio.ai/

Источник: предварительный пакет Local 1.4 и https://beta.dreamstudio.ai/

Источник: предварительный пакет Local 1.4 и https://beta.dreamstudio.ai/

Источник: предварительный пакет Local 1.4 и https://beta.dreamstudio.ai/

Источник: предварительный пакет Local 1.4 и https://beta.dreamstudio.ai/

Источник: предварительный пакет Local 1.4 и https://beta.dreamstudio.ai/

Как это часто бывает, главной причиной может быть качество данных.

Базы данных с открытым исходным кодом, которые поддерживают системы синтеза изображений, такие как Stable Diffusion и DALL-E 2, могут предоставить множество меток как для отдельных людей, так и для действий между людьми. Эти метки обучаются симбиотически со связанными с ними изображениями или сегментами изображений.

Пользователи Stable Diffusion могут изучить концепции, обученные модели, запросив набор данных LAION-aesthetics, подмножество более крупного набора данных LAION 5B, который обеспечивает работу системы. Изображения упорядочены не по их алфавитным меткам, а по их «эстетической оценке». Источник: https://rom1504.github.io/clip-retrieval/

Пользователи Stable Diffusion могут исследовать концепции, заложенные в модель, выполняя запросы к набору данных LAION-aesthetics, подмножеству более крупного набора данных LAION 5B, на котором основана система. Изображения упорядочены не по алфавитным меткам, а по «эстетической оценке». Источник: https://rom1504.github.io/clip-retrieval/

A хорошая иерархия Индивидуальные метки и классы, способствующие изображению человеческой руки, будут чем-то вроде тело>рука>кисть>пальцы>[подпальцы + большой палец]> [сегменты пальцев]>ногти.

Зернистая семантическая сегментация частей руки. Даже эта необычно подробная деконструкция оставляет каждый «палец» как единое целое, не учитывая три части пальца и две части большого пальца. Источник: https://athitsos.utasites.cloud/publications/rezaei_petra2021.pdf

Детальная семантическая сегментация частей руки. Даже эта необычайно подробная деконструкция рассматривает каждый «палец» как единое целое, не учитывая три части указательного пальца и две части большого пальца. Источник: https://athitsos.utasites.cloud/publications/rezaei_petra2021.pdf

В действительности исходные изображения вряд ли будут так последовательно аннотироваться по всему набору данных, и неконтролируемые алгоритмы маркировки, вероятно, остановятся на высший уровень, например, «руки», и оставить внутренние пиксели (которые технически содержат информацию о «пальце») как немаркированную массу пикселей, из которой будут произвольно выведены признаки, и которая может проявиться в последующих рендерах как резкий элемент.

Как это должно быть (вверху справа, если не сверху) и как оно имеет тенденцию быть (внизу справа) из-за ограниченных ресурсов для маркировки или архитектурного использования таких меток, если они существуют в наборе данных.

Как это должно быть (вверху справа, если не сверху) и как оно имеет тенденцию быть (внизу справа) из-за ограниченных ресурсов для маркировки или архитектурного использования таких меток, если они существуют в наборе данных.

Таким образом, если модель скрытой диффузии доходит до визуализации руки, она почти наверняка попытается, по крайней мере, визуализировать кисть на конце этой руки, потому что рука>рука — это минимально необходимая иерархия, достаточно высоко находящаяся в знании архитектуры о «человеческой анатомии».

После этого «пальцы» могут оказаться самой маленькой группой, хотя при изображении человеческих рук следует учитывать еще 14 подчастей пальцев/большого пальца.

Если эта теория верна, то реального решения проблемы не существует из-за нехватки бюджета на ручную аннотацию в масштабах всего сектора и отсутствия адекватно эффективных алгоритмов, которые могли бы автоматизировать маркировку с низким уровнем ошибок. По сути, модель в настоящее время может полагаться на анатомическую согласованность человека, чтобы скрыть недостатки набора данных, на котором она обучалась.

Одна из возможных причин, почему это не может полагаться на это, в последнее время предложило на Stable Diffusion Discord заключается в том, что модель может запутаться в правильном количестве пальцев, которое должно быть у (реалистичной) человеческой руки, потому что в базе данных, полученной из LAION, представлены мультяшные персонажи, у которых может быть меньше пальцев (что само по себе сокращение трудозатрат).

Два потенциальных виновника синдрома «отсутствующего пальца» в стабильной диффузии и подобных моделях. Ниже приведены примеры мультяшных рук из набора данных LAION-aesthetics, поддерживающего Stable Diffusion. Источник: https://www.youtube.com/watch?v=0QZFQ3gbd6I

Два потенциальных виновника синдрома «отсутствующего пальца» в Stable Diffusion и подобных моделях. Ниже приведены примеры рисованных рук из набора данных LAION-aesthetics, используемого в Stable Diffusion. Источник: https://www.youtube.com/watch?v=0QZFQ3gbd6I

Если это так, то единственным очевидным решением будет переобучить модель, исключив нереалистичный человеческий контент, гарантируя, что подлинные случаи упущения (например, ампутированные конечности) должным образом помечены как исключения. Только с точки зрения курирования данных это было бы довольно сложной задачей, особенно для усилий сообщества, испытывающего нехватку ресурсов.

Второй подход заключается в применении фильтров, которые исключают проявление такого контента (например, «руки с тремя/пятью пальцами») во время рендеринга, во многом таким же образом, как это делает OpenAI, в определенной степени, отфильтрованный ГПТ-3 и ДАЛЛ-Э 2, чтобы их вывод можно было регулировать без необходимости переобучения исходных моделей.

Для Stable Diffusion семантическое различие между цифрами и даже конечностями может стать ужасающе размытым, напоминая серию фильмов ужасов 1980-х годов «ужас тела» от таких, как Дэвид Кроненберг. Источник: https://old.reddit.com/r/StableDiffusion/comments/x6htf6/a_study_of_stable_diffusions_strange_relationship/

В случае со Stable Diffusion семантическое различие между пальцами и даже конечностями может стать ужасно размытым, вызывая в памяти жанр фильмов ужасов «боди-хоррор» 1980-х годов, снятых, например, Дэвидом Кроненбергом. Источник: https://old.reddit.com/r/StableDiffusion/comments/x6htf6/a_study_of_stable_diffusions_strange_relationship/

Однако, опять же, для этого потребуются метки, которых может не быть на всех затронутых изображениях, что оставит нас с той же материально-технической и бюджетной проблемой.

Можно утверждать, что есть два оставшихся пути для продвижения вперед: предоставление большего количества данных для решения проблемы и применение сторонних систем интерпретации, которые могут вмешаться, когда конечному пользователю демонстрируются физические ошибки, подобные описанным здесь (по крайней мере, последний вариант даст OpenAI способ возмещать деньги за рендеры в стиле «боди-хоррор», если у компании будет мотивация сделать это).

3: Настройка

Одна из самых захватывающих возможностей для будущего Stable Diffusion — это перспектива пользователей или организаций, разрабатывающих пересмотренные системы; модификации, которые позволяют интегрировать в систему контент за пределами предварительно обученной сферы LAION - в идеале без неконтролируемых затрат на повторное обучение всей модели или риска, связанного с обучением большого объема новых изображений существующему, зрелому и способному модель.

По аналогии: если два менее одарённых ученика присоединятся к продвинутому классу из тридцати учеников, они либо ассимилируются и догонят, либо окажутся в числе аномалий; в любом случае средняя успеваемость класса, вероятно, не пострадает. Однако, если присоединятся 15 менее одарённых учеников, кривая успеваемости всего класса, вероятно, пострадает.

Точно так же синергетическая и довольно деликатная сеть отношений, которая создается в результате длительного и дорогостоящего обучения модели, может быть скомпрометирована, а в некоторых случаях фактически разрушена из-за чрезмерного количества новых данных, что снижает качество вывода для модели по всем направлениям.

Это необходимо делать в первую очередь в тех случаях, когда ваш интерес заключается в полном захвате концептуального понимания модели взаимосвязей и вещей и его использовании для эксклюзивного производства контента, аналогичного добавленному вами дополнительному материалу.

Таким образом, обучение 500,000 XNUMX Симпсоны кадры в существующую контрольную точку Stable Diffusion, вероятно, в конечном итоге поможет вам лучше Симпсоны симулятор, чем могла бы предложить первоначальная сборка, предполагая, что достаточно широкие семантические отношения переживут процесс (т.е. Гомер Симпсон ест хот-дог, который может потребовать материал о хот-догах, которого не было в вашем дополнительном материале, но который уже существовал в контрольной точке), и предполагая, что вы не хотите внезапно переключиться с Симпсоны контент для создания сказочный пейзаж Грега Рутковски – потому что внимание вашей обученной модели было в значительной степени отвлечено, и она не сможет выполнять подобные задачи так хорошо, как раньше.

Одним из ярких примеров этого является вайфу-диффузия, который успешно постобучение 56,000 XNUMX аниме-изображений в готовую и обученную контрольную точку Stable Diffusion. Однако для любителя это непростая задача, поскольку модель требует впечатляющего минимума в 30 ГБ видеопамяти, что значительно превышает тот объём, который, вероятно, будет доступен на потребительском уровне в будущих релизах NVIDIA серии 40XX.

Обучение пользовательского контента в Stable Diffusion: модели потребовалось две недели после обучения, чтобы вывести иллюстрацию такого уровня. Шесть изображений слева показывают прогресс модели в создании предметно-согласованных выходных данных на основе новых обучающих данных. Источник: https://gigazine.net/gsc_news/en/20220121-how-waifu-labs-create/

Обучение пользовательского контента в Stable Diffusion с помощью waifu-diffusion: модели потребовалось две недели после обучения, чтобы вывести этот уровень иллюстрации. Шесть изображений слева показывают прогресс модели по мере продолжения обучения в создании предметно-согласованных выходных данных на основе новых данных обучения. Источник: https://gigazine.net/gsc_news/en/20220121-how-waifu-labs-create/

На подобные «форки» контрольных точек Stable Diffusion можно потратить немало усилий, но всё это может увязнуть в технической задолженности. Разработчики в официальном Discord уже отметили, что последующие выпуски контрольных точек не обязательно будут обратно совместимыми, даже с логикой подсказок, которая могла работать с предыдущей версией, поскольку их главная цель — получить наилучшую возможную модель, а не поддерживать устаревшие приложения и процессы.

Таким образом, у компании или частного лица, которые решат перейти от контрольной точки к коммерческому продукту, фактически нет пути назад; их версия модели на этом этапе представляет собой «жесткую вилку», и они не смогут извлечь выгоду из последующих релизов stable.ai, что является серьезным обязательством.

Текущая и большая надежда на настройку Stable Diffusion Текстовая инверсия, где пользователь тренируется на небольшом количестве CLIP-выровненные изображения.

Совместная работа Тель-Авивского университета и NVIDIA, текстовая инверсия позволяет обучать дискретные и новые объекты, не разрушая возможности исходной модели. Источник: https://textual-inversion.github.io/

Совместная работа Тель-Авивского университета и NVIDIA, инверсия текста позволяет обучать дискретные и новые объекты, не разрушая возможности исходной модели. Источник: https://textual-inversion.github.io/

Основное очевидное ограничение текстовой инверсии заключается в том, что рекомендуется очень небольшое количество изображений — всего пять. Это эффективно создает ограниченный объект, который может быть более полезен для задач передачи стиля, чем для вставки фотореалистичных объектов.

Тем не менее, в настоящее время проводятся эксперименты в различных стабильных диффузионных дискордах, в которых используется гораздо большее количество обучающих изображений, и еще неизвестно, насколько продуктивным может оказаться этот метод. Опять же, этот метод требует много видеопамяти, времени и терпения.

Из-за этих ограничивающих факторов нам, возможно, придется подождать некоторое время, чтобы увидеть более сложные эксперименты по инверсии текста от энтузиастов Stable Diffusion, а также узнать, сможет ли этот подход «поместить вас в картину» так, чтобы это выглядело лучше, чем копирование и вставка в Photoshop, сохраняя при этом поразительную функциональность официальных контрольных точек.

 

Впервые опубликовано 6 сентября 2022 г.

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai