Artificial Intelligence

Перед стабильной диффузией стоят три задачи

обновленный on 9 декабря 2022

Ассоциация освободить Стабильная диффузия стабильности.ai скрытая диффузия Модель синтеза изображений пару недель назад может стать одним из самых значительных технологических раскрытий после DeCSS в 1999 г.; это, безусловно, крупнейшее событие в области изображений, созданных искусственным интеллектом, с 2017 года. код дипфейков был скопирован на GitHub и разветвлен на то, что станет DeepFaceLab и обмен лицами, а также программное обеспечение для потоковой передачи дипфейков в реальном времени. DeepFaceLive.

При инсульте, разочарование пользователя за ограничения контента в API синтеза изображений DALL-E 2 были отметены, так как выяснилось, что фильтр NSFW Stable Diffusion можно отключить, изменив единственная строка кода. Почти сразу же возникли порно-ориентированные Stable Diffusion Reddits, которые так же быстро были вырублены, в то время как лагерь разработчиков и пользователей разделил Discord на официальное и NSFW-сообщества, а Twitter начал наполняться фантастическими творениями Stable Diffusion.

На данный момент кажется, что каждый день приносит какие-то удивительные инновации от разработчиков, которые приняли систему, с плагинами и сторонними дополнениями, которые наспех пишутся для Krita, Photoshop, Cinema4D, смесительи многие другие платформы приложений.

Стабильная диффузия Krita Addon

Watch this video on YouTube

В то же время, подсказка – уже ставшее профессиональным искусство «шепота ИИ», которое может оказаться самым коротким вариантом карьеры со времен «связующего файла Filofax» – уже становится промышленное, а ранняя монетизация Stable Diffusion происходит на Уровень патреона, с уверенностью, что в будущем появятся более сложные предложения для тех, кто не хочет ориентироваться на основе Conda установки исходного кода или запрещающие фильтры NSFW веб-реализаций.

Темпы развития и свободное чувство исследования со стороны пользователей развиваются с такой головокружительной скоростью, что трудно заглянуть далеко вперед. По сути, мы еще точно не знаем, с чем имеем дело, или каковы все ограничения или возможности.

Тем не менее, давайте взглянем на три из наиболее интересных и сложных препятствий для быстро формирующегося и быстро растущего сообщества Stable Diffusion, с которыми придется столкнуться и, надеюсь, преодолеть.

1: Оптимизация конвейеров на основе тайлов

Учитывая ограниченные аппаратные ресурсы и жесткие ограничения на разрешение обучающих изображений, вполне вероятно, что разработчики найдут обходные пути для улучшения как качества, так и разрешения вывода Stable Diffusion. Многие из этих проектов предполагают использование ограничений системы, таких как ее собственное разрешение всего 512×512 пикселей.

Как всегда в случае с инициативами по компьютерному зрению и синтезу изображений, Stable Diffusion обучалась на изображениях с квадратным соотношением, в данном случае передискретизированных до 512×512, чтобы исходные изображения можно было упорядочить и вписаться в ограничения графических процессоров, которые обучил модель.

Следовательно, Stable Diffusion «думает» (если вообще думает) в терминах 512×512 и, конечно, в квадратных терминах. Многие пользователи, в настоящее время исследующие ограничения системы, сообщают, что Stable Diffusion дает наиболее надежные и наименее глючные результаты при этом довольно ограниченном соотношении сторон (см. «Устранение крайностей» ниже).

Хотя различные реализации поддерживают масштабирование через РеалESRGAN (и может исправить плохо отрисованные лица с помощью ГФГАН) несколько пользователей в настоящее время разрабатывают методы разделения изображений на секции размером 512x512 пикселей и объединения изображений в более крупные составные работы.

Этот рендеринг 1024x576, разрешение, обычно невозможное в одном рендере Stable Diffusion, был создан путем копирования и вставки файла Python внимание.py из ответвления DoggettX Stable Diffusion (версия, которая реализует масштабирование на основе тайлов) в другое ответвление. Источник: https://old.reddit.com/r/StableDiffusion/comments/x6yeam/1024x576_with_6gb_nice/

Этот рендеринг 1024×576, разрешение, обычно невозможное в одном рендере Stable Diffusion, был создан путем копирования и вставки файла Python внимание.py из ДоггетX ответвление Stable Diffusion (версия, реализующая масштабирование на основе тайлов) в другое ответвление. Источник: https://old.reddit.com/r/StableDiffusion/comments/x6yeam/1024x576_with_6gb_nice/

Хотя некоторые инициативы такого рода используют исходный код или другие библиотеки, порт txt2imghd of GOBIG (режим в требовательном к VRAM ProgRockDiffusion) настроен на скорое предоставление этой функциональности основной ветке. Хотя txt2imghd является выделенным портом GOBIG, другие усилия разработчиков сообщества включают различные реализации GOBIG.

Удобное абстрактное изображение в исходном рендере 512x512px (слева и второе слева); увеличено с помощью ESGRAN, который теперь более или менее встроен во все дистрибутивы Stable Diffusion; и уделено «особое внимание» через реализацию GOBIG, производя детали, которые, по крайней мере, в пределах раздела изображения, кажутся лучше увеличенными. Систочник: https://old.reddit.com/r/StableDiffusion/comments/x72460/stable_diffusion_gobig_txt2imghd_easy_mode_colab/

Тип абстрактного примера, приведенный выше, имеет множество «маленьких королевств» деталей, которые подходят для этого солипсистского подхода к масштабированию, но которые могут потребовать более сложных решений, основанных на коде, для создания неповторяющегося, связного масштабирования, которое не смотреть как будто собран из многих частей. Не в последнюю очередь в случае с человеческими лицами, когда мы необычайно настроены на аберрации или «резкие» артефакты. Поэтому лица могут в конечном итоге нуждаться в специальном решении.

В настоящее время Stable Diffusion не имеет механизма для фокусировки внимания на лице во время рендеринга таким же образом, как люди расставляют приоритеты в информации о лице. Хотя некоторые разработчики в сообществах Discord рассматривают методы реализации такого рода «повышенного внимания», в настоящее время гораздо проще вручную (и, в конечном итоге, автоматически) улучшить лицо после того, как был выполнен первоначальный рендеринг.

Человеческое лицо имеет внутреннюю и полную семантическую логику, которую нельзя найти в «плитке» нижнего угла (например) здания, и поэтому в настоящее время возможно очень эффективно «увеличить» и повторно отобразить изображение. «схематичное» лицо на выходе Stable Diffusion.

Слева: первоначальная работа Stable Diffusion с подсказкой: «Цветная фотография Кристины Хендрикс в полный рост в людном месте в плаще; Canon50, зрительный контакт, высокая детализация, высокая детализация лица». Справа: улучшенное лицо, полученное путем подачи размытого и схематичного лица из первого рендера обратно в полное внимание Stable Diffusion с использованием Img2Img (см. анимированные изображения ниже).

Слева: первоначальная работа Stable Diffusion с подсказкой: «Цветное фото Кристины Хендрикс в полный рост, входящей в людное место в плаще; Canon50, зрительный контакт, высокая детализация, высокая детализация лица». Справа: улучшенное лицо, полученное путем подачи размытого и схематичного лица из первого рендера обратно в полное внимание Stable Diffusion с использованием Img2Img (см. анимированные изображения ниже).

В отсутствие специального решения Textual Inversion (см. ниже) это будет работать только для изображений знаменитостей, где рассматриваемый человек уже хорошо представлен в подмножествах данных LAION, которые обучили Stable Diffusion. Поэтому он будет работать с такими людьми, как Том Круз, Брэд Питт, Дженнифер Лоуренс и ограниченным кругом подлинных медиа-светил, которые присутствуют в большом количестве изображений в исходных данных.

Создание правдоподобного изображения для прессы с подсказкой «Цветная фотография Кристины Хендрикс в полный рост, входящей в людное место в плаще; Canon50, зрительный контакт, высокая детализация, высокая детализация лица».

Для знаменитостей с долгой и стабильной карьерой Стабильная диффузия обычно генерирует образ человека в недавнем (т.е. более старшем) возрасте, и будет необходимо добавить оперативные дополнения, такие как 'молодой' or 'в году [ГОД]' для создания более молодых изображений.

Актриса Дженнифер Коннелли с выдающейся, часто фотографируемой и последовательной карьерой, охватывающей почти 40 лет, является одной из немногих знаменитостей в LAION, которые позволяют Stable Diffusion представлять целый ряд возрастов. Источник: препак Stable Diffusion, локальный, контрольная точка v1.4; возрастные подсказки.

Во многом это связано с распространением цифровой (а не дорогой фотоэмульсионной) пресс-фотографии с середины 2000-х годов и более поздним ростом объема выходных изображений из-за увеличения скорости широкополосного доступа.

Визуализированное изображение передается в Img2Img в Stable Diffusion, где выбирается «область фокусировки», и новый рендер максимального размера выполняется только для этой области, что позволяет Stable Diffusion сосредоточить все доступные ресурсы на воссоздании лица.

Вставка лица «высокого внимания» обратно в исходный рендер. Помимо лиц, этот процесс будет работать только с объектами, которые имеют потенциально известный, связный и целостный внешний вид, например, часть исходной фотографии, на которой есть отдельный объект, например часы или автомобиль. Масштабирование секции, например, стены приведет к очень странно выглядящей заново собранной стене, потому что рендеринг плитки не имел более широкого контекста для этого «кусочка головоломки» во время рендеринга.

Некоторые знаменитости в базе данных «предварительно заморожены» во времени, либо потому, что они рано умерли (например, Мэрилин Монро), либо получили лишь мимолетную известность в мейнстриме, создав большое количество изображений за ограниченный период времени. Polling Stable Diffusion, возможно, дает своего рода «текущий» индекс популярности для современных и старых звезд. Для некоторых старых и нынешних знаменитостей в исходных данных недостаточно изображений, чтобы получить очень хорошее сходство, в то время как неизменная популярность определенных давно умерших или иным образом угасших звезд гарантирует, что их разумное сходство может быть получено из системы.

Рендеринг Stable Diffusion быстро показывает, какие известные лица хорошо представлены в обучающих данных. Несмотря на свою огромную популярность в качестве старшего подростка на момент написания, Милли Бобби Браун была моложе и менее известна, когда исходные наборы данных LAION были извлечены из Интернета, что сделало проблематичным на данный момент высококачественное сходство со Stable Diffusion.

Там, где данные доступны, решения повышения разрешения на основе тайлов в Stable Diffusion могут пойти дальше, чем наведение на лицо: они потенциально могут обеспечить еще более точные и подробные лица, разбивая черты лица и отключая всю силу локального графического процессора. ресурсы по существенным функциям по отдельности, до повторной сборки — процесс, который в настоящее время, опять же, выполняется вручную.

Это не ограничивается лицами, но ограничивается частями объектов, которые, по крайней мере, так же предсказуемо расположены в более широком контексте основного объекта и соответствуют высокоуровневым вложениям, которые можно было бы разумно ожидать найти в гипермасштабе. набор данных.

Настоящим пределом является количество доступных эталонных данных в наборе данных, потому что, в конечном счете, глубоко повторенные детали станут полностью «галлюцинирующими» (т.е. вымышленными) и менее достоверными.

Такое высокоуровневое гранулярное расширение работает в случае с Дженнифер Коннелли, потому что она хорошо представлена в разных возрастных категориях. LAION-эстетика (первичное подмножество ЛАИОН 5Б который использует Stable Diffusion) и в целом по LAION; во многих других случаях точность может пострадать из-за отсутствия данных, что потребует либо точной настройки (дополнительное обучение, см. «Настройка» ниже), либо инверсии текста (см. ниже).

Плитки — это мощный и относительно дешевый способ, позволяющий стабильной диффузии производить выходные данные с высоким разрешением, но алгоритмическое мозаичное масштабирование такого типа, если ему не хватает какого-то более широкого механизма внимания более высокого уровня, может не оправдать надежды. для стандартов в различных типах контента.

2: Решение проблем с человеческими конечностями

Стабильная диффузия не оправдывает своего названия при изображении сложности человеческих конечностей. Руки могут беспорядочно размножаться, пальцы сливаются, третьи ноги появляются непрошено, а существующие конечности бесследно исчезают. В свою защиту Stable Diffusion разделяет проблему со своими коллегами по конюшне и, безусловно, с DALL-E 2.

Неотредактированные результаты DALL-E 2 и Stable Diffusion (1.4) в конце августа 2022 года, оба показывают проблемы с конечностями. Подсказка: «Женщина обнимает мужчину».

Поклонники стабильной диффузии, надеющиеся, что предстоящая контрольная точка 1.5 (более интенсивно обученная версия модели с улучшенными параметрами) решит путаницу с конечностями, скорее всего, будут разочарованы. Новая модель, которая выйдет в около двух недель, премьера которого в настоящее время проходит на коммерческом портале стабильности.ай. DreamStudio, в котором по умолчанию используется 1.5, и где пользователи могут сравнить новый вывод с рендерами из своих локальных или других систем 1.4:

Источник: предварительный пакет Local 1.4 и https://beta.dreamstudio.ai/

Как это часто бывает, главной причиной может быть качество данных.

Базы данных с открытым исходным кодом, которые поддерживают системы синтеза изображений, такие как Stable Diffusion и DALL-E 2, могут предоставить множество меток как для отдельных людей, так и для действий между людьми. Эти метки обучаются симбиотически со связанными с ними изображениями или сегментами изображений.

Пользователи Stable Diffusion могут изучить концепции, обученные модели, запросив набор данных LAION-aesthetics, подмножество более крупного набора данных LAION 5B, который обеспечивает работу системы. Изображения упорядочены не по их алфавитным меткам, а по их «эстетической оценке». Источник: https://rom1504.github.io/clip-retrieval/

A хорошая иерархия Индивидуальные метки и классы, способствующие изображению человеческой руки, будут чем-то вроде тело>рука>кисть>пальцы>[подпальцы + большой палец]> [сегменты пальцев]>ногти.

Зернистая семантическая сегментация частей руки. Даже эта необычно подробная деконструкция оставляет каждый «палец» как единое целое, не учитывая три части пальца и две части большого пальца. Источник: https://athitsos.utasites.cloud/publications/rezaei_petra2021.pdf

Зернистая семантическая сегментация частей руки. Даже эта необычайно подробная деконструкция оставляет каждый «палец» как единое целое, не считая трех частей пальца и двух частей большого пальца. Источник: https://athitsos.utasites.cloud/publications/rezaei_petra2021.pdf

В действительности исходные изображения вряд ли будут так последовательно аннотироваться по всему набору данных, и неконтролируемые алгоритмы маркировки, вероятно, остановятся на высший уровня, например, «руки», а внутренние пиксели (технически содержащие информацию о «пальцах») оставить как немаркированную массу пикселей, из которых будут произвольно получены признаки, и которые могут проявляться в более поздних рендерах как раздражающий элемент.

Как это должно быть (вверху справа, если не сверху) и как оно имеет тенденцию быть (внизу справа) из-за ограниченных ресурсов для маркировки или архитектурного использования таких меток, если они существуют в наборе данных.

Таким образом, если модель скрытой диффузии дойдет до рендеринга руки, она почти наверняка по крайней мере попытается отобразить руку на конце этой руки, потому что рука>рука это минимально необходимая иерархия, довольно высокая в том, что архитектура знает об «анатомии человека».

После этого «пальцы» могут быть наименьшей группой, даже несмотря на то, что есть еще 14 частей пальца / большого пальца, которые следует учитывать при изображении человеческих рук.

Если эта теория верна, то реального решения проблемы не существует из-за нехватки бюджета на ручную аннотацию в масштабах всего сектора и отсутствия адекватно эффективных алгоритмов, которые могли бы автоматизировать маркировку с низким уровнем ошибок. По сути, модель в настоящее время может полагаться на анатомическую согласованность человека, чтобы скрыть недостатки набора данных, на котором она обучалась.

Одна из возможных причин, почему это не может полагаться на это, в последнее время предложило на Stable Diffusion Discord заключается в том, что модель может запутаться в правильном количестве пальцев, которое должно быть у (реалистичной) человеческой руки, потому что в базе данных, полученной из LAION, представлены мультяшные персонажи, у которых может быть меньше пальцев (что само по себе сокращение трудозатрат).

Два потенциальных виновника синдрома «отсутствующего пальца» в стабильной диффузии и подобных моделях. Ниже приведены примеры мультяшных рук из набора данных LAION-aesthetics, поддерживающего Stable Diffusion. Источник: https://www.youtube.com/watch?v=0QZFQ3gbd6I

Если это так, то единственным очевидным решением будет переобучить модель, исключив нереалистичный человеческий контент, гарантируя, что подлинные случаи упущения (например, ампутированные конечности) должным образом помечены как исключения. Только с точки зрения курирования данных это было бы довольно сложной задачей, особенно для усилий сообщества, испытывающего нехватку ресурсов.

Второй подход заключается в применении фильтров, которые исключают отображение такого контента (т.е. «рука с тремя/пятью пальцами») во время рендеринга, почти так же, как OpenAI в определенной степени отфильтрованный ГПТ-3 и ДАЛЛ-Э 2, чтобы их вывод можно было регулировать без необходимости переобучения исходных моделей.

Для Stable Diffusion семантическое различие между цифрами и даже конечностями может стать ужасающе размытым, напоминая серию фильмов ужасов 1980-х годов «ужасов тела» от таких, как Дэвид Кроненберг. Источник: https://old.reddit.com/r/StableDiffusion/comments/x6htf6/a_study_of_stable_diffusions_strange_relationship/

Однако, опять же, для этого потребуются метки, которых может не быть на всех затронутых изображениях, что оставит нас с той же материально-технической и бюджетной проблемой.

Можно утверждать, что есть два оставшихся пути вперед: добавление большего количества данных для решения проблемы и применение сторонних интерпретирующих систем, которые могут вмешиваться, когда физические ошибки типа, описанного здесь, представляются конечному пользователю (по крайней мере, последний предоставит OpenAI способ возмещения средств за рендеринг «ужасов тела», если компания будет мотивирована на это).

3: Настройка

Одна из самых захватывающих возможностей для будущего Stable Diffusion — это перспектива пользователей или организаций, разрабатывающих пересмотренные системы; модификации, которые позволяют интегрировать в систему контент за пределами предварительно обученной сферы LAION - в идеале без неконтролируемых затрат на повторное обучение всей модели или риска, связанного с обучением большого объема новых изображений существующему, зрелому и способному модель.

По аналогии: если два менее одаренных ученика присоединятся к продвинутому классу из тридцати учеников, они либо ассимилируются и догонят, либо потерпят неудачу как исключение; в любом случае, средняя производительность класса, вероятно, не пострадает. Однако, если присоединятся 15 менее одаренных учеников, кривая оценок для всего класса, скорее всего, пострадает.

Точно так же синергетическая и довольно деликатная сеть отношений, которая создается в результате длительного и дорогостоящего обучения модели, может быть скомпрометирована, а в некоторых случаях фактически разрушена из-за чрезмерного количества новых данных, что снижает качество вывода для модели по всем направлениям.

Делать это нужно в первую очередь тогда, когда ваш интерес заключается в том, чтобы полностью украсть концептуальное понимание модели отношений и вещей и использовать его для эксклюзивного производства контента, аналогичного добавленному вами дополнительному материалу.

Таким образом, обучение 500,000 XNUMX Симпсоны кадры в существующую контрольную точку Stable Diffusion, вероятно, в конечном итоге поможет вам лучше Симпсоны симулятор, чем могла бы предложить первоначальная сборка, предполагая, что достаточно широкие семантические отношения переживут процесс (т.е. Гомер Симпсон ест хот-дог, что может потребовать материала о хот-догах, которого не было в вашем дополнительном материале, но уже было в чекпойнте), и предполагая, что вы не хотите внезапно переключаться с Симпсоны контент для создания сказочный пейзаж Грега Рутковски – потому что ваша постобученная модель сильно отвлеклась и не будет так хорошо делать такие вещи, как раньше.

Одним из ярких примеров этого является вайфу-диффузия, который успешно постобучение 56,000 XNUMX аниме-изображений в завершенный и обученный контрольно-пропускной пункт Stable Diffusion. Тем не менее, для любителя это непростая перспектива, поскольку для модели требуется минимум 30 ГБ видеопамяти, что намного превышает то, что, вероятно, будет доступно на потребительском уровне в будущих выпусках серии 40XX от NVIDIA.

Обучение пользовательского контента в Stable Diffusion: модели потребовалось две недели после обучения, чтобы вывести иллюстрацию такого уровня. Шесть изображений слева показывают прогресс модели в создании предметно-согласованных выходных данных на основе новых обучающих данных. Источник: https://gigazine.net/gsc_news/en/20220121-how-waifu-labs-create/

Обучение пользовательского контента в Stable Diffusion с помощью waifu-diffusion: модели потребовалось две недели после обучения, чтобы вывести этот уровень иллюстрации. Шесть изображений слева показывают прогресс модели по мере продолжения обучения в создании предметно-согласованных выходных данных на основе новых данных обучения. Источник: https://gigazine.net/gsc_news/en/20220121-how-waifu-labs-create/

На такие «развилки» контрольных точек Stable Diffusion можно было бы потратить много усилий, но только для того, чтобы зайти в тупик из-за технического долга. Разработчики в официальном Discord уже указали, что более поздние выпуски контрольных точек не обязательно будут обратно совместимыми, даже с логикой подсказок, которая могла работать с предыдущей версией, поскольку их основной интерес заключается в получении наилучшей возможной модели, а не в поддержке. устаревшие приложения и процессы.

Таким образом, компания или частное лицо, решившие превратить контрольно-пропускной пункт в коммерческий продукт, фактически не имеют пути назад; их версия модели на данный момент представляет собой «хардфорк» и не сможет извлечь выгоду из более поздних выпусков от стабильности.ай, что является довольно серьезным обязательством.

Текущая и большая надежда на настройку Stable Diffusion Текстовая инверсия, где пользователь тренируется на небольшом количестве CLIP-выровненные изображения.

Совместная работа Тель-Авивского университета и NVIDIA, текстовая инверсия позволяет обучать дискретные и новые объекты, не разрушая возможности исходной модели. Источник: https://textual-inversion.github.io/

Совместная работа Тель-Авивского университета и NVIDIA, инверсия текста позволяет обучать дискретные и новые объекты, не разрушая возможности исходной модели. Источник: https://textual-inversion.github.io/

Основное очевидное ограничение текстовой инверсии заключается в том, что рекомендуется очень небольшое количество изображений — всего пять. Это эффективно создает ограниченный объект, который может быть более полезен для задач передачи стиля, чем для вставки фотореалистичных объектов.

Тем не менее, в настоящее время проводятся эксперименты в различных стабильных диффузионных дискордах, в которых используется гораздо большее количество обучающих изображений, и еще неизвестно, насколько продуктивным может оказаться этот метод. Опять же, этот метод требует много видеопамяти, времени и терпения.

Из-за этих ограничивающих факторов нам, возможно, придется подождать некоторое время, чтобы увидеть некоторые из более сложных экспериментов по инверсии текста от энтузиастов стабильной диффузии — и может ли этот подход «поместить вас в картину» таким образом, который выглядит лучше, чем Вырежьте и вставьте в Photoshop, сохранив при этом поразительную функциональность официальных контрольных точек.

Впервые опубликовано 6 сентября 2022 г.

Наука о данных против интеллектуального анализа данных: ключевые различия

Не пропустите

Наука о данных против информатики: ключевые отличия

Мартин Андерсон

Автор статей о машинном обучении, искусственном интеллекте и больших данных.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai