Искусственный интеллект
Руководство по самообслуживанию: улучшение качества выборки диффузионных моделей

Модели шумоподавления и диффузии — это генеративные платформы искусственного интеллекта, которые синтезируют изображения из шума посредством итеративного процесса шумоподавления. Они известны своими исключительными возможностями и разнообразием создания изображений, во многом благодаря методам управления с использованием текста или классов, включая руководство с помощью классификатора и руководство без классификатора. Эти модели особенно добились успеха в создании разнообразных высококачественных изображений. Недавние исследования показали, что такие методы управления, как подписи классов и метки, играют решающую роль в повышении качества изображений, генерируемых этими моделями.
Однако модели диффузии и методы наведения сталкиваются с ограничениями при определенных внешних условиях. Метод управления без классификатора (CFG), в котором используется отбрасывание меток, усложняет процесс обучения, в то время как метод управления классификатором (CG) требует дополнительного обучения классификатора. Оба метода в некоторой степени ограничены из-за того, что они полагаются на с трудом заработанные внешние условия, что ограничивает их потенциал и ограничивает их условными условиями.
Чтобы устранить эти ограничения, разработчики сформулировали более общий подход к управлению распространением, известный как «Руководство по самообслуживанию» (SAG). Этот метод использует информацию из промежуточных образцов моделей диффузии для создания изображений. В этой статье мы рассмотрим SAG, обсудим его работу, методологию и результаты в сравнении с современными платформами и конвейерами.
Руководство по самообслуживанию: улучшение качества выборки диффузионных моделей
Модели диффузии с шумоподавлением (DDM) приобрели популярность благодаря своей способности создавать изображения из шума с помощью итеративного процесса шумоподавления. Качество синтеза изображений этих моделей во многом обусловлено используемыми методами диффузионного управления. Несмотря на свои сильные стороны, диффузионные модели и методы, основанные на руководствах, сталкиваются с такими проблемами, как повышенная сложность и увеличение вычислительных затрат.
Чтобы преодолеть текущие ограничения, разработчики представили метод управления самообслуживанием, более общую формулировку руководства по диффузии, которая не полагается на внешнюю информацию от руководства по диффузии, тем самым облегчая гибкий подход к руководству без каких-либо условий. диффузионные рамки. Подход, выбранный в рамках руководства самовниманием, в конечном итоге помогает повысить применимость традиционных методов диффузного руководства к случаям с внешними требованиями или без них.
Руководство по самовниманию основано на простом принципе обобщенной формулировки и предположении, что внутренняя информация, содержащаяся в промежуточных образцах, также может служить руководством. На основе этого принципа метод SAG впервые представляет Blur Guidance — простое и понятное решение для улучшения качества проб. Руководство по размытию направлено на использование благоприятных свойств размытия по Гауссу для естественного удаления мелкомасштабных деталей путем направления промежуточных образцов с использованием удаленной информации в результате размытия по Гауссу. Хотя метод наведения «Размытие» действительно повышает качество выборки при умеренном масштабе наведения, он не может воспроизвести результаты в большом масштабе наведения, поскольку часто вносит структурную неопределенность в целые регионы. В результате метод управления размытием затрудняет согласование исходных входных данных с прогнозом ухудшенных входных данных. Чтобы повысить стабильность и эффективность метода наведения «Размытие» в более широком масштабе наведения, «Руководство по самообслуживанию» пытается использовать механизм самообслуживания моделей диффузии, поскольку современные модели диффузии уже содержат механизм самообслуживания в своей архитектуре.
Исходя из предположения, что самовнимание необходимо для захвата важной информации, метод управления самовниманием использует карты самовнимания моделей диффузии, чтобы состязательно размыть области, содержащие важную информацию, и в процессе этого направляет диффузионные модели с необходимой остаточной информацией. Затем метод использует карты внимания во время обратного процесса моделей диффузии, чтобы повысить качество изображений, и использует самообучение для уменьшения артефактов, не требуя дополнительного обучения или внешней информации.
Подводя итог, можно сказать, что метод управления самовниманием
- Это новый подход, который использует внутренние карты самообслуживания диффузионных фреймворков для улучшения качества сгенерированного образца изображения без необходимости какого-либо дополнительного обучения или зависимости от внешних условий.
- Метод SAG пытается обобщить методы условного наведения в метод без условий, который можно интегрировать с любой диффузионной моделью, не требуя дополнительных ресурсов или внешних условий, тем самым повышая применимость структур, основанных на указаниях.
- Метод SAG также пытается продемонстрировать свои ортогональные способности к существующим условным методам и структурам, тем самым способствуя повышению производительности за счет гибкой интеграции с другими методами и моделями.
В дальнейшем метод управления самовниманием учится на основе результатов связанных структур, включая модели шумоподавления и диффузии, руководство по выборке, генеративные методы самообслуживания ИИ и внутренние представления моделей диффузии. Однако по своей сути метод управления самообслуживанием реализует знания из DDPM или вероятностных моделей шумоподавления диффузии, управления классификатором, руководства без классификатора и самовнимания в рамках диффузии. О них мы поговорим подробнее в следующем разделе.
Руководство по самовниманию: предварительные сведения, методология и архитектура
Вероятностная модель диффузии шумоподавления или DDPM
ДДПМ или Вероятностная модель диффузии шумоподавления — это модель, которая использует итерационный процесс шумоподавления для восстановления изображения из белого шума. Традиционно модель DDPM получает входное изображение и график отклонений на определенном временном шаге для получения изображения с использованием прямого процесса, известного как марковский процесс.
Классификатор и руководство без классификатора с реализацией GAN
GAN или генеративно-состязательные сети обладают уникальным торговым разнообразием для обеспечения точности, и чтобы применить эту способность структур GAN к моделям распространения, структура управления самообслуживанием предлагает использовать метод управления классификатором, который использует дополнительный классификатор. И наоборот, метод наведения без классификатора также может быть реализован без использования дополнительного классификатора для достижения тех же результатов. Хотя метод дает желаемые результаты, он по-прежнему нежизнеспособен в вычислительном отношении, поскольку требует дополнительных меток, а также ограничивает структуру моделями условного распространения, которые требуют дополнительных условий, таких как текст или класс, а также дополнительных деталей обучения, что усложняет задачу. модель.
Обобщение рекомендаций по диффузии
Хотя методы классификатора и руководства без классификатора дают желаемые результаты и помогают с условной генерацией в диффузионных моделях, они зависят от дополнительных входных данных. Для любого заданного временного шага входные данные для модели диффузии включают обобщенное условие и возмущенную выборку без обобщенного условия. Более того, обобщенное состояние включает в себя внутреннюю информацию внутри возмущенной выборки или внешние условия, или даже и то, и другое. Результирующее руководство сформулировано с использованием воображаемого регрессора в предположении, что он может предсказать обобщенное состояние.
Улучшение качества изображения с помощью карт самообслуживания
Руководство по обобщенной диффузии подразумевает, что можно обеспечить руководство для обратного процесса моделей диффузии путем извлечения существенной информации в обобщенном состоянии, содержащейся в возмущенной выборке. Опираясь на то же самое, метод самоконтроля эффективно фиксирует важную информацию для обратных процессов, одновременно ограничивая риски, возникающие в результате проблем с нераспределением в предварительно обученных диффузионных моделях.
Размытие руководства
Руководство по размытию в руководстве по самообслуживанию основано на размытии по Гауссу — методе линейной фильтрации, при котором входной сигнал свертывается с помощью фильтра Гаусса для формирования выходного сигнала. С увеличением стандартного отклонения функция размытия по Гауссу уменьшает мелкомасштабные детали входных сигналов и приводит к локально неразличимым входным сигналам, сглаживая их до константы. Более того, эксперименты показали информационный дисбаланс между входным сигналом и выходным сигналом размытия по Гауссу, когда выходной сигнал содержит более мелкомасштабную информацию.
На основе этого обучения структура Self-Attention Guidance представляет руководство по размытию — метод, который намеренно исключает информацию из промежуточных реконструкций во время процесса распространения и вместо этого использует эту информацию для управления своими прогнозами, направленными на повышение релевантности изображений для входная информация. Руководство по размытию, по сути, приводит к тому, что исходный прогноз еще больше отклоняется от размытого входного прогноза. Более того, мягкое свойство размытия по Гауссу предотвращает значительное отклонение выходных сигналов от исходного сигнала с умеренным отклонением. Проще говоря, размытие происходит на изображениях естественным образом, что делает размытие по Гауссу более подходящим методом для применения к предварительно обученным моделям диффузии.
В конвейере управления самовниманием входной сигнал сначала размывается с помощью фильтра Гаусса, а затем рассеивается с дополнительным шумом для получения выходного сигнала. Делая это, конвейер SAG смягчает побочный эффект результирующего размытия, которое уменьшает гауссовский шум, и заставляет руководство полагаться на контент, а не на случайный шум. Хотя управление размытием дает удовлетворительные результаты в системах с умеренным масштабом управления, оно не может воспроизвести результаты на существующих моделях с большим масштабом управления, поскольку оно склонно давать зашумленные результаты, как показано на следующем изображении.
Эти результаты могут быть результатом структурной неоднозначности, внесенной в структуру из-за глобального размытия, из-за которой конвейеру SAG трудно согласовать прогнозы исходных входных данных с ухудшенными входными данными, что приводит к зашумленным выходным данным.
Механизм самоконтроля
Как упоминалось ранее, модели диффузии обычно имеют встроенный компонент самообслуживания, и это один из наиболее важных компонентов в структуре модели диффузии. Механизм самообслуживания реализован в основе моделей диффузии и позволяет модели обращать внимание на существенные части входных данных во время генеративного процесса, как показано на следующем изображении с высокочастотными масками в верхнем ряду: и маски самовнимания в нижнем ряду окончательно сгенерированных изображений.
Предлагаемый метод управления самовниманием основан на том же принципе и использует возможности карт самовнимания в моделях диффузии. В целом, метод управления самообслуживанием размывает самообслуживаемые патчи во входном сигнале или, проще говоря, скрывает информацию о патчах, которая учитывается моделями диффузии. Более того, выходные сигналы в руководстве по самовниманию содержат неповрежденные области входных сигналов, что означает, что это не приводит к структурной неоднозначности входных данных и решает проблему глобального размытия. Затем конвейер получает агрегированные карты самообслуживания путем проведения GAP или глобального среднего пула для агрегирования карт самообслуживания по измерению и повышения дискретизации ближайшего соседа для соответствия разрешению входного сигнала.
Руководство по самовниманию: эксперименты и результаты
Для оценки производительности конвейер самоконтроля использует 8 графических процессоров Nvidia GeForce RTX 3090 и построен на основе предварительно обученных IDDPM, ADM и Стабильные диффузионные фреймворки.
Безусловная генерация с руководством самовнимания
Чтобы измерить эффективность конвейера SAG на безусловных моделях и продемонстрировать свойство отсутствия условий, которым не обладают метод «Наведение классификатора» и подход «Наведение без классификатора», конвейер SAG запускается на безусловно предварительно обученных платформах на 50 тысячах выборок.
Как можно заметить, реализация конвейера SAG улучшает показатели FID, sFID и IS безусловного ввода, одновременно снижая значение отзыва. Кроме того, качественные улучшения в результате внедрения конвейера SAG очевидны на следующих изображениях: изображения вверху — результаты фреймворков ADM и Stable Diffusion, тогда как изображения внизу — результаты фреймворков ADM и Stable Diffusion с Трубопровод САГ.
Условная генерация с помощью SAG
Интеграция конвейера SAG в существующие платформы обеспечивает исключительные результаты при безусловной генерации, а конвейер SAG способен не зависеть от условий, что позволяет реализовать конвейер SAG также и для условной генерации.
Стабильная диффузия с управлением самовниманием
Несмотря на то, что исходная платформа Stable Diffusion генерирует изображения высокого качества, интеграция платформы Stable Diffusion с конвейером Self-Attention Guidance может значительно улучшить результаты. Чтобы оценить его эффект, разработчики используют пустые подсказки для Stable Diffusion со случайным начальным значением для каждой пары изображений и используют человеческую оценку 500 пар изображений с управлением самообслуживанием и без него. Результаты продемонстрированы на следующем изображении.
Кроме того, реализация SAG может расширить возможности структуры Stable Diffusion, поскольку объединение руководства без классификатора с руководством самообслуживания может расширить диапазон моделей Stable Diffusion для синтеза текста в изображение. Кроме того, изображения, созданные на основе модели стабильной диффузии с управлением самообслуживанием, имеют более высокое качество с меньшим количеством артефактов благодаря эффекту самокондиционирования конвейера SAG, как показано на следующем изображении.
Текущие ограничения
Хотя реализация конвейера Self-Attention Guidance может существенно улучшить качество генерируемых изображений, она имеет некоторые ограничения.
Одним из основных ограничений является ортогональность с руководством без классификатора и руководством без классификатора. Как видно на следующем изображении, реализация SAG улучшает оценку FID и оценку прогнозирования, что означает, что конвейер SAG содержит ортогональный компонент, который можно использовать одновременно с традиционными методами наведения.
Однако для этого по-прежнему требуется специальное обучение диффузионных моделей, что увеличивает сложность и вычислительные затраты.
Кроме того, реализация руководства самообслуживанием не увеличивает потребление памяти или времени, что указывает на то, что накладные расходы, возникающие в результате таких операций, как маскирование и размытие в SAG, незначительны. Тем не менее, это по-прежнему увеличивает вычислительные затраты, поскольку включает дополнительный шаг по сравнению с подходами без наведения.
Заключение
В этой статье мы говорили о руководстве самовниманием, новой и общей формулировке метода управления, который использует внутреннюю информацию, доступную в моделях диффузии, для создания высококачественных изображений. Руководство по самовниманию основано на простом принципе обобщенной формулировки и предположении, что внутренняя информация, содержащаяся в промежуточных образцах, также может служить руководством. Конвейер самоконтроля — это подход, не требующий условий и обучения, который может быть реализован в различных моделях распространения и использует самоподготовку для уменьшения артефактов в сгенерированных изображениях и повышения общего качества.