Искусственный интеллект
HD-Painter: Высокое разрешение текстово-управляемой инпейтинга изображений с помощью моделей диффузии

Модели диффузии безусловно революционизировали отрасль ИИ и МО, их применения в реальном времени стали неотъемлемой частью нашей повседневной жизни. После того, как модели текст-изображение продемонстрировали свои замечательные способности, диффузионные методы манипуляции изображениями, такие как контролируемое генерирование, специализированная и персонализированная синтез изображений, редактирование изображений на уровне объектов, условное варьирование и редактирование, стали горячими темами исследований благодаря их применению в компьютерном зрении.
Однако, несмотря на их впечатляющие возможности и исключительные результаты, фреймворки текст-изображение, особенно текст-инпейтинг, все еще имеют потенциальные области для развития. К ним относятся способность понимать глобальные сцены, особенно при денойзинге изображения в высоких временных шагах диффузии. Для решения этой проблемы исследователи представили HD-Painter, полностью обучаемый фреймворк, который точно следует инструкциям подсказки и масштабируется до высокоразрешающего инпейтинга изображений последовательно. Фреймворк HD-Painter использует слой Prompt Aware Introverted Attention (PAIntA), который использует информацию подсказки для улучшения само-внимания, в результате чего получается лучшая генерация текстового выравнивания.
Для дальнейшего улучшения согласованности подсказки модель HD-Painter вводит подход Reweighting Attention Score Guidance (RASG). Этот подход интегрирует стратегию пост-хок семплирования в общую форму компонента DDIM, предотвращая сдвиги вне области распределения. Кроме того, фреймворк HD-Painter имеет специализированную технику супер-разрешения, адаптированную для инпейтинга, что позволяет ему расширяться до более крупных масштабов и завершать отсутствующие области в изображении с разрешением до 2К.
HD-Painter: Текстово-управляемый инпейтинг изображений
Модели диффузии текст-изображение действительно стали значимой темой в отрасли ИИ и МО в последние месяцы, демонстрируя впечатляющие возможности в реальном времени в различных практических приложениях. Предобученные модели текст-изображение, такие как DALL-E, Imagen и Stable Diffusion, продемонстрировали свою пригодность для завершения изображений, объединяя денойзированные (сгенерированные) неизвестные области с диффузионными известными областями во время обратного процесса диффузии. Несмотря на то, что они производят визуально привлекательные и хорошо гармонизированные выходные данные, существующие модели испытывают трудности с пониманием глобальной сцены, особенно при высоких временных шагах денойзинга. Изменяя предобученные модели текст-изображение для включения дополнительной контекстной информации, их можно дообучить для текстово-управляемого завершения изображений.
Более того, в рамках моделей диффузии текстово-управляемый инпейтинг и текстово-управляемое завершение изображений являются основными областями интереса для исследователей. Этот интерес обусловлен тем, что модели текстово-управляемого инпейтинга могут генерировать контент в определенных областях входного изображения на основе текстовых подсказок, что приводит к потенциальным приложениям, таким как ретушь конкретных областей изображения, изменение атрибутов объектов, таких как цвета или одежда, и добавление или замена объектов. В итоге, модели диффузии текст-изображение недавно достигли беспрецедентного успеха благодаря их исключительно реалистичным и визуально привлекательным возможностям генерации.

Однако большинство существующих фреймворков демонстрируют игнорирование подсказки в двух сценариях. Первый – Доминирование фона, когда модель завершает неизвестную область, игнорируя подсказку на фоне, тогда как второй сценарий – доминирование ближайших объектов, когда модель распространяет объекты известной области на неизвестную область, используя визуальный контекст, а не входную подсказку. Возможно, что обе эти проблемы могут быть результатом способности vanilla-инпейтинга диффузии интерпретировать текстовую подсказку точно или смешивать ее с контекстной информацией, полученной из известной области.
Для решения этих препятствий фреймворк HD-Painter вводит слой Prompt Aware Introverted Attention (PAIntA), который использует информацию подсказки для улучшения само-внимания, что в конечном итоге приводит к лучшей генерации текстового выравнивания. PAIntA использует заданную текстовую условность для улучшения само-внимания с целью уменьшить влияние не-релевантной информации из области изображения, а также увеличить вклад известных пикселей, выровненных с подсказкой. Для дальнейшего улучшения текстового выравнивания сгенерированных результатов фреймворк HD-Painter реализует пост-хок метод руководства, который использует баллы перекрестного внимания. Однако реализация метода пост-хок руководства может вызвать сдвиги вне области распределения в результате дополнительного градиентного члена в уравнении диффузии. Сдвиги вне области распределения в конечном итоге приведут к ухудшению качества сгенерированного выходного сигнала. Для решения этой проблемы фреймворк HD-Painter реализует механизм Reweighting Attention Score Guidance (RASG), который интегрирует стратегию пост-хок семплирования в общую форму компонента DDIM, что позволяет фреймворку генерировать визуально правдоподобные результаты инпейтинга, направляя выборку к латентам, выровненным с подсказкой, и сохраняя их в обученной области.
Реализуя оба компонента RASH и PAIntA в своей архитектуре, фреймворк HD-Painter имеет значительное преимущество над существующими, включая самые современные, модели инпейтинга и диффузии текст-изображение, поскольку он решает существующую проблему игнорирования подсказки. Кроме того, оба компонента RASH и PAIntA предлагают функциональность “подключи и играй”, что позволяет им быть совместимыми с базовыми моделями инпейтинга диффузии для решения вышеуказанных проблем. Кроме того, реализуя технологию временно-итеративного смешивания и используя возможности моделей высокого разрешения диффузии, pipeline HD-Painter может эффективно работать для инпейтинга до разрешения 2К.
В итоге, HD-Painter направлен на решение следующих проблем в области:
- Он направлен на решение проблемы игнорирования подсказки фона и ближайших объектов, испытываемой фреймворками текстово-управляемого инпейтинга изображений, реализуя слой Prompt Aware Introverted Attention (PAIntA) в своей архитектуре.
- Он направлен на улучшение текстового выравнивания выходных данных, реализуя слой Reweighting Attention Score Guidance (RASG) в своей архитектуре, который позволяет фреймворку HD-Painter выполнять пост-хок руководство семплирования, предотвращая сдвиги вне области распределения.
- Для разработки эффективного обучаемого фреймворка текстово-управляемого завершения изображений, способного превосходить существующие самые современные фреймворки, и использования простой, но эффективной техники супер-разрешения, специально разработанной для инпейтинга, для выполнения текстово-управляемого инпейтинга изображений до разрешения 2К.
HD-Painter: Метод и Архитектура
Прежде чем мы рассмотрим архитектуру, важно понять три фундаментальных концепции, которые составляют основу фреймворка HD-Painter: Инпейтинг изображений, Пост-хок руководство в фреймворках диффузии и Блоки архитектуры, специфичные для инпейтинга.
Инпейтинг изображений – это подход, направленный на заполнение отсутствующих областей в изображении, гарантируя визуальную привлекательность сгенерированного изображения. Традиционные глубокие модели реализовывали методы, которые использовали известные области для распространения глубоких особенностей. Однако введение моделей диффузии привело к эволюции моделей инпейтинга, особенно текстово-управляемых моделей инпейтинга изображений. Традиционно предобученная модель текст-изображение заменяет незамаскированную область латентного изображения, используя шумную версию известной области во время процесса семплирования. Хотя этот подход работает до некоторой степени, он ухудшает качество сгенерированного выходного сигнала, поскольку денойзинговая сеть видит только шумную версию известной области. Для решения этой проблемы некоторые подходы были направлены на дообучение предобученной модели текст-изображение для достижения текстово-управляемого инпейтинга изображений. Реализуя этот подход, фреймворк может генерировать случайную маску через конкатенацию, поскольку модель может условить денойзинговую сеть на незамаскированной области.
Двигаясь дальше, традиционные глубокие модели реализовывали специальные слои для эффективного инпейтинга, некоторые фреймворки могли извлекать информацию эффективно и производить визуально привлекательные изображения, вводя специальные свёрточные слои для работы с известными областями изображения. Некоторые фреймворки даже добавили слой контекстного внимания в свою архитектуру, чтобы уменьшить ненужные вычислительные требования полного само-внимания для высококачественного инпейтинга.
Наконец, пост-хок методы руководства – это методы обратной диффузии, которые направляют предсказание латентного следующего шага к конкретной минимизации цели. Пост-хок методы руководства очень полезны при генерации визуального контента, особенно в присутствии дополнительных ограничений. Однако пост-хок методы руководства имеют значительный недостаток: они могут ухудшать качество изображения, поскольку они склонны смещать процесс генерации латентного изображения градиентным членом.
Переходя к архитектуре HD-Painter, фреймворк сначала формулирует проблему текстово-управляемого завершения изображений, а затем вводит две модели диффузии: Stable Inpainting и Stable Diffusion. Фреймворк HD-Painter затем вводит слои PAIntA и RASG, и, наконец, мы приходим к технике супер-разрешения, специально разработанной для инпейтинга.
Стабильная диффузия и стабильный инпейтинг
Стабильная диффузия – это модель диффузии, которая работает в латентном пространстве автоэнкодера. Для синтеза текст-изображение фреймворк Stable Diffusion реализует текстовую подсказку для направления процесса. Функция направления имеет структуру, аналогичную архитектуре UNet, и слои перекрестного внимания условят ее на текстовых подсказках. Кроме того, модель Stable Diffusion может выполнять инпейтинг изображений с некоторыми модификациями и дообучением. Для этого особенности маскированного изображения, сгенерированного кодировщиком, объединяются с уменьшенной бинарной маской до латентных переменных. Результирующий тензор затем вводится в архитектуру UNet для получения оцененного шума. Фреймворк затем инициализирует новые свёрточные фильтры нулями, тогда как остальная часть UNet инициализируется с помощью предобученных контрольных точек от модели Stable Diffusion.

Вышеуказанная фигура демонстрирует обзор фреймворка HD-Painter, состоящего из двух стадий. На первой стадии фреймворк HD-Painter реализует текстово-управляемый инпейтинг изображений, тогда как на второй стадии модель выполняет супер-разрешение выходного изображения. Для заполнения отсутствующих областей и поддержания согласованности с входной подсказкой модель использует предобученную модель инпейтинга диффузии, заменяет слои само-внимания на слои PAIntA и реализует механизм RASG для выполнения обратного процесса диффузии. Модель затем декодирует окончательную оцененную латентную переменную, в результате чего получается инпейтинговое изображение. HD-Painter затем реализует модель стабильной диффузии для инпейтинга исходного изображения и выполняет обратный процесс диффузии фреймворка Stable Diffusion, условленный на низкоразрешающее входное изображение. Модель затем смешивает денойзированные предсказания с кодированием исходного изображения после каждого шага в известной области и получает следующую латентную переменную. Наконец, модель декодирует латентную переменную и реализует смешивание Пуассона для избежания артефактов краев.
Внимание, осведомлённое о подсказке, или PAIntA
Существующие модели инпейтинга, такие как Stable Inpainting, склонны больше полагаться на визуальный контекст вокруг области инпейтинга и игнорировать входные пользовательские подсказки. На основе пользовательского опыта эта проблема может быть классифицирована на два класса: доминирование ближайших объектов и доминирование фона. Проблема доминирования визуального контекста над входными подсказками может быть результатом только-пространственного и подсказка-свободного характера слоев само-внимания. Для решения этой проблемы фреймворк HD-Painter вводит механизм Prompt Aware Introverted Attention (PAIntA), который использует матрицы перекрестного внимания и маску инпейтинга для контроля выходных данных слоев само-внимания в неизвестной области.
Компонент Prompt Aware Introverted Attention сначала применяет проекционные слои для получения ключей, значений и запросов, а также матрицы подобия. Модель затем корректирует баллы внимания известных пикселей, чтобы смягчить сильное влияние известной области над неизвестной областью, и определяет новую матрицу подобия, используя текстовую подсказку.

Перевес attention баллов руководства или RASG
Фреймворк HD-Painter принимает пост-хок метод семплирования для дальнейшего улучшения генерации согласованности с текстовыми подсказками. Вместе с целевой функцией пост-хок метод семплирования направлен на использование свойств открытой лексики слоев перекрестного внимания. Однако этот подход ванильного пост-хок руководства имеет потенциал сместить область латентной диффузии, что может ухудшить качество сгенерированного изображения. Для решения этой проблемы фреймворк HD-Painter реализует механизм Reweighting Attention Score Guidance (RASG), который вводит механизм перевеса градиента, в результате чего сохраняется область латентной диффузии.
HD-Painter: Эксперименты и Результаты
Для анализа его производительности фреймворк HD-Painter сравнивается с текущими самыми современными моделями, включая Stable Inpainting, GLIDE и BLD или Blended Latent Diffusion, на 10000 случайных образцах, где подсказка выбирается как метка выбранной маски экземпляра.

Как можно наблюдать, фреймворк HD-Painter превосходит существующие фреймворки на трех разных метриках, особенно улучшение на 1,5 балла по метрике CLIP и различие в сгенерированной точности около 10% от других самых современных методов.

Двигаясь дальше, следующая фигура демонстрирует качественное сравнение фреймворка HD-Painter с другими моделями инпейтинга. Как можно наблюдать, другие базовые модели либо восстанавливают отсутствующие области в изображении как продолжение объектов известной области, игнорируя подсказки, либо генерируют фон. С другой стороны, фреймворк HD-Painter может успешно генерировать целевые объекты благодаря реализации компонентов PAIntA и RASG в своей архитектуре.

Окончательные Мысли
В этой статье мы говорили о HD-Painter, обучаемом текстово-управляемом подходе к высокоразрешающему инпейтингу, который решает проблемы, испытываемые существующими моделями инпейтинга, включая игнорирование подсказки и доминирование ближайших объектов. Фреймворк HD-Painter реализует слой Prompt Aware Introverted Attention (PAIntA), который использует информацию подсказки для улучшения само-внимания, что в конечном итоге приводит к лучшей генерации текстового выравнивания.
Для дальнейшего улучшения согласованности подсказки модель HD-Painter вводит подход Reweighting Attention Score Guidance (RASG), который интегрирует стратегию пост-хок семплирования в общую форму компонента DDIM, предотвращая сдвиги вне области распределения. Кроме того, фреймворк HD-Painter вводит специализированную технику супер-разрешения, адаптированную для инпейтинга, что позволяет ему расширяться до более крупных масштабов и завершать отсутствующие области в изображении с разрешением до 2К.












