Artificial Intelligence

Instant-Style: сохранение стиля при преобразовании текста в изображение

опубликованный

3 недели назад

19 апреля 2024

За последние несколько лет модели диффузии, основанные на настройке, продемонстрировали значительный прогресс в решении широкого спектра задач по персонализации и настройке изображений. Однако, несмотря на свой потенциал, современные диффузионные модели, основанные на настройке, продолжают сталкиваться с множеством сложных проблем при создании и создании согласованных по стилю изображений, и тому могут быть три причины. Во-первых, концепция стиля до сих пор остается неопределенной и неопределенной и включает в себя комбинацию элементов, включая атмосферу, структуру, дизайн, материал, цвет и многое другое. Методы, основанные на второй инверсии, склонны к ухудшению стиля, что приводит к частой потере мелких деталей. Наконец, подходы на основе адаптеров требуют частой настройки веса для каждого эталонного изображения, чтобы поддерживать баланс между управляемостью текста и интенсивностью стиля.

Более того, основной целью большинства подходов к передаче стиля или генерации изображения стиля является использование эталонного изображения и применение его конкретного стиля из данного подмножества или эталонного изображения к целевому изображению контента. Однако именно большое количество атрибутов стиля затрудняет работу исследователей по сбору стилизованных наборов данных, правильному представлению стиля и оценке успешности переноса. Ранее модели и платформы, которые занимались точной настройкой процесса распространения, настраивали набор данных изображений, имеющих общий стиль, - процесс, который требует много времени и имеет ограниченную возможность обобщения в реальных задачах, поскольку это сложно чтобы собрать подмножество изображений, имеющих один и тот же или почти идентичный стиль.

В этой статье мы поговорим об InstantStyle, платформе, разработанной с целью решения проблем, с которыми сталкиваются текущие модели диффузии, основанные на настройке, для генерации и настройки изображений. Мы поговорим о двух ключевых стратегиях, реализованных фреймворком InstantStyle:

Простой, но эффективный подход к отделению стиля и контента от эталонных изображений в пространстве объектов, прогнозируемый на основе предположения, что объекты в одном пространстве объектов могут либо добавляться, либо вычитаться друг из друга.
Предотвращение утечек стиля путем внедрения функций эталонного изображения исключительно в блоки, специфичные для конкретного стиля, и сознательного отказа от необходимости использования громоздких весов для точной настройки, что часто характеризует проекты с большим количеством параметров.

Целью этой статьи является более глубокое освещение фреймворка InstantStyle, и мы исследуем механизм, методологию, архитектуру фреймворка, а также его сравнение с современными фреймворками. Мы также поговорим о том, как платформа InstantStyle демонстрирует замечательные результаты визуальной стилизации и обеспечивает оптимальный баланс между управляемостью текстовых элементов и интенсивностью стиля. Итак, давайте начнем.

InstantStyle: сохранение стиля при преобразовании текста в изображение

Среды искусственного интеллекта, генерирующие текст в изображения на основе диффузии, добились заметного и замечательного успеха в широком спектре задач настройки и персонализации, особенно в задачах последовательной генерации изображений, включая настройку объектов, сохранение изображений и перенос стилей. Однако, несмотря на недавний успех и рост производительности, передача стиля остается сложной задачей для исследователей из-за неопределенной и неопределенной природы стиля, часто включающего в себя множество элементов, включая атмосферу, структуру, дизайн, материал, цвет и многое другое. При этом основной целью создания стилизованного изображения или передачи стиля является применение определенного стиля из данного эталонного изображения или эталонного подмножества изображений. к целевому изображению контента. Однако большое количество атрибутов стиля затрудняет работу исследователей по сбору стилизованных наборов данных, правильному представлению стиля и оценке успешности переноса. Ранее модели и платформы, которые занимались точной настройкой процесса распространения, настраивали набор данных изображений, имеющих общий стиль, - процесс, который требует много времени и имеет ограниченную возможность обобщения в реальных задачах, поскольку это сложно чтобы собрать подмножество изображений, имеющих один и тот же или почти идентичный стиль.

Учитывая проблемы, с которыми сталкивается нынешний подход, исследователи проявили интерес к разработке более точных подходов к передаче стиля или создание стилизованного изображения, и эти платформы можно разделить на две разные группы:

Подходы без адаптеров: Подходы и структуры без адаптеров используют силу самовнимания в процессе распространения, а за счет реализации операции совместного внимания эти модели способны напрямую извлекать важные функции, включая ключи и значения, из изображений заданного эталонного стиля.

Подходы на основе адаптеров: С другой стороны, подходы и платформы на основе адаптеров включают облегченную модель, предназначенную для извлечения подробных представлений изображений из изображений эталонного стиля. Затем фреймворк умело интегрирует эти представления в процесс распространения, используя механизмы перекрестного внимания. Основная цель процесса интеграции — направлять процесс создания и гарантировать, что полученное изображение соответствует желаемым стилистическим нюансам эталонного изображения.

Однако, несмотря на обещания, методы без настройки часто сталкиваются с некоторыми проблемами. Во-первых, подход без адаптеров требует обмена ключами и значениями внутри слоев самообслуживания и предварительного захвата матриц ключей и значений, полученных из изображений эталонного стиля. При реализации на естественных изображениях подход без адаптеров требует инверсии изображения обратно к скрытому шуму с использованием таких методов, как DDIM или инверсия неявных моделей шумоподавления и диффузии. Однако использование DDIM или других подходов инверсии может привести к потере мелких деталей, таких как цвет и текстура, что приведет к уменьшению информации о стиле в сгенерированных изображениях. Более того, дополнительный шаг, вносимый этими подходами, является трудоемким процессом и может создавать значительные недостатки в практическом применении. С другой стороны, основная задача методов, основанных на адаптерах, заключается в достижении правильного баланса между утечкой контекста и интенсивностью стиля. Утечка контента происходит, когда увеличение интенсивности стиля приводит к появлению нестилевых элементов из эталонного изображения в сгенерированном выводе, при этом основной проблемой является эффективное отделение стилей от контента внутри эталонного изображения. Чтобы решить эту проблему, некоторые платформы создают парные наборы данных, которые представляют один и тот же объект в разных стилях, что облегчает извлечение представления контента и распутывание стилей. Однако из-за изначально неопределенного представления стиля задача создания крупномасштабных парных наборов данных ограничена с точки зрения разнообразия стилей, которые они могут охватить, и это также ресурсоемкий процесс.

Чтобы преодолеть эти ограничения, представлена платформа InstantStyle, которая представляет собой новый не требующий настройки механизм, основанный на существующих методах на основе адаптеров, с возможностью плавной интеграции с другими методами внедрения на основе внимания и эффективного разделения контента и стиля. Более того, платформа InstantStyle представляет не один, а два эффективных способа завершения разделения стиля и контента, обеспечивая лучшую миграцию стилей без необходимости введения дополнительных методов для достижения разделения или построения парных наборов данных.

Кроме того, предшествующие платформы на основе адаптеров широко использовались в методах на основе CLIP в качестве средства извлечения признаков изображения, в некоторых средах исследовалась возможность реализации разделения функций в пространстве объектов, и по сравнению с неопределенностью стиля их легче опишите содержание текстом. Поскольку изображения и тексты совместно используют пространство признаков в методах на основе CLIP, простая операция вычитания функций контекстного текста и функций изображения может значительно уменьшить утечку контента. Более того, в большинстве диффузионные модели, в его архитектуре есть определенный уровень, который вводит информацию о стиле и осуществляет разделение контента и стиля путем внедрения функций изображения только в определенные блоки стиля. Реализуя эти две простые стратегии, платформа InstantStyle способна решить проблемы утечки контента, с которыми сталкивается большинство существующих платформ, сохраняя при этом силу стиля.

Подводя итог, можно сказать, что платформа InstantStyle использует два простых, понятных, но эффективных механизма для эффективного отделения контента и стиля от эталонных изображений. Платформа Instant-Style — это модельно-независимый и не требующий настройки подход, который демонстрирует замечательную производительность в задачах переноса стилей с огромным потенциалом для последующих задач.

Instant-Style: методология и архитектура

Как показали предыдущие подходы, существует баланс во внедрении условий стиля в модели диффузии без настройки. Если интенсивность условия изображения слишком высока, это может привести к утечке контента, тогда как если интенсивность условия изображения упадет слишком низко, стиль может показаться недостаточно очевидным. Основная причина этого наблюдения заключается в том, что в изображении стиль и содержание взаимосвязаны, и из-за присущих ему неопределенных атрибутов стиля трудно отделить стиль и намерение. В результате для каждого эталонного изображения часто тщательно настраиваются веса в попытке сбалансировать управляемость текста и силу стиля. Кроме того, для данного входного эталонного изображения и соответствующего ему текстового описания в методах, основанных на инверсии, к изображению применяются подходы инверсии, такие как DDIM, для получения инвертированной траектории диффузии - процесс, который аппроксимирует уравнение инверсии для преобразования изображения в скрытое изображение. представление шума. Опираясь на то же самое и начиная с обратной траектории распространения вместе с новым набором подсказок, эти методы генерируют новый контент, стиль которого соответствует вводу. Однако, как показано на следующем рисунке, подход инверсии DDIM для реальных изображений часто нестабильен, поскольку он основан на предположениях локальной линеаризации, что приводит к распространению ошибок и приводит к потере контента и неправильной реконструкции изображения.

Что касается методологии, то вместо использования сложных стратегий для отделения контента и стиля от изображений, платформа Instant-Style использует самый простой подход для достижения аналогичной производительности. По сравнению с неопределенными атрибутами стиля контент может быть представлен естественным текстом, что позволяет платформе Instant-Style использовать текстовый кодировщик из CLIP для извлечения характеристик текста контента в качестве контекстных представлений. Одновременно платформа Instant-Style реализует кодировщик изображений CLIP для извлечения характеристик эталонного изображения. Используя преимущества характеристики глобальных функций CLIP и вычитая функции текста содержимого из функций изображения, платформа Instant-Style способна явно отделить стиль и контент. Хотя это простая стратегия, она помогает платформе Instant-Style весьма эффективно сводить к минимуму утечку контента.

Более того, каждый уровень в глубокой сети отвечает за сбор различной семантической информации, и ключевое наблюдение из предыдущих моделей заключается в том, что существует два уровня внимания, которые отвечают за стиль обработки. В частности, слоиblocks.0.attentions.1 и downblocks.2.attentions.1 отвечают за захват таких стилей, как цвет, материал, атмосфера, а слой пространственного макета фиксирует структуру и композицию соответственно. Платформа Instant-Style неявно использует эти слои для извлечения информации о стиле и предотвращает утечку контента без потери силы стиля. Стратегия проста, но эффективна, поскольку в модели расположены блоки стилей, которые могут вводить в эти блоки функции изображения для обеспечения плавной передачи стиля. Кроме того, поскольку модель значительно уменьшает количество параметров адаптера, возможности структуры по управлению текстом расширяются, и этот механизм также применим к другим моделям внедрения функций на основе внимания для редактирования и других задач.

Instant-Style: эксперименты и результаты

Платформа Instant-Style реализована на основе платформы Stable Diffusion XL и использует широко распространенный предварительно обученный IR-адаптер в качестве образца для проверки своей методологии и отключает все блоки, кроме блоков стиля для функций изображения. Модель Instant-Style также обучает IR-адаптер на 4 миллионах крупномасштабных наборов парных данных «текст-изображение» с нуля и вместо обучения всех блоков обновляет только блоки стилей.

Чтобы реализовать свои возможности обобщения и надежность, платформа Instant-Style проводит многочисленные эксперименты по переносу стилей с различными стилями в различном контенте, и результаты можно наблюдать на следующих изображениях. Используя единый эталонный образ и различные подсказки, платформа Instant-Style обеспечивает высокое качество и единообразный стиль. генерация изображения.

Более того, поскольку модель вводит информацию об изображении только в блоки стилей, она способна значительно смягчить проблему утечки контента и, следовательно, не требует выполнения настройки веса.

В дальнейшем платформа Instant-Style также использует архитектуру ControlNet для достижения стилизации на основе изображений с пространственным контролем, и результаты продемонстрированы на следующем изображении.

По сравнению с предыдущими современными методами, включая StyleAlign, B-LoRA, Swapping Self Attention и IP-Adapter, платформа Instant-Style демонстрирует лучшие визуальные эффекты.

Заключение

В этой статье мы говорили о Instant-Style, общей структуре, которая использует две простые, но эффективные стратегии для эффективного отделения контента и стиля от эталонных изображений. Платформа InstantStyle разработана с целью решения проблем, с которыми сталкиваются текущие модели диффузии, основанные на настройке, для генерации и настройки изображений. Платформа Instant-Style реализует две жизненно важные стратегии: простой, но эффективный подход к отделению стиля и контента от эталонных изображений в пространстве объектов, прогнозируемый на основе предположения, что объекты в одном и том же пространстве объектов могут быть добавлены или вычтены друг из друга. Во-вторых, предотвращение утечек стиля путем внедрения функций эталонного изображения исключительно в блоки, специфичные для стиля, и намеренного избегания необходимости использования громоздких весов для точной настройки, часто характеризующих проекты с большим количеством параметров.

10 главных выводов Стэнфордского отчета об индексе искусственного интеллекта за 2024 год

Не пропустите

Расцвет инженеров-программистов искусственного интеллекта: SWE-Agent, Devin AI и будущее кодирования

Кунал Кеджривал

«Инженер по профессии, писатель душой». Кунал — технический писатель с глубокой любовью и пониманием ИИ и машинного обучения, стремящийся упростить сложные концепции в этих областях с помощью своей увлекательной и информативной документации.