Connect with us

Улучшение точности редактирования изображений с помощью ИИ

Взгляд Anderson

Улучшение точности редактирования изображений с помощью ИИ

mm
Images from the paper ' Tight Inversion: Image-Conditioned Inversion for Real Image Editing'

Хотя модель潜在扩散 (LDM) Adobe Firefly является, безусловно, одной из лучших в настоящее время доступных, пользователи Photoshop, которые попробовали ее генеративные функции, заметили, что она не может легко редактировать существующие изображения – вместо этого она полностью заменяет выбранную пользователем область изображением, основанным на текстовом запросе пользователя (хотя Firefly хорошо интегрирует сгенерированный раздел в контексте изображения).

В текущей бета-версии Photoshop можно хотя бы использовать ссылочное изображение в качестве частичного изображения-запроса, что позволяет флагманскому продукту Adobe догнать функциональность, которую пользователи Stable Diffusion наслаждались более двух лет, благодаря сторонним фреймворкам, таким как Controlnet:

Текущая бета-версия Adobe Photoshop позволяет использовать ссылочные изображения при генерации нового контента внутри выбора - хотя это сейчас делается с переменным успехом.

Текущая бета-версия Adobe Photoshop позволяет использовать ссылочные изображения при генерации нового контента внутри выбора – хотя это сейчас делается с переменным успехом.

Это иллюстрирует открытую проблему в области синтеза изображений – трудность, с которой модели распространения имеют дело при редактировании существующих изображений без реализации полномасштабного “переосмысления” выбора, указанного пользователем.

Хотя это распространение на основе диффузии выполняет запрос пользователя, оно полностью переосмысливает исходный предмет без учета исходного изображения (за исключением слияния нового поколения с окружением).

Хотя это распространение на основе диффузии выполняет запрос пользователя, оно полностью переосмысливает исходный предмет без учета исходного изображения (за исключением слияния нового поколения с окружением). Source: https://arxiv.org/pdf/2502.20376

Эта проблема возникает потому, что LDM генерируют изображения через итеративное удаление шума, где каждый этап процесса обусловлен текстовым запросом, предоставленным пользователем. С текстовым содержанием, преобразованным в токены вложения, и с гипермасштабной моделью, такой как Stable Diffusion или Flux, содержащей сотни тысяч (или миллионы) почти совпадающих вложений, связанных с запросом, процесс имеет рассчитанное условное распределение, к которому он стремится; и каждый шаг, который он делает, является шагом к этому “условному распределению-цели”.

Итак, это текст в изображение – сценарий, в котором пользователь “надеется на лучшее”, поскольку нет возможности точно знать, каким будет сгенерированное изображение.

Вместо этого многие пытались использовать мощную генеративную способность LDM для редактирования существующих изображений – но это требует балансирования между точностью и гибкостью.

Когда изображение проецируется в латентное пространство модели методами, такими как инверсия DDIM, цель состоит в том, чтобы восстановить исходное изображение как можно ближе, сохраняя при этом возможность внесения значимых изменений. Проблема заключается в том, что чем точнее изображение восстанавливается, тем больше модель придерживается своей исходной структуры, что затрудняет внесение значительных изменений.

Как и многие другие диффузионные фреймворки редактирования изображений, предложенные в последние годы, архитектура Renoise имеет трудности с внесением любых реальных изменений во внешний вид изображения, с только формальным указанием на галстук-бабочку у основания горла кошки.

Как и многие другие диффузионные фреймворки редактирования изображений, предложенные в последние годы, архитектура Renoise имеет трудности с внесением любых реальных изменений во внешний вид изображения, с только формальным указанием на галстук-бабочку у основания горла кошки.

С другой стороны, если процесс отдает приоритет редактируемости, модель ослабляет свою хватку на исходное, что делает его проще ввести изменения – но за счет общей последовательности с исходным изображением:

Миссия выполнена - но это преобразование, а не коррекция, для большинства фреймворков редактирования изображений на основе ИИ.

Миссия выполнена – но это преобразование, а не коррекция, для большинства фреймворков редактирования изображений на основе ИИ.

Поскольку это проблема, с которой даже ресурсы Adobe борются с решением, мы можем разумно считать, что задача заметна и может не иметь простых решений, если они есть.

Тight Inversion

Следовательно, примеры в новой статье, опубликованной на этой неделе, привлекли мое внимание, поскольку работа предлагает полезное и заметное улучшение текущего состояния дел в этой области, доказав возможность применения тонких и изысканных изменений к изображениям, проецированным в латентное пространство модели – без того, чтобы изменения были незначительными или подавляли исходный контент в исходном изображении:

С применением Tight Inversion к существующим методам инверсии, исходный выбор учитывается более детальным образом, и преобразования соответствуют исходному материалу, а не перезаписывают его.

С применением Tight Inversion к существующим методам инверсии, исходный выбор учитывается более детальным образом, и преобразования соответствуют исходному материалу, а не перезаписывают его.

Хоббиисты и практики LDM могут узнать этот тип результата, поскольку большая часть его может быть создана в сложном рабочем процессе с использованием внешних систем, таких как Controlnet и IP-Adapter.

Фактически, новый метод – называемый Tight Inversion – действительно использует IP-Adapter, а также посвященную модель лица, для изображений человека.

Из оригинальной статьи IP-Adapter 2023 года, примеры создания подходящих изменений исходного материала. Source: https://arxiv.org/pdf/2308.06721

Из оригинальной статьи IP-Adapter 2023 года, примеры создания подходящих изменений исходного материала. Source: https://arxiv.org/pdf/2308.06721

Значительное достижение Tight Inversion заключается в том, что оно превратило сложные методы в единую модальность плагина, которую можно применить к существующим системам, включая многие из наиболее популярных распределений LDM.

Естественно, это означает, что Tight Inversion (TI), как и вспомогательные системы, которые оно использует, использует исходное изображение в качестве фактором условности для своей редактированной версии, а не полагается исключительно на точные текстовые запросы:

Дополнительные примеры способности Tight Inversion применять действительно смешанные изменения к исходному материалу.

Дополнительные примеры способности Tight Inversion применять действительно смешанные изменения к исходному материалу.

Хотя авторы признают, что их подход не свободен от традиционной и постоянной напряженности между точностью и редактируемостью в диффузионных методах редактирования изображений, они сообщают о результатах на уровне состояния дел при внедрении TI в существующие системы по сравнению с базовой производительностью.

Новая работа озаглавлена Tight Inversion: Обусловленная изображением инверсия для реального редактирования изображений, и исходит от пяти исследователей из Тель-Авивского университета и Snap Research.

Метод

Первоначально большая языковая модель (LLM) используется для генерации набора различных текстовых запросов, из которых генерируется изображение. Затем упомянутая инверсия DDIM применяется к каждому изображению с тремя текстовыми условиями: текстовый запрос, использованный для генерации изображения; сокращенная версия того же; и пустой (пустой) запрос.

С возвращенным шумом из этих процессов изображения снова генерируются с тем же условием, и без классификаторного руководства (CFG).

Оценки инверсии DDIM по различным метрикам с разными настройками запросов.

Оценки инверсии DDIM по различным метрикам с разными настройками запросов.

Как мы видим из графика выше, оценки по различным метрикам улучшены с увеличением длины текста. Метрики, использованные для этого, были Пиковая сигнал-шумовая отношение (PSNR); L2 расстояние; Структурный коэффициент подобия (SSIM); и Обученный перцептивный подобие изображений (LPIPS).

Обscious

По сути, Tight Inversion меняет способ, которым хост-модель диффузии редактирует реальные изображения, обусловливая процесс инверсии самим изображением, а не полагаясь только на текст.

Обычно инвертирование изображения в пространство шума модели требует оценки начального шума, который, при удалении шума, восстанавливает вход. Стандартные методы используют текстовый запрос для руководства этим процессом; но несовершенный запрос может привести к ошибкам, потерям деталей или изменению структур.

Tight Inversion вместо этого использует IP Adapter для подачи визуальной информации в модель, так что она восстанавливает изображение с большей точностью, преобразуя исходные изображения в токены условности и проецируя их в конвейер инверсии.

Эти параметры редактируемы: увеличение влияния исходного изображения делает восстановление почти идеальным, в то время как уменьшение его позволяет вносить более творческие изменения. Это делает Tight Inversion полезным как для тонких изменений, таких как изменение цвета рубашки, так и для более значительных изменений, таких как замена объектов – без обычных побочных эффектов других методов инверсии, таких как потеря мелких деталей или неожиданные аномалии в фоновом контенте.

Авторы заявляют:

‘Мы отмечаем, что Tight Inversion можно легко интегрировать с предыдущими методами инверсии (например, Edit Friendly DDPM, ReNoise) путем [замены родного ядра диффузии на измененную модель IP Adapter], [и] Tight Inversion последовательно улучшает такие методы в плане как восстановления, так и редактируемости.’

Данные и тесты

Исследователи оценили TI на его способность восстанавливать и редактировать реальные изображения. Все эксперименты использовали Stable Diffusion XL с планировщиком DDIM, как описано в оригинальной статье Stable Diffusion; и все тесты использовали 50 шагов удаления шума при масштабе руководства по умолчанию 7,5.

Для условности изображения использовался IP-Adapter-plus sdxl vit-h. Для тестов с несколькими шагами исследователи использовали SDXL-Turbo с планировщиком Euler, и также провели эксперименты с FLUX.1-dev, обусловливая модель в последнем случае на PuLID-Flux, используя RF-Inversion на 28 шагах.

PulID использовался только в случаях, когда изображения содержали человеческие лица, поскольку это область, для которой PulID был обучен – и хотя это замечательно, что специализированная подсистема используется для этого одного возможного типа запроса, наше чрезмерное внимание к генерации человеческих лиц предполагает, что полагаться исключительно на более широкие веса базовой модели, такой как Stable Diffusion, может быть недостаточно для стандартов, которые мы требуем для этой конкретной задачи.

Тесты на восстановление проводились для качественной и количественной оценки. На изображении ниже мы видим качественные примеры для инверсии DDIM:

Качественные результаты для инверсии DDIM. Каждый ряд показывает высокодетальное изображение рядом с его восстановленными версиями, с каждым шагом, использующим все более точные условия во время инверсии и удаления шума. По мере того, как условие становится более точным, качество восстановления улучшается. Правый столбец демонстрирует лучшие результаты, где исходное изображение само используется в качестве условия, достигая наивысшей точности. CFG не использовался на любом этапе. Пожалуйста, обратитесь к исходному документу для лучшего разрешения и деталей.

Качественные результаты для инверсии DDIM. Каждый ряд показывает высокодетальное изображение рядом с его восстановленными версиями, с каждым шагом, использующим все более точные условия во время инверсии и удаления шума. По мере того, как условие становится более точным, качество восстановления улучшается. Правый столбец демонстрирует лучшие результаты, где исходное изображение само используется в качестве условия, достигая наивысшей точности. CFG не использовался на любом этапе. Пожалуйста, обратитесь к исходному документу для лучшего разрешения и деталей.

Статья гласит:

‘Эти примеры подчеркивают, что условие процесса инверсии на изображении значительно улучшает восстановление в высокодетальных областях.

‘Заметно, что в третьем примере [ниже] наш метод успешно восстанавливает татуировку на спине правого боксера. Кроме того, поза ноги боксера более точно сохранена, и татуировка на ноге становится видимой.’

Дополнительные качественные результаты для инверсии DDIM. Описательные условия улучшают инверсию DDIM, с условностью изображения, превосходящей текст, особенно для сложных изображений.

Дополнительные качественные результаты для инверсии DDIM. Описательные условия улучшают инверсию DDIM, с условностью изображения, превосходящей текст, особенно для сложных изображений.

Авторы также протестировали Tight Inversion в качестве модуля, встроенного в существующие системы, противопоставив его модифицированные версии их базовой производительности.

Три системы, протестированные, были упомянутой инверсией DDIM и RF-Inversion; и также ReNoise, которая разделяет некоторое авторство со статьей, обсуждаемой здесь. Поскольку результаты DDIM не имеют трудностей в получении 100% восстановления, исследователи сосредоточились только на редактируемости.

(Качественные изображения результатов сформированы таким образом, что трудно воспроизвести здесь, поэтому мы направляем читателя к исходному PDF для полного освещения и лучшего разрешения, несмотря на то, что некоторые выборки представлены ниже)

Слева, качественные результаты восстановления для Tight Inversion с SDXL. Справа, восстановление с Flux. Макет этих результатов в опубликованной работе затрудняет их воспроизведение здесь, поэтому пожалуйста, обратитесь к исходному PDF для истинного впечатления от различий, полученных.

Слева, качественные результаты восстановления для Tight Inversion с SDXL. Справа, восстановление с Flux. Макет этих результатов в опубликованной работе затрудняет их воспроизведение здесь, поэтому пожалуйста, обратитесь к исходному PDF для истинного впечатления от различий, полученных.

Здесь авторы комментируют:

‘Как показано, интеграция Tight Inversion с существующими методами последовательно улучшает восстановление. Например, наш метод точно восстанавливает перила в левом примере и человека с синей рубашкой в правом примере [в фигуре 5 статьи].’

Авторы также протестировали систему количественно. В соответствии с предыдущими работами, они использовали валидационный набор MS-COCO, и отмечают, что результаты (показанные ниже) улучшили восстановление по всем метрикам для всех методов.

Сравнение метрик производительности систем с и без Tight Inversion.

Сравнение метрик производительности систем с и без Tight Inversion.

Далее авторы протестировали способность системы редактировать фотографии, противопоставив ее базовым версиям предыдущих подходов prompt2prompt; Edit Friendly DDPM; LED-ITS++; и RF-Inversion.

Показаны ниже выборки качественных результатов для SDXL и Flux (и мы направляем читателя к исходному PDF для дальнейших примеров).

Выборки из многочисленных качественных результатов (довольно запутанно) разбросанных по статье. Мы направляем читателя к исходному PDF для лучшего разрешения и осмысленной ясности.

Выборки из многочисленных качественных результатов (довольно запутанно) разбросанных по статье. Мы направляем читателя к исходному PDF для лучшего разрешения и осмысленной ясности.

Авторы утверждают, что Tight Inversion последовательно превосходит существующие методы инверсии, найдя лучший баланс между восстановлением и редактируемостью. Стандартные методы, такие как инверсия DDIM и ReNoise, могут хорошо восстановить изображение, но, как отмечает статья, они часто испытывают трудности в сохранении мелких деталей при внесении изменений.

Напротив, Tight Inversion использует условность изображения, чтобы привязать вывод модели более тесно к исходному, предотвращая нежелательные искажения. Авторы утверждают, что даже когда конкурирующие подходы производят восстановления, которые кажутся точными, введение изменений часто приводит к артефактам или структурным несоответствиям, и что Tight Inversion смягчает эти проблемы.

Наконец, количественные результаты были получены путем оценки Tight Inversion против MagicBrush бенчмарка, используя инверсию DDIM и LEDITS++, измеренную с помощью CLIP Sim.

Количественные сравнения Tight Inversion против бенчмарка MagicBrush.

Количественные сравнения Tight Inversion против бенчмарка MagicBrush.

Авторы заключают:

‘На обоих графиках компромисс между сохранением изображения и соблюдением целевого редактирования четко наблюдается.  Tight Inversion обеспечивает лучший контроль над этим компромиссом и лучше сохраняет входное изображение, при этом соответствуя редактированию [запроса].

‘Обратите внимание, что сходство CLIP выше 0,3 между изображением и текстовым запросом указывает на правдоподобное соответствие между изображением и запросом.’

Заключение

Хотя это не представляет собой “прорыв” в одной из самых сложных задач в синтезе изображений на основе LDM, Tight Inversion консолидирует ряд трудоемких вспомогательных подходов в унифицированный метод редактирования изображений на основе ИИ.

Хотя напряженность между редактируемостью и точностью не исчезла при этом методе, она заметно уменьшена, согласно представленным результатам. Учитывая, что центральная задача, которую эта работа решает, может оказаться в конечном итоге неразрешимой, если подойти к ней на ее собственных условиях (а не искать за пределами архитектур LDM в будущих системах), Tight Inversion представляет собой желаемое инкрементальное улучшение в текущем состоянии дел.

 

Опубликовано впервые в пятницу, 28 февраля 2025

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.