Connect with us

Покращення точності редакування зображень штучним інтелектом

Погляд Anderson

Покращення точності редакування зображень штучним інтелектом

mm
Images from the paper ' Tight Inversion: Image-Conditioned Inversion for Real Image Editing'

Хоча латентна модель дифузії Firefly від Adobe є однією з найкращих на сьогодні, користувачі Photoshop, які спробували її генеративні функції, помітили, що вона не може легко редагувати існуючі зображення – натомість вона повністю заміняє вибрану користувачем область на зображення, засноване на текстовому промпті користувача (хоча Firefly добре інтегрує вироблені секції в контекст зображення).

У поточній бета-версії Photoshop можна至少 включити посилове зображення як часткову зображення-промпт, що дозволяє флагманському продукту Adobe наздогнати функціональність, яку користувачі Stable Diffusion користуються вже понад два роки, завдяки стороннім фреймворкам, таким як Controlnet:

Поточна бета-версія Adobe Photoshop дозволяє використовувати посилові зображення при генерації нового контенту всередині вибору – хоча це справді випадкова справа на даний момент.

Поточна бета-версія Adobe Photoshop дозволяє використовувати посилові зображення при генерації нового контенту всередині вибору – хоча це справді випадкова справа на даний момент.

Це ілюструє відкриту проблему в дослідженні синтезу зображень – труднощі, пов’язані з редагуванням існуючих зображень без реалізації повномасштабної “переосмислення” вибору, вказаного користувачем.

Хоча це дифузійне заповнення підкоряється промпту користувача, воно повністю переосмислює предмет зображення без урахування оригінального зображення (окрім змішування нового покоління з середовищем). Джерело: https://arxiv.org/pdf/2502.20376

Хоча це дифузійне заповнення підкоряється промпту користувача, воно повністю переосмислює предмет зображення без урахування оригінального зображення (окрім змішування нового покоління з середовищем). Джерело: https://arxiv.org/pdf/2502.20376

Ця проблема виникає через те, що ЛДМ генерують зображення через ітеративне шумопониження, де кожний етап процесу умовний щодо текстового промпту, наданого користувачем. З текстовим промптом, перетвореним на токени вкладення, і з гіпермасштабною моделлю, такою як Stable Diffusion або Flux, що містить сотні тисяч (або мільйони) майже відповідних вкладень, пов’язаних з промптом, процес має розрахований умовний розподіл для орієнтації; і кожний крок є кроком до цього “умовного розподілу-цілі”.

Отже, це текст до зображення – сценарій, у якому користувач “сподівається на найкраще”, оскільки немає жодної гарантії, яким буде генерація.

Натомість багато хто намагається використовувати потужну генеративну здатність ЛДМ для редагування існуючих зображень – але це передбачає баланс між вірністю та гнучкістю.

Коли зображення проєктується в латентний простір моделі за допомогою методів, таких як інверсія DDIM, мета полягає в тому, щоб відновити оригінал якомога ближче,,同时 дозволяючи здійснювати значимі редагування. Проблема полягає в тому, що чим точніше зображення відновлюється, тим більше модель дотримується своєї оригінальної структури, що робить важкими значимі зміни.

Як і багато інших дифузійних фреймворків редагування зображень, запропонованих за останні роки, архітектура Renoise має труднощі з здійсненням будь-яких реальних змін у зовнішньому вигляді зображення, з лише формальним вказівником на галстук-бантик біля основи горла кота.

Як і багато інших дифузійних фреймворків редагування зображень, запропонованих за останні роки, архітектура Renoise має труднощі з здійсненням будь-яких реальних змін у зовнішньому вигляді зображення, з лише формальним вказівником на галстук-бантик біля основи горла кота.

З іншого боку, якщо процес пріоритезує редагування, модель послаблює свою хватку на оригінал, роблячи його легшим для введення змін – але за рахунок загальної узгодженості з джерельним зображенням:

Місія виконана – але це перетворення, а не корекція, для більшості фреймворків редагування зображень на основі штучного інтелекту.

Місія виконана – але це перетворення, а не корекція, для більшості фреймворків редагування зображень на основі штучного інтелекту.

Оскільки це проблема, яку навіть значні ресурси Adobe мають труднощі з подоланням, то ми можемо розсудливо вважати, що виклик є помітним і може не дозволити легких рішень, якщо такі існують.

Тісна інверсія

Отже, приклади в новій роботі, опублікованій цього тижня, привернули мою увагу, оскільки ця робота пропонує гідне та помітне покращення сучасного стану справ у цій галузі, доводячи здатність застосовувати тонкі та розвинені редагування до зображень, проєктованих у латентний простір моделі – без того, щоб редагування були незначними або перекривали оригінальний вміст джерельного зображення:

З Тісною інверсією, застосованою до існуючих методів інверсії, вибір джерела розглядається більш детально, а перетворення підкоряються оригінальному матеріалу замість того, щоб перекривати його.

З Тісною інверсією, застосованою до існуючих методів інверсії, вибір джерела розглядається більш детально, а перетворення підкоряються оригінальному матеріалу замість того, щоб перекривати його.

Хобісти та практики ЛДМ можуть впізнати такий результат, оскільки більша частина його може бути створена у складному робочому процесі за допомогою зовнішніх систем, таких як Controlnet та IP-Adapter.

На справді новий метод – названий Тісною інверсією – дійсно використовує IP-Adapter, а також спеціалізовану модель для людських зображень.

З оригінальної роботи IP-Adapter 2023 року, приклади створення відповідних редагувань джерельного матеріалу. Джерело: https://arxiv.org/pdf/2308.06721

З оригінальної роботи IP-Adapter 2023 року, приклади створення відповідних редагувань джерельного матеріалу. Джерело: https://arxiv.org/pdf/2308.06721

Значуще досягнення Тісної інверсії полягає в тому, що вона процедуралізувала складні техніки в єдиний модальний плагін, який можна застосувати до існуючих систем, включаючи багато з найпопулярніших розподілів ЛДМ.

Природно, це означає, що Тісна інверсія (ТІ), як і допоміжні системи, які вона використовує, використовує джерельне зображення як умовний фактор для свого редагованого варіанту, замість того, щоб покладатися виключно на точні текстові промпти:

Додаткові приклади здатності Тісної інверсії застосовувати справжнє змішування редагувань до джерельного матеріалу.

Додаткові приклади здатності Тісної інверсії застосовувати справжнє змішування редагувань до джерельного матеріалу.

Хоча автори погоджуються, що їхній підхід не вільний від традиційної та тривалої напруженості між вірністю та редагуванням у дифузійних техніках редагування зображень, вони повідомляють про результати на рівні сучасного стану справ, коли вводять ТІ в існуючі системи, порівнюючи з базовим виконанням.

Нова робота називається Тісна інверсія: зображення-умовна інверсія для реального редагування зображень, і походять від п’яти дослідників з Тель-Авівського університету та Snap Research.

Метод

Спочатку велика мова модель (ВММ) використовується для генерації набору різноманітних текстових промптів, з яких генерується зображення. Потім застосовується інверсія DDIM до кожного зображення з трьома текстовими умовами: текстовий промпт, використаний для генерації зображення; скорочена версія того ж; і порожній промпт.

З повернутим шумом від цих процесів зображення знову регенеруються з тією ж умовою, і без класифікаторної безплатної керівництва (КБК).

Бали інверсії DDIM за різними метриками з різними налаштуваннями промпту.

Бали інверсії DDIM за різними метриками з різними налаштуваннями промпту.

Як ми бачимо з графіка вище, бали за різні метрики покращуються з збільшенням довжини тексту. Метрики, які використовувалися, були піковим співвідношенням сигналу до шуму (ПСС); відстань L2; індекс структуальної подібності (ІСП); і навчена перцептивна подібність зображення-патчу (НПСП).

Обізнаність зображення

Ефективно Тісна інверсія змінює спосіб, у який модель дифузії редагує реальні зображення, умовляючи процес інверсії зображенням самим, а не покладаючись лише на текст.

Звичайно, інвертуючи зображення у простір шуму моделі, потрібно оцінити початковий шум, який, при денойзуванні, відновлює вхід. Стандартні методи використовують текстовий промпт для керівництва цим процесом; але недосконалий промпт може привести до помилок, втрачаючи деталі або змінюючи структури.

Тісна інверсія замість цього використовує IP-Adapter, щоб надати візуальну інформацію в модель, так що вона відновлює зображення з більшим ступенем точності, перетворюючи джерельні зображення на умовні токени та проєктуючи їх у трубопровід інверсії.

Ці параметри є редагованими: збільшення впливу джерельного зображення робить реконструкцію майже ідеальною, тоді як зменшення його дозволяє здійснювати більш творчі зміни. Це робить Тісну інверсію корисною як для тонких модифікацій, таких як зміна кольору сорочки, так і для більш значимих редагувань, таких як заміна об’єктів – без звичайних побічних ефектів інших методів інверсії, таких як втрата тонких деталей або несподівані аномалії у фоновому контенті.

Автори заявляють:

‘Ми відзначаємо, що Тісна інверсія може бути легко інтегрована з попередніми методами інверсії (наприклад, Edit Friendly DDPM, ReNoise) шляхом [заміни вбудованого ядра дифузії на модель IP-Adapter], [і] Тісна інверсія послідовно покращує такі методи за рахунок як реконструкції, так і редагування.’

Дані та тести

Дослідники оцінили ТІ на її здатність відновлювати та редагувати реальні джерельні зображення. Усі експерименти використовували Стабільну дифузію XL з розкладом DDIM, як описано в оригінальній роботі Стабільної дифузії; і всі тести використовували 50 кроків денойзування за замовчуванням коефіцієнта керівництва 7,5.

Для умовлення зображення використовувався IP-Adapter-plus sdxl vit-h. Для тестів з кількома кроками дослідники використовували SDXL-Turbo з планом Ейлера, і також проводили експерименти з FLUX.1-dev, умовляючи модель в останньому випадку на PuLID-Flux, використовуючи RF-Inversion на 28 кроках.

PulID використовувався виключно в випадках, що включають людські обличчя, оскільки це саме той домен, для якого PulID був навчений – і хоча це варто відзначити, що спеціалізована підсистема використовується для цього одного можливого типу промпту, наша надмірна цікавість до генерації людських облич свідчить про те, що покладатися виключно на ширші ваги базової моделі, такої як Стабільна дифузія, може бути недостатнім для стандартів, які ми вимагаємо для цієї конкретної задачі.

Тести на реконструкцію проводилися для якісної та кількісної оцінки. На зображенні нижче ми бачимо якісні приклади для інверсії DDIM:

Якісні результати для інверсії DDIM. Кожний рядок показує дуже детальне зображення поряд з його реконструйованими версіями, з кожним кроком, який використовує все більш точні умови під час інверсії та денойзування. Як умови стають більш точними, якість реконструкції покращується. Правий стовпчик демонструє найкращі результати, де саме оригінальне зображення використовується як умова, досягнувши найвищої вірності. КБК не використовувався на жодному етапі. Будь ласка, зверніться до джерельного документа для кращого розширення та деталізації.

Якісні результати для інверсії DDIM. Кожний рядок показує дуже детальне зображення поряд з його реконструйованими версіями, з кожним кроком, який використовує все більш точні умови під час інверсії та денойзування. Як умови стають більш точними, якість реконструкції покращується. Правий стовпчик демонструє найкращі результати, де саме оригінальне зображення використовується як умова, досягнувши найвищої вірності. КБК не використовувався на жодному етапі. Будь ласка, зверніться до джерельного документа для кращого розширення та деталізації.

Робота заявляє:

‘Ці приклади підкреслюють, що умовлення процесу інверсії на зображенні значно покращує реконструкцію в дуже детальних регіонах.

‘Зокрема, у третьому прикладі [нижче], наш метод успішно відновлює татуювання на спині правого боксера. Крім того, поза ноги боксера більш точно зберігається, і татуювання на нозі стає видимим.’

Додаткові якісні результати для інверсії DDIM. Описові умови покращують інверсію DDIM, з умовленням зображення, яке перевершує текст, особливо на складних зображеннях.

Додаткові якісні результати для інверсії DDIM. Описові умови покращують інверсію DDIM, з умовленням зображення, яке перевершує текст, особливо на складних зображеннях.

Автори також протестували Тісну інверсію як модуль drop-in для існуючих систем, протиставляючи модифіковані версії їх базовому виконанню.

Три системи, які були протестовані, були вищезгаданою інверсією DDIM та RF-Inversion; і також ReNoise, яка поділяє деякі авторства з роботою, яку ми обговорюємо тут. Оскільки результати DDIM не мають труднощів у досягненні 100% реконструкції, дослідники зосередилися лише на редагуванні.

(Якісні результати зображень сформатовані таким чином, що їх важко відтворити тут, тому ми посилаємо читача до джерельного PDF для повнішого висвітлення та кращого розширення, незважаючи на те, що деякі вибірки представлені нижче)

Ліворуч, якісні результати реконструкції для Тісної інверсії з SDXL. Праворуч, реконструкція з Flux. Розклад цих результатів у опублікованій роботі робить їх важкими для відтворення тут, тому будь ласка, зверніться до джерельного PDF для справжнього враження від різниць, отриманих.

Ліворуч, якісні результати реконструкції для Тісної інверсії з SDXL. Праворуч, реконструкція з Flux. Розклад цих результатів у опублікованій роботі робить їх важкими для відтворення тут, тому будь ласка, зверніться до джерельного PDF для справжнього враження від різниць, отриманих.

Автори коментують:

‘Як ілюструється, інтеграція Тісної інверсії з існуючими методами послідовно покращує реконструкцію. Наприклад, наш метод точно відновлює поручень у лівому прикладі та людину у синій сорочці в правому прикладі [у фігурі 5 роботи].’

Автори також протестували систему кількісно. У відповідності з попередніми роботами, вони використовували валідаційну вибірку MS-COCO, і відзначають, що результати (показані нижче) покращили реконструкцію за всі метрики для всіх методів.

Порівняння метрик для продуктивності систем з та без Тісної інверсії.

Порівняння метрик для продуктивності систем з та без Тісної інверсії.

Далі автори протестували здатність системи редагувати фотографії, протиставляючи її базовим версіям попередніх підходів prompt2prompt; Edit Friendly DDPM; LED-ITS++; і RF-Inversion.

Показані нижче вибірки якісних результатів для SDXL та Flux (і ми посилаємо читача до джерельного PDF для подальших прикладів).

Вибірки з розлого якісних результатів (дещо плутано) поширених по роботі. Ми посилаємо читача до джерельного PDF для покращеного розширення та змістовної ясності.

Вибірки з розлого якісних результатів (дещо плутано) поширених по роботі. Ми посилаємо читача до джерельного PDF для покращеного розширення та змістовної ясності.

Автори стверджують, що Тісна інверсія послідовно перевершує існуючі техніки інверсії, досягнувши кращого балансу між реконструкцією та редагуванням. Стандартні методи, такі як інверсія DDIM та ReNoise, можуть відновити зображення добре, робота заявляє, що вони часто мають труднощі з збереженням тонких деталей, коли застосовуються редагування.

Натомість Тісна інверсія використовує умовлення зображення, щоб закріпити вивід моделі ближче до оригіналу, запобігаючи нежаданим спотвореннями. Автори стверджують, що навіть коли конкуруючі підходи створюють реконструкції, які здаються точними, введення редагувань часто призводить до артефактів або структур несумісностей, і що Тісна інверсія пом’якшує ці питання.

Нарешті, кількісні результати були отримані шляхом оцінки Тісної інверсії проти бенчмарку MagicBrush, використовуючи інверсію DDIM та LEDITS++, виміряну за допомогою CLIP Sim.

Кількісні порівняння Тісної інверсії проти бенчмарку MagicBrush.

Кількісні порівняння Тісної інверсії проти бенчмарку MagicBrush.

Автори висновують:

‘У обидвох графіках компроміс між збереженням зображення та відповідністю цілевому редагуванню явно спостерігається. Тісна інверсія забезпечує кращий контроль над цим компромісом і краще зберігає вхідне зображення, залишаючись при цьому сумісним з редагуванням [промпту]. ‘

‘Відзначимо, що подібність CLIP понад 0,3 між зображенням та текстовим промптом вказує на плідну відповідність між зображенням та промптом.’

Висновок

Хоча Тісна інверсія не представляє “прорив” у одному з найгостріших викликів у синтезі зображень на основі ЛДМ, вона консолідує ряд важких допоміжних підходів у єдиний метод редагування зображень на основі штучного інтелекту.

Хоча напруженість між редагуванням та вірністю не зникла під цим методом, вона помітно зменшена, згідно з результатами, представленими. Враховуючи, що центральний виклик, який ця робота адресує, може виявитися в кінцевому підсумку непереборним, якщо звернутися до нього на його власних умовах (а не шукати за межами архітектур, заснованих на ЛДМ, у майбутніх системах), Тісна інверсія представляє бажане інкрементальне покращення сучасного стану справ.

 

Опубліковано вперше у п’ятницю, 28 лютого 2025

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]