Штучний інтелект
HD-Painter: Високорозрядне текстово-кероване видалення缺失них областей зображення з моделями дифузії

Моделі дифузії безумовно революціонізували галузь штучного інтелекту та машинного навчання, їх застосування в реальному часі стало невід’ємною частиною нашого повсякденного життя. Після того, як моделі текст-образ продемонстрували свої видатні можливості, техніки маніпулювання зображеннями на основі дифузії, такі як контрольована генерація, спеціалізована та персоналізована синтез зображень, редагування зображень на рівні об’єктів, варіації умовлені промптом та редагування, виникли як гарячі теми досліджень завдяки їх застосуванню в галузі комп’ютерного бачення.
Однак, незважаючи на їх вражаючі можливості та виняткові результати, текст-образові фреймворки, зокрема текст-образові фреймворки видалення缺失них областей, все ще мають потенційні області для розвитку. До цих проблем належать можливість розуміння глобальних сцен, особливо при денойзінгу зображення в високих часових кроках дифузії. Для вирішення цієї проблеми дослідники ввели HD-Painter, повністю безтренувальний фреймворк, який точно слідує інструкціям промпту та масштабується до високорозрядного видалення缺失них областей зображення узгоджено. Фреймворк HD-Painter використовує шар Prompt Aware Introverted Attention (PAIntA), який використовує інформацію промпту для підвищення самоуваження, що призводить до кращої генерації текстової відповідності.
Щоб далі поліпшити узгодженість промпту, модель HD-Painter вводить підхід Reweighting Attention Score Guidance (RASG). Цей підхід інтегрує стратегію пост-гокового вибіркового зразка в загальну форму компонента DDIM безшовно, запобігаючи зміщенню латентних розподілів поза межами розподілу. Крім того, фреймворк HD-Painter включає спеціалізовану техніку супер-розрізнення, адаптовану для видалення缺失них областей, що дозволяє йому розширюватися до більших масштабів та завершувати відсутні області в зображенні з роздільною здатністю до 2K.
HD-Painter: Текстово-кероване видалення缺失них областей зображення
Моделі дифузії текст-образ безумовно були значною темою в галузі штучного інтелекту та машинного навчання в останні місяці, з моделями, які демонструють вражаючі можливості в реальному часі в різних практичних застосуваннях. Передтреновані моделі генерації текст-образ DALL-E, Imagen та Stable Diffusion продемонстрували свою придатність для завершення зображення шляхом злиття денойзованих (генерованих) невідомих областей з дифузованими відомими областями під час процесу зворотної дифузії. Незважаючи на те, що вони виробляють візуально привабливі та гармонійні виходи, існуючі моделі мають труднощі з розумінням глобальної сцени, особливо під час процесу денойзінгу в високих часових кроках дифузії. За допомогою модифікації передтренованих моделей текст-образ дифузії для включення додаткової контекстної інформації, вони можуть бути дообучені для текстово-керованого завершення зображення.
Крім того, у рамках моделей дифузії текстово-кероване видалення缺失них областей та текстово-кероване завершення зображення є основними напрямами досліджень для вчених. Цікавість до цих напрямків викликана тим, що моделі текстово-керованого видалення缺истних областей можуть генерувати контент у певних областях вхідного зображення на основі текстових промптів, що призводить до потенційних застосувань, таких як ретушування певних областей зображення, зміна атрибутів об’єктів, таких як кольори чи одяг, та додавання чи заміна об’єктів. Під час завершення зображення моделі повинні розуміти контекст зображення та промпт, щоб генерувати відповідний контент.

Однак, більшість існуючих фреймворків демонструють ігнорування промпту в двох сценаріях. Перший – Домінування фону, коли модель завершує невідому область, ігноруючи промпт на фоні, тоді як другий сценарій – домінування сусідніх об’єктів, коли модель розповсюджує відомі області об’єктів до невідомої області за допомогою візуальної контекстної ймовірності, а не текстового промпту. Це можливо, що обидві ці проблеми можуть бути результатом здатності стандартного видалення缺истних областей дифузії точно інтерпретувати текстовий промпт або змішувати його з контекстною інформацією, отриманою з відомої області.
Щоб подолати ці перешкоди, фреймворк HD-Painter вводить шар Prompt Aware Introverted Attention (PAIntA), який використовує інформацію промпту для підвищення самоуваження, що призводить до кращої генерації текстової відповідності. PAIntA використовує задану текстову умову для підвищення самоуваження з метою зменшення впливу не-промпт-релевантної інформації з області зображення та одночасно збільшення внеску відомих пікселів, узгоджених з промптом. Щоб далі поліпшити текстову відповідність згенерованих результатів, фреймворк HD-Painter реалізує метод пост-гокової керованої вибірки, який використовує крос-уваження. Однак реалізації стандартного механізму пост-гокової керованої вибірки може спричинити зміщення розподілу латентних змінних, що призведе до погіршення якості згенерованого виходу. Щоб подолати цю перешкоду, фреймворк HD-Painter реалізує механізм Reweighting Attention Score Guidance (RASG), який вводить механізм градієнтного перезважування, що призводить до збереження області латентних змінних.
Розгортаючи обидва компоненти RASH і PAIntA в своїй архітектурі, фреймворк HD-Painter має значну перевагу над існуючими, включаючи найкращі, моделями видалення缺истних областей та текст-образ дифузії, оскільки він вирішує існуючу проблему ігнорування промпту. Крім того, обидва компоненти RASH і PAIntA пропонують функцію “підключи та зіграй”, що дозволяє їм бути сумісними з моделями видалення缺истних областей на основі дифузії для вирішення вищезгаданих проблем. Крім того, реалізуючи час-ітеративну технологію змішування та використовуючи можливості високорозрядних моделей дифузії, трубопровід HD-Painter може працювати ефективно для видалення缺истних областей зображення до роздільної здатності 2K.
Підсумувавши, HD-Painter спрямований на внесок у галузі у таких напрямках:
- Він спрямований на вирішення проблеми ігнорування промпту фону та домінування сусідніх об’єктів, з якими стикаються текстово-керовані фреймворки видалення缺истних областей, реалізуючи шар Prompt Aware Introverted Attention (PAIntA) у своїй архітектурі.
- Він спрямований на поліпшення текстової відповідності виходу шляхом реалізації шару Reweighting Attention Score Guidance (RASG) у своїй архітектурі, що дозволяє фреймворку HD-Painter виконувати пост-гокову керовану вибірку, запобігаючи зміщенню розподілу латентних змінних.
- Він спрямований на розробку ефективного безтренувального текстово-керованого фреймворку завершення зображення, здатного перевершити існуючі найкращі фреймворки, та використання простої, але ефективної, спеціалізованої супер-розрізнення для виконання текстово-керованого видалення缺истних областей зображення до роздільної здатності 2K.
HD-Painter: Метод і архітектура
Перед тим, як розглянути архітектуру, важливо зрозуміти три фундаментальні концепції, які складають основу фреймворку HD-Painter: Видалення缺истних областей зображення, пост-гокова керована вибірка у фреймворках дифузії, та блоки архітектури, спеціалізовані для видалення缺истних областей.
Видалення缺истних областей зображення – це підхід, спрямований на заповнення відсутніх областей у зображенні, забезпечуючи візуальну привабливість згенерованого зображення. Традиційні глибинні моделі навчання реалізували методи, які використовували відомі області для розповсюдження глибинних ознак. Однак введення моделей дифузії призвело до еволюції моделей видалення缺истних областей, особливо текстово-керованих моделей видалення缺истних областей зображення. Традиційно передтренована модель текст-образ дифузії замінює немасковану область латентних змінних за допомогою шумової версії відомої області під час процесу вибірки. Хоча цей підхід працює до певної міри, він суттєво погіршує якість згенерованого виходу, оскільки денойзуюча мережа бачить лише шумову версію відомої області. Щоб подолати цю перешкоду, деякі підходи були спрямовані на дообучення передтренованої моделі текст-образ для досягнення текстово-керованого видалення缺истних областей зображення. Реалізуючи цей підхід, фреймворк може генерувати випадковий масок за допомогою конкатенації, оскільки модель може умовити денойзуючу мережу на немаскованій області.
Переходячи далі, традиційні глибинні моделі навчання реалізували спеціальні дизайнерські шари для ефективного видалення缺истних областей, деякі фреймворки були здатні ефективно витягувати інформацію та генерувати візуально привабливі зображення шляхом введення спеціальних конволюційних шарів для роботи з відомими областями зображення. Деякі фреймворки навіть додали контекстний шар уваги до своєї архітектури для зменшення нежаданих великих обчислювальних вимог усіх до всіх самоуважень для високоякісного видалення缺истних областей.
Нарешті, пост-гокові методи керованої вибірки – це методи зворотної дифузійної вибірки, які керують передбаченням латентних змінних у напрямку певної цільової функції мінімалізації. Пост-гокові методи керованої вибірки мають велике значення для генерації візуального контенту, особливо у присутності додаткових обмежень. Однак пост-гокові методи керованої вибірки мають суттєву недолік: вони відомі тим, що призводять до погіршення якості зображення, оскільки вони мають тенденцію зміщувати процес генерації латентних змінних градієнтним членом.
Переходячи до архітектури HD-Painter, фреймворк спочатку формулює проблему текстово-керованого завершення зображення, а потім вводить дві моделі дифузії, а саме Стабільну видалення缺истних областей та Стабільну дифузію. Потім фреймворк HD-Painter вводить шари PAIntA та RASG, а нарешті ми прийдемо до спеціалізованої супер-розрізнення для видалення缺истних областей.
Стабільна дифузія та стабільне видалення缺истних областей
Стабільна дифузія – це модель дифузії, яка працює у латентному просторі автоенкодера. Для синтезу текст-образ Стабільна дифузія реалізує текстовий промпт для керування процесом. Керуюча функція має структуру, подібну до архітектури UNet, та крос-уваженні шари умовлюють її на текстових промптах. Крім того, модель Стабільної дифузії може виконувати видалення缺истних областей зображення з деякими модифікаціями та дообученням. Для цього ознаки маскованого зображення, згенерованого кодувачем, конкатенують з масштабованою бінарною маскою до латентних змінних. Результируючий тензор потім вводиться до архітектури UNet для отримання оцінки шуму. Фреймворк потім ініціалізує нові додані конволюційні фільтри нулями, тоді як решта UNet ініціалізується за допомогою дообучених контрольних точок з моделі Стабільної дифузії.

Вище наведена фігура демонструє огляд фреймворку HD-Painter, який складається з двох стадій. На першій стадії фреймворк HD-Painter реалізує текстово-кероване видалення缺истних областей зображення, тоді як на другій стадії модель видалення缺истних областей спеціалізованого розрізнення виходу. Щоб заповнити відсутні області та залишитися узгодженим з вхідним промптом, модель бере дообучену модель видалення缺истних областей дифузії, замінює шари самоуваження шарами PAIntA, та реалізує механізм RASG для виконання зворотного процесу дифузії. Модель потім декодує остаточну оцінку латентних змінних, що призводить до згенерованого зображення з видалення缺истних областей. HD-Painter потім реалізує модель Стабільної дифузії для видалення缺истних областей оригінального розміру зображення та реалізує зворотній процес дифузії фреймворку Стабільної дифузії, умовленого на низькорозрядному вхідному зображенні. Модель потім змішує денойзовані передбачення з кодуванням оригінального зображення після кожного кроку у відомій області та виводить наступну латентну змінну. Нарешті, модель декодує латентну змінну та реалізує блендинг Пуассона для уникнення артефактів країв.
Prompt Aware Introverted Attention або PAIntA
Існуючі моделі видалення缺истних областей, такі як Стабільне видалення缺истних областей, схильні більше покладатися на візуальний контекст навколо області видалення缺истних областей та ігнорувати вхідні промпти. На основі досвіду користувача цю проблему можна класифікувати на два класи: домінування сусідніх об’єктів та домінування фону. Проблема візуального контексту, який домінує над промптами, може бути результатом лише просторової та промпт-незалежної природи шарів самоуваження. Щоб подолати цю проблему, фреймворк HD-Painter вводить Prompt Aware Introverted Attention (PAIntA), який використовує матриці крос-уваження та маску видалення缺истних областей для контролю виходу шарів самоуваження в невідомій області.
Компонент Prompt Aware Introverted Attention спочатку застосовує проєкційні шари для отримання ключів, значень та запитів, а також матриці подібності. Модель потім коригує оцінку самоуваження відомих пікселів для пом’якшення сильного впливу відомої області на невідому область та визначає нову матрицю подібності, використовуючи текстовий промпт.

Reweighting Attention Score Guidance або RASG
Фреймворк HD-Painter приймає підхід пост-гокової керованої вибірки для подальшого поліпшення узгодженості генерації з текстовими промптами. Разом з цільовою функцією, підхід пост-гокової керованої вибірки спрямований на використання відкритих властивостей сегментації крос-уваження. Однак цей підхід стандартної пост-гокової керованої вибірки має потенціал для зміщення області латентних змінних, що може погіршити якість згенерованого зображення. Щоб подолати цю проблему, фреймворк HD-Painter реалізує механізм Reweighting Attention Score Guidance (RASG), який вводить механізм градієнтного перезважування, що призводить до збереження області латентних змінних.
HD-Painter: Експерименти та результати
Щоб проаналізувати свою продуктивність, фреймворк HD-Painter порівнюється з поточними найкращими моделями, включаючи Стабільне видалення缺истних областей, GLIDE та BLD або Блендову латентну дифузію, над 10000 випадкових зразків, де промпт вибирається як мітка вибраної маски екземпляра.

Як можна спостерігати, фреймворк HD-Painter перевершує існуючі фреймворки на трьох різних метриках значною мірою, особливо покращення на 1,5 бала за метрикою CLIP та різниця у згенерованій точності близько 10% порівняно з іншими найкращими методами.

Переходячи далі, наступна фігура демонструє якісне порівняння фреймворку HD-Painter з іншими моделями видалення缺истних областей. Як можна спостерігати, інші базові моделі або реконструюють відсутні області зображення як продовження відомих об’єктів, ігноруючи промпти, або генерують фон. З іншого боку, фреймворк HD-Painter здатний успішно генерувати цільові об’єкти завдяки реалізації компонентів PAIntA та RASG у своїй архітектурі.

Остаточні думки
У цій статті ми говорили про HD-Painter, безтренувальний текстово-керований підхід високорозрядного видалення缺истних областей зображення, який вирішує проблеми, з якими стикаються існуючі моделі видалення缺истних областей, включаючи ігнорування промпту та домінування сусідніх об’єктів та фону. Фреймворк HD-Painter реалізує шар Prompt Aware Introverted Attention (PAIntA), який використовує інформацію промпту для підвищення самоуваження, що призводить до кращої генерації текстової відповідності.
Щоб далі поліпшити узгодженість промпту, модель HD-Painter вводить підхід Reweighting Attention Score Guidance (RASG), який інтегрує стратегію пост-гокової керованої вибірки в загальну форму компонента DDIM безшовно, запобігаючи зміщенню латентних розподілів поза межами розподілу. Крім того, фреймворк HD-Painter вводить спеціалізовану техніку супер-розрізнення, адаптовану для видалення缺истних областей, що дозволяє йому розширюватися до більших масштабів та завершувати відсутні області в зображенні з роздільною здатністю до 2K.












