Connect with us

HD-Painter: Високорозрядне текстове керування відновленням зображення з моделями дифузії

Штучний інтелект

HD-Painter: Високорозрядне текстове керування відновленням зображення з моделями дифузії

mm
HD-Painter : High Resolution Text-Guided Image Inpainting with Diffusion Models

Моделі дифузії безумовно революціонізували галузь штучного інтелекту та машинного навчання, їх застосування в реальному часі стало невід’ємною частиною нашого повсякденного життя. Після того, як моделі текст-образ продемонстрували свої виняткові можливості, техніки маніпулювання зображеннями на основі дифузії, такі як кероване покоління, спеціалізоване та персоналізоване синтезування зображень, редагування зображень на рівні об’єктів, варіації та редагування за умовчанням, виникли як актуальні теми досліджень через їх застосування в галузі комп’ютерного зору.

Однак, незважаючи на їх вражаючі можливості та виняткові результати, рамки текст-образ, особливо рамки текст-образ відновлення, все ще мають потенційні області для розвитку. До цих належать можливість розуміння глобальних сцен, особливо при денойзінгу зображення на високих кроках дифузії. Для вирішення цієї проблеми дослідники ввели HD-Painter, повністю безтренувальну рамку, яка точно слідує інструкціям за умовчанням і масштабується до високорозрядного відновлення зображення узгоджено. Рамка HD-Painter використовує шар Prompt Aware Introverted Attention (PAIntA), який використовує інформацію за умовчанням для покращення самоуваження, що в результаті дає краще текстове вирівнювання.

Для подальшого покращення узгодженості за умовчанням модель HD-Painter вводить підхід Reweighting Attention Score Guidance (RASG). Цей підхід інтегрує стратегію післяhoc вибірки в загальну форму компонента DDIM безшовно, запобігаючи зміщенню латентних розподілів. Крім того, рамка HD-Painter має спеціалізовану техніку супер-розрізнення, призначену для відновлення, що дозволяє їй розширюватися до більших масштабів і завершувати відсутні регіони в зображенні з роздільністю до 2K.

HD-Painter: Текстове керування відновленням зображення

Моделі дифузії текст-образ безумовно були значною темою в галузі штучного інтелекту та машинного навчання в останні місяці, з моделями, які демонструють вражаючі можливості в реальному часі в різних практичних застосуваннях. Передтреновані моделі текст-образ генерації, такі як DALL-E, Imagen і Stable Diffusion, продемонстрували свою придатність для завершення зображення шляхом об’єднання денойзованих (генерованих) невідомих регіонів з дифузованими відомими регіонами під час процесу зворотної дифузії. Незважаючи на те, що вони виробляють візуально привабливі та гармонізовані виходи, існуючі моделі мають труднощі з розумінням глобальної сцени, особливо під високим кроком дифузії денойзінгу. За допомогою модифікації передтренованих моделей текст-образ дифузії для включення додаткової контекстної інформації, їх можна донастроювати для текстового керування завершенням зображення.

Крім того, в рамках моделей дифузії текстове керування відновленням зображення та текстове керування завершенням зображення є основними напрямами досліджень. Цікавість до цих тем пояснюється тим, що моделі текстового керування відновленням зображення можуть генерувати вміст у конкретних регіонах вхідного зображення на основі текстових за умовчанням, що веде до потенційних застосувань, таких як ретушування конкретних регіонів зображення, зміна атрибутів об’єктів, таких як кольори чи одяг, та додавання чи заміна об’єктів. Під час підсумовування, моделі дифузії текст-образ недавно досягли безпрецедентного успіху завдяки своїй винятково реалістичній та візуально привабливій генерації.

Однак, більшість існуючих рамок демонструють ігнорування за умовчанням у двох сценаріях. Перший – це Домінування фону, коли модель завершує невідомий регіон, ігноруючи за умовчанням на фоні, тоді як другий сценарій – це домінування сусідніх об’єктів, коли модель пропагує відомі регіони об’єктів до невідомого регіону за допомогою візуальної контекстної ймовірності, а не вхідного за умовчанням. Це можливо, що обидві ці проблеми можуть бути результатом здатності звичайного відновлення дифузії точно інтерпретувати текстове за умовчанням або змішувати його з контекстною інформацією, отриманою з відомого регіону.

Для подолання цих перешкод рамка HD-Painter вводить шар Prompt Aware Introverted Attention або PAIntA, який використовує інформацію за умовчанням для покращення самоуваження, що в результаті дає краще текстове вирівнювання. PAIntA використовує задану текстову умовність для покращення самоуваження з метою зменшення впливу інформації, не пов’язаної з умовчанням, з регіону зображення, а також збільшення внеску відомих пікселів, узгоджених з умовчанням. Для подальшого покращення текстового вирівнювання згенерованих результатів рамка HD-Painter реалізує метод пост-хок керування, який використовує крос-уваження. Однак реалізація методу пост-хок керування може спричинити зміщення латентних розподілів через додатковий градієнтний член у рівнянні дифузії. Зміщення латентних розподілів в результаті призведе до погіршення якості згенерованого виходу. Для подолання цієї перешкоди рамка HD-Painter реалізує Reweighting Attention Score Guidance або RASG, метод, який інтегрує стратегію післяhoc вибірки в загальну форму компонента DDIM безшовно. Це дозволяє рамці генерувати візуально правдоподібні результати відновлення, керуючи вибіркою до латентних, узгоджених з умовчанням, і утримуючи їх у навченому домені.

Розгортанням обох компонентів RASH і PAIntA в своїй архітектурі рамка HD-Painter має суттєву перевагу над існуючими, включаючи найкращі, рамками відновлення та моделями дифузії текст-образ, оскільки вона вирішує існуючу проблему ігнорування за умовчанням. Крім того, обидва компоненти RASH і PAIntA пропонують функціональність “вставте та зіграйте”, що дозволяє їм бути сумісними з моделями дифузійного відновлення для подолання вищезгаданих проблем. Крім того, реалізуючи технологію час-ітеративного змішування та використовуючи можливості високорозрядних моделей дифузії, трубопровід HD-Painter може працювати ефективно для відновлення з роздільністю до 2K.

Під час підсумовування, HD-Painter має на меті зробити наступний внесок у галузь:

  1. Він має на меті вирішити проблему ігнорування за умовчанням фону та домінування сусідніх об’єктів, які переживають текстово-кероване відновлення зображення, реалізуючи шар Prompt Aware Introverted Attention або PAIntA в своїй архітектурі.
  2. Він має на меті покращити текстове вирівнювання виходу, реалізуючи шар Reweighting Attention Score Guidance або RASG в своїй архітектурі, який дозволяє рамці HD-Painter виконувати пост-хок керування вибіркою, запобігаючи зміщенню латентних розподілів.
  3. Він має на меті розробити ефективний трубопровід текстово-керованого завершення зображення без навчання, який може перевершити існуючі рамки найкращого стану, та використовувати просту, але ефективну, техніку супер-розрізнення, спеціалізовану для відновлення, для виконання текстово-керованого відновлення зображення з роздільністю до 2K.

HD-Painter: Метод і архітектура

Перед тим, як розглянути архітектуру, важливо зрозуміти три фундаментальні концепції, які складають основу рамки HD-Painter: відновлення зображення, пост-хок керування в рамках дифузії, та блоки архітектури, спеціалізовані для відновлення.

Відновлення зображення – це підхід, який має на меті заповнити відсутні регіони в зображенні, забезпечуючи візуальну привабливість згенерованого зображення. Традиційні рамки глибокого навчання реалізували методи, які використовували відомі регіони для пропагації глибоких ознак. Однак введення моделей дифузії призвело до еволюції моделей відновлення, особливо текстово-керованих рамок відновлення зображення. Традиційно передтренована модель текст-образ дифузії замінює немаскований регіон латентного стану за допомогою шумної версії відомого регіону під час процесу вибірки. Хоча цей підхід працює до певної міри, він погіршує якість згенерованого виходу суттєво, оскільки мережа денойзингу бачить лише шумну версію відомого регіону. Для подолання цієї перешкоди деякі підходи мали на меті донастроювати передтреновану модель текст-образ для досягнення текстово-керованого відновлення зображення. Реалізуючи цей підхід, рамка може генерувати випадковий масок за допомогою конкатенації, оскільки модель може умовно денойзувати мережу на немаскованому регіоні.

Далі, традиційні моделі глибокого навчання реалізували спеціальні шари для ефективного відновлення, деякі з яких могли ефективно витягувати інформацію та генерувати візуально привабливі зображення, вводячи спеціальні конволюційні шари для роботи з відомими регіонами зображення. Деякі рамки навіть додали контекстний шар уваги в свою архітектуру для зменшення нежаданих великих обчислювальних вимог для всіх до всіх самоуважень для високоякісного відновлення.

Нарешті, методи пост-хок керування – це методи вибірки зворотної дифузії, які керують передбаченням латентного стану на наступному кроці до мінімалізації певної функції. Методи пост-хок керування дуже корисні при генерації візуального вмісту, особливо у присутності додаткових обмежень. Однак методи пост-хок керування мають суттєву недолік: вони відомі тим, що призводять до погіршення якості зображення, оскільки вони мають тенденцію зміщувати процес генерації латентного стану градієнтним членом.

Перейшовши до архітектури HD-Painter, рамка спочатку формулює проблему текстово-керованого завершення зображення, а потім вводить дві моделі дифузії, а саме Стабільне відновлення та Стабільну дифузію. Модель HD-Painter потім вводить блоки PAIntA та RASG, а нарешті ми прийшли до техніки супер-розрізнення, спеціалізованої для відновлення.

Стабільна дифузія та стабільне відновлення

Стабільна дифузія – це модель дифузії, яка працює в латентному просторі автоенкодера. Для синтезу текст-образ Стабільна дифузія реалізує текстове за умовчанням для керування процесом. Функція керування має структуру, подібну до архітектури UNet, та крос-уваженні шари умовно залежать від текстових за умовчанням. Крім того, модель Стабільної дифузії може виконувати відновлення зображення з деякими модифікаціями та донастроюванням. Для досягнення цього ознаки маскованого зображення, згенерованого кодувачем, конкатенуються з масштабованим бінарним маском до латентного стану. Результируючий тензор потім вводиться в архітектуру UNet для отримання оцінки шуму. Рамка потім ініціалізує нові конволюційні фільтри нулями, тоді як решта UNet ініціалізується за допомогою передтренованих контрольних точок з моделі Стабільної дифузії.

Вищезгадане зображення демонструє огляд рамки HD-Painter, який складається з двох стадій. На першій стадії рамка HD-Painter реалізує текстово-кероване відновлення зображення, тоді як на другій стадії модель відновлює конкретне супер-розрізнення виходу. Для заповнення відсутніх регіонів та забезпечення узгодженості з вхідним за умовчанням модель приймає передтреновану модель дифузійного відновлення, замінює шари самоуваження на шари PAIntA, та реалізує механізм RASG для виконання зворотної дифузії. Модель потім декодує остаточну оцінку латентного стану, що призводить до відновленого зображення. HD-Painter потім реалізує модель Стабільної дифузії для відновлення зображення оригінального розміру, та реалізує зворотній процес дифузії рамки Стабільної дифузії, умовно залежного від низькорозрядного вхідного зображення. Модель потім змішує денойзовані передбачення з кодуванням оригінального зображення після кожного кроку в відомому регіоні та виводить наступний латентний стан. Нарешті, модель декодує латентний стан та реалізує змішування Пуассона для уникнення артефактів країв.

Prompt Aware Introverted Attention або PAIntA

Існуючі моделі відновлення, такі як Стабільне відновлення, схильні більше залежати від візуального контексту навколо регіону відновлення та ігнорувати вхідні за умовчанням. На основі досвіду користувача цю проблему можна класифікувати на два класи: домінування сусідніх об’єктів та домінування фону. Проблема домінування візуального контексту над за умовчанням може бути результатом лише-просторового та умовно-безумовного характеру шарів самоуваження. Для подолання цієї проблеми рамка HD-Painter вводить Prompt Aware Introverted Attention або PAIntA, який використовує крос-матриці уваги та маску відновлення для контролю виходу шарів самоуваження в невідомому регіоні.

Компонент Prompt Aware Introverted Attention спочатку застосовує проекційні шари для отримання ключів, значень та запитів, а також матриці схожості. Модель потім регулює оцінку уваги відомих пікселів для пом’якшення сильного впливу відомого регіону на невідомий регіон, та визначає нову матрицю схожості, використовуючи текстове за умовчанням.

Reweighting Attention Score Guidance або RASG

Рамка HD-Painter приймає метод пост-хок керування вибіркою для подальшого покращення узгодженості генерації з текстовими за умовчанням. Разом з об’єктивною функцією підхід пост-хок керування має на меті використати властивості відкритої лексики крос-уваження. Однак цей підхід ванільного пост-хок керування має потенціал для зміщення домену латентної дифузії, що може погіршити якість згенерованого зображення. Для подолання цієї проблеми модель HD-Painter реалізує механізм Reweighting Attention Score Guidance або RASG, який вводить механізм перезважування градієнта, що призводить до збереження латентного домену.

HD-Painter: Експерименти та результати

Для аналізу своєї продуктивності рамка HD-Painter порівнюється з поточними моделями найкращого стану, включаючи Стабільне відновлення, GLIDE та BLD або Блендову латентну дифузію, над 10000 випадкових зразків, де за умовчанням вибрано як мітку вибраного екземпляру маски.

Як можна побачити, рамка HD-Painter перевершує існуючі рамки за трьома різними метриками, особливо покращення на 1,5 бали за метрикою CLIP та різницю в згенерованій точності близько 10% від інших моделей найкращого стану.

Далі, наступне зображення демонструє якісне порівняння рамки HD-Painter з іншими моделями відновлення. Як можна побачити, інші базові моделі або відновлюють відсутні регіони в зображенні як продовження відомих регіонів об’єктів, ігноруючи за умовчанням, або генерують фон. З іншого боку, рамка HD-Painter能够 успішно генерувати цільові об’єкти завдяки реалізації компонентів PAIntA та RASG у своїй архітектурі.

Остатні думки

У цій статті ми говорили про HD-Painter, безтренувальний підхід текстово-керованого високорозрядного відновлення зображення, який вирішує проблеми, з якими стикаються існуючі моделі відновлення, включаючи ігнорування за умовчанням та домінування сусідніх об’єктів. Рамка HD-Painter реалізує шар Prompt Aware Introverted Attention або PAIntA, який використовує інформацію за умовчанням для покращення самоуваження, що в результаті дає краще текстове вирівнювання.

Для подальшого покращення узгодженості за умовчанням модель HD-Painter вводить підхід Reweighting Attention Score Guidance або RASG, який інтегрує стратегію післяhoc вибірки в загальну форму компонента DDIM безшовно, запобігаючи зміщенню латентних розподілів. Крім того, рамка HD-Painter вводить спеціалізовану техніку супер-розрізнення, призначену для відновлення, що дозволяє їй розширюватися до більших масштабів та завершувати відсутні регіони в зображенні з роздільністю до 2K.

Інженер за професією, письменник серцем. Kunal є технічним письменником з глибокою любов'ю та розумінням AI і ML, присвяченим спрощенню складних концепцій у цих галузях завдяки його цікавим та інформативним документам.