Штучний Інтелект
HD-Painter: малювання зображень високої роздільної здатності з керуванням текстом за допомогою дифузійних моделей

Дифузійні моделі безсумнівно, зробили революцію в індустрії штучного інтелекту та машинного навчання, оскільки їхні програми в режимі реального часу стали невід’ємною частиною нашого повсякденного життя. Після того, як моделі перетворення тексту в зображення продемонстрували свої надзвичайні здібності, методи маніпулювання зображеннями на основі дифузії, такі як керована генерація, спеціалізований і персоналізований синтез зображень, редагування зображень на рівні об’єкта, оперативні варіації з умовами та редагування, стали гарячими темами дослідження через до їх застосування в галузі комп’ютерного зору.
Однак, незважаючи на їхні вражаючі можливості та виняткові результати, фреймворки перетворення тексту в зображення, зокрема фреймворки для малювання тексту в зображення, все ще мають потенційні області для розвитку. До них відноситься здатність розуміти глобальні сцени, особливо під час усунення шумів у зображенні з високими часовими кроками дифузії. Вирішуючи цю проблему, дослідники представили HD-Painter, повністю вільний від навчання фреймворк, який точно слідує швидким інструкціям і масштабується до зображення високої роздільної здатності в послідовному малюванні. Фреймворк HD-Painter використовує рівень підказки інтровертної уваги (PAIntA), який використовує оперативну інформацію для підвищення показників самоуважності, що призводить до кращого вирівнювання тексту.
Щоб ще більше підвищити узгодженість підказки, модель HD-Painter запроваджує підхід перезважування рейтингу уваги (RASG). Цей підхід плавно інтегрує стратегію пост-гок вибірки в загальну форму компонента DDIM, запобігаючи прихованим зрушенням поза розподілом. Крім того, структура HD-Painter має спеціалізовану техніку надвисокої роздільної здатності, налаштовану для внутрішнього малювання, що дозволяє розширювати її до більших масштабів і завершувати відсутні області на зображенні з роздільністю до 2K.
HD-Painter: малювання зображень за допомогою тексту
Моделі розповсюдження тексту в зображення дійсно стали важливою темою в індустрії штучного інтелекту та машинного навчання останніми місяцями, коли моделі демонструють вражаючі можливості в реальному часі в різних практичних додатках. Попередньо навчені моделі генерації тексту в зображення, такі як DALL-E, Imagen і Stable Diffusion, показали свою придатність для завершення зображення шляхом об’єднання знешумлених (згенерованих) невідомих областей із розсіяними відомими областями під час процесу зворотної дифузії. Незважаючи на створення візуально привабливих і добре узгоджених результатів, існуючим моделям важко зрозуміти глобальну ситуацію, особливо в процесі усунення шумів із високим рівнем дифузії. Змінюючи попередньо навчені моделі розповсюдження тексту в зображення, щоб включити додаткову контекстну інформацію, їх можна точно налаштувати для завершення зображення під керуванням тексту.
Крім того, в рамках дифузійних моделей основними сферами інтересу для дослідників є замальовування під керуванням тексту та завершення зображень під керуванням тексту. Цей інтерес викликаний тим фактом, що моделі малювання з керуванням текстом можуть генерувати вміст у певних областях вхідного зображення на основі текстових підказок, що призводить до потенційних застосувань, таких як ретуш певних областей зображення, зміна атрибутів предмета, як-от кольори чи одяг, і додавання або заміна предметів. Таким чином, моделі розповсюдження тексту в зображення нещодавно досягли безпрецедентного успіху завдяки своїм виключно реалістичним і візуально привабливим можливостям генерації.
Однак більшість існуючих фреймворків демонструють швидке нехтування у двох сценаріях. Перший Домінування фону коли модель завершує невідому область, ігноруючи підказку у фоновому режимі, тоді як другий сценарій є домінування сусіднього об'єкта коли модель поширює об’єкти відомої області до невідомої області, використовуючи ймовірність візуального контексту, а не підказку введення. Цілком можливо, що обидві ці проблеми можуть бути результатом здатності vanilla inpainting diffusion точно інтерпретувати текстову підказку або змішувати її з контекстною інформацією, отриманою з відомого регіону.
Щоб подолати ці перешкоди, структура HD-Painter представляє рівень Prompt Aware Introverted Attention або PAIntA, який використовує інформацію про підказки для підвищення показників самоуважності, що зрештою призводить до кращого вирівнювання тексту. PAIntA використовує задані текстові умови для покращення увага до себе оцінка з метою зменшення впливу релевантної інформації, що не є підказкою, з області зображення, водночас збільшуючи внесок відомих пікселів, узгоджених із підказкою. Для подальшого покращення вирівнювання тексту згенерованих результатів у структурі HD-Painter реалізовано метод настанов пост-гок, який використовує показники перехресної уваги. Однак реалізація механізму ванільного пост-гок наведення може спричинити зміщення розподілу в результаті додаткового градієнтного члена в рівнянні дифузії. Зсув за межі розподілу в кінцевому підсумку призведе до погіршення якості отриманого результату. Щоб подолати цю перешкоду, у структурі HD-Painter реалізовано рекомендації щодо оцінки уваги зважування або RASG, метод, який плавно інтегрує стратегію пост-гок вибірки в загальну форму компонента DDIM. Це дозволяє фреймворку генерувати візуально правдоподібні результати малювання, направляючи зразок до швидко вирівняних латентів і містити їх у їх навченому домені.
Завдяки розгортанню компонентів RASH і PAIntA у своїй архітектурі структура HD-Painter має суттєву перевагу перед існуючими, включаючи сучасні моделі малювання та розповсюдження тексту в зображення, оскільки їй вдається вирішити існуючу проблему швидкого ігнорування. Крім того, як компоненти RASH, так і компоненти PAIntA пропонують функцію plug and play, що дозволяє їм бути сумісними з дифузійними базовими моделями малювання для вирішення згаданих вище завдань. Крім того, запровадивши технологію змішування з ітерацією в часі та використовуючи можливості дифузійні моделі високої роздільної здатності, конвеєр HD-Painter може ефективно працювати для малювання з роздільною здатністю до 2K.
Підводячи підсумок, HD-Painter прагне зробити такий внесок у цій галузі:
- Він має на меті вирішити проблему швидкого ігнорування домінування фону та прилеглих об’єктів, яку відчувають фреймворки для малювання зображень із текстовим керуванням, реалізувавши в своїй архітектурі рівень Prompt Aware Introverted Attention або PAIntA.
- Він має на меті покращити вирівнювання тексту результату шляхом впровадження в його архітектурі шару Reweighting Attention Score Guidance або RASG, що дає змогу структурі HD-Painter виконувати пост-гоц керовану вибірку, одночасно запобігаючи розподілу змін.
- Розробити ефективний безнавчальний конвеєр завершення зображення з текстовим керуванням, здатний перевершити існуючі сучасні фреймворки, і використовуючи просту, але ефективну спеціалізовану на inpainting структуру суперроздільності для виконання текстового керованого малювання зображень із роздільною здатністю до 2K.
HD-Painter: метод і архітектура
Перш ніж ми подивимося на архітектуру, життєво важливо зрозуміти три фундаментальні концепції, які складають основу фреймворку HD-Painter: Image Inpainting, Post-Hoc Guidance in Diffusion Frameworks, та Малювання конкретних архітектурних кварталів.
Image Inpainting — це підхід, метою якого є заповнення відсутніх областей у зображенні, забезпечуючи при цьому візуальну привабливість створеного зображення. Традиційні фреймворки глибокого навчання реалізували методи, які використовували відомі регіони для поширення глибоких функцій. Однак впровадження дифузійних моделей призвело до еволюції моделей малювання, особливо рамок малювання зображень із керуванням текстом. Традиційно попередньо навчена модель розповсюдження тексту в зображення замінює незамасковану область латентної за допомогою зашумленої версії відомої області під час процесу вибірки. Хоча цей підхід певною мірою працює, він значно погіршує якість згенерованого виводу, оскільки мережа знешумлення бачить лише зашумлену версію відомої області. Щоб подолати цю перешкоду, було розроблено кілька підходів, спрямованих на тонке налаштування попередньо навченої моделі «текст-зображення» для створення зображення під керуванням тексту. Реалізуючи цей підхід, фреймворк може генерувати випадкову маску за допомогою конкатенації, оскільки модель здатна обумовлювати фреймворк усунення шуму в незамаскованій області.
Рухаючись далі, традиційні моделі глибокого навчання реалізували спеціальні шари дизайну для ефективного замальовування з деякими фреймворками, здатними ефективно витягувати інформацію та створювати візуально привабливі зображення шляхом введення спеціальних шарів згортки для обробки відомих областей зображення. Деякі фреймворки навіть додали рівень контекстної уваги до своєї архітектури, щоб зменшити небажані важкі обчислювальні вимоги до всіх до всіх, щоб отримати високу якість малювання.
І, нарешті, методи наведення Post-hoc — це методи вибірки зворотної дифузії, які спрямовують латентне передбачення наступного кроку до конкретної цілі мінімізації функції. Методи аналітичних інструкцій дуже допомагають, коли йдеться про створення візуального вмісту, особливо за наявності додаткових обмежень. Однак методи Post-hoc навігації мають серйозний недолік: відомо, що вони призводять до погіршення якості зображення, оскільки мають тенденцію зміщувати латентний процес генерації на градієнтний термін.
Переходячи до архітектури HD-Painter, фреймворк спочатку формулює задачу завершення зображення під керуванням тексту, а потім представляє дві моделі дифузії, а саме стабільне малювання та Стабільна дифузія. Потім модель HD-Painter представляє блоки PAIntA та RASG, і, нарешті, ми досягаємо спеціальної для малювання техніки суперроздільності.
Стабільна дифузія та стабільне зафарбовування
Стабільна дифузія — це модель дифузії, яка працює в прихованому просторі автокодера. Для синтезу тексту в зображення платформа Stable Diffusion реалізує текстову підказку для керування процесом. Направляюча функція має структуру, подібну до архітектури UNet, а рівні перехресного звернення уваги обумовлюють її текстовими підказками. Крім того, модель Stable Diffusion може виконувати малювання зображення з деякими модифікаціями та тонким налаштуванням. Щоб досягти цього, характеристики замаскованого зображення, створеного кодувальником, об’єднуються зі зменшеною бінарною маскою до латентів. Отриманий тензор потім вводиться в архітектуру UNet для отримання оціненого шуму. Потім структура ініціалізує нещодавно додані згорткові фільтри нулями, тоді як решта UNet ініціалізується за допомогою попередньо підготовлених контрольних точок із моделі стабільної дифузії.
Наведений вище малюнок демонструє огляд структури HD-Painter, що складається з двох етапів. На першому етапі фреймворк HD-Painter реалізує малювання зображень із керуванням текстом, тоді як на другому етапі модель малює певну надроздільну здатність результату. Щоб заповнити області місії та залишатися узгодженими з підказкою введення, модель використовує попередньо навчену модель дифузії inpainting, замінює шари самоуважності на шари PAIntA та реалізує механізм RASG для виконання процесу зворотної дифузії. Потім модель декодує остаточний оцінений латент, що призводить до незафарбованого зображення. Потім HD-Painter реалізує модель надстабільної дифузії для малювання зображення вихідного розміру та реалізує зворотний процес дифузії фреймворку Stable Diffusion на основі вхідного зображення з низькою роздільною здатністю. Модель поєднує знешумлені прогнози з кодуванням оригінального зображення після кожного кроку у відомій області та виводить наступний латент. Нарешті, модель декодує прихований і реалізує змішування Пуассона, щоб уникнути краєвих артефактів.
Prompt Aware Introverted Attention або PAIntA
Існуючі моделі малювання, як-от стабільне малювання, більше покладаються на візуальний контекст навколо області малювання та ігнорують підказки користувача. На основі досвіду користувача цю проблему можна розділити на два класи: домінування об’єктів поблизу та домінування фону. Проблема домінування візуального контексту над підказками введення може бути результатом лише просторової та вільної від підказок природи шарів самоуважності. Щоб вирішити цю проблему, структура HD-Painter представляє Prompt Aware Introverted Attention або PAIntA, яка використовує матриці перехресної уваги та маску внутрішнього малювання для контролю виведення шарів самоуважності в невідомій області.
Компонент Prompt Aware Introverted Attention спочатку застосовує шари проекції, щоб отримати ключ, значення та запити разом із матрицею подібності. Потім модель коригує оцінку уваги відомих пікселів, щоб пом’якшити сильний вплив відомої області на невідому область, і визначає нову матрицю подібності, використовуючи текстову підказку.
Рекомендації щодо оцінки уваги або RASG
Фреймворк HD-Painter застосовує метод керівних вказівок із вибіркою, щоб ще більше покращити узгодження генерації з текстовими підказками. Поряд із цільовою функцією, підхід до вказівок із вибіркою націлений на використання властивостей сегментації відкритого словника шарів перехресної уваги. Однак цей підхід ванільного пост-гок керівництва потенційно може змістити область латентної дифузії, що може погіршити якість створеного зображення. Щоб вирішити цю проблему, модель HD-Painter реалізує механізм Reweighting Attention Score Guidance або RASG, який запроваджує механізм градієнтного перезважування, що призводить до збереження прихованої області.
HD-Painter: експерименти та результати
Щоб проаналізувати його продуктивність, фреймворк HD-Painter порівнюється з поточними сучасними моделями, включаючи Stable Inpainting, GLIDE і BLD або Blended Latent Diffusion понад 10000 XNUMX випадкових зразків, де підказка вибирається як мітка вибраної маски екземпляра.
Як можна помітити, фреймворк HD-Painter значно перевершує існуючі фреймворки за трьома різними метриками, особливо покращення на 1.5 бала за метрикою CLIP і різниця в отриманій оцінці точності приблизно на 10% від інших сучасних методів. .
Наступний малюнок демонструє якісне порівняння фреймворку HD-Painter з іншими фреймворками inpainting. Як можна спостерігати, інші базові моделі або реконструюють відсутні області на зображенні як продовження відомих об’єктів області, не враховуючи підказки, або генерують фон. З іншого боку, структура HD-Painter здатна успішно генерувати цільові об’єкти завдяки реалізації компонентів PAIntA та RASG у своїй архітектурі.
Заключні думки
У цій статті ми говорили про HD-Painter, навчальний підхід до малювання з високою роздільною здатністю під керуванням безкоштовного тексту, який вирішує проблеми, з якими стикаються існуючі фреймворки для малювання, включаючи миттєве ігнорування та домінування об’єктів поблизу та фону. Фреймворк HD-Painter реалізує рівень Prompt Aware Introverted Attention або PAIntA, який використовує оперативну інформацію для підвищення показників самоуважності, що зрештою призводить до кращого вирівнювання тексту.
Щоб ще більше покращити узгодженість підказки, модель HD-Painter запроваджує підхід Reweighting Attention Score Guidance або підхід RASG, який інтегрує стратегію астрономічної вибірки в загальну форму компонента DDIM, щоб запобігти прихованим зрушенням із розподілу. Крім того, структура HD-Painter представляє спеціальну техніку надвисокої роздільної здатності, налаштовану для малювання, що призводить до розширення до більших масштабів і дозволяє структурі HD-Painter завершувати відсутні області на зображенні з роздільною здатністю до 2K.