Штучний Інтелект

Instant-Style: збереження стилю під час генерації тексту в зображення

опублікований

3 тижнів тому

Квітень 19, 2024

За останні кілька років моделі дифузії, засновані на налаштуванні, продемонстрували значний прогрес у широкому спектрі завдань персоналізації та налаштування зображення. Однак, незважаючи на їхній потенціал, поточні моделі дифузії, засновані на налаштуванні, продовжують стикатися з безліччю складних проблем у створенні та генеруванні узгоджених зі стилем зображень, і тому можуть бути три причини. По-перше, поняття стилю все ще залишається невизначеним і невизначеним і включає в себе комбінацію елементів, включаючи атмосферу, структуру, дизайн, матеріал, колір і багато іншого. Другі методи, засновані на інверсії, схильні до деградації стилю, що призводить до частої втрати дрібних деталей. Нарешті, підходи на основі адаптера вимагають частого налаштування ваги для кожного еталонного зображення, щоб підтримувати баланс між можливістю керування текстом та інтенсивністю стилю.

Крім того, основною метою більшості підходів до передачі стилів або генерації образу стилю є використання еталонного зображення та застосування його конкретного стилю з даної підмножини або еталонного зображення до зображення цільового вмісту. Однак саме велика кількість атрибутів стилю ускладнює роботу дослідників зі збору стилізованих наборів даних, правильного представлення стилю та оцінки успіху передачі. Раніше моделі та фреймворки, які мали справу з процесом розповсюдження на основі тонкого налаштування, точно налаштовували набір даних зображень, які мають загальний стиль, процес, який забирав багато часу та мав обмежену можливість узагальнення в реальних завданнях, оскільки це важко щоб зібрати підмножину зображень, які мають однаковий або майже ідентичний стиль.

У цій статті ми поговоримо про InstantStyle, фреймворк, розроблений з метою вирішення проблем, з якими стикаються поточні моделі дифузії на основі налаштування для генерації та налаштування зображень. Ми поговоримо про дві ключові стратегії, реалізовані фреймворком InstantStyle:

Простий, але ефективний підхід до відокремлення стилю та вмісту від еталонних зображень у просторі ознак, передбачений на основі припущення, що об’єкти в межах одного простору ознак можна або додавати, або віднімати одне від одного.
Запобігання витоку стилю шляхом введення функцій еталонного зображення виключно в блоки, що стосуються певного стилю, і навмисне уникнення необхідності використання громіздких вагових коефіцієнтів для тонкого налаштування, що часто характеризує проекти з більшою кількістю параметрів.

Ця стаття має на меті детально висвітлити фреймворк InstantStyle, і ми досліджуємо механізм, методологію, архітектуру фреймворку разом із його порівнянням із сучасними фреймворками. Ми також поговоримо про те, як фреймворк InstantStyle демонструє чудові результати візуальної стилізації та встановлює оптимальний баланс між керованістю текстових елементів та інтенсивністю стилю. Тож почнемо.

InstantStyle: збереження стилю під час створення тексту для зображення

Фреймворки штучного інтелекту для створення тексту в зображення на основі дифузії досягли помітного та видатного успіху в широкому спектрі завдань налаштування та персоналізації, зокрема в завданнях послідовного створення зображень, включаючи налаштування об’єктів, збереження зображення та передачу стилю. Однак, незважаючи на нещодавній успіх і підвищення продуктивності, передача стилю залишається складним завданням для дослідників через невизначену та невизначену природу стилю, який часто включає різноманітні елементи, включаючи атмосферу, структуру, дизайн, матеріал, колір та багато іншого. Зважаючи на це, основною метою генерації стилізованого зображення або передачі стилю є застосування певного стилю з заданого еталонного зображення або еталонної підмножини зображень. до зображення цільового вмісту. Однак велика кількість атрибутів стилю ускладнює роботу дослідників зі збору стилізованих наборів даних, правильного представлення стилю та оцінки успіху передачі. Раніше моделі та фреймворки, які мали справу з процесом розповсюдження на основі тонкого налаштування, точно налаштовували набір даних зображень, які мають загальний стиль, процес, який забирав багато часу та мав обмежену можливість узагальнення в реальних завданнях, оскільки це важко щоб зібрати підмножину зображень, які мають однаковий або майже ідентичний стиль.

З огляду на проблеми, з якими стикається поточний підхід, дослідники зацікавилися розробкою підходів до точного налаштування для передачі стилю або створення стилізованого зображення, і ці рамки можна розділити на дві різні групи:

Безадаптерні підходи: Безадаптерні підходи та фреймворки використовують силу самоуважності в процесі розповсюдження, і, реалізуючи операцію спільної уваги, ці моделі здатні витягувати важливі функції, включаючи ключі та значення, безпосередньо з заданих зображень еталонного стилю.

Підходи на основі адаптера: Підходи та фреймворки на основі адаптерів, з іншого боку, включають полегшену модель, призначену для отримання детальних представлень зображень із зображень еталонного стилю. Потім структура інтегрує ці уявлення в процес дифузії, вміло використовуючи механізми перехресної уваги. Основна мета процесу інтеграції полягає в тому, щоб керувати процесом генерації та гарантувати, що отримане зображення узгоджується з бажаними стилістичними нюансами еталонного зображення.

Однак, незважаючи на обіцянки, методи без налаштування часто стикаються з кількома проблемами. По-перше, безадаптерний підхід вимагає обміну ключами та значеннями на рівнях самоконтролю та попереднього захоплення матриць ключів і значень, отриманих із зображень еталонного стилю. При застосуванні на природних зображеннях безадаптерний підхід вимагає інверсії зображення назад до прихованого шуму за допомогою таких методів, як DDIM або інверсія неявних моделей усунення шуму дифузії. Однак використання DDIM або інших підходів до інверсії може призвести до втрати дрібних деталей, як-от колір і текстура, що призведе до зменшення інформації про стиль у створених зображеннях. Крім того, додатковий етап, який вводять ці підходи, є трудомістким процесом і може створити значні недоліки в практичних застосуваннях. З іншого боку, головна проблема для методів на основі адаптера полягає в тому, щоб знайти правильний баланс між витоком контексту та інтенсивністю стилю. Витік вмісту відбувається, коли збільшення інтенсивності стилю призводить до появи нестильних елементів із еталонного зображення у згенерованому виході, причому основною складністю є ефективне відокремлення стилів від вмісту в еталонному зображенні. Щоб вирішити цю проблему, деякі фреймворки створюють парні набори даних, які представляють той самий об’єкт у різних стилях, полегшуючи виділення представлення вмісту та роз’єднаних стилів. Однак, завдяки невизначеному представленню стилю, завдання створення великомасштабних парних наборів даних обмежене з точки зору різноманітності стилів, які воно може охопити, і це також ресурсомісткий процес.

Щоб усунути ці обмеження, представлено фреймворк InstantStyle, який є новим механізмом без налаштування, заснованим на існуючих методах на основі адаптера з можливістю бездоганної інтеграції з іншими методами ін’єкції на основі уваги та ефективного роз’єднання вмісту та стилю. Крім того, фреймворк InstantStyle представляє не один, а два ефективних способи завершити роз’єднання стилю та вмісту, досягаючи кращої міграції стилів без необхідності запроваджувати додаткові методи для досягнення роз’єднання або створення парних наборів даних.

Крім того, попередні фреймворки на основі адаптера широко використовувалися в методах на основі CLIP як екстрактор функцій зображення, деякі фреймворки досліджували можливість реалізації роз’єднання функцій у просторі функцій, і порівняно з невизначеністю стилю легше опишіть вміст текстом. Оскільки зображення та тексти мають спільний простір у методах на основі CLIP, проста операція віднімання функцій контекстного тексту та функцій зображення може значно зменшити витік вмісту. Крім того, у більшості дифузійні моделі, в його архітектурі є окремий рівень, який вводить інформацію про стиль і виконує відокремлення вмісту від стилю шляхом введення функцій зображення лише в певні блоки стилю. Реалізуючи ці дві прості стратегії, фреймворк InstantStyle здатний вирішити проблеми витоку вмісту, з якими стикається більшість існуючих фреймворків, зберігаючи силу стилю.

Підводячи підсумок, фреймворк InstantStyle використовує два прості, зрозумілі, але ефективні механізми для досягнення ефективного відокремлення вмісту та стилю від еталонних зображень. Платформа Instant-Style — це незалежний від моделі підхід без налаштування, який демонструє чудову продуктивність у задачах передачі стилю з величезним потенціалом для подальших завдань.

Instant-Style: методологія та архітектура

Як було продемонстровано попередніми підходами, існує баланс у впровадженні умов стилю в моделях дифузії без налаштування. Якщо інтенсивність стану зображення надто висока, це може призвести до витоку вмісту, тоді як якщо інтенсивність стану зображення падає надто низько, стиль може здаватися недостатньо очевидним. Основною причиною цього спостереження є те, що в зображенні стиль і зміст взаємопов’язані, і через притаманні невизначені атрибути стилю важко роз’єднати стиль і наміри. Як наслідок, для кожного еталонного зображення часто налаштовуються ретельні ваги, намагаючись збалансувати контрольованість тексту та силу стилю. Крім того, для даного вхідного еталонного зображення та його відповідного текстового опису в методах на основі інверсії застосовуються інверсійні підходи, такі як DDIM, для зображення, щоб отримати інвертовану траєкторію дифузії, процес, який наближає рівняння інверсії для перетворення зображення на латентне представлення шуму. Спираючись на те саме й починаючи з перевернутої траєкторії розповсюдження разом із новим набором підказок, ці методи генерують новий вміст, стиль якого відповідає вхідним даним. Однак, як показано на наступному малюнку, інверсійний підхід DDIM для реальних зображень часто нестабільний, оскільки він ґрунтується на припущеннях локальної лінеаризації, що призводить до поширення помилок і призводить до втрати вмісту та неправильної реконструкції зображення.

Якщо говорити про методологію, то замість використання складних стратегій для відокремлення вмісту та стилю від зображень фреймворк Instant-Style використовує найпростіший підхід для досягнення аналогічної продуктивності. У порівнянні з невизначеними атрибутами стилю вміст може бути представлений природним текстом, що дозволяє структурі Instant-Style використовувати кодувальник тексту з CLIP для вилучення характеристик тексту вмісту як представлення контексту. Одночасно фреймворк Instant-Style реалізує кодувальник зображень CLIP для вилучення функцій еталонного зображення. Використовуючи переваги характеристики глобальних функцій CLIP і після віднімання функцій тексту вмісту з функцій зображення, фреймворк Instant-Style може явно роз’єднати стиль і вміст. Хоча це проста стратегія, вона допомагає фреймворку Instant-Style досить ефективно зводити до мінімуму витік вмісту.

Крім того, кожен рівень у глибокій мережі відповідає за захоплення різної семантичної інформації, і ключове спостереження з попередніх моделей полягає в тому, що існують два рівні уваги, які відповідають за стиль обробки. Вгору Зокрема, це шари blocks.0.attentions.1 і down blocks.2.attentions.1, відповідальні за фіксацію стилю, як-от колір, матеріал, атмосфера, а шар просторового розташування фіксує структуру та композицію відповідно. Фреймворк Instant-Style використовує ці шари неявно для отримання інформації про стиль і запобігає витоку вмісту без втрати стилю. Стратегія проста, але ефективна, оскільки модель містить блоки стилів, які можуть вставляти в ці блоки функції зображення для досягнення безперебійної передачі стилю. Крім того, оскільки модель значно зменшує кількість параметрів адаптера, здатність фреймворку керувати текстом покращується, а механізм також застосовний до інших моделей впровадження функцій на основі уваги для редагування та інших завдань.

Instant-Style: експерименти та результати

Фреймворк Instant-Style реалізовано на фреймворку Stable Diffusion XL, і він використовує загальноприйнятий попередньо навчений ІЧ-адаптер як приклад для перевірки своєї методології та вимикає всі блоки, крім блоків стилю для функцій зображення. Модель Instant-Style також навчає ІЧ-адаптер на 4 мільйонах великомасштабних парних наборів даних із текстом і зображенням з нуля, і замість навчання всіх блоків оновлює лише блоки стилів.

Для забезпечення своїх можливостей узагальнення та надійності платформа Instant-Style проводить численні експерименти з перенесенням стилів із різними стилями в різний вміст, і результати можна спостерігати на наступних зображеннях. Враховуючи єдине еталонне зображення стилю разом із різними підказками, фреймворк Instant-Style забезпечує високу якість узгодженого стилю генерація зображень.

Крім того, оскільки модель вводить інформацію про зображення лише в блоки стилів, вона здатна значно пом’якшити проблему витоку вмісту, а отже, не потребує налаштування ваги.

Крім того, фреймворк Instant-Style використовує архітектуру ControlNet для досягнення стилізації на основі зображення з просторовим керуванням, і результати демонструються на наступному зображенні.

У порівнянні з попередніми сучасними методами, включаючи StyleAlign, B-LoRA, Swapping Self Attention і IP-Adapter, структура Instant-Style демонструє найкращі візуальні ефекти.

Заключні думки

У цій статті ми говорили про Instant-Style, загальну структуру, яка використовує дві прості, але ефективні стратегії для ефективного відокремлення вмісту та стилю від еталонних зображень. Інфраструктура InstantStyle розроблена з метою вирішення проблем, з якими стикаються поточні моделі дифузії на основі налаштування для генерації та налаштування зображень. Фреймворк Instant-Style реалізує дві життєво важливі стратегії: простий, але ефективний підхід до відокремлення стилю та вмісту від еталонних зображень у просторі ознак, передбачених на основі припущення, що об’єкти в одному просторі функцій можна або додавати, або віднімати одне від одного. По-друге, запобігання витокам стилів шляхом додавання функцій еталонного зображення виключно в блоки, специфічні для стилю, і навмисне уникнення необхідності використання громіздких вагових коефіцієнтів для тонкого налаштування, що часто характеризує дизайни з більшою кількістю параметрів.

Схожі теми:штучний інтелект Комп'ютерне бачення дифузійні моделі твірний ai генерація зображень Instant-Style InstantStyle

Вгору Далі

10 найкращих висновків зі звіту Стенфордського індексу штучного інтелекту за 2024 рік

Не пропустіть

Підйом розробників програмного забезпечення ШІ: SWE-Agent, Девін ШІ та майбутнє кодування

Кунал Кейрівал

«За фахом інженер, душею — письменник». Кунал є технічним письменником, який глибоко любить і розуміє штучний інтелект і машинне навчання, відданий справі спрощення складних концепцій у цих сферах за допомогою своєї цікавої та інформативної документації.