Штучний Інтелект
Покращення генерації зеленого екрана для стабільної дифузії

Незважаючи на ентузіазм спільноти та інвесторів щодо генеративного візуального штучного інтелекту, результати таких систем не завжди готові до використання в реальному світі; одним із прикладів є те, що системи штучного інтелекту покоління мають тенденцію виводити цілі зображення (або серії зображень, у випадку відео), а не окремі, ізольовані елементи які зазвичай потрібні для різноманітних додатків у мультимедіа та для спеціалістів із візуальних ефектів.
Простим прикладом цього є кліп-арт, призначений для «плавання» над будь-яким цільовим фоном, який вибрав користувач:

Світло-сірий картатий фон, який, мабуть, найбільш знайомий користувачам Photoshop, став представляти альфа-канал або канал прозорості навіть у простих споживчих предметах, таких як стокові зображення.
Прозорість такого типу широко доступна вже понад тридцять років; починаючи з цифрової революції початку 1990-х років, користувачі могли витягувати елементи з відео та зображень за допомогою все більш складних наборів інструментів і методів.
Наприклад, проблема «виключення» фону синього та зеленого екрану у відеоматеріалах, які колись входили до компетенції дорогих хімічні процеси та оптичні принтери (так добре як штейни ручної роботи), стане роботою хвилин у таких системах, як програми Adobe After Effects і Photoshop (серед багатьох інших безкоштовних і запатентованих програм і систем).
Як тільки елемент було ізольовано, an альфа-канал (фактично маска, яка приховує будь-який нерелевантний вміст) дозволяє без зусиль накладати будь-який елемент у відео на новий фон або поєднувати його з іншими ізольованими елементами.

Приклади альфа-каналів, їхні ефекти зображені в нижньому рядку. Джерело: https://helpx.adobe.com/photoshop/using/saving-selections-alpha-channel-masks.html
Випадання
У комп'ютерному зорі створення альфа-каналів належить до егіди семантична сегментація, з проектами з відкритим кодом, такими як Meta Сегмент будь-що надання текстових підказок методу ізоляції/вилучення цільових об’єктів за допомогою семантично розширеного розпізнавання об’єктів.
Фреймворк Segment Anything використовувався в багатьох робочих процесах вилучення та ізоляції візуальних ефектів, таких як Проект Альфа-КЛІП.

Приклад вилучення за допомогою Segment Anything у структурі Alpha-CLIP: Джерело: https://arxiv.org/pdf/2312.03818
Існує багато альтернатив методи семантичної сегментації, які можна адаптувати до завдання призначення альфа-каналів.
Однак семантична сегментація спирається на навчені дані, які можуть містити не всі категорії об'єкта які необхідно витягти. Хоча моделі, навчені на дуже великих обсягах даних, можуть дозволити розпізнавати ширший спектр об’єктів (фактично стаючи базовими моделями або моделі світу), тим не менш, вони обмежені класами, які вони навчені розпізнавати найбільш ефективно.

Системи семантичної сегментації, такі як Segment Anything, можуть важко ідентифікувати певні об’єкти або частини об’єктів, як показано тут у виводі неоднозначних підказок. Джерело: https://maucher.pages.mi.hdm-stuttgart.de/orbook/deeplearning/SAM.html
У будь-якому випадку, семантична сегментація є такою ж постфактум процес як процедура зеленого екрану, і має ізолювати елементи без переваги єдиної смуги фонового кольору, яку можна ефективно розпізнати та видалити.
З цієї причини спільноті користувачів іноді приходило в голову, що можуть бути створені зображення та відео які насправді містять зелений фон екрану які можна миттєво видалити звичайними методами.
На жаль, популярний моделі прихованої дифузії такий як Стабільна дифузія часто виникають деякі труднощі з відтворенням справді яскравого зеленого екрана. Це пояснюється тим, що навчальні дані моделей зазвичай не містять багато прикладів цього досить спеціалізованого сценарію. Навіть коли система успішна, ідея «зеленого» має тенденцію поширюватися небажаним чином на об’єкт переднього плану через концепцію заплутаність:

Вище ми бачимо, що Stable Diffusion надає перевагу автентичності зображення над необхідністю створення однієї інтенсивності зеленого кольору, ефективно відтворюючи проблеми реального світу, які виникають у традиційних сценаріях зеленого екрана. Нижче ми бачимо, що «зелена» концепція забруднила зображення переднього плану. Чим більше підказка зосереджується на «зеленій» концепції, тим гіршою є проблема. Джерело: https://stablediffusionweb.com/
Незважаючи на передові методи, які використовуються, і жіноча сукня, і чоловіча краватка (на нижніх зображеннях вище) мали б тенденцію «випадати» разом із зеленим фоном – проблема, яка бере свій початок* із часів видалення барвників фотохімічною емульсією. у 1970-1980-х роках.
Як завжди, недоліки моделі можна подолати, додавши до проблеми певні дані та виділивши значні навчальні ресурси. Такі системи, як пропозиція Стенфордського університету 2024 року LayerDiffuse створити тонко налаштований модель, здатна генерувати зображення з альфа-каналами:

Стенфордський проект LayerDiffuse був навчений на мільйоні відповідних зображень, здатних надати моделі можливості прозорості. Джерело: https://arxiv.org/pdf/2402.17113
На жаль, окрім значних ресурсів кураторства та навчання, необхідних для цього підходу, набір даних, який використовується для LayerDiffuse, не є загальнодоступним, що обмежує використання моделей, навчених на ньому. Навіть якби цієї перешкоди не існувало, цей підхід важко налаштувати або розробити для конкретних випадків використання.
Трохи пізніше, у 2024 році, Adobe Research співпрацювала з Університетом Стонібрука для виробництва МАГИК, підхід штучного інтелекту до виділення, навчений на спеціально створених дифузійних зображеннях.

Зі статті 2024 року, приклад дрібнозернистого виділення альфа-каналу в MAGICK. Джерело: https://openaccess.thecvf.com/content/CVPR2024/papers/Burgert_MAGICK_A_Large-scale_Captioned_Dataset_from_Matting_Generated_Images_using_CVPR_2024_paper.pdf
150,000 XNUMX витягнутих об’єктів, згенерованих штучним інтелектом, були використані для навчання MAGICK, щоб система розробила інтуїтивне розуміння вилучення:

Зразки з набору навчальних даних MAGICK.
Цей набір даних, як зазначено в вихідному документі, було дуже складно створити з вищезгаданої причини – через те, що методи дифузії мають труднощі зі створенням суцільних ключових смуг кольорів. Тому потрібен був ручний вибір згенерованих штейнів.
Це логістичне вузьке місце знову призводить до системи, яку нелегко розробити чи налаштувати, а її потрібно використовувати в рамках початково навченого діапазону можливостей.
TKG-DM – «Нативне» виділення кольоровості для моделі латентної дифузії
Нове співробітництво між німецькими та японськими дослідниками запропонувало альтернативу таким навченим методам, здатним, як стверджується в документі, отримати кращі результати, ніж згадані вище методи, без необхідності навчання на спеціально підібраних наборах даних.

TKG-DM змінює випадковий шум, який створює генеративне зображення, таким чином, щоб воно краще створювало суцільний фон будь-якого кольору з можливістю ключа. Джерело: https://arxiv.org/pdf/2411.15580
Новий метод підходить до проблеми на рівні генерації, оптимізуючи випадковий шум з якого створюється зображення в a модель прихованої дифузії (LDM), наприклад Стабільна дифузія.
Підхід ґрунтується на a попереднє розслідування у колірну схему стабільного дифузійного розподілу та здатний створювати колір фону будь-якого типу з меншим (або без) заплутуванням основного кольору фону у вміст переднього плану порівняно з іншими методами.

Початковий шум зумовлений середнім зсувом каналу, який здатний впливати на аспекти процесу усунення шумів, не заплутуючи колірний сигнал у вмісті переднього плану.
У папері зазначено:
«Наші масштабні експерименти демонструють, що TKG-DM покращує показники FID та маски FID на 33.7% і 35.9% відповідно.
Таким чином, наша модель без навчання конкурує з точно налаштованими моделями, пропонуючи ефективне та універсальне рішення для різноманітних завдань зі створення візуального вмісту, які вимагають точного керування переднім і фоновим планом. '
Команда новий папір має титул TKG-DM: дифузійна модель генерації Chroma Key Content Generation без навчання, і походить від семи дослідників з університету Хосей у Токіо та RPTU Kaiserslautern-Landau & DFKI GmbH у Кайзерслаутерні.
Метод
Новий підхід розширює архітектуру стабільної дифузії, обумовлюючи початковий гаусівський шум через канал середня зміна (CMS), який створює шаблони шуму, призначені для сприяння бажаному поділу фону та переднього плану в згенерованому результаті.

Схема пропонованої системи.
CMS регулює середнє значення кожного колірного каналу, зберігаючи загальний розвиток процесу усунення шумів.
Автори пояснюють:
«Щоб згенерувати об’єкт переднього плану на фоні кольорового ключа, ми застосовуємо стратегію виділення початкового шуму, яка вибірково поєднує початковий [шум] і початковий колір [шум] за допомогою двовимірної [маски Гауса].
«Ця маска створює поступовий перехід, зберігаючи початковий шум у області переднього плану та застосовуючи шум зі зміщеним кольором до фонової області».

Кольоровий канал, потрібний для кольорового кольору фону, створюється за допомогою нульового текстового підказки, тоді як фактичний вміст переднього плану створюється семантично з текстової інструкції користувача.
Самоувага та перехресна увага використовуються для розділення двох аспектів зображення (кольоровий фон і вміст переднього плану). Самоувага допомагає з внутрішньою узгодженістю об’єкта переднього плану, тоді як перехресна увага підтримує точність текстової підказки. У документі вказується, що оскільки фонове зображення зазвичай менш деталізоване та підкреслюється поколіннями, його слабший вплив відносно легко подолати та замінити зразком чистого кольору.

Візуалізація впливу уваги на себе та перехресної уваги в процесі генерації кольорового стилю.
Дані та тести
TKG-DM тестували за допомогою Stable Diffusion V1.5 і Stable Diffusion SDXL. Зображення були створені з розміром 512x512px і 1024x1024px відповідно.
Зображення були створені за допомогою Планувальник DDIM рідний для стабільної дифузії, на a орієнтовна шкала 7.5, з 50 кроками зменшення шуму. Цільовим кольором фону був зелений, тепер він метод домінантного відсіву.
Новий підхід порівнювався з DeepFloyd, у налаштуваннях, які використовуються для MAGICK; до тонко налаштованого дифузія низького рангу модель GreenBack LoRA; а також до вищезгаданого LayerDiffuse.
Для даних було використано 3000 зображень із набору даних MAGICK.

Приклади з набору даних MAGICK, з якого було підібрано 3000 зображень під час тестування для нової системи. Джерело: https://ryanndagreat.github.io/MAGICK/Explorer/magick_rgba_explorer.html
Для метрики автори використовували Початкова відстань Фреше (FID), щоб оцінити якість переднього плану. Вони також розробили спеціальну метрику під назвою m-FID, яка використовує BiRefNet система оцінки якості отриманої маски.

Візуальне порівняння системи BiRefNet із попередніми методами. Джерело: https://arxiv.org/pdf/2401.03407
Щоб перевірити семантичне узгодження з підказками введення, CLIP-речення (CLIP-S) і CLIP-зображення (CLIP-I) були використані методи. CLIP-S оцінює миттєву точність, а CLIP-I візуальну схожість із наземною правдою.

Перший набір якісних результатів для нового методу, цього разу для Stable Diffusion V1.5. Щоб отримати кращу роздільну здатність, перегляньте вихідний PDF-файл.
Автори стверджують, що результати (візуалізовані вище та нижче, SD1.5 та SDXL, відповідно) демонструють, що TKG-DM отримує чудові результати без оперативного проектування чи необхідності тренувати чи налаштовувати модель.

Якісні результати SDXL. Щоб отримати кращу роздільну здатність, перегляньте вихідний PDF-файл.
Вони помітили, що з підказкою про ініціювання зеленого фону в згенерованих результатах Stable Diffusion 1.5 має труднощі зі створенням чистого фону, тоді як SDXL (хоча працює трохи краще) створює нестабільні світло-зелені відтінки, які можуть заважати розділенню в процесі кольоровості.
Крім того, вони зазначають, що, хоча LayerDiffuse генерує добре відокремлені фони, він іноді втрачає деталі, такі як точні цифри чи літери, і автори пояснюють це обмеженнями в наборі даних. Вони додають, що генерація масок також іноді дає збій, що призводить до «необрізаних» зображень.
Для кількісних тестів, хоча LayerDiffuse, очевидно, має перевагу в SDXL для FID, автори підкреслюють, що це результат спеціалізованого набору даних, який фактично є «запеченим» і негнучким продуктом. Як згадувалося раніше, будь-які об’єкти чи класи, які не охоплені цим набором даних або охоплені недостатньо, можуть не працювати належним чином, тоді як подальше тонке налаштування для розміщення нових класів створює для користувача тягар курування та навчання.

Кількісні результати для порівнянь. Очевидна перевага LayerDiffuse, згідно з документом, відбувається за рахунок гнучкості та тягаря обробки даних і навчання.
У папері зазначено:
«Високі показники FID, m-FID і CLIP-I DeepFloyd відображають його схожість із реальними результатами DeepFloyd. Однак таке вирівнювання дає йому невід'ємну перевагу, що робить його непридатним як чесний еталон якості зображення. Його нижчий показник CLIP-S додатково вказує на слабкіше вирівнювання тексту порівняно з іншими моделями.
Загалом ці результати підкреслюють здатність нашої моделі створювати високоякісні передні плани з вирівнюванням тексту без тонкого налаштування, пропонуючи ефективне рішення для генерації кольорового ключового вмісту».
Нарешті, дослідники провели дослідження користувачів, щоб оцінити швидке дотримання різних методів. Сто учасників попросили оцінити 30 пар зображень з кожного методу, причому суб’єкти були виділені за допомогою BiRefNet і ручного уточнення в усіх прикладах. У цьому дослідженні було віддано перевагу підходу авторів без навчання.

Результати дослідження користувачів.
ТКГ-ДМ сумісний з поп ControlNet сторонньої системи для Stable Diffusion, і автори стверджують, що вона дає кращі результати, ніж власна здатність ControlNet досягати такого типу розділення.
Висновок
Мабуть, найпомітнішим висновком із цієї нової статті є ступінь заплутаності моделей латентної дифузії, на відміну від популярного суспільного уявлення про те, що вони можуть без особливих зусиль відокремлювати грані зображень і відео під час генерування нового вмісту.
Дослідження також підкреслює, наскільки дослідницька спільнота та спільнота любителів звернулися до тонкого налаштування як a постфактум виправлення недоліків моделей – рішення, яке завжди стосується конкретних класів і типів об’єктів. У такому сценарії точно налаштована модель або буде дуже добре працювати на обмеженій кількості класів, або працюватиме стерпно ну на набагато більшому обсязі можливих класів і об’єктів, відповідно до більшої кількості даних у навчальних наборах.
Тому приємно бачити принаймні одне рішення, яке не покладається на такі трудомісткі та, можливо, нещирі рішення.
* Зйомки фільму 1978 року надлюдина, актор Крістофер Рів був зобов'язаний носити a бірюзовий Костюм Супермена для знімків процесів на синьому екрані, щоб уникнути стирання легендарного синього костюма. Пізніше блакитний колір костюма було відновлено шляхом градації кольорів.