Штучний інтелект

DiffSeg : Безопeraційна нульова сегментація за допомогою стабільної дифузії

Published December 26, 2023

Updated April 27, 2026

Kunal Kejriwal

DiffSeg : Unsupervised Zero-Shot Segmentation using Stable Diffusion

Одна з основних проблем у моделях, заснованих на комп’ютерному баченні, є генерація високоякісних масок сегментації. Нещодавні досягнення у великомасштабному наглядовому тренуванні дозволили здійснити нульову сегментацію через різні стилі зображень. Крім того, безопeraційне тренування спрощує сегментацію без потреби у великих анотаціях. Незважаючи на ці розробки, створення комп’ютерної моделі, здатної сегментувати все у нульовому режимі без анотацій, залишається складною задачею. Семантична сегментація, фундаментальна концепція у моделях комп’ютерного бачення, полягає у розділі зображення на менші регіони з уніфікованою семантикою. Цей метод закладає основу для багатьох наступних завдань, таких як медична візуалізація, редагування зображень, автономне водіння та інше.

Для розвитку моделей комп’ютерного бачення важливо, щоб сегментація зображень не обмежувалася фіксованим набором даних з обмеженими категоріями. Натомість, вона повинна діяти як універсальна основна задача для різних інших застосунків. Однак висока вартість збору міток на піксельній основі представляє значну проблему, що обмежує прогрес нульової та наглядової сегментації, які не потребують анотацій і відсутності попереднього доступу до цілі. Ця стаття обговорить, як шари самої уваги у стабільних моделях дифузії можуть сприяти створенню моделі, здатної сегментувати будь-який вхід у нульовому режимі, навіть без належних анотацій. Ці шари самої уваги природно розуміють поняття об’єктів, вивчені попередньо тренованою стабільною моделлю дифузії.

DiffSeg : Розширений алгоритм нульової сегментації

Семантична сегментація – це процес, який розділяє зображення на різні секції, кожна з яких має схожу семантику. Цей метод закладає основу для багатьох наступних завдань. Традиційно нульові завдання комп’ютерного бачення залежали від наглядової семантичної сегментації, яка використовує великі набори даних з анотованими та позначеними категоріями. Однак реалізація безопeraційної семантичної сегментації у нульовому режимі залишається проблемою. Хоча традиційні наглядові методи ефективні, їхня вартість міток на піксельній основі часто є заборонною, підкреслюючи необхідність розробки безопeraційних методів сегментації у менш обмеженому нульовому режимі, де модель не потребує анотованих даних чи попередніх знань про дані.

Для вирішення цієї проблеми DiffSeg вводить нову стратегію постобробки, яка використовує можливості стабільної моделі дифузії для створення загальної моделі сегментації, здатної до нульової передачі на будь-якому зображенні. Стабільні моделі дифузії довели свою ефективність у генерації високоякісних зображень на основі умов промпта. Для згенерованих зображень ці моделі можуть створювати маски сегментації за допомогою відповідних текстових промптів, які зазвичай включають лише домінантні об’єкти переднього плану.

Натомість, DiffSeg – це інноваційний метод постобробки, який створює маски сегментації, використовуючи тензори уваги з шарів самої уваги у моделі дифузії. Алгоритм DiffSeg складається з трьох основних компонентів: ітеративного злиття уваги, агрегації уваги та супресії некспертного максимуму, як показано на наступному зображенні.

Алгоритм DiffSeg зберігає візуальну інформацію через різні роздільності, агрегуючи 4D тензори уваги з просторовою узгодженістю та використовуючи ітеративний процес злиття шляхом вибірки якорних точок. Ці якорні точки слугують стартовою точкою для злиття масок уваги з одними й тими ж об’єктами, які в кінцевому підсумку будуть поглинені. Фреймворк DiffSeg контролює процес злиття за допомогою методу розходження Кульбака-Лейблера для вимірювання схожості між двома картами уваги.

Порівняно з кластерними методами безопeraційної сегментації, розробникам не потрібно вказувати кількість кластерів заздалегідь у алгоритмі DiffSeg, і навіть без будь-яких попередніх знань алгоритм DiffSeg може створювати сегментацію без використання додаткових ресурсів. Загалом, алгоритм DiffSeg – це новий безопeraційний і нульовий метод сегментації, який використовує попередньо треновану стабільну модель дифузії та може сегментувати зображення без будь-яких додаткових ресурсів чи попередніх знань.

DiffSeg : Основні концепції

DiffSeg – це новий алгоритм, який будується на знаннях моделей дифузії, безопeraційної сегментації та нульової сегментації.

Моделі дифузії

Алгоритм DiffSeg будується на знаннях попередньо тренованих моделей дифузії. Моделі дифузії – це одні з найпопулярніших генеративних фреймворків для моделей комп’ютерного бачення, і вони вивчають прямий і зворотний процес дифузії від зображення ізотропічного гауссовського шуму до генерації зображення. Стабільна дифузія – це найпопулярніший варіант моделей дифузії, і вона використовується для виконання широкого спектра завдань, включаючи наглядову сегментацію, нульову класифікацію, семантичне співвідношення, ефективну сегментацію та відкриту сегментацію. Однак єдина проблема з моделями дифузії полягає в тому, що вони залежать від високовимірних візуальних ознак для виконання цих завдань, і вони часто потребують додаткового тренування для повного використання цих ознак.

Безопeraційна сегментація

Алгоритм DiffSeg тісно пов’язаний з безопeraційною сегментацією, сучасною практикою штучного інтелекту, яка має на меті створювати густі маски сегментації без використання будь-яких анотацій. Однак для досягнення хорошої продуктивності моделі безопeraційної сегментації часто потребують деякого попереднього безопeraційного тренування на цільовому наборі даних. Моделі безопeraційної сегментації можна характеризувати двома категоріями: кластеризація за допомогою попередньо тренованих моделей та кластеризація на основі інваріантності. У першій категорії фреймворки використовують дискримінативні ознаки, вивчені попередньо тренованими моделями, для створення масок сегментації, тоді як фреймворки другої категорії використовують загальний алгоритм кластеризації, який оптимізує взаємну інформацію між двома зображеннями для сегментації зображень у семантичні кластери та уникнення дегенеративної сегментації.

Нульова сегментація

Алгоритм DiffSeg тісно пов’язаний з фреймворками нульової сегментації, методом, який має здатність сегментувати все без попереднього тренування чи знання даних. Моделі нульової сегментації продемонстрували виняткові можливості нульової передачі в останні часи, хоча вони потребують деякого текстового вводу та промптів. Натомість, алгоритм DiffSeg використовує модель дифузії для генерації сегментації без запиту та синтезу кількох зображень та без знання змісту об’єкта.

DiffSeg : Метод і архітектура

Алгоритм DiffSeg використовує шари самої уваги у попередньо тренованій стабільній моделі дифузії для генерації високоякісних завдань сегментації.

Стабільна модель дифузії

Стабільна дифузія – це одна з фундаментальних концепцій у фреймворці DiffSeg. Стабільна дифузія – це генеративний фреймворк штучного інтелекту, і одна з найпопулярніших моделей дифузії. Однією з основних характеристик моделі дифузії є прямий і зворотний прохід. У прямому проході додається невелика кількість гауссовського шуму до зображення ітеративно на кожному етапі часу, поки зображення не стане ізотропічним гауссовським шумом. Натомість, у зворотному проході модель дифузії ітеративно видаляє шум у ізотропічному гауссовському шумі для відновлення оригінального зображення без гауссовського шуму.

Фреймворк стабільної дифузії використовує кодувач-декодувач та архітектуру U-Net з шаром уваги, де він використовує кодувач для стиснення зображення у латентний простір з меншими просторовими розмірами, і використовує декодувач для декомпресії зображення. Архітектура U-Net складається зі стека модульних блоків, де кожний блок складається з одного з наступних двох компонентів: шару трансформера та шару ResNet.

Компоненти та архітектура

Шари самої уваги у моделях дифузії групують інформацію про вбудовані об’єкти у вигляді просторових карт уваги, і DiffSeg – це новий метод постобробки для злиття тензорів уваги у дійсну маску сегментації з потоком, який складається з трьох основних компонентів: агрегації уваги, супресії некспертного максимуму та ітеративного злиття уваги.

Агрегація уваги

Для вхідного зображення, яке проходить через шари U-Net та кодувач, стабільна модель дифузії генерує загалом 16 тензорів уваги, по 5 тензорів для кожної з розмірностей. Основною метою генерації 16 тензорів є агрегування цих тензорів уваги з різними роздільностями у тензор з найбільшою можливою роздільністю. Для цього алгоритм DiffSeg обробляє чотири розмірності по-різному.

З чотирьох розмірностей останні два розмірності у тензорах уваги мають різні роздільності, але вони просторово узгоджені, оскільки 2D просторова карта фреймворку DiffSeg відповідає кореляції між розташуваннями та просторовими розташуваннями. В результаті фреймворк DiffSeg вибірково обробляє ці два розмірності всіх карт уваги до найбільшої роздільності – 64 x 64. Натомість, перші два розмірності вказують на розташування карт уваги, як показано на наступному зображенні.

Оскільки ці розмірності відносяться до розташування карт уваги, карти уваги потрібно агрегувати відповідно. Крім того, для забезпечення того, щоб агрегована карта уваги мала дійсний розподіл, фреймворк нормалізує розподіл після агрегації з кожною картою уваги, якій присвоюється вага, пропорційна її роздільності.

Ітеративне злиття уваги

Хоча основною метою агрегації уваги було обчислення тензору уваги, основною метою є злиття карт уваги у стек об’єктних пропозицій, де кожна пропозиція містить або категорію речі, або активацію одного об’єкта. Запропоноване рішення для досягнення цього полягає у реалізації алгоритму K-Means на дійсному розподілі тензорів для знаходження кластерів об’єктів. Однак використання алгоритму K-Means не є оптимальним рішенням, оскільки алгоритм K-Means потребує вказівки кількості кластерів заздалегідь. Крім того, реалізація алгоритму K-Means може привести до різних результатів для одного й того ж зображення, оскільки вона залежить від ініціалізації. Для подолання цієї проблеми фреймворк DiffSeg пропонує генерацію вибіркової сітки для створення пропозицій шляхом ітеративного злиття карт уваги.

Супресія некспертного максимуму

Попередній крок ітеративного злиття уваги дає список об’єктних пропозицій у вигляді ймовірнісних або карт уваги, де кожна пропозиція містить активацію об’єкта. Фреймворк використовує супресію некспертного максимуму для перетворення списку об’єктних пропозицій у дійсну маску сегментації, і цей процес є ефективним підходом, оскільки кожен елемент у списку вже є картою розподілу ймовірності. Для кожного просторового розташування у всіх картах алгоритм приймає індекс найбільшої ймовірності та присвоює членство на основі індексу відповідної карти.

DiffSeg : Експерименти та результати

Фреймворки, які працюють над безопeraційною сегментацією, використовують два бенчмарки сегментації: Cityscapes та COCO-stuff-27. Бенчмарк Cityscapes – це набір даних для самої їзди з 27 середніх категорій, тоді як бенчмарк COCO-stuff-27 – це кураторська версія оригінального набору даних COCO-stuff, який об’єднує 80 речей та 91 категорію у 27 категорій. Крім того, для аналізу продуктивності сегментації фреймворк DiffSeg використовує середнє перетинання над об’єднанням (mIoU) та точність пікселів (ACC), і оскільки алгоритм DiffSeg не може забезпечити семантичну мітку, він використовує алгоритм угорського матчу для присвоєння маски сегментації кожній передбаченій масці. Якщо кількість передбачених масок перевищує кількість масок ґрунтової правди, фреймворк буде вважати непарні передбачені завдання хибними негативами.

Крім того, фреймворк DiffSeg також підкреслює наступні три роботи для запуску інтерференції: залежність мови (LD), безопeraційна адаптація (UA) та допоміжне зображення (AX). Залежність мови означає, що метод потребує описових текстових входів для сприяння сегментації зображення, безопeraційна адаптація відноситься до вимог методу для використання безопeraційного тренування на цільовому наборі даних, тоді як допоміжне зображення означає, що метод потребує додаткових входів, або як синтетичних зображень, або як пулу зображень-референсів.

Результати

На бенчмарку COCO фреймворк DiffSeg включає два базові порівняння K-Means, K-Means-S та K-Means-C. Бенчмарк K-Means-C включає 6 кластерів, які були обчислені шляхом усереднення кількості об’єктів у зображеннях, які він оцінює, тоді як бенчмарк K-Means-S використовує певну кількість кластерів для кожного зображення на основі кількості об’єктів у ґрунтовій правді зображення, і результати на цих бенчмарках показані на наступному зображенні.

Як можна побачити, базовий бенчмарк K-Means перевершує існуючі методи, демонструючи вигоду від використання тензорів уваги. Цікаво, що бенчмарк K-Means-S перевершує бенчмарк K-Means-C, що вказує на те, що кількість кластерів є фундаментальним гіперпараметром, і налаштування його є важливим для кожного зображення. Крім того, навіть при використанні тих самих тензорів уваги фреймворк DiffSeg перевершує бенчмарки K-Means, що доводить здатність фреймворку DiffSeg не тільки забезпечувати кращу сегментацію, але й уникати недоліків, пов’язаних з використанням бенчмарків K-Means.

На наборі даних Cityscapes фреймворк DiffSeg демонструє результати, подібні до фреймворків, які використовують вхід з нижчою роздільністю 320, тоді як перевершує фреймворки, які приймають вхід з вищою роздільністю 512, за точністю та mIoU.

Як згадувалося раніше, фреймворк DiffSeg використовує кілька гіперпараметрів, як показано на наступному зображенні.

Агрегація уваги – це одна з фундаментальних концепцій, використаних у фреймворку DiffSeg, і ефекти використання різних ваг агрегації показані на наступному зображенні з постійною роздільністю зображення.

Як можна побачити, високороздільні карти на рис. (б) з 64 x 64 картами дають найбільш детальні сегментації, хоча сегментації мають деякі видимі тріщини, тоді як карти нижчої роздільності 32 x 32 мають тенденцію до надсегментації деталей, хоча вони дають кращу узгодженість сегментації. На рис. (д) карти низької роздільності не можуть створити жодної сегментації, оскільки все зображення об’єднується в один об’єкт з існуючими гіперпараметрами. Нарешті, рис. (а), який використовує стратегію пропорційної агрегації, дає кращі деталі та збалансовану узгодженість.

Заключні думки

Нульова безопeraційна сегментація все ще залишається однією з найбільших перешкод для фреймворків комп’ютерного бачення, і існуючі моделі або залежать від нульової безопeraційної адаптації, або від зовнішніх ресурсів. Для подолання цієї перешкоди ми говорили про те, як шари самої уваги у стабільних моделях дифузії можуть забезпечити створення моделі, здатної сегментувати будь-який вхід у нульовому режимі без належних анотацій, оскільки ці шари самої уваги містять вбудовані поняття об’єктів, вивчені попередньо тренованою стабільною моделлю дифузії. Ми також говорили про DiffSeg, нову стратегію постобробки, яка має на меті використовувати потенціал стабільної моделі дифузії для створення загальної моделі сегментації, здатної до нульової передачі на будь-якому зображенні. Алгоритм залежить від міжуважної схожості та внутрішньоуважної схожості для злиття карт уваги ітеративно у дійсні маски сегментації для досягнення найвищої продуктивності на популярних бенчмарках.

Kunal Kejriwal

Інженер за професією, письменник серцем. Kunal є технічним письменником з глибокою любов'ю та розумінням AI і ML, присвяченим спрощенню складних концепцій у цих галузях завдяки його цікавим та інформативним документам.