Umělá inteligence

DiffSeg : Nesupervised Zero-Shot Segmentace pomocí Stable Diffusion

Published December 26, 2023

Updated April 27, 2026

Kunal Kejriwal

DiffSeg : Unsupervised Zero-Shot Segmentation using Stable Diffusion

Jednou z hlavních výzev v modelech založených na počítačovém vidění je generování kvalitních segmentačních masek. Nedávné pokroky ve velkých školicích modelech umožnily zero-shot segmentaci napříč různými styly obrazů. Kromě toho unsupervised školení zjednodušilo segmentaci bez potřeby rozsáhlých anotací. Přes tyto vývojové kroky zůstává stavba rámce počítačového vidění schopného segmentovat cokoliv v zero-shot nastavení bez anotací složitým úkolem. Sémantická segmentace, základní koncept v modelech počítačového vidění, zahrnuje rozdělení obrazu na menší regiony s uniformní sémantikou. Tato technika vytváří základ pro řadu následných úkolů, jako je medicínské zobrazování, editace obrazů, autonomní řízení a další.

Pro rozvoj modelů počítačového vidění je důležité, aby segmentace obrazů nebyla omezena na pevnou datovou sadu s omezenými kategoriemi. Místo toho by měla fungovat jako univerzální základní úloha pro různé další aplikace. Nicméně, vysoká cena sběru popisků na základě pixelů představuje významnou výzvu, omezující pokrok zero-shot a supervizních segmentačních metod, které nevyžadují anotace a postrádají předchozí přístup k cíli. Tento článek bude diskutovat, jak samo-pozornostní vrstvy ve stabilních difuzních modelech mohou usnadnit vytvoření modelu schopného segmentovat jakýkoli vstup v zero-shot nastavení, i bez řádných anotací. Tyto samo-pozornostní vrstvy vnitřně chápou objektové koncepty naučené předškoleným stabilním difuzním modelem.

DiffSeg : Vylepšený Algoritmus pro Zero-Shot Segmentaci

Sémantická segmentace je proces, který rozděluje obraz na různé sekce, přičemž každá sekce sdílí podobnou sémantiku. Tato technika vytváří základ pro řadu následných úkolů. Tradičně, úkoly počítačového vidění v zero-shot závisely na supervizní sémantické segmentaci, využívající velké datové sady s anotovanými a popsanými kategoriemi. Nicméně, implementace nesupervizované sémantické segmentace v zero-shot nastavení zůstává výzvou. Zatímco tradiční supervizní metody jsou efektivní, jejich cena popisků na základě pixelů je často prohibitive, zdůrazňující potřebu vývoje nesupervizovaných segmentačních metod v méně restriktivním zero-shot nastavení, kde model nevyžaduje anotovaná data ani předchozí znalost dat.

Pro řešení tohoto omezení, DiffSeg představuje novou post-procesní strategii, využívající schopností rámce Stable Diffusion k vytvoření obecného segmentačního modelu schopného zero-shot transferu na jakýkoli obraz. Rámce Stable Diffusion prokázaly svou efektivitu při generování obrazů s vysokým rozlišením na základě podmínek promptů. Pro generované obrazy, tyto rámce mohou produkovat segmentační masky pomocí odpovídajících textových promptů, obvykle zahrnujících pouze dominantní přední objekty.

Na rozdíl od toho, DiffSeg je inovativní post-procesní metoda, která vytváří segmentační masky využíváním attention tensorů ze samo-pozornostních vrstev v difuzním modelu. Algoritmus DiffSeg se skládá ze tří hlavních komponent: iterativní attention merging, attention aggregation a non-maximum suppression, jak je znázorněno na následující obraz.

Algoritmus DiffSeg zachovává vizuální informace napříč několika rozlišeními agregací 4D attention tensorů se spatialní konzistencí a využíváním iterativního slučovacího procesu výběrem kotvičních bodů. Tyto kotviče slouží jako výchozí bod pro slučování attention masek se stejnými objektovými kotviči, které jsou nakonec absorbovány. Rámec DiffSeg řídí slučovací proces pomocí KL divergence metody ke měření podobnosti mezi dvěma attention mapami.

Ve srovnání s clusteringovými nesupervizovanými segmentačními metodami, vývojáři nemusí specifikovat počet clusterů předem v algoritmu DiffSeg, a dokonce aniž by měli předchozí znalosti, algoritmus DiffSeg může produkovat segmentaci bez využití dalších zdrojů. Celkově, algoritmus DiffSeg je „Nová nesupervizovaná a zero-shot segmentační metoda, která využívá předškolovaného modelu Stable Diffusion a může segmentovat obrazy bez dalších zdrojů nebo předchozích znalostí.“

DiffSeg : Základní Koncepty

DiffSeg je novým algoritmem, který staví na znalostech z Difuzních Modelů, Nesupervizované Segmentace a Zero-Shot Segmentace.

Difuzní Modely

Algoritmus DiffSeg staví na znalostech z předškolovaných difuzních modelů. Difuzní modely jsou jedním z nejpopulárnějších generativních rámců pro modely počítačového vidění a učí se forward a reverse difuznímu procesu z obrazu s náhodným gaussovským šumem k generování obrazu. Stable Diffusion je nejpopulárnější varianta difuzních modelů a je používána pro širokou škálu úkolů, včetně supervizní segmentace, zero-shot klasifikace, sémantického対応ení, label-efficient segmentace a open-vokabulární segmentace. Nicméně, jediným problémem s difuzními modely je, že spoléhají na vysokodimenzionální vizuální funkce k provedení těchto úkolů a často vyžadují další školení, aby využily těchto funkcí.

Nesupervizovaná Segmentace

Algoritmus DiffSeg je úzce spojen s nesupervizovanou segmentací, moderní AI praxí, která má za cíl generovat husté segmentační masky bez použití anotací. Nicméně, aby dosáhly dobré výkony, modely nesupervizované segmentace potřebují некоторou předchozí nesupervizovanou školení na cílové datové sadě. Nesupervizované segmentační rámce AI lze charakterizovat do dvou kategorií: clustering pomocí předškolovaných modelů a clustering založený na invarianci. V první kategorii, rámce využívají diskriminativních funkcí naučených předškolovanými modely k generování segmentačních masek, zatímco rámce nacházející se ve druhé kategorii využívají obecný clusteringový algoritmus, který optimalizuje mutualní informaci mezi dvěma obrazy, aby segmentovaly obrazy do sémantických clusterů a避ovaly degenerativní segmentaci.

Zero-Shot Segmentace

Algoritmus DiffSeg je úzce spojen se zero-shot segmentačními rámci, metodou s schopností segmentovat cokoliv bez předchozího školení nebo znalosti dat. Zero-shot segmentační modely prokázaly výjimečné zero-shot transferové schopnosti v nedávné době, ačkoli vyžadují some textový vstup a prompty. Na rozdíl od toho, algoritmus DiffSeg využívá difuzní model k generování segmentace bez dotazování a syntézy více obrazů a bez znalosti obsahu objektu.

DiffSeg : Metoda a Architektura

Algoritmus DiffSeg využívá samo-pozornostních vrstev v předškolovaném stabilním difuzním modelu k generování kvalitních segmentačních úkolů.

Stabilní Difuzní Model

Stabilní Difuzní Model je jedním z základních konceptů v rámci DiffSeg. Stabilní Difuzní Model je generativní AI rámec a jeden z nejpopulárnějších difuzních modelů. Jedním z hlavních charakteristik difuzního modelu je forward a reverse průchod. V forward průchodu, malá část gaussovského šumu je přidána k obrazu iterativně na každé časové úrovni, dokud obraz neстане gaussovským šumovým obrazem. Naopak, v reverse průchodu, difuzní model iterativně odstraňuje šum v gaussovském šumovém obraze, aby obnovil původní obraz bez gaussovského šumu.

Rámec Stabilní Difuzní Model využívá encoder-decoder a U-Net design s attention vrstvou, kde využívá encoder k compressování obrazu do latentního prostoru s menším prostorovým rozlišením a využívá decoder k dekompressování obrazu. U-Net architektura se skládá ze stacku modulárních bloků, kde každý blok je složen z buďto Transformer vrstvy nebo ResNet vrstvy.

Komponenty a Architektura

Samo-pozornostní vrstvy v difuzních modelech seskupují informace o inherentních objektech ve formě spatial attention map a DiffSeg je novou post-procesní metodou, která slučuje attention tensorů do validní segmentační masky s pipeline, která se skládá ze tří hlavních komponent: attention aggregation, non-maximum suppression a iterativní attention.

Attention Aggregation

Pro vstupní obraz, který prochází U-Net vrstvami a Encodrem, Stabilní Difuzní Model generuje celkem 16 attention tensorů, s 5 tensorů pro každou z dimenzí. Hlavním cílem generování 16 tensorů je agregovat tyto attention tensorů s různými rozlišeními do tensoru s nejvyšším možným rozlišením. K tomu, algoritmus DiffSeg zachází s 4 dimenzemi odlišně.

Z четырех dimenzí, poslední 2 dimenze v attention senzorech mají různé rozlišení, ale jsou spatialně konzistentní, protože 2D spatial mapa rámce DiffSeg odpovídá korelaci mezi lokalizacemi a spatial lokalizacemi. Výsledkem, rámec DiffSeg sampuje tyto dvě dimenze všech attention map do nejvyššího rozlišení, 64 x 64. Naopak, první 2 dimenze indikují lokalizaci reference attention map, jak je demonstrováno na následující obraz.

Jako tyto dimenze odkazují na lokalizaci attention map, attention mapy potřebují být agregovány odpovídajícím způsobem. Kromě toho, aby se zajistilo, že agregovaná attention mapa má validní distribuci, rámec normalizuje distribuci po agregaci s každou attention mapou, která je přiřazena váha proporcionální k jejímu rozlišení.

Iterativní Attention Slučování

Zatímco hlavním cílem attention agregace bylo vypočítat attention tensor, hlavním cílem je slučovat attention mapy v tensoru do stacku objektových propozic, kde každá propozice obsahuje buď stuff kategorii nebo aktivaci jediného objektu. Navrhovaná řešení k dosažení tohoto cíle je implementovat K-Means algoritmus na validní distribuci tensorů, aby se našly klastry objektů. Nicméně, použití K-Means není optimálním řešením, protože K-Means clustering vyžaduje, aby uživatelé specifikovali počet clusterů předem. Kromě toho, implementace K-Means algoritmu může vést k odlišným výsledkům pro stejný obraz, protože je závislý na inicializaci. K překonání této překážky, rámec DiffSeg navrhuje generovat sampling mřížku k vytvoření propozic slučováním attention map iterativně.

Non-Maximum Suppression

Předchozí krok iterativního attention slučování vede k seznamu objektových propozic ve formě pravděpodobnostních nebo attention map, kde každá objektová propozice obsahuje aktivaci objektu. Rámec DiffSeg využívá non-maximum suppression k převodu seznamu objektových propozic do validní segmentační masky a tento proces je efektivní přístup, protože každý prvek v seznamu je již mapa pravděpodobnostní distribuce. Pro každé spatial lokalizaci napříč všemi mapami, algoritmus bere index největší pravděpodobnosti a přiřazuje členství na základě indexu odpovídající mapy.

DiffSeg : Experimenty a Výsledky

Rámce, které pracují na nesupervizované segmentaci, využívají dvě segmentační benchmarky, Cityscapes a COCO-stuff-27. Benchmark Cityscapes je samo-řídící datová sada s 27 mid-level kategoriemi, zatímco benchmark COCO-stuff-27 je kurátorská verze původní datové sady COCO-stuff, která slučuje 80 věcí a 91 kategorií do 27 kategorií. Kromě toho, aby se analyzovala segmentační výkonnost, rámec DiffSeg využívá průměrnou intersection over union nebo mIoU a pixelovou přesnost nebo ACC a protože algoritmus DiffSeg není schopen poskytnout sémantickou značku, využívá Hungarian matching algoritmus k přiřazení ground truth masky ke každé předpovězené maskě. Pokud počet předpovězených masek přesahuje počet ground truth masek, rámec DiffSeg bude považovat nepárovatelné předpovězené úkoly za falešné negativy.

Kromě toho, rámec DiffSeg také zdůrazňuje následující tři práce, aby běžel interference: Language Dependency nebo LD, Nesupervizovaná Adaptace nebo UA a Auxiliary Image nebo AX. Language Dependency znamená, že metoda potřebuje deskriptivní textový vstup k usnadnění segmentace pro obraz, Nesupervizovaná Adaptace odkazuje na požadavek, aby metoda využila nesupervizované školení na cílové datové sadě, zatímco Auxiliary Image odkazuje na skutečnost, že metoda potřebuje další vstup, buď jako syntetické obrazy nebo jako pool referenčních obrazů.

Výsledky

Na benchmarku COCO, rámec DiffSeg zahrnuje dvě K-Means benchmarky, K-Means-S a K-Means-C. Benchmark K-Means-C zahrnuje 6 clusterů, které byly vypočteny průměrováním počtu objektů v obrazech, které vyhodnocují, zatímco benchmark K-Means-S využívá specifický počet clusterů pro každý obraz na základě počtu objektů přítomných v ground truth obrazu a výsledky na obou těchto benchmarcích jsou demonstrovány na následující obraz.

Jak je vidět, K-Means benchmark překonává stávající metody, což demonstruje benefit využití samo-pozornostních tensorů. Co je zajímavé, je, že benchmark K-Means-S překonává benchmark K-Means-C, což naznačuje, že počet clusterů je fundamentálním hyper-parametrem a jeho ladění je důležité pro každý obraz. Kromě toho, i když se spoléhá na stejné attention tensorů, rámec DiffSeg překonává K-Means benchmarky, což prokazuje schopnost rámce DiffSeg nejen poskytovat lepší segmentaci, ale také避ovat nevýhody spojené s použitím K-Means benchmarků.

Na datové sadě Cityscapes, rámec DiffSeg dosahuje výsledků podobných rámcům, které využívají vstup s nižším rozlišením 320, zatímco překonává rámce, které berou vyšší 512-rozlišení vstupy napříč přesností a mIoU.

Jak je zmíněno dříve, rámec DiffSeg využívá několik hyper-parametrů, jak je demonstrováno na následující obraz.

Attention agregace je jedním z fundamentálních konceptů využitých v rámci DiffSeg a účinky využití různých agregovaných vah jsou demonstrovány na následující obraz s konstantním rozlišením obrazu.

Jak je vidět, vysoké rozlišení map v Fig (b) s 64 x 64 mapami poskytují nejpodrobnější segmentace, i když segmentace mají některé viditelné trhliny, zatímco nižší rozlišení 32 x 32 mapy tendují k pře-segmentaci detailů, i když výsledkem jsou vylepšené koherentní segmentace. V Fig (d), nízko-rozlišení mapy selhávají při generování segmentace, protože celý obraz je sloučen do jediného objektu s existujícím hyper-parametrem. Nakonec, Fig (a), která využívá proporcionální agregaci strategie, vede k vylepšeným detailům a vyvážené konzistenci.

Závěrečné Myšlenky

Zero-shot nesupervizovaná segmentace je stále jednou z největších výzev pro rámce počítačového vidění a stávající modely buď závisí na non zero-shot nesupervizované adaptaci nebo na externích zdrojích. K překonání této výzvy, jsme diskutovali, jak samo-pozornostní vrstvy ve stabilních difuzních modelech mohou umožnit konstrukci modelu schopného segmentovat cokoliv v zero-shot nastavení bez řádných anotací, protože tyto samo-pozornostní vrstvy drží inherentní koncepty objektů, které předškolovaný stabilní difuzní model naučí. Také jsme diskutovali o DiffSeg, novém post-procesním strategii, který má za cíl využít potenciál rámce Stable Diffusion k vytvoření obecného segmentačního modelu, který může implementovat zero-shot transfer na jakýkoli obraz. Algoritmus DiffSeg spoléhá na Inter-Attention Similarity a Intra-Attention Similarity k slučování attention map iterativně do validních segmentačních masek, aby dosáhl stavu umění výkonu na populárních benchmarcích.

Kunal Kejriwal

Inženýr z povolání, spisovatel ze srdce. Kunal je technický spisovatel s hlubokou láskou a porozuměním pro AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím svých přitažlivých a informačních dokumentací.