Inteligență artificială

DiffSeg : Segmentare Ne-supervizată Zero-Shot Utilizând Difuziune Stabilă

Published December 26, 2023

Updated April 27, 2026

Kunal Kejriwal

DiffSeg : Unsupervised Zero-Shot Segmentation using Stable Diffusion

Una dintre provocările de bază în modelele bazate pe viziunea computerului este generarea de măști de segmentare de înaltă calitate. Progresele recente în pregătirea supervizată la scară largă au permis segmentarea zero-shot în diferite stiluri de imagine. În plus, antrenamentul ne-supervizat a simplificat segmentarea fără a necesita anotări extinse. În ciuda acestor dezvoltări, construirea unui cadru de viziune computerizată capabil să segmenteze orice într-un mediu zero-shot fără anotări rămâne o sarcină complexă. Segmentarea semantică, un concept fundamental în modelele de viziune computerizată, implică divizarea unei imagini în regiuni mai mici cu semantici uniforme. Această tehnică pune bazele pentru numeroase sarcini downstream, cum ar fi imagistica medicală, editarea imaginilor, conducerea autonomă și multe altele.

Pentru a avansa dezvoltarea modelelor de viziune computerizată, este esențial ca segmentarea imaginilor să nu fie limitată la un set de date fix cu categorii limitate. În schimb, ar trebui să acționeze ca o sarcină fundamentală versatilă pentru diverse alte aplicații. Cu toate acestea, costul ridicat al colectării de etichete pe baza pixelilor prezintă o provocare semnificativă, limitând progresul metodelor de segmentare zero-shot și supervizate care nu necesită anotări și nu au acces prealabil la țintă. Acest articol va discuta modul în care straturile de auto-atentie din modelele de difuziune stabilă pot facilita crearea unui model capabil să segmenteze orice intrare într-un mediu zero-shot, chiar și fără anotări adecvate. Aceste straturi de auto-atentie înțeleg în mod intrinsic conceptele de obiecte învățate de un model de difuziune stabilă pre-antrenat.

DiffSeg : Un Algoritm Îmbunătățit de Segmentare Zero-Shot

Segmentarea semantică este un proces care divide o imagine în diverse secțiuni, fiecare secțiune având semantici similare. Această tehnică formează baza pentru numeroase sarcini downstream. În mod tradițional, sarcinile de viziune computerizată zero-shot au depins de segmentarea semantică supervizată, utilizând seturi de date mari cu categorii anotate și etichetate. Cu toate acestea, implementarea segmentării semantice ne-supervizate într-un mediu zero-shot rămâne o provocare. În timp ce metodele tradiționale supervizate sunt eficiente, costul etichetării pe baza pixelilor este adesea prohibitiv, subliniind nevoia de a dezvolta metode de segmentare ne-supervizate într-un mediu zero-shot mai puțin restrictiv, în care modelul nu necesită date anotate și nu are cunoștințe prealabile despre date.

Pentru a aborda această limitare, DiffSeg introduce o strategie de post-procesare nouă, utilizând capacitățile cadrului Difuziune Stabilă pentru a construi un model de segmentare generic capabil să transfere zero-shot pe orice imagine. Cadrele de Difuziune Stabilă au demonstrat eficacitatea lor în generarea de imagini de înaltă rezoluție pe baza condițiilor de prompt. Pentru imagini generate, aceste cadre pot produce măști de segmentare utilizând prompturi de text corespunzătoare, care includ de obicei doar obiecte din prim-plan dominante.

În contrast, DiffSeg este o metodă de post-procesare inovatoare care creează măști de segmentare utilizând tensori de atenție din straturile de auto-atentie ale unui model de difuziune. Algoritmul DiffSeg este compus din trei componente cheie: fuziunea atenției iterative, agregarea atenției și supresia non-maximă, după cum se ilustrează în imaginea următoare.

Algoritmul DiffSeg păstrează informațiile vizuale pe multiple rezoluții prin agregarea tensorilor de atenție 4D cu consistență spațială și utilizând un proces de fuziune iterativă prin eşantionarea punctelor de ancoră. Aceste puncte de ancoră servesc ca punct de lansare pentru fuziunea măștilor de atenție, care sunt absorbite în cele din urmă. Cadrul DiffSeg controlează procesul de fuziune cu ajutorul metodei de divergență KL pentru a măsura similaritatea dintre două hărți de atenție.

În comparație cu metodele de segmentare ne-supervizate bazate pe clustering, dezvoltatorii nu trebuie să specifice numărul de cluster în prealabil în algoritmul DiffSeg, și chiar fără cunoștințe prealabile, algoritmul DiffSeg poate produce segmentare fără a utiliza resurse suplimentare. În general, algoritmul DiffSeg este o metodă nouă de segmentare ne-supervizată și zero-shot care utilizează un model de difuziune stabilă pre-antrenat și poate segmenta imagini fără resurse suplimentare sau cunoștințe prealabile.

DiffSeg : Concepte Fundamentale

DiffSeg este un algoritm nou care se bazează pe învățămintele modelelor de difuziune, segmentării ne-supervizate și segmentării zero-shot.

Modele de Difuziune

Algoritmul DiffSeg se bazează pe învățămintele modelelor de difuziune pre-antrenate. Modelele de difuziune sunt unul dintre cele mai populare cadre generative pentru modelele de viziune computerizată și învață procesul de difuziune direct și invers de la o imagine cu zgomot gaussian izotropic la generarea unei imagini. Difuziunea Stabilă este varianta cea mai populară a modelelor de difuziune și este utilizată pentru a efectua o gamă largă de sarcini, inclusiv segmentarea supervizată, clasificarea zero-shot, corespondența semantică, segmentarea eficientă din punct de vedere al etichetării și segmentarea deschisă a vocabularului. Cu toate acestea, singura problemă cu modelele de difuziune este că se bazează pe caracteristici vizuale de înaltă dimensiune pentru a efectua aceste sarcini și adesea necesită antrenament suplimentar pentru a profita pe deplin de aceste caracteristici.

Segmentarea Ne-supervizată

Algoritmul DiffSeg este strâns legat de segmentarea ne-supervizată, o practică modernă de inteligență artificială care vizează generarea de măști de segmentare dense fără a utiliza anotări. Cu toate acestea, pentru a oferi o performanță bună, modelele de segmentare ne-supervizate necesită unele antrenamente ne-supervizate prealabile pe setul de date țintă. Modelele de segmentare ne-supervizate bazate pe inteligența artificială pot fi caracterizate în două categorii: clustering utilizând modele pre-antrenate și clustering bazat pe invarianță. În prima categorie, cadrele utilizează caracteristicile discriminative învățate de modelele pre-antrenate pentru a genera măști de segmentare, în timp ce cadrele din a doua categorie utilizează un algoritm de clustering generic care optimizează informația mutuală dintre două imagini pentru a segmenta imagini în cluster semantice și pentru a evita segmentarea degenerată.

Segmentarea Zero-Shot

Algoritmul DiffSeg este strâns legat de cadrele de segmentare zero-shot, o metodă cu capacitatea de a segmenta orice fără antrenament prealabil sau cunoștințe despre date. Modelele de segmentare zero-shot au demonstrat capacități exceptionale de transfer zero-shot în timpul recent, deși necesită unele intrări de text și prompturi. În contrast, algoritmul DiffSeg utilizează un model de difuziune pentru a genera segmentare fără a interoga și sintetiza multiple imagini și fără a cunoaște conținutul obiectului.

DiffSeg : Metodă și Arhitectură

Algoritmul DiffSeg utilizează straturile de auto-atentie dintr-un model de difuziune stabilă pre-antrenat pentru a genera sarcini de segmentare de înaltă calitate.

Model de Difuziune Stabilă

Difuziunea Stabilă este unul dintre conceptele fundamentale în cadrul DiffSeg. Difuziunea Stabilă este un cadru generativ de inteligență artificială și unul dintre cele mai populare modele de difuziune. Una dintre caracteristicile principale ale unui model de difuziune este trecerea directă și inversă. În trecerea directă, se adaugă o cantitate mică de zgomot gaussian la o imagine iterativ la fiecare pas de timp până când imaginea devine o imagine cu zgomot gaussian izotropic. În trecerea inversă, modelul de difuziune îndepărtează iterativ zgomotul din imaginea cu zgomot gaussian izotropic pentru a recupera imaginea originală fără zgomot gaussian.

Cadrul Difuziune Stabilă utilizează un encoder-decoder și o arhitectură U-Net cu straturi de atenție, unde utilizează un encoder pentru a comprima o imagine într-un spațiu latent cu dimensiuni spațiale mai mici și utilizează decoderul pentru a decomprima imaginea. Arhitectura U-Net este compusă dintr-un stivă de blocuri modulare, unde fiecare bloc este alcătuit din una dintre următoarele două componente: un strat de transformare și un strat ResNet.

Componente și Arhitectură

Straturile de auto-atentie din modelele de difuziune grupează informații despre obiecte intrinseci sub formă de hărți de atenție spațială, iar DiffSeg este o metodă de post-procesare nouă pentru a fuziona tensori de atenție într-o mască de segmentare valabilă, cu o conductă care constă din trei componente principale: agregarea atenției, supresia non-maximă și atenția iterativă.

Agregarea Atenției

Pentru o imagine care trece prin straturile U-Net și encoder, modelul de difuziune stabilă generează un total de 16 tensori de atenție, cu 5 tensori pentru fiecare dimensiune. Scopul principal al generării acestor 16 tensori este de a agrega acești tensori de atenție cu diferite rezoluții într-un tensor cu cea mai mare rezoluție posibilă. Pentru a realiza acest lucru, algoritmul DiffSeg tratează cele patru dimensiuni în mod diferit.

Dintre cele patru dimensiuni, ultimele două dimensiuni ale tensorilor de atenție au rezoluții diferite, dar sunt spațial consistente, deoarece harta spațială 2D a cadrului DiffSeg corespunde corelației dintre locații și locații spațiale. Rezultatul este că cadrul DiffSeg eșantionează aceste două dimensiuni ale tuturor hărților de atenție la cea mai mare rezoluție, 64 x 64. Pe de altă parte, primele două dimensiuni indică referința de locație a hărților de atenție, așa cum se demonstrează în imaginea următoare.

Deoarece aceste dimensiuni se referă la locația hărților de atenție, hărțile de atenție trebuie agregate corespunzător. În plus, pentru a se asigura că harta de atenție agregată are o distribuție valabilă, cadrul normalizează distribuția după agregare, cu fiecare hartă de atenție fiind atribuită un ponderi proporțională cu rezoluția sa.

Fuziunea Atenției Iterativă

În timp ce scopul principal al agregării atenției a fost de a calcula un tensor de atenție, scopul principal este de a fuziona hărțile de atenție din tensor într-un stivă de propuneri de obiecte, unde fiecare propunere individuală conține fie categoria de “lucruri”, fie activarea unui singur obiect. Soluția propusă pentru a realiza acest lucru este de a implementa un algoritm K-Means pe distribuția valabilă a tensorilor pentru a găsi clusterul obiectelor. Cu toate acestea, utilizarea algoritmului K-Means nu este soluția optimă, deoarece algoritmul K-Means necesită ca utilizatorii să specifice numărul de cluster în prealabil. În plus, implementarea algoritmului K-Means poate duce la rezultate diferite pentru aceeași imagine, deoarece depinde stochastic de inițializare. Pentru a depăși acest obstacol, cadrul DiffSeg propune generarea unei grile de eșantionare pentru a crea propunerile prin fuziunea iterativă a hărților de atenție.

Supresia Non-Maximă

Pasul anterior de fuziune iterativă a atenției produce o listă de propuneri de obiecte sub formă de hărți de atenție, unde fiecare propunere de obiect conține activarea obiectului. Cadrul utilizează supresia non-maximă pentru a converti lista de propuneri de obiecte într-o mască de segmentare valabilă, iar procesul este o abordare eficientă, deoarece fiecare element din listă este deja o hartă a distribuției de probabilitate. Pentru fiecare locație spațială de-a lungul tuturor hărților, algoritmul ia indicele celei mai mari probabilități și atribuie o apartenență pe baza indicelui hărții corespunzătoare.

DiffSeg : Experimente și Rezultate

Cadrele care lucrează pe segmentarea ne-supervizată utilizează două benchmark-uri de segmentare, și anume Cityscapes și COCO-stuff-27. Benchmark-ul Cityscapes este un set de date de conducere autonomă cu 27 de categorii de nivel mediu, în timp ce benchmark-ul COCO-stuff-27 este o versiune curată a setului de date original COCO-stuff, care combină 80 de “lucruri” și 91 de categorii în 27 de categorii. În plus, pentru a analiza performanța de segmentare, cadrul DiffSeg utilizează intersecția medie a uniunii sau mIoU și precizia pixelilor sau ACC, iar deoarece algoritmul DiffSeg nu poate furniza o etichetă semantică, utilizează algoritmul de potrivire Hungarian pentru a atribui o mască de segmentare valabilă cu fiecare mască de segmentare prezisă. În cazul în care numărul de măști de segmentare prezise depășește numărul de măști de segmentare valabile, cadrul va lua în considerare sarcinile prezise nemăsurate ca false negative.

În plus, cadrul DiffSeg subliniază, de asemenea, următoarele trei lucrări pentru a rula interferența: dependența de limbaj sau LD, adaptarea ne-supervizată sau UA și imaginea auxiliară sau AX. Dependenta de limbaj înseamnă că metoda necesită intrări de text descriptive pentru a facilita segmentarea pentru imagine, adaptarea ne-supervizată se referă la necesitatea ca metoda să utilizeze antrenament ne-supervizat pe setul de date țintă, în timp ce imaginea auxiliară se referă la necesitatea ca metoda să utilizeze intrări suplimentare, fie sub formă de imagini sintetice, fie sub formă de piscină de imagini de referință.

Rezultate

Pe benchmark-ul COCO, cadrul DiffSeg include două benchmark-uri de referință K-Means, K-Means-S și K-Means-C. Benchmark-ul K-Means-C include 6 cluster calculate prin medierea numărului de obiecte din imaginile evaluate, în timp ce benchmark-ul K-Means-S utilizează un număr specific de cluster pentru fiecare imagine pe baza numărului de obiecte prezente în adevărul din imagine, iar rezultatele pe ambele benchmark-uri sunt demonstrate în imaginea următoare.

Așa cum se poate vedea, benchmark-ul K-Means depășește metodele existente, demonstrând astfel beneficiul utilizării tensorilor de atenție. Ceea ce este interesant este că benchmark-ul K-Means-S depășește benchmark-ul K-Means-C, ceea ce indică faptul că numărul de cluster este un parametru fundamental și ajustarea lui este importantă pentru fiecare imagine. În plus, chiar și atunci când se bazează pe aceiași tensori de atenție, cadrul DiffSeg depășește benchmark-urile K-Means, demonstrând capacitatea cadrului DiffSeg de a oferi nu numai o segmentare mai bună, ci și de a evita dezavantajele utilizării benchmark-urilor K-Means.

Pe setul de date Cityscapes, cadrul DiffSeg oferă rezultate similare cu cadrele care utilizează intrări cu rezoluție mai mică de 320, în timp ce depășește cadrele care iau intrări cu rezoluție mai mare de 512 pe acuratețe și mIoU.

Așa cum s-a menționat anterior, cadrul DiffSeg utilizează mai multe parametri, așa cum se demonstrează în imaginea următoare.

Agregarea atenției este unul dintre conceptele fundamentale utilizate în cadrul DiffSeg, iar efectele utilizării diferitelor ponderi de agregare sunt demonstrate în imaginea următoare, cu rezoluția imaginii fiind constantă.

Așa cum se poate observa, hărțile de înaltă rezoluție din Fig (b) cu 64 x 64 oferă segmentări cele mai detaliate, deși segmentările au fracturi vizibile; hărțile de rezoluție mai mică de 32 x 32 au tendința de a suprasegmenta detalii, deși oferă segmentări mai coerente. În Fig (d), hărțile de rezoluție mai mică nu reușesc să genereze nicio segmentare, deoarece întreaga imagine este fuzionată într-un singur obiect, cu setările parametrilor existente. În cele din urmă, Fig (a), care utilizează o strategie de agregare proporțională, oferă detalii îmbunătățite și o consistență echilibrată.

Gânduri Finale

Segmentarea ne-supervizată zero-shot este încă una dintre cele mai mari provocări pentru cadrele de viziune computerizată, iar modelele existente se bazează fie pe adaptarea ne-supervizată zero-shot, fie pe resurse externe. Pentru a depăși această provocare, am discutat modul în care straturile de auto-atentie din modelele de difuziune stabilă pot facilita construirea unui model capabil să segmenteze orice intrare într-un mediu zero-shot fără anotări adecvate, deoarece aceste straturi de auto-atentie conțin conceptele intrinseci ale obiectelor pe care un model de difuziune stabilă pre-antrenat le învață. Am discutat, de asemenea, despre DiffSeg, o strategie de post-procesare nouă, care vizează să valorifice potențialul cadrului Difuziune Stabilă pentru a construi un model de segmentare generic care poate implementa transferul zero-shot pe orice imagine. Algoritmul se bazează pe similaritatea inter-atenție și intra-atenție pentru a fuziona hărțile de atenție iterativ în măști de segmentare valabile, pentru a obține performanțe de top pe benchmark-urile populare.

Kunal Kejriwal

"Un inginer de profesie, un scriitor din inimă". Kunal este un scriitor tehnic cu o dragoste și o înțelegere profundă a inteligenței artificiale și a învățării automate, dedicat simplificării conceptelor complexe din aceste domenii prin documentația sa captivantă și informativă.