Kunstig intelligens
DiffSeg: Uovervåket Zero-Shot-segmentering ved bruk av stabil diffusjon

En av kjerneutfordringene i datasynsbaserte modeller er genereringen av segmenteringsmasker av høy kvalitet. Nylige fremskritt innen overvåket opplæring i stor skala har muliggjort nullbildesegmentering på tvers av ulike bildestiler. I tillegg har uovervåket opplæring forenklet segmentering uten behov for omfattende merknader. Til tross for denne utviklingen, er det fortsatt en kompleks oppgave å konstruere et datasynsrammeverk som er i stand til å segmentere hva som helst i en null-shot-innstilling uten merknader. Semantisk segmentering, et grunnleggende konsept i datasynsmodeller, innebærer å dele et bilde inn i mindre områder med enhetlig semantikk. Denne teknikken legger grunnlaget for en rekke nedstrømsoppgaver, som medisinsk bildebehandling, bilderedigering, autonom kjøring og mer.
For å fremme utviklingen av datasynsmodeller, er det avgjørende at bildesegmentering ikke er begrenset til et fast datasett med begrensede kategorier. I stedet bør det fungere som en allsidig grunnleggende oppgave for forskjellige andre applikasjoner. Imidlertid utgjør de høye kostnadene ved å samle etiketter på per-piksel-basis en betydelig utfordring, og begrenser fremdriften til nullskudd og overvåkede segmenteringsmetoder som ikke krever merknader og mangler forhåndstilgang til målet. Denne artikkelen vil diskutere hvordan selvoppmerksomhet lag inn stabile diffusjonsmodeller kan gjøre det lettere å lage en modell som er i stand til å segmentere alle input i en null-shot-innstilling, selv uten riktige merknader. Disse selvoppmerksomhetslagene forstår iboende objektkonsepter lært av en forhåndstrent stabil diffusjonsmodell.
DiffSeg: En forbedret Zero-Shot Segmentation Algorithm
Semantisk segmentering er en prosess som deler et bilde inn i forskjellige seksjoner, der hver seksjon deler lignende semantikk. Denne teknikken danner grunnlaget for en rekke nedstrømsoppgaver. Tradisjonelt har nullskuddsdatasynsoppgaver vært avhengig av overvåket semantisk segmentering, ved å bruke store datasett med kommenterte og merkede kategorier. Imidlertid er det fortsatt en utfordring å implementere uovervåket semantisk segmentering i en null-shot-setting. Mens tradisjonelle overvåkede metoder er effektive, er deres merkekostnad per piksel ofte uoverkommelig, noe som fremhever behovet for å utvikle uovervåkede segmenteringsmetoder i en mindre restriktiv nullbilde-innstilling, der modellen verken krever annoterte data eller forkunnskaper om dataene.
For å møte denne begrensningen introduserer DiffSeg en ny etterbehandlingsstrategi, som utnytter mulighetene til Stable Diffusion-rammeverket for å bygge en generisk segmenteringsmodell som er i stand til null-shot-overføring på ethvert bilde. Stabile diffusjonsrammeverk har bevist sin effektivitet når det gjelder å generere bilder med høy oppløsning basert på umiddelbare forhold. For genererte bilder kan disse rammeverkene produsere segmenteringsmasker ved å bruke tilsvarende tekstmeldinger, som vanligvis bare inkluderer dominerende forgrunnsobjekter.
I motsetning til dette er DiffSeg en innovativ etterbehandlingsmetode som lager segmenteringsmasker ved å bruke oppmerksomhetstensorer fra selvoppmerksomhetslagene i en diffusjonsmodell. DiffSeg-algoritmen er sammensatt av tre nøkkelkomponenter: iterativ oppmerksomhetssammenslåing, oppmerksomhetsaggregering og ikke-maksimal undertrykkelse, som illustrert i følgende bilde.
DiffSeg-algoritmen bevarer visuell informasjon på tvers av flere oppløsninger ved å samle 4D-oppmerksomhetstensorene med romlig konsistens, og bruke en iterativ sammenslåingsprosess ved å prøve ankerpunkter. Disse ankrene fungerer som utskytningsrampe for de sammenslående oppmerksomhetsmaskene med samme objektsankre som etter hvert absorberes. DiffSeg-rammeverket styrer sammenslåingsprosessen ved hjelp av KL divergensmetode å måle likheten mellom to oppmerksomhetskart.
Sammenlignet med klyngebaserte uovervåkede segmenteringsmetoder, trenger ikke utviklere å spesifisere antall klynger på forhånd i DiffSeg-algoritmen, og selv uten noen forkunnskap kan DiffSeg-algoritmen produsere segmentering uten å bruke ekstra ressurser. Totalt sett er DiffSeg-algoritmen "En ny uovervåket og zero-shot segmenteringsmetode som bruker en forhåndsopplært stabil diffusjonsmodell, og kan segmentere bilder uten ekstra ressurser eller forkunnskaper."
DiffSeg: Grunnleggende konsepter
DiffSeg er en ny algoritme som bygger på lærdommen fra diffusjonsmodeller, uovervåket segmentering og nullskuddssegmentering.
Diffusjonsmodeller
DiffSeg-algoritmen bygger på lærdommen fra forhåndstrente diffusjonsmodeller. Diffusjonsmodeller er et av de mest populære generative rammeverkene for datasynsmodeller, og den lærer forover og bakover diffusjonsprosessen fra et samplet isotropisk Gaussisk støybilde for å generere et bilde. Stabil diffusjon er den mest populære varianten av diffusjonsmodeller, og den brukes til å utføre et bredt spekter av oppgaver, inkludert overvåket segmentering, nullskuddsklassifisering, semantisk korrespondansetilpasning, merkeeffektiv segmentering og segmentering med åpent ordforråd. Det eneste problemet med diffusjonsmodeller er imidlertid at de er avhengige av høydimensjonale visuelle funksjoner for å utføre disse oppgavene, og de krever ofte ekstra opplæring for å dra full nytte av disse funksjonene.
Uovervåket segmentering
DiffSeg-algoritmen er nært knyttet til uovervåket segmentering, en moderne AI-praksis som tar sikte på å generere tette segmenteringsmasker uten å bruke noen merknader. For å levere god ytelse trenger uovervåkede segmenteringsmodeller imidlertid litt tidligere uovervåket opplæring på måldatasettet. Ikke-overvåket segmenteringsbaserte AI-rammeverk kan karakteriseres i to kategorier: klynging ved bruk av forhåndstrente modeller, og klynging basert på invarians. I den første kategorien bruker rammeverket de diskriminerende funksjonene som er lært av forhåndstrente modeller for å generere segmenteringsmasker, mens rammeverk som befinner seg i den andre kategorien bruker en generisk klyngealgoritme som optimerer den gjensidige informasjonen mellom to bilder for å segmentere bilder i semantiske klynger og unngå degenerert segmentering.
Zero-Shot segmentering
DiffSeg-algoritmen er nært knyttet til zero-shot segmenteringsrammeverk, en metode med evnen til å segmentere hva som helst uten forutgående opplæring eller kunnskap om dataene. Zero-shot-segmenteringsmodeller har vist eksepsjonelle null-shot-overføringsevner i nyere tid, selv om de krever litt tekstinntasting og spørsmål. I motsetning til dette bruker DiffSeg-algoritmen en diffusjonsmodell for å generere segmentering uten å spørre og syntetisere flere bilder og uten å kjenne til innholdet i objektet.
DiffSeg: Metode og arkitektur
DiffSeg-algoritmen bruker selvoppmerksomhetslagene i en forhåndstrent stabil diffusjonsmodell for å generere segmenteringsoppgaver av høy kvalitet.
Stabil diffusjonsmodell
Stabil diffusjon er et av de grunnleggende konseptene i DiffSeg-rammeverket. Stabil diffusjon er et generativt AI-rammeverk, og en av de mest populære diffusjonsmodellene. En av hovedkarakteristikkene til en diffusjonsmodell er en forover- og en reverspasning. I foroverpasset blir en liten mengde Gaussisk støy lagt til et bilde iterativt ved hvert tidstrinn inntil bildet blir et isotropisk Gaussisk støybilde. På den annen side, i motsatt pass, fjerner diffusjonsmodellen iterativt støyen i det isotropiske Gauss-støybildet for å gjenopprette det originale bildet uten Gauss-støy.
Stable Diffusion-rammeverket bruker en koder-dekoder og et U-Net-design med oppmerksomhetslag hvor det bruker en koder for først å komprimere et bilde til et latent rom med mindre romlige dimensjoner, og bruker dekoderen til å dekomprimere bildet. U-Net-arkitekturen består av en stabel med modulære blokker, der hver blokk er sammensatt av en av følgende to komponenter: et transformatorlag og et ResNet-lag.
Komponenter og arkitektur
Selvoppmerksomhetslag i diffusjonsmodeller som grupperer informasjon om iboende objekter i form av romlige oppmerksomhetskart, og DiffSeg er en ny etterbehandlingsmetode for å slå sammen oppmerksomhetstensorer til en gyldig segmenteringsmaske med rørledningen som består av tre hovedkomponenter: oppmerksomhetsaggregering, ikke-maksimal undertrykkelse og iterativ oppmerksomhet.
Oppmerksomhet Aggregasjon
For et inngangsbilde som passerer gjennom U-Net-lagene, og Encoderen, genererer Stable Diffusion-modellen totalt 16 oppmerksomhetstensorer, med 5 tensorer for hver av dimensjonene. Hovedmålet med å generere 16 tensorer er å samle disse oppmerksomhetstensorene med forskjellige oppløsninger til en tensor med høyest mulig oppløsning. For å oppnå dette behandler DiffSeg-algoritmen de 4 dimensjonene forskjellig fra hverandre.
Av de fire dimensjonene har de to siste dimensjonene i oppmerksomhetssensorene forskjellige oppløsninger, men de er romlig konsistente siden det romlige 2D-kartet til DiffSeg-rammeverket tilsvarer korrelasjonen mellom plasseringene og de romlige plasseringene. Som et resultat prøver DiffSeg-rammeverket disse to dimensjonene av alle oppmerksomhetskart til den høyeste oppløsningen av dem alle, 2 x 64. På den annen side indikerer de to første dimensjonene plasseringsreferansen til oppmerksomhetskartene som vist i bildet nedenfor.
Siden disse dimensjonene refererer til plasseringen av oppmerksomhetskartene, må oppmerksomhetskartene aggregeres tilsvarende. I tillegg, for å sikre at det aggregerte oppmerksomhetskartet har en gyldig distribusjon, normaliserer rammeverket fordelingen etter aggregering med hvert oppmerksomhetskart som blir tildelt en vekt proporsjonal med oppløsningen.
Iterativ oppmerksomhetssammenslåing
Mens det primære målet med oppmerksomhetsaggregering var å beregne en oppmerksomhetstensor, er hovedmålet å slå sammen oppmerksomhetskartene i tensoren til en stabel med objektforslag der hvert enkelt forslag inneholder enten tingkategorien eller aktiveringen av et enkelt objekt. Den foreslåtte løsningen for å oppnå dette er å implementere en K-Means-algoritme på gyldig distribusjon av tensorene for å finne klyngene til objektene. Bruk av K-Means er imidlertid ikke den optimale løsningen fordi K-Means-klynger krever at brukerne spesifiserer antall klynger på forhånd. Videre kan implementering av en K-Means-algoritme resultere i forskjellige resultater for det samme bildet siden det er stokastisk avhengig av initialiseringen. For å overvinne hindringen foreslår DiffSeg-rammeverket å generere et prøvetakingsnett for å lage forslagene ved å slå sammen oppmerksomhetskart iterativt.
Ikke-maksimal undertrykkelse
Det forrige trinnet med iterativ oppmerksomhetssammenslåing gir en liste over objektforslag i form av sannsynlighet for oppmerksomhetskart hvor hvert objektforslag inneholder aktiveringen av objektet. Rammeverket bruker ikke-maksimal undertrykkelse for å konvertere listen over objektforslag til en gyldig segmenteringsmaske, og prosessen er en effektiv tilnærming siden hvert element i listen allerede er et kart over sannsynlighetsfordelingen. For hver romlig plassering på tvers av alle kart, tar algoritmen indeksen med størst sannsynlighet, og tildeler et medlemskap på grunnlag av indeksen til det tilsvarende kartet.
DiffSeg: Eksperimenter og resultater
Rammer som jobber med uovervåket segmentering bruker to segmenteringsreferanser, nemlig Cityscapes og COCO-stuff-27. Cityscapes benchmark er et selvkjørende datasett med 27 mellomnivåkategorier, mens COCO-stuff-27 benchmark er en kuratert versjon av det originale COCO-stuff datasettet som slår sammen 80 ting og 91 kategorier til 27 kategorier. Videre, for å analysere segmenteringsytelsen, bruker DiffSeg-rammeverket gjennomsnittlig skjæringspunkt over union eller mIoU og pikselnøyaktighet eller ACC, og siden DiffSeg-algoritmen ikke er i stand til å gi en semantisk etikett, bruker den den ungarske matchingsalgoritmen for å tilordne en grunnsannhetsmaske med hver forutsagt maske. I tilfelle antallet forutsagte masker overstiger antallet grunnsannhetsmasker, vil rammeverket ta hensyn til de umatchede forutsagte oppgavene som falske negativer.
I tillegg legger DiffSeg-rammeverket også vekt på følgende tre arbeider for å kjøre interferens: Language Dependency eller LD, Unsupervised Adaptation eller UA, og Auxiliary Image eller AX. Språkavhengighet betyr at metoden trenger beskrivende tekstinput for å lette segmentering for bildet, Unsupervised Adaptation refererer til kravet til metoden for å bruke uovervåket trening på måldatasettet, mens Auxiliary Image refererer til at metoden trenger ekstra input enten som syntetiske bilder, eller som en samling av referansebilder.
Resultater
På COCO-benchmark inkluderer DiffSeg-rammeverket to k-betyr-grunnlinjer, K-Means-S og K-Means-C. K-Means-C-referansen inkluderer 6 klynger som den beregnet ved å beregne gjennomsnittet av antall objekter i bildene den evaluerer, mens K-Means-S-referansen bruker et spesifikt antall klynger for hvert bilde på grunnlag av antall objekter som er tilstede. i bildets grunnsannhet, og resultatene på begge disse referansene er demonstrert i det følgende bildet.
Som det kan sees, overgår K-Means-grunnlinjen eksisterende metoder, og demonstrerer dermed fordelen med å bruke selvoppmerksomhetstensorer. Det som er interessant er at K-Means-S-referansen overgår K-Means-C-referansen som indikerer at antall klynger er en grunnleggende hyperparameter, og å justere den er viktig for hvert bilde. Videre, selv når det er avhengig av de samme oppmerksomhetstensorene, overgår DiffSeg-rammeverket K-Means-grunnlinjene som beviser evnen til DiffSeg-rammeverket til ikke bare å gi bedre segmentering, men også unngå ulempene ved å bruke K-Means-grunnlinjer.
På Cityscapes-datasettet leverer DiffSeg-rammeverket resultater som ligner på rammeverkene som bruker input med lavere 320-oppløsning, mens det overgår rammeverk som tar høyere 512-oppløsningsinndata på tvers av nøyaktighet og mIoU.
Som nevnt tidligere, bruker DiffSeg-rammeverket flere hyperparametere som vist i følgende bilde.
Oppmerksomhetsaggregering er et av de grunnleggende konseptene som brukes i DiffSeg-rammeverket, og effektene av å bruke forskjellige aggregeringsvekter er demonstrert i følgende bilde med konstant oppløsning på bildet.
Som det kan observeres, gir høyoppløselige kart i fig (b) med 64 x 64 kart mest detaljerte segmenteringer, selv om segmenteringene har noen synlige brudd, mens kart med lavere oppløsning på 32 x 32 har en tendens til å oversegmentere detaljer, selv om det resulterer i forbedrede sammenhengende segmenteringer. I fig (d) klarer ikke kart med lav oppløsning å generere segmentering ettersom hele bildet er slått sammen til et enkelt objekt med de eksisterende hyperparameterinnstillingene. Til slutt, fig (a) som gjør bruk av proporsjonal aggregeringsstrategi resulterer i forbedrede detaljer og balansert konsistens.
Final Thoughts
Zero-shot unsupervised segmentering er fortsatt en av de største hindringene for datasynsrammer, og eksisterende modeller er enten avhengige av ikke-zero-shot uovervåket tilpasning eller på eksterne ressurser. For å overvinne denne hindringen har vi snakket om hvordan selvoppmerksomhetslag i stabile diffusjonsmodeller kan muliggjøre konstruksjonen av en modell som er i stand til å segmentere alle input i en nullskudds-innstilling uten riktige merknader, da disse selvoppmerksomhetslagene inneholder de iboende konseptene til objektet som en forhåndstrent stabil diffusjonsmodell lærer. Vi har også snakket om DiffSeg, en ny post-pressing-strategi, som tar sikte på å utnytte potensialet til Stable Diffusion-rammeverket for å konstruere en generisk segmenteringsmodell som kan implementere zero-shot transfer på ethvert bilde. Algoritmen er avhengig av Inter-Attention Similarity og Intra-Attention Similarity for å slå sammen oppmerksomhetskart iterativt til gyldige segmenteringsmasker for å oppnå toppmoderne ytelse på populære benchmarks.