Artificiell intelligens

DiffSeg: Oövervakad Zero-Shot-segmentering med stabil diffusion

publicerade

4 månader sedan

December 26, 2023

DiffSeg: Oövervakad Zero-Shot-segmentering med stabil diffusion

En av kärnutmaningarna i datorseende-baserade modeller är genereringen av högkvalitativa segmenteringsmasker. De senaste framstegen inom storskalig övervakad träning har möjliggjort nollbildssegmentering över olika bildstilar. Dessutom har oövervakad utbildning förenklat segmenteringen utan behov av omfattande anteckningar. Trots denna utveckling är det fortfarande en komplex uppgift att konstruera en datorvisionsram som kan segmentera vad som helst i en nollbildsmiljö utan anteckningar. Semantisk segmentering, ett grundläggande koncept i datorseendemodeller, innebär att en bild delas upp i mindre regioner med enhetlig semantik. Denna teknik lägger grunden för många nedströmsuppgifter, såsom medicinsk bildbehandling, bildredigering, autonom körning och mer.

För att främja utvecklingen av datorseendemodeller är det avgörande att bildsegmentering inte är begränsad till en fast datauppsättning med begränsade kategorier. Istället bör det fungera som en mångsidig grunduppgift för olika andra tillämpningar. Den höga kostnaden för att samla in etiketter per pixel utgör dock en betydande utmaning, vilket begränsar framstegen för nollbilder och övervakade segmenteringsmetoder som inte kräver några anteckningar och saknar tidigare åtkomst till målet. Den här artikeln kommer att diskutera hur självuppmärksamhet läggs in stabila diffusionsmodeller kan underlätta skapandet av en modell som kan segmentera vilken ingång som helst i en nollbildsinställning, även utan ordentliga kommentarer. Dessa självuppmärksamhetsskikt förstår i sig objektbegrepp som lärts av en förtränad stabil diffusionsmodell.

DiffSeg : En förbättrad Zero-Shot Segmentation Algorithm

Semantisk segmentering är en process som delar upp en bild i olika sektioner, där varje sektion delar liknande semantik. Denna teknik utgör grunden för många nedströmsuppgifter. Traditionellt har noll-shot datorseende uppgifter varit beroende av övervakad semantisk segmentering, med användning av stora datamängder med kommenterade och märkta kategorier. Att implementera oövervakad semantisk segmentering i en nollbildsmiljö är dock fortfarande en utmaning. Även om traditionella övervakade metoder är effektiva, är deras märkningskostnad per pixel ofta oöverkomlig, vilket understryker behovet av att utveckla oövervakade segmenteringsmetoder i en mindre restriktiv nollbildsmiljö, där modellen varken kräver kommenterade data eller förkunskaper om data.

För att komma till rätta med denna begränsning introducerar DiffSeg en ny efterbearbetningsstrategi, som utnyttjar kapaciteten i det stabila diffusionsramverket för att bygga en generisk segmenteringsmodell som kan överföra nollbilder på vilken bild som helst. Stabila diffusionsramverk har bevisat sin effektivitet när det gäller att generera högupplösta bilder baserat på snabba förhållanden. För genererade bilder kan dessa ramverk producera segmenteringsmasker med hjälp av motsvarande textmeddelanden, som vanligtvis bara inkluderar dominerande förgrundsobjekt.

Som kontrast är DiffSeg en innovativ efterbehandlingsmetod som skapar segmenteringsmasker genom att använda uppmärksamhetstensorer från självuppmärksamhetslagren i en diffusionsmodell. DiffSeg-algoritmen är sammansatt av tre nyckelkomponenter: iterativ uppmärksamhetssammanslagning, uppmärksamhetsaggregation och icke-maximal undertryckning, som illustreras i följande bild.

DiffSeg-algoritmen bevarar visuell information över flera upplösningar genom att aggregera 4D-uppmärksamhetstensorerna med rumslig konsistens och använda en iterativ sammanslagningsprocess genom att sampla ankarpunkter. Dessa ankare fungerar som startplatta för de sammanslagna uppmärksamhetsmaskerna med samma objekts ankare som till slut absorberas. DiffSeg-ramverket styr sammanslagningsprocessen med hjälp av KL divergensmetod för att mäta likheten mellan två uppmärksamhetskartor.

Jämfört med klustringsbaserade oövervakade segmenteringsmetoder, behöver utvecklare inte specificera antalet kluster i förväg i DiffSeg-algoritmen, och även utan förkunskaper kan DiffSeg-algoritmen producera segmentering utan att använda ytterligare resurser. Sammantaget är DiffSeg-algoritmen "En ny oövervakad och nollbildssegmenteringsmetod som använder sig av en förutbildad stabil diffusionsmodell och kan segmentera bilder utan några extra resurser eller förkunskaper."

DiffSeg: Grundläggande koncept

DiffSeg är en ny algoritm som bygger på lärdomarna från diffusionsmodeller, oövervakad segmentering och Zero-Shot Segmentation.

Diffusionsmodeller

DiffSeg-algoritmen bygger på lärdomarna från förtränade diffusionsmodeller. Diffusionsmodeller är en av de mest populära generativa ramverken för datorseendemodeller, och den lär sig framåt och bakåt diffusionsprocessen från en samplade isotropisk Gaussisk brusbild för att generera en bild. Stabil diffusion är den mest populära varianten av diffusionsmodeller, och den används för att utföra ett brett spektrum av uppgifter, inklusive övervakad segmentering, nollskottsklassificering, semantisk korrespondensmatchning, etiketteffektiv segmentering och segmentering med öppet ordförråd. Det enda problemet med diffusionsmodeller är dock att de förlitar sig på högdimensionella visuella funktioner för att utföra dessa uppgifter, och de kräver ofta ytterligare utbildning för att dra full nytta av dessa funktioner.

Oövervakad segmentering

DiffSeg-algoritmen är nära relaterad till oövervakad segmentering, en modern AI-praxis som syftar till att generera täta segmenteringsmasker utan att använda några anteckningar. Men för att leverera bra prestanda behöver oövervakade segmenteringsmodeller viss tidigare oövervakad utbildning på måldatauppsättningen. Oövervakade segmenteringsbaserade AI-ramverk kan karakteriseras i två kategorier: klustring med förtränade modeller och klustring baserat på invarians. I den första kategorin använder ramverken de särskiljande egenskaper som lärts av förutbildade modeller för att generera segmenteringsmasker medan ramverk som befinner sig i den andra kategorin använder en generisk klustringsalgoritm som optimerar den ömsesidiga informationen mellan två bilder för att segmentera bilder till semantiska kluster och undvika degenererad segmentering.

Nollskottssegmentering

DiffSeg-algoritmen är nära relaterad till zero-shot segmenteringsramverk, en metod med förmågan att segmentera vad som helst utan någon förhandsutbildning eller kunskap om data. Zero-shot-segmenteringsmodeller har visat exceptionella noll-shot-överföringsmöjligheter på senare tid även om de kräver viss textinmatning och uppmaningar. Däremot använder DiffSeg-algoritmen en diffusionsmodell för att generera segmentering utan att fråga och syntetisera flera bilder och utan att känna till innehållet i objektet.

DiffSeg : Metod och arkitektur

DiffSeg-algoritmen använder sig av självuppmärksamhetslagren i en förtränad stabil diffusionsmodell för att generera segmenteringsuppgifter av hög kvalitet.

Stabil diffusionsmodell

Stabil diffusion är ett av de grundläggande koncepten i DiffSeg-ramverket. Stable Diffusion är ett generativt AI-ramverk och en av de mest populära diffusionsmodellerna. En av de viktigaste egenskaperna hos en diffusionsmodell är en fram- och en bakåtpassning. I det framåtgående passet läggs en liten mängd Gaussiskt brus till en bild iterativt vid varje tidssteg tills bilden blir en isotropisk Gaussisk brusbild. Å andra sidan, i det omvända passet, tar diffusionsmodellen iterativt bort bruset i den isotropa gaussiska brusbilden för att återställa originalbilden utan något Gaussiskt brus.

Stable Diffusion-ramverket använder en kodare-avkodare och en U-Net-design med uppmärksamhetslager där den använder en kodare för att först komprimera en bild till ett latent utrymme med mindre rumsliga dimensioner, och använder avkodaren för att dekomprimera bilden. U-Net-arkitekturen består av en stapel av modulära block, där varje block är sammansatt av någon av följande två komponenter: ett transformatorlager och ett ResNet-lager.

Komponenter och arkitektur

Självuppmärksamhetsskikt i diffusionsmodeller som grupperar information om inneboende objekt i form av rumsliga uppmärksamhetskartor, och DiffSeg är en ny efterbehandlingsmetod för att slå samman uppmärksamhetstensorer till en giltig segmenteringsmask med pipelinen bestående av tre huvudkomponenter: uppmärksamhetsaggregering, icke-maximal undertryckning och iterativ uppmärksamhet.

Uppmärksamhet Aggregation

För en ingångsbild som passerar genom U-Net-lagren, och kodaren, genererar stabil diffusionsmodell totalt 16 uppmärksamhetstensorer, med 5 tensorer för var och en av dimensionerna. Det primära målet med att generera 16 tensorer är att aggregera dessa uppmärksamhetstensorer med olika upplösningar till en tensor med högsta möjliga upplösning. För att uppnå detta behandlar DiffSeg-algoritmen de fyra dimensionerna olika från varandra.

Av de fyra dimensionerna har de två sista dimensionerna i uppmärksamhetssensorerna olika upplösningar men de är rumsligt konsekventa eftersom den rumsliga 2D-kartan av DiffSeg-ramverket motsvarar korrelationen mellan platserna och de rumsliga platserna. Som ett resultat samplar DiffSeg-ramverket dessa två dimensioner av alla uppmärksamhetskartor till den högsta upplösningen av dem alla, 2 x 64. Å andra sidan indikerar de två första dimensionerna placeringsreferensen för uppmärksamhetskartorna som visas i följande bild.

Eftersom dessa dimensioner hänvisar till platsen för uppmärksamhetskartorna måste uppmärksamhetskartorna aggregeras därefter. Dessutom, för att säkerställa att den aggregerade uppmärksamhetskartan har en giltig fördelning, normaliserar ramverket fördelningen efter aggregering med varje uppmärksamhetskarta som tilldelas en vikt proportionell mot dess upplösning.

Iterativ Attention Merging

Medan det primära målet med uppmärksamhetsaggregation var att beräkna en uppmärksamhetstensor, är det primära syftet att slå samman uppmärksamhetskartorna i tensorn till en stapel av objektförslag där varje enskilt förslag innehåller antingen grejerkategorin eller aktiveringen av ett enstaka objekt. Den föreslagna lösningen för att uppnå detta är att implementera en K-Means-algoritm på den giltiga fördelningen av tensorerna för att hitta objektens kluster. Att använda K-Means är dock inte den optimala lösningen eftersom K-Means-kluster kräver att användarna specificerar antalet kluster i förväg. Dessutom kan implementering av en K-Means-algoritm resultera i olika resultat för samma bild eftersom den är stokastiskt beroende av initieringen. För att övervinna hindret föreslår DiffSeg-ramverket att generera ett urvalsnät för att skapa förslagen genom att slå samman uppmärksamhetskartor iterativt.

Icke-maximal undertryckning

Det föregående steget av iterativ uppmärksamhetssammanslagning ger en lista med objektförslag i form av sannolikhetskartor för uppmärksamhetskartor där varje objektförslag innehåller aktiveringen av objektet. Ramverket använder sig av icke-maximal undertryckning för att omvandla listan med objektförslag till en giltig segmenteringsmask, och processen är ett effektivt tillvägagångssätt eftersom varje element i listan redan är en karta över sannolikhetsfördelningen. För varje rumslig plats över alla kartor tar algoritmen indexet med den största sannolikheten och tilldelar ett medlemskap på basis av indexet för motsvarande karta.

DiffSeg: Experiment och resultat

Ramverk som arbetar med oövervakad segmentering använder sig av två segmenteringsriktmärken, nämligen Cityscapes och COCO-stuff-27. Cityscapes benchmark är ett självkörande dataset med 27 kategorier på mellannivå medan COCO-stuff-27 benchmark är en kurerad version av den ursprungliga COCO-stuff dataset som slår samman 80 saker och 91 kategorier till 27 kategorier. Dessutom, för att analysera segmenteringsprestandan, använder DiffSeg-ramverket medelskärning över union eller mIoU och pixelnoggrannhet eller ACC, och eftersom DiffSeg-algoritmen inte kan tillhandahålla en semantisk etikett, använder den den ungerska matchningsalgoritmen för att tilldela en marksanningsmask med varje förutsagd mask. Om antalet förutsagda masker överstiger antalet marksanningsmasker, kommer ramverket att ta hänsyn till de omatchade förutsagda uppgifterna som falska negativ.

Dessutom betonar DiffSeg-ramverket också följande tre verk för att köra störningar: Språkberoende eller LD, Unsupervised Adaptation eller UA, och Auxiliary Image eller AX. Språkberoende innebär att metoden behöver beskrivande textinmatning för att underlätta segmentering för bilden, Unsupervised Adaptation hänvisar till kravet på metoden att använda oövervakad träning på måluppsättningen medan Auxiliary Image hänvisar till att metoden behöver ytterligare input antingen som syntetiska bilder, eller som en pool av referensbilder.

Resultat

På COCO-riktmärket inkluderar DiffSeg-ramverket två k-medelbaslinjer, K-Means-S och K-Means-C. K-Means-C-riktmärket inkluderar 6 kluster som det beräknade genom att genomsnittet beräkna antalet objekt i bilderna det utvärderar medan K-Means-S-riktmärket använder ett specifikt antal kluster för varje bild baserat på antalet närvarande objekt i bildens grund sanning, och resultaten på båda dessa riktmärken visas i följande bild.

Som det kan ses överträffar K-Means baslinjen befintliga metoder, vilket visar fördelen med att använda självuppmärksamhetstensorer. Vad som är intressant är att K-Means-S-riktmärket överträffar K-Means-C-riktmärket som indikerar att antalet kluster är en grundläggande hyperparameter, och att justera den är viktig för varje bild. Dessutom, även när man förlitar sig på samma uppmärksamhetstensorer, överträffar DiffSeg-ramverket K-Means-baslinjerna, vilket bevisar förmågan hos DiffSeg-ramverket att inte bara ge bättre segmentering, utan också undvika nackdelarna med att använda K-Means-baslinjer.

På datauppsättningen Cityscapes levererar DiffSeg-ramverket resultat som liknar ramverken som använder indata med lägre 320-upplösning samtidigt som ramverk överträffar ramverk som tar högre 512-upplösningsingångar över noggrannhet och mIoU.

Som nämnts tidigare använder DiffSeg-ramverket flera hyperparametrar som visas i följande bild.

Aggregering av uppmärksamhet är ett av de grundläggande begreppen som används i DiffSeg-ramverket, och effekterna av att använda olika aggregeringsvikter visas i följande bild med bildens upplösning konstant.

Som det kan observeras ger högupplösta kartor i fig (b) med 64 x 64 kartor de mest detaljerade segmenteringarna även om segmenteringarna har några synliga sprickor medan lägre upplösning 32 x 32 kartor tenderar att översegmentera detaljer även om det resulterar i förbättrade sammanhängande segmentering. I fig (d) genererar kartor med låg upplösning inte någon segmentering eftersom hela bilden slås samman till ett enskilt objekt med de befintliga hyperparameterinställningarna. Slutligen resulterar fig (a) som använder sig av proportionell aggregeringsstrategi i förbättrade detaljer och balanserad konsekvens.

Avslutande tankar

Zero-shot oövervakad segmentering är fortfarande ett av de största hindren för datorseende ramverk, och befintliga modeller förlitar sig antingen på icke-noll-shot oövervakad anpassning eller på externa resurser. För att övervinna detta hinder har vi pratat om hur självuppmärksamhetsskikt i stabila diffusionsmodeller kan möjliggöra konstruktionen av en modell som kan segmentera vilken ingång som helst i en nollbildsmiljö utan ordentliga anteckningar eftersom dessa självuppmärksamhetsskikt innehåller de inneboende koncepten för objektet som en förtränad stabil diffusionsmodell lär sig. Vi har också pratat om DiffSeg, en ny efterpressningsstrategi, som syftar till att utnyttja potentialen hos stabila diffusionsramverk för att konstruera en generisk segmenteringsmodell som kan implementera nollbildsöverföring på vilken bild som helst. Algoritmen förlitar sig på Inter-Attention Similarity och Intra-Attention Similarity för att slå samman uppmärksamhetskartor iterativt till giltiga segmenteringsmasker för att uppnå toppmodern prestanda på populära riktmärken.

Relaterade ämnen:DiffSeg Stabil diffusion

Strax

Generativt allt: En utforskning av genombrott 2023, effekter och framtida insikter över branscher med AI

Missa inte

Anthropic sätter nya juridiska standarder för generativ AI

Kunal Kejriwal

"En ingenjör till yrket, en författare utantill". Kunal är en teknisk skribent med en djup kärlek och förståelse för AI och ML, dedikerad till att förenkla komplexa koncept inom dessa områden genom sin engagerande och informativa dokumentation.

Unite.AI

DiffSeg: Oövervakad Zero-Shot-segmentering med stabil diffusion

Artificiell intelligens

DiffSeg: Oövervakad Zero-Shot-segmentering med stabil diffusion

Innehållsförteckning

DiffSeg : En förbättrad Zero-Shot Segmentation Algorithm