cung DiffSeg: Segmentim i pambikëqyrur me goditje zero duke përdorur Difuzion të qëndrueshëm - Unite.AI
Lidhu me ne

Inteligjenca artificiale

DiffSeg: Segmentim i pambikëqyrur me Zero-Shot duke përdorur Difuzion të Qëndrueshëm

mm

Publikuar

 on

DiffSeg: Segmentim i pambikëqyrur me Zero-Shot duke përdorur Difuzion të Qëndrueshëm

Një nga sfidat kryesore në modelet e bazuara në vizion kompjuterik është gjenerimi i maskave të segmentimit me cilësi të lartë. Përparimet e fundit në trajnimin e mbikëqyrur në shkallë të gjerë kanë mundësuar segmentimin e shkrepjes zero në stile të ndryshme imazhi. Për më tepër, trajnimi i pambikëqyrur ka thjeshtuar segmentimin pa pasur nevojë për shënime të gjera. Pavarësisht këtyre zhvillimeve, ndërtimi i një kornize kompjuterike të vizionit të aftë për të segmentuar çdo gjë në një mjedis me shkrepje zero pa shënime mbetet një detyrë komplekse. Segmentimi semantik, një koncept themelor në modelet e vizionit kompjuterik, përfshin ndarjen e një imazhi në rajone më të vogla me semantikë uniforme. Kjo teknikë shtron bazat për shumë detyra në rrjedhën e poshtme, të tilla si imazhet mjekësore, redaktimi i imazheve, ngasja autonome dhe më shumë.

Për të avancuar zhvillimin e modeleve të vizionit kompjuterik, është thelbësore që segmentimi i imazhit të mos kufizohet në një grup të dhënash fikse me kategori të kufizuara. Në vend të kësaj, ajo duhet të veprojë si një detyrë themelore e gjithanshme për aplikacione të tjera të ndryshme. Megjithatë, kostoja e lartë e mbledhjes së etiketave në bazë për piksel paraqet një sfidë të rëndësishme, duke kufizuar përparimin e metodave të segmentimit me zero dhe të mbikëqyrura që nuk kërkojnë shënime dhe nuk kanë qasje paraprake në objektiv. Ky artikull do të diskutojë se si futen shtresat e vetë-vëmendjes modelet e difuzionit të qëndrueshëm mund të lehtësojë krijimin e një modeli të aftë për të segmentuar çdo hyrje në një mjedis zero-shot, edhe pa shënimet e duhura. Këto shtresa të vetë-vëmendjes në thelb kuptojnë konceptet e objekteve të mësuara nga një model i qëndrueshëm i difuzionit të trajnuar paraprakisht.

DiffSeg: Një Algoritëm i Përmirësuar i Segmentimit Zero-Shot

Segmentimi semantik është një proces që ndan një imazh në seksione të ndryshme, ku secili seksion ka semantikë të ngjashme. Kjo teknikë formon themelin për shumë detyra në rrjedhën e poshtme. Tradicionalisht, detyrat e vizionit kompjuterik me shkrepje zero janë varur nga segmentimi semantik i mbikëqyrur, duke përdorur grupe të dhënash të mëdha me kategori të shënuara dhe të etiketuara. Megjithatë, zbatimi i segmentimit semantik të pambikëqyrur në një mjedis zero-shot mbetet një sfidë. Ndërsa metodat tradicionale të mbikqyrura janë efektive, kostoja e tyre e etiketimit për piksel është shpesh penguese, duke theksuar nevojën për zhvillimin e metodave të segmentimit të pambikëqyrura në një mjedis më pak kufizues zero-shot, ku modeli as nuk kërkon të dhëna të shënuara dhe as njohuri paraprake të të dhënave.

Për të adresuar këtë kufizim, DiffSeg prezanton një strategji të re pas përpunimit, duke shfrytëzuar aftësitë e kornizës së Difuzionit të Qëndrueshëm për të ndërtuar një model segmentimi gjenerik të aftë për transferimin e shkrepjes zero në çdo imazh. Kornizat e Difuzionit të Qëndrueshëm kanë provuar efikasitetin e tyre në gjenerimin e imazheve me rezolucion të lartë bazuar në kushte të shpejta. Për imazhet e krijuara, këto korniza mund të prodhojnë maska ​​segmentimi duke përdorur kërkesat përkatëse të tekstit, zakonisht duke përfshirë vetëm objekte dominuese në plan të parë.

Në të kundërt, DiffSeg është një metodë inovative e pas-përpunimit që krijon maska ​​segmentimi duke përdorur tensorët e vëmendjes nga shtresat e vetë-vëmendjes në një model difuzioni. Algoritmi DiffSeg përbëhet nga tre komponentë kryesorë: bashkimi i përsëritur i vëmendjes, grumbullimi i vëmendjes dhe shtypja jo-maksimale, siç ilustrohet në imazhin e mëposhtëm.

Algoritmi DiffSeg ruan informacionin vizual në rezolucione të shumta duke grumbulluar tensorët e vëmendjes 4D me konsistencë hapësinore dhe duke përdorur një proces bashkimi përsëritës duke marrë kampione nga pikat e ankorimit. Këto spiranca shërbejnë si pikënisje për bashkimin e maskave të vëmendjes me spiranca të njëjta të objekteve të absorbuara përfundimisht. Korniza DiffSeg kontrollon procesin e bashkimit me ndihmën e Metoda e divergjencës KL për të matur ngjashmërinë midis dy hartave të vëmendjes. 

Kur krahasohen me metodat e segmentimit të pambikëqyrur të bazuara në grupim, zhvilluesit nuk duhet të specifikojnë paraprakisht numrin e grupimeve në algoritmin DiffSeg dhe madje edhe pa ndonjë njohuri paraprake, algoritmi DiffSeg mund të prodhojë segmentim pa përdorur burime shtesë. Në përgjithësi, algoritmi DiffSeg është "Një metodë e re e segmentimit të pambikëqyrur dhe me shkrepje zero që përdor një model të para-stërvitur të Difuzionit të Qëndrueshëm dhe mund të segmentojë imazhet pa ndonjë burim shtesë ose njohuri paraprake.

DiffSeg: Konceptet Themelore

DiffSeg është një algoritëm i ri që bazohet në mësimet e Modeleve të Difuzionit, Segmentimit të Pambikëqyrur dhe Segmentimit Zero-Shot. 

Modelet e Difuzionit

Algoritmi DiffSeg bazohet në mësimet nga modelet e difuzionit të trajnuar paraprakisht. Modelet e difuzionit janë një nga kornizat gjeneruese më të njohura për modelet e vizionit kompjuterik dhe mëson procesin e difuzionit përpara dhe të kundërt nga një imazh i zhurmës izotropike Gaussian i mostrës për të gjeneruar një imazh. Difuzioni i qëndrueshëm është varianti më i popullarizuar i modeleve të difuzionit dhe përdoret për të kryer një gamë të gjerë detyrash, duke përfshirë segmentimin e mbikëqyrur, klasifikimin e pikës zero, përputhjen e korrespondencës semantike, segmentimin efikas të etiketës dhe segmentimin e fjalorit të hapur. Megjithatë, problemi i vetëm me modelet e difuzionit është se ato mbështeten në veçori vizuale me dimensione të larta për të kryer këto detyra dhe shpesh kërkojnë trajnim shtesë për të përfituar plotësisht nga këto veçori. 

Segmentim i pambikëqyrur

Algoritmi DiffSeg është i lidhur ngushtë me segmentimin e pambikëqyrur, një praktikë moderne e AI që synon të gjenerojë maska ​​të dendura segmentimi pa përdorur asnjë shënim. Megjithatë, për të ofruar performancë të mirë, modelet e segmentimit të pambikëqyrur kanë nevojë për një trajnim paraprak të pambikëqyrur mbi grupin e të dhënave të synuar. Kornizat e AI të bazuara në segmentim të pambikëqyrur mund të karakterizohen në dy kategori: grupim duke përdorur modele të trajnuara paraprakisht dhe grupim bazuar në pandryshueshmëri. Në kategorinë e parë, kornizat përdorin veçoritë diskriminuese të mësuara nga modelet e trajnuara paraprakisht për të gjeneruar maska ​​segmentimi, ndërsa kornizat që gjenden në kategorinë e dytë përdorin një algoritëm të përgjithshëm grupimi që optimizon informacionin e ndërsjellë midis dy imazheve për të segmentuar imazhet në grupime semantike. dhe shmangni segmentimin e degjeneruar. 

Segmentimi me goditje zero

Algoritmi DiffSeg është i lidhur ngushtë me kornizat e segmentimit zero-shot, një metodë me aftësinë për të segmentuar çdo gjë pa ndonjë trajnim ose njohuri paraprake të të dhënave. Modelet e segmentimit me zero-shot kanë demonstruar aftësi të jashtëzakonshme transferimi me zero-shot kohët e fundit, megjithëse ato kërkojnë disa futje teksti dhe kërkesa. Në të kundërt, algoritmi DiffSeg përdor një model difuzioni për të gjeneruar segmentim pa pyetur dhe sintetizuar imazhe të shumta dhe pa ditur përmbajtjen e objektit. 

DiffSeg: Metoda dhe Arkitektura

Algoritmi DiffSeg përdor shtresat e vetë-vëmendjes në një model të qëndrueshëm të difuzionit të trajnuar paraprakisht për të gjeneruar detyra segmentimi me cilësi të lartë. 

Modeli i Difuzionit të Qëndrueshëm

Difuzioni i qëndrueshëm është një nga konceptet themelore në kornizën DiffSeg. Stable Diffusion është një kornizë gjeneruese e AI dhe një nga modelet më të njohura të difuzionit. Një nga karakteristikat kryesore të një modeli difuzioni është një kalim përpara dhe i kundërt. Në kalimin përpara, një sasi e vogël e zhurmës Gaussian i shtohet një imazhi në mënyrë të përsëritur në çdo hap kohor derisa imazhi të bëhet një imazh izotropik i zhurmës Gaussian. Nga ana tjetër, në kalimin e kundërt, modeli i difuzionit heq në mënyrë të përsëritur zhurmën në imazhin e zhurmës izotropike Gaussian për të rikuperuar imazhin origjinal pa asnjë zhurmë Gaussian. 

Korniza e Difuzionit të Qëndrueshëm përdor një dekoder-koder dhe një dizajn U-Net me shtresë vëmendjeje ku përdor një kodues për të kompresuar fillimisht një imazh në një hapësirë ​​latente me dimensione më të vogla hapësinore dhe përdor dekoderin për të dekompresuar imazhin. Arkitektura U-Net përbëhet nga një tufë blloqesh modulare, ku çdo bllok përbëhet nga një nga dy komponentët e mëposhtëm: një Shtresë Transformer dhe një shtresë ResNet. 

Komponentët dhe Arkitektura

Shtresat e vetë-vëmendjes në modelet e difuzionit që grupojnë informacionin e objekteve të qenësishme në formën e hartave të vëmendjes hapësinore dhe DiffSeg është një metodë e re pas përpunimit për të bashkuar tensorët e vëmendjes në një maskë segmentimi të vlefshëm me tubacionin që përbëhet nga tre komponentë kryesorë: grumbullimi i vëmendjes, shtypje jo maksimale dhe vëmendje përsëritëse.

Mbledhja e vëmendjes

Për një imazh hyrës që kalon nëpër shtresat U-Net dhe koduesin, modeli i Difuzionit të Qëndrueshëm gjeneron gjithsej 16 tensorë të vëmendjes, me 5 tensorë për secilin nga dimensionet. Qëllimi kryesor i gjenerimit të 16 tensorëve është grumbullimi i këtyre tensorëve të vëmendjes me rezolucione të ndryshme në një tensor me rezolucionin më të lartë të mundshëm. Për ta arritur këtë, algoritmi DiffSeg i trajton 4 dimensionet ndryshe nga njëri-tjetri. 

Nga katër dimensionet, 2 dimensionet e fundit në sensorët e vëmendjes kanë rezolucione të ndryshme, por ato janë të qëndrueshme në hapësirë, pasi harta hapësinore 2D e kornizës DiffSeg korrespondon me korrelacionin midis vendndodhjeve dhe vendndodhjeve hapësinore. Si rezultat, kuadri DiffSeg i mostrave të këtyre dy dimensioneve të të gjitha hartave të vëmendjes në rezolucionin më të lartë të të gjithave, 64 x 64. Nga ana tjetër, 2 dimensionet e para tregojnë referencën e vendndodhjes së hartave të vëmendjes siç tregohet në imazhin e mëposhtëm. 

Meqenëse këto dimensione i referohen vendndodhjes së hartave të vëmendjes, hartat e vëmendjes duhet të grumbullohen në përputhje me rrethanat. Për më tepër, për të siguruar që harta e vëmendjes së grumbulluar ka një shpërndarje të vlefshme, korniza normalizon shpërndarjen pas grumbullimit me çdo hartë të vëmendjes që i caktohet një peshë proporcionale me rezolucionin e saj. 

Bashkim iterativ i vëmendjes

Ndërsa qëllimi kryesor i grumbullimit të vëmendjes ishte llogaritja e një tensori të vëmendjes, qëllimi kryesor është të bashkojë hartat e vëmendjes në tensor me një grumbull propozimesh objektesh ku çdo propozim individual përmban ose kategorinë e sendeve ose aktivizimin e një objekti të vetëm. Zgjidhja e propozuar për ta arritur këtë është duke zbatuar një algoritëm K-Means në shpërndarjen e vlefshme të tensorëve për të gjetur grupimet e objekteve. Megjithatë, përdorimi i K-Means nuk është zgjidhja optimale sepse grupimi K-Means kërkon që përdoruesit të specifikojnë numrin e grupimeve paraprakisht. Për më tepër, zbatimi i një algoritmi K-Means mund të rezultojë në rezultate të ndryshme për të njëjtin imazh meqenëse varet në mënyrë stokastike nga inicializimi. Për të kapërcyer pengesën, kuadri DiffSeg propozon të gjenerojë një rrjet kampionimi për të krijuar propozimet duke bashkuar hartat e vëmendjes në mënyrë të përsëritur. 

Shtypja jo-maksimale

Hapi i mëparshëm i bashkimit përsëritës të vëmendjes jep një listë të propozimeve të objekteve në formën e hartave të probabilitetit të vëmendjes ku çdo propozim objekt përmban aktivizimin e objektit. Korniza përdor shtypjen jo-maksimale për të kthyer listën e propozimeve të objekteve në një maskë segmentimi të vlefshëm, dhe procesi është një qasje efektive pasi çdo element në listë është tashmë një hartë e shpërndarjes së probabilitetit. Për çdo vendndodhje hapësinore në të gjitha hartat, algoritmi merr indeksin e probabilitetit më të madh dhe cakton një anëtarësim në bazë të indeksit të hartës përkatëse. 

DiffSeg: Eksperimentet dhe rezultatet

Kornizat që punojnë në segmentimin e pambikëqyrur përdorin dy standarde segmentimi, përkatësisht Cityscapes dhe COCO-stuff-27. Standardi i Cityscapes është një grup të dhënash që drejton vetë me 27 kategori të nivelit të mesëm, ndërsa standardi COCO-stuff-27 është një version i kuruar i grupit origjinal të të dhënave COCO-stuff që bashkon 80 gjëra dhe 91 kategori në 27 kategori. Për më tepër, për të analizuar performancën e segmentimit, korniza DiffSeg përdor kryqëzimin mesatar mbi bashkimin ose mIoU dhe saktësinë e pikselit ose ACC, dhe meqenëse algoritmi DiffSeg nuk është në gjendje të ofrojë një etiketë semantike, ai përdor algoritmin hungarez të përputhjes për të caktuar një maskë të së vërtetës bazë me çdo maskë e parashikuar. Në rast se numri i maskave të parashikuara tejkalon numrin e maskave bazë të së vërtetës, korniza do të marrë parasysh detyrat e parashikuara të pakrahasueshme si negative të rreme. 

Për më tepër, korniza DiffSeg thekson gjithashtu tre punët e mëposhtme për të ekzekutuar ndërhyrjet: Varësia gjuhësore ose LD, Përshtatja e pambikëqyrur ose UA, dhe Imazhi ndihmës ose AX. Varësia gjuhësore do të thotë që metoda ka nevojë për inpute teksti përshkrues për të lehtësuar segmentimin e imazhit, Përshtatja e Pambikëqyrur i referohet kërkesës që metoda të përdorë trajnime të pambikëqyrura në grupin e të dhënave të synuar, ndërsa Imazhi ndihmës i referohet se metoda ka nevojë për hyrje shtesë ose si imazhe sintetike. ose si një grup imazhesh referimi. 

Rezultatet

Në standardin COCO, kuadri DiffSeg përfshin dy linja bazë k-means, K-Means-S dhe K-Means-C. Standardi K-Means-C përfshin 6 grupe të cilat i ka llogaritur duke llogaritur mesatarisht numrin e objekteve në imazhet që vlerëson ndërsa standardi K-Means-S përdor një numër specifik grupimesh për çdo imazh në bazë të numrit të objekteve të pranishme. në të vërtetën bazë të imazhit, dhe rezultatet në të dy këto standarde janë demonstruar në imazhin e mëposhtëm. 

Siç mund të shihet, vija bazë K-Means tejkalon metodat ekzistuese, duke demonstruar kështu përfitimin e përdorimit të tensorëve të vetë-vëmendjes. Ajo që është interesante është se standardi K-Means-S tejkalon standardin K-Means-C që tregon se numri i grupimeve është një hiper-parametër themelor dhe akordimi i tij është i rëndësishëm për çdo imazh. Për më tepër, edhe kur mbështetet në të njëjtat tensorë të vëmendjes, korniza DiffSeg tejkalon linjat bazë të K-Means, gjë që dëshmon aftësinë e kornizës DiffSeg jo vetëm për të ofruar segmentim më të mirë, por edhe për të shmangur disavantazhet e paraqitura nga përdorimi i linjave bazë K-Means. 

Në grupin e të dhënave Cityscapes, korniza DiffSeg jep rezultate të ngjashme me kornizat që përdorin të dhëna me rezolucion më të ulët 320, ndërsa i tejkalon kornizat që marrin inpute me rezolucion më të lartë 512 për saktësinë dhe mIoU. 

Siç u përmend më parë, korniza DiffSeg përdor disa hiper-parametra siç tregohet në imazhin e mëposhtëm. 

Grumbullimi i vëmendjes është një nga konceptet themelore të përdorura në kornizën DiffSeg dhe efektet e përdorimit të peshave të ndryshme të grumbullimit tregohen në imazhin e mëposhtëm me rezolucionin e figurës konstante. 

Siç mund të vërehet, hartat me rezolucion të lartë në Fig (b) me harta 64 x 64 japin segmentime më të detajuara megjithëse segmentimet kanë disa thyerje të dukshme, ndërsa hartat me rezolucion më të ulët 32 x 32 tentojnë të mbi-segmentojnë detaje, megjithëse rezulton në segmentime koherente të zgjeruara. Në Fig (d), hartat me rezolucion të ulët nuk arrijnë të gjenerojnë asnjë segmentim pasi i gjithë imazhi shkrihet në një objekt të vetëm me cilësimet ekzistuese të hiper-parametrit. Së fundi, Fig (a) që përdor strategjinë e grumbullimit proporcional rezulton në detaje të zgjeruara dhe qëndrueshmëri të balancuar. 

Mendime përfundimtare

Segmentimi i pambikëqyrur me "zero-shot" është ende një nga pengesat më të mëdha për kornizat e vizionit kompjuterik dhe modelet ekzistuese ose mbështeten në përshtatjen e pambikëqyrur pa goditje zero ose në burime të jashtme. Për të kapërcyer këtë pengesë, ne kemi folur se si shtresat e vetë-vëmendjes në modelet e qëndrueshme të difuzionit mund të mundësojnë ndërtimin e një modeli të aftë për të segmentuar çdo hyrje në një mjedis me goditje zero pa shënime të duhura pasi këto shtresa të vetë-vëmendjes mbajnë konceptet e qenësishme të objekti që mëson një model difuzioni stabil i trajnuar paraprakisht. Ne kemi folur gjithashtu për DiffSeg, një strategji e re pas shtypjes, që synon të shfrytëzojë potencialin e kornizës së Difuzionit të Qëndrueshëm për të ndërtuar një model segmentimi gjenerik që mund të zbatojë transferimin me shkrepje zero në çdo imazh. Algoritmi mbështetet në ngjashmërinë ndër-vëmendjeje dhe ngjashmërinë brenda vëmendjes për të bashkuar hartat e vëmendjes në mënyrë të përsëritur në maska ​​segmentimi të vlefshme për të arritur performancën më të fundit në standardet e njohura. 

“Me profesion inxhinier, me zemër shkrimtar”. Kunal është një shkrimtar teknik me një dashuri dhe kuptim të thellë të AI dhe ML, i përkushtuar ndaj thjeshtimit të koncepteve komplekse në këto fusha përmes dokumentacionit të tij tërheqës dhe informues.