stub DiffSeg : Qaybta Zero-Shot Aan la ilaalin iyadoo la adeegsanayo Faafinta Deggan - Unite.AI
Connect nala

Sirdoonka Artificial

DiffSeg : Kala-saar Zero-Shot Aan La-ilaalin Lahayn iyadoo la adeegsanayo Faafinta Deggan

mm

Published

 on

DiffSeg : Kala-saar Zero-Shot Aan La-ilaalin Lahayn iyadoo la adeegsanayo Faafinta Deggan

Mid ka mid ah caqabadaha asaasiga ah ee moodooyinka ku salaysan aragtida kombuyuutarku waa soo saarista waji-gashiyada qaybinta tayada sare leh. Horumarkii u dambeeyay ee tababarka la-kormeerka ee baaxadda weyn ayaa suurtageliyay kala-soocidda eber ee qaababka sawirada kala duwan. Intaa waxaa dheer, tababarka aan la ilaalin ayaa fududeeyay kala qaybinta iyada oo aan loo baahnayn tafaasiil ballaaran. Iyadoo ay jiraan horumarkaas, dhisidda qaab-aragtiyeedka kombuyuutarka oo awood u leh in uu kala qaybiyo wax kasta oo ku jira goob eber ah iyada oo aan la bixin faahfaahin ayaa weli ah hawl adag. Qaybta Semantic, fikradda aasaasiga ah ee moodooyinka aragga kumbuyuutarka, waxay ku lug leedahay u qaybinta sawirka gobollo yaryar oo leh semantics lebbisan. Farsamadani waxay aasaas u tahay hawlo badan oo hoose, sida sawir-qaadista caafimaadka, tafatirka sawirka, wadista iskiis u madaxbannaan, iyo in ka badan.

Si loo horumariyo horumarinta moodooyinka aragga kombuyuutarka, waxaa muhiim ah in kala qaybinta sawirku aanay ku koobnayn xog-go'an oo qaybo xaddidan leh. Taa bedelkeeda, waa inay u dhaqantaa sidii hawl aasaasi ah oo la taaban karo oo loogu talagalay codsiyada kale ee kala duwan. Si kastaba ha ahaatee, qiimaha sarreeya ee ururinta summada ee ku salaysan halkii-pixel waxay soo bandhigaysaa caqabad weyn, xaddidaysa horumarka eber-shot iyo hababka kala qaybinta la kormeero ee aan u baahnayn sharraxaad iyo la'aanta ka hor marin-u-helidda bartilmaameedka. Maqaalkani waxa uu ka doodi doonaa sida isu-fiirsiga lakabyada moodooyinka fidsan ee deggan waxay fududayn kartaa abuurista nooc awood u leh inuu kala qaybiyo wax kasta oo la soo gelinayo meel eber ah, xitaa iyada oo aan la bixin faahfaahin habboon. Lakabyadan is-fiirsiga ayaa si dabiici ah u fahmaya fikradaha shayga ee uu bartay qaabka fidinta deggan ee horay loo tababaray.

DiffSeg : Algorithm Qaybta Eber- Shot La xoojiyey

Semantic Segmentation waa hab u qaybiya sawirka qaybo kala duwan, iyada oo qayb kastaa wadaagto semantic isku mid ah. Farsamadani waxay aasaas u tahay hawlo badan oo hoose. Dhaqan ahaan, hawlaha aragga kombuyuutarka eber-shot waxay ku xidhan yihiin qaybta semantic ee la kormeero, iyada oo la adeegsanayo xog-ururin waaweyn oo leh qaybo la sharraxay iyo kuwo calaamadaysan. Si kastaba ha ahaatee, hirgelinta qaybta semantic ee aan la kormeerin ee meel eber ah ayaa weli ah caqabad. Iyadoo hababka dhaqameed ee la kormeero ay waxtar leeyihiin, qiimaha calaamadaynta halkii-pixel inta badan waa mamnuuc, muujinta baahida loo qabo horumarinta hababka kala qaybinta aan la kormeerin ee meel aan xaddidnayn oo eber ah, halkaas oo moodalku aanu u baahnayn xog la sharraxay ama aqoonta hore ee xogta.

Si wax looga qabto xaddidan, DiffSeg waxay soo bandhigaysaa istaraatijiyad cusub oo habayneed ka dib, iyada oo ka faa'iidaysanaysa awoodaha qaab-dhismeedka Diffusion-ka xasilloon si loo dhiso nooc qaybin guud oo awood u leh wareejinta eber-ka-tooska sawir kasta. Qaababka fidsanaanta xasiloon waxay caddeeyeen waxtarkooda soo saarista muuqaallo heer sare ah oo ku salaysan xaalado degdeg ah. Sawirrada la soo saaray, qaab-dhismeedkani waxay soo saari karaan waji-xidho kala-saarid iyagoo isticmaalaya soo-jeedin qoraal ah oo u dhigma, sida caadiga ah oo ay ku jiraan walxaha hore ee xoogga badan.

Taas bedelkeeda, DiffSeg waa hab cusub oo habayn ka dib kaas oo abuura waji-xidho kala qaybsanaan ah iyadoo la adeegsanayo dareenka dareenka ee lakabyada is-fiirsashada ee qaabka fidinta. Algorithm-ka DiffSeg wuxuu ka kooban yahay saddex qaybood oo muhiim ah: isku-darka feejignaanta, isku-darka dareenka, iyo xakamaynta aan ugu badnaan, sida lagu muujiyey sawirka soo socda.

Algorithm-ka DiffSeg wuxuu ilaaliyaa macluumaadka muuqaalka ee go'aammo badan iyadoo la isu geynayo 4D fiiro gaar ah leh oo joogto ah, iyo ka faa'iidaysiga habka isku-darka soo noqnoqda iyadoo la qaadayo dhibcaha barroosinka. Barroosinnadani waxay u adeegaan sidii furaha furaha ee waji-xidhka isku-darka dareenka leh ee barroosinnada shay la nuugo aakhirka. Qaab dhismeedka DiffSeg ayaa xakameynaya habka isku darka iyadoo la kaashanayo Habka kala duwanaanshaha KL si loo cabbiro isku ekaanshaha labada khariidad ee dareenka. 

Marka la barbar dhigo kutlada ku salaysan hababka qaybinta aan la ilaalin, horumariyayaashu maaha inay cadeeyaan tirada kooxaha ka hor algorithm DiffSeg, iyo xitaa iyada oo aan aqoon hore loo lahayn, DiffSeg algorithm waxay soo saari kartaa qaybinta iyada oo aan la isticmaalin ilo dheeraad ah. Guud ahaan, DiffSeg algorithm waa "Qaab cusub oo aan la kormeerin iyo habka qaybinta eber-shot kaas oo isticmaalaya qaabka hore loo tababaray ee Stable Diffusion, oo kala saari kara sawirada iyada oo aan wax agab ah oo dheeraad ah la helin, ama aqoon hore.

DiffSeg : Fikradaha aasaasiga ah

DiffSeg waa algorithm sheeko cusub oo ku dhista barashada Modelyada Faafinta, Qaybinta Aan La Ilaalin, iyo Qaybinta Zero-Shot. 

Qaababka Faafinta

Algorithm-ka DiffSeg wuxuu ku dhisan yahay barashada qaababka fidinta ee horay loo tababaray. Moodooyinka faafinta waa mid ka mid ah qaab-dhismeedka ugu caansan ee qaab-dhismeedka kombuyuutarka moodooyinka aragga, waxayna ka barataa habka fidinta hore iyo dib-u-celinta sawirka sanqadha Gaussian ee muunad ah si loo soo saaro sawir. Faafinta Xasilloonida ah waa kala duwanaanshaha ugu caansan ee moodooyinka fidinta, waxaana loo adeegsadaa in lagu qabto hawlo kala duwan oo ay ka mid yihiin qaybinta la kormeero, kala soocida eber-shot, iswaafajinta micnaha-xiriirka, qaybinta tayada fiican leh, iyo qaybinta ereyada furan. Si kastaba ha ahaatee, arrinta kaliya ee moodooyinka faafinta ayaa ah inay ku tiirsan yihiin muuqaalada muuqaalka sare si ay u qabtaan hawlahan, waxayna inta badan u baahan yihiin tababaro dheeraad ah si ay si buuxda uga faa'iidaystaan ​​sifooyinkaas. 

Qaybta aan la kormeerin

Algorithm-ka DiffSeg wuxuu si dhow ula xiriiraa qaybinta aan la ilaalin, habdhaqanka casriga ah ee AI kaas oo ujeedadiisu tahay in la abuuro waji-gashiyo cufan iyada oo aan la isticmaalin wax faallooyin ah. Si kastaba ha ahaatee, si loo soo bandhigo waxqabad wanaagsan, moodooyinka kala qaybinta ee aan la kormeerin waxay u baahan yihiin tababaro hore oo aan la ilaalin oo ku saabsan xogta yoolka. Qaab-dhismeedka AI ee ku salaysan qaybta aan la kormeerin waxaa lagu sifeyn karaa laba qaybood: kooxaynta iyadoo la adeegsanayo moodallo horay loo tababaray, iyo kooxaysi ku salaysan is-bedbeddel. Qaybta koowaad, qaab-dhismeedyadu waxay adeegsadaan astaamaha takoorka ee ay barteen moodooyinka horay loo tababbaray si ay u abuuraan waji-gashiyo halka qaab-dhismeedka isku helaya qaybta labaad ay adeegsadaan algorithm ururin guud oo wanaajinaya xogta wadaagga ah ee u dhexeeya labada sawir si ay u kala qaybiyaan sawirrada kooxo semantic ah. iskana ilaali kala qaybsanaanta sii xumaanaysa. 

Kala-saar eber

Algorithm-ka DiffSeg wuxuu si dhow ula xiriiraa qaab-dhismeedka eber-shot, hab awood u leh in la qaybiyo wax kasta iyada oo aan wax tababar ah ka hor ama aqoonta xogta. Noocyada kala-soocidda eber-shot waxay muujiyeen awoodaha wareejinta eber-shot waqtiyadii ugu dambeeyay in kasta oo ay u baahan yihiin xoogaa qoraal ah iyo soo-jeedin. Taas bedelkeeda, Algorithm DiffSeg waxay shaqaaleysiisaa qaabka fidinta si ay u abuurto qaybin iyada oo aan la waydiin oo la isku dhejin sawirro badan iyo iyada oo aan la ogeyn waxa ku jira shayga. 

DiffSeg: Habka iyo Dhismaha

Algorithm DiffSeg waxay isticmaashaa lakabyada is-fiirsashada ee qaabka fidinta xasilloon ee horay loo tababaray si loo abuuro hawlo qaybin tayo sare leh. 

Qaabka Faafinta Deggan

Faafinta Xasilooni waa mid ka mid ah fikradaha aasaasiga ah ee qaabka DiffSeg. Faafinta Xasilloonida ah waa qaab-dhismeedka AI ee abuurista, iyo mid ka mid ah moodooyinka faafinta ugu caansan. Mid ka mid ah sifooyinka ugu muhiimsan ee qaabka fidinta waa baas horay iyo gadaal ah. Gudbinta hore, qadar yar oo sanqadh Gaussian ah ayaa lagu daraa sawirka si isdaba joog ah mar kasta oo tallaabo ah ilaa sawirku noqdo sawirka dhawaaqa Gaussian isotropic. Dhanka kale, ka gudubka gadaasha, qaabka faafinta ayaa si isdaba joog ah u saaraya buuqa sawirka gaussian isotropic si uu u soo kabsado sawirka asalka ah iyada oo aan wax sanqadha Gaussian ah. 

Qaabka fidsanaanta xasiloon waxa uu shaqaaleeyaa cod-dekodeer, iyo naqshad U-Net oo leh lakab fiiro gaar ah halkaas oo ay isticmaasho cod-dhaliye si uu marka hore sawirka ugu cadaadiyo meel bannaan oo dahsoon oo cabbirro yar oo bannaan ah, oo uu isticmaalo qalabka-fure si uu u furfuro sawirka. Nashqada U-Net waxay ka kooban tahay xirmo baloogyo modular ah, halkaas oo baloog kastaa ka kooban yahay labada qaybood ee soo socda midkood: Transformer Layer, iyo lakabka ResNet. 

Qaybaha iyo Dhismaha

Lakabyada is-fiirsashada ee moodooyinka faafinta ee kooxaynta macluumaadka walxaha asalka ah ee qaab khariidado fiiro gaar ah, iyo DiffSeg waa hab cusub oo dib-u-habayn ah oo lagu isku daro maaskaro qaybsan oo sax ah oo leh dhuumaha oo ka kooban saddex qaybood oo waaweyn: isu geynta dareenka, cabudhinta aan ugu badnaan, iyo dareenka soo noqnoqda.

Isku-darka Feejignaanta

Sawir gelinta oo dhex mara lakabyada U-Net, iyo Encoder-ka, qaabka Diffusion-ka ee Stable Diffusion wuxuu abuuraa wadar ahaan 16 tensors dareenka, oo leh 5 tenors mid kasta oo ka mid ah cabbirada. Hadafka aasaasiga ah ee soo saarista 16 kirayste waa in la isku geeyo kuwan fiiro gaar ah leh oo leh qaraaro kala duwan oo la dhigo tensor leh xalka ugu sarreeya ee suurtogalka ah. Si taas loo gaaro, DiffSeg algorithm wuxuu ula dhaqmaa cabbirrada 4 si ka duwan midba midka kale. 

Marka laga reebo afarta cabbir, cabbirrada 2 ee ugu dambeeya ee dareemayaasha dareenka waxay leeyihiin xalal kala duwan haddana waxay yihiin kuwo iswaafaqsan tan iyo khariidadda 2D ee qaabka DiffSeg waxay u dhigantaa isku xirka goobaha iyo goobaha bannaan. Natiijo ahaan, qaabka DiffSeg wuxuu tijaabiyaa labadan cabbir ee dhammaan khariidadaha dareenka ee xallinta ugu sareysa dhammaantood, 64 x 64. Dhanka kale, cabbirada 2 ee ugu horreeya waxay muujinayaan tixraaca goobta khariidadaha dareenka sida lagu muujiyay sawirka soo socda. 

Maaddaama cabbirradan ay tixraacayaan goobta khariidadaha feejignaanta, khariidadaha feejignaanta waxay u baahan yihiin in la isku geeyo si waafaqsan. Intaa waxaa dheer, si loo hubiyo in khariidadda dareenka la isku daray ay leedahay qaybin sax ah, qaabdhismeedku waxa uu caadi ka dhigayaa qaybinta ka dib marka la isku daro iyada oo khariidad fiiro gaar ah loo qoondeeyay miisaan u dhigma xallinteeda. 

Isku-dhafka Feejignaanta Isku-dhafka ah

Iyadoo hadafka ugu muhiimsan ee isu geynta dareenka uu ahaa in la xisaabiyo dareenka tensor, ujeedada koowaad waa in la isku daro khariidadaha dareenka ee tensor-ka iyo isku dhafka soo jeedinta shay halkaas oo soo jeedin kasta oo shakhsi ah ay ka kooban tahay qaybta walxaha ama kicinta hal shay. Xalka la soo jeediyay si loo gaaro tan waa iyada oo la hirgelinayo algorithm-ka K-Means ee qaybinta saxda ah ee kiraystayaasha si loo helo kooxaha walxaha. Si kastaba ha ahaatee, isticmaalka K-Means maaha xalka ugu fiican sababtoo ah K-Means-ku-ururinta waxay u baahan tahay isticmaalayaasha inay cayimaan tirada kooxaha ka hor. Intaa waxaa dheer, hirgelinta algorithm ee K-Means waxay keeni kartaa natiijooyin kala duwan isla muuqaal isku mid ah maadaama ay si qotodheer ugu tiirsan tahay bilowga. Si looga gudbo caqabada, qaabka DiffSeg waxa uu soo jeedinayaa in la abuuro shabag muunad si loo abuuro soo jeedinta iyadoo la isku darayo khariidadaha dareenka si isdaba joog ah. 

Cadaadis Aan Ugu Sarreynin

Talaabadii hore ee isku darka dareenka soo noqnoqda waxay soo saartaa liiska soo jeedinta shayga ee qaabka suurtogalka ah ee khariidadaha dareenka halkaasoo shay kastaa uu ka kooban yahay hawlgelinta shayga. Qaab-dhismeedku waxa uu isticmaalayaa xakamaynta aan ugu badnayn si loogu beddelo liiska soo jeedinta shayga maaskaro qaybsan oo sax ah, nidaamkuna waa hab wax ku ool ah maadaama shay kasta oo liiska ku jira uu horeba u ahaa khariidad qaybinta itimaalka. Meel kasta oo bannaan ee dhammaan khariidadaha oo dhan, algorithm-ku wuxuu qaadaa tusmada itimaalka ugu weyn, wuxuuna ku meeleeyaa xubinnimada iyadoo lagu salaynayo tusaha khariidadda u dhiganta. 

DiffSeg : Tijaabooyinka iyo Natiijooyinka

Qaab-dhismeedka ka shaqeeya qaybinta aan la kormeerin waxay isticmaalaan laba bartilmaameed oo kala qaybsan oo kala ah Cityscapes, iyo COCO-stoff-27. Halbeegga Cityscapes waa xog is-wadidda oo leh 27 qaybood oo heer dhexe ah halka COCO-walxaha-27 bartilmaameedku yahay nooc la soo koobay oo ah xog-ururinta asalka ah ee COCO oo isku daraysa 80 shay iyo 91 qaybood oo loo kala qaybiyay 27 qaybood. Intaa waxaa dheer, si loo falanqeeyo waxqabadka qaybinta, qaabka DiffSeg wuxuu adeegsadaa celceliska isgoysyada midowga ama mIoU iyo saxnaanta pixel ama ACC, iyo maadaama DiffSeg algorithm uusan awoodin inuu bixiyo calaamadda semantic, waxay isticmaashaa algorithm isbarbardhigga Hungarian si loogu meeleeyo maaskaro runta dhulka maaskaro kasta oo la saadaaliyay. Haddii tirada waji-xidhka la saadaaliyay ay ka badato tirada waji-xidhka runta dhulka, qaabdhismeedku waxa uu tixgalin doonaa hawlaha aan la saadaalin karin ee aan isbarbar dhigin sida xumaanta beenta ah. 

Intaa waxaa dheer, qaabka DiffSeg wuxuu kaloo xoogga saarayaa saddexda shaqo ee soo socda si loo socodsiiyo faragelinta: Ku-tiirsanaanta Luuqadda ama LD, La-qabsiga aan La-Koontaroolin ama UA, iyo Sawirka Kaaliyaha ama AX. Ku-tiirsanaanta Luqadda macnaheedu waa in habku u baahan yahay qoraallo sharraxaad ah si loo fududeeyo qaybinta sawirka, La qabsiga aan la ilaalin waxa loola jeedaa shuruudaha habka loo isticmaalo tababbarka aan la kormeerin ee xogta xogta la beegsanayo halka Sawirka Caawinta uu tilmaamayo in habku u baahan yahay fikrado dheeraad ah ha ahaato sawiro la sameeyay, ama sida barkada sawirada tixraaca. 

Natiijooyinka

Marka la eego bartilmaameedka COCO, qaabka DiffSeg waxa ku jira laba k-macneheedu salka ku hayo, K-Means-S iyo K-Means-C. Halbeegga K-Means-C waxaa ku jira 6 rucubood oo lagu xisaabiyo celceliska tirada walxaha sawirada ay qiimeyso halka K-Means-S bartilmaameedka uu isticmaalo tiro gaar ah oo kooxo ah sawir kasta iyadoo lagu salaynayo tirada walxaha jooga xaqiiqada dhabta ah ee sawirka, iyo natiijooyinka labadan bartilmaameedba waxaa lagu muujiyey sawirka soo socda. 

Sida la arki karo, saldhigga K-Means ayaa ka sarreeya hababka jira, sidaas darteed waxay muujinayaan faa'iidada isticmaalka kiriyeyaasha is-fiirsashada. Waxa xiisaha lihi waa in bartilmaameedka K-Means-S uu ka sarreeyo bartilmaameedka K-Means-C taasoo tilmaamaysa in tirada kooxuhu ay yihiin halbeegga aasaasiga ah ee hyper-parameter, iyo hagaajintu waxay muhiim u tahay sawir kasta. Intaa waxaa dheer, xitaa marka lagu tiirsanaado isla feejignaan isku mid ah, qaabka DiffSeg wuxuu ka sarreeyaa K-Means asaasiga ah kaas oo caddaynaya awoodda qaabka DiffSeg ee ma aha oo kaliya bixinta qayb ka fiican, laakiin sidoo kale ka fogow faa'iido darrooyinka ay keento isticmaalka K-Means aasaasiga ah. 

Marka la eego xogta xogta Cityscapes, qaab-dhismeedka DiffSeg waxa uu keenaa natiijooyin la mid ah qaab-dhismeedka iyadoo la isticmaalayo talo-bixin leh 320-xalin hoose iyada oo ka sarraysa qaab-dhismeedka kuwaas oo qaata 512-xallin sare oo sax ah iyo mIoU. 

Sidii hore loo soo sheegay, qaabka DiffSeg wuxuu shaqaaleeyaa dhawr-beeg-beegyo sida lagu muujiyay sawirka soo socda. 

Isku-darka feejignaanta waa mid ka mid ah fikradaha aasaasiga ah ee lagu isticmaalo qaabka DiffSeg, iyo saameynta isticmaalka miisaannada kala duwan ee isku-darka ayaa lagu muujiyay sawirka soo socda iyadoo xallinta sawirku ay tahay mid joogto ah. 

Sida la arki karo, khariidadaha xallinta sare ee Jaantuska (b) oo leh 64 x 64 maab ayaa soo saaraya qaybaha ugu faahfaahsan inkasta oo qaybaha ay leeyihiin jajabyo muuqda halka xalinta hoose ee 32 x 32 ay u janjeerto tafaasiisha qaybta in kasta oo ay keento qaybo isku xidhan oo la xoojiyay. Jaantuska (d), khariidadaha xallinta hooseeya waxay ku guul daraysteen inay abuuraan qayb kasta maadaama sawirka oo dhan la isku daray shay keli ah oo leh jaangooyooyin-parameter-ka jira. Ugu dambayntii, sawirka (a) ee isticmaala istiraatijiyad isu-ururinta saami-qaybsiga waxay keentaa tafaasiisha la xoojiyay iyo joogtaynta dheellitiran. 

Afkaarta Final

Qaybinta eber-shot ee aan la kormeerin ayaa weli ah mid ka mid ah caqabadaha ugu waaweyn ee qaabdhismeedka aragga kombiyuutarka, iyo moodooyinka hadda jira ama waxay ku tiirsan yihiin la qabsiga aan eber-shubka ahayn ee aan la kormeerin ama ilaha dibadda. Si aan uga gudubno caqabadan, waxaan ka hadalnay sida lakabyada is-fiirsashada ee moodooyinka fidinta deggan ay awood u siin karaan dhismaha qaab awood u leh in uu kala qaybiyo wax kasta oo ku jira goob eber ah iyada oo aan la bixin faahfaahin habboon maaddaama lakabyadan is-fiirsiga ay hayaan fikradaha asalka ah shayga uu barto qaabka fidinta deggan ee horay loo tababaray. Waxaan sidoo kale ka hadalnay DiffSeg, oo ah istaraatijiyad cusub oo cadaadis ka dib, ujeedadeedu tahay in laga faa'iidaysto awoodda qaab-dhismeedka Diffusion Stable si loo dhiso nooc qaybsanaan ah oo hirgelin kara wareejinta eber ee sawir kasta. Algorithm-ku wuxuu ku tiirsan yahay Feejignaanta Dhex-dhexaadka ah iyo Isku-ekaanshaha Feejignaanta Dhex-dhexaadka ah si loogu daro khariidadaha dareenka si isdabajoog ah oo loogu daro maaskaro qaybin sax ah si loo gaaro heerka waxqabadka farshaxanka ee bartilmaameedyada caanka ah. 

"Injineer xirfad ahaan, qoraa qalbigiisa". Kunal waa qoraa farsamo oo leh jacayl qoto dheer & faham AI iyo ML, oo ​​u heellan fududaynta fikradaha adag ee dhinacyadan iyada oo loo marayo dukumeenti hawleed iyo macluumaad leh.