stub TinySAM : Аливаа зүйлийг сегментчлэхийн тулд хил хязгаарыг давах загвар - Unite.AI
бидэнтэй хамт холбоно

Хиймэл оюун

TinySAM: Аливаа зүйлийг сегментчилэх загваруудын хил хязгаарыг түлхэж байна

mm

Нийтэлсэн

 on

TinySAM: Аливаа зүйлийг сегментчилэх загваруудын хил хязгаарыг түлхэж байна

Объектын сегментчилэл нь орчин үеийн компьютерийн харааны үндсэн бөгөөд чухал ач холбогдолтой салбар юм. Энэ нь объектын нутагшуулалт, таних зэрэг өргөн цар хүрээтэй харааны бүрэлдэхүүн хэсгүүдийг шаарддаг програмуудад чухал үүрэг гүйцэтгэдэг бөгөөд бодит цаг хугацаанд, хурдан, үнэн зөв сегментчлэлийг шаарддаг. Энэ ач холбогдол нь объектын сегментчилэлийг байнгын судалгааны сэдэв болгож, жишээ сегментчилэл, семантик сегментчилэл, паноптик сегментчилэл зэрэг салбарт томоохон ажил хийсэн.

Объектын сегментчиллийн хувьсал өөрчлөлтөөр Segment Anything Model (SAM) нь сегментчлэлийн гайхалтай чадварыг харуулсан гайхалтай хэрэгсэл болон гарч ирж, компьютерийн харааны янз бүрийн хэрэглээнд хурдан хэрэглэгдэх болсон. Урьдчилан бэлтгэгдсэн SAM архитектурыг ашигладаг хүрээ нь харааны доод түвшний ажлуудад гайхалтай гүйцэтгэлтэй болсон. Гэсэн хэдий ч, өөрийн чадвар, сегментчлэлийн даалгаврын өндөр нарийвчлалыг үл харгалзан SAM-ийн нарийн төвөгтэй, хүнд архитектур нь тооцооллын хязгаарлагдмал төхөөрөмж дээр хэрэгжүүлэхэд саад болж, ихээхэн хэмжээний тооцооллын хүч шаарддаг.

SAM-ийн тооцооллын сорилтуудыг шийдвэрлэхийн тулд судлаачид жижиг сегментийн аливаа загварыг (TinySAM) боловсруулсан бөгөөд энэ нь анхны хүрээний 0-shot гүйцэтгэлийг хадгалахын зэрэгцээ илүү хөнгөн жинтэй юм. TinySAM нь илүү үр дүнтэй оюутны загварыг бий болгохын тулд онлайн хатуу заавар бүхий бүрэн үе шаттай мэдлэг нэрэх аргыг ашигладаг. Шуурхай сегментчлэлийн даалгаварт дасан зохицсон сургалтын дараах квантжуулалт нь тооцооллын хэрэгцээг улам бүр багасгадаг. Нэмж дурдахад TinySAM-ийн загвар нь шаталсан сегментчлэлийг зорьж, гүйцэтгэлийг алдагдуулахгүйгээр дүгнэлт гаргах хурдыг бараг хоёр дахин нэмэгдүүлэх зорилготой юм.

Энэхүү нийтлэл нь TinySAM-ын үндсэн зарчмууд, архитектур, гүйцэтгэлийг бусад сүүлийн үеийн сегментчиллийн хүрээтэй харьцуулан судалсан болно. Эдгээр талыг илүү нарийвчлан авч үзье.

TinySAM: Аливаа зүйлийг үр дүнтэй сегментчилсэн загвар

Segment Anything Model нь 11 сая гаруй зураг, тэрбум гаруй дүрсний маск агуулсан сегментчлэлийн өгөгдлийн багцтай хослуулан сайшаалтай сегментчлэлийн чадварын ачаар компьютерийн харааны хэд хэдэн програмыг хурдацтай хөгжүүлэхэд тусалсан. Дурын ангилал, дүрс бүхий объектуудыг сегментчилэх даалгаврын онцгой гүйцэтгэлийн ачаар энэ нь дүрсийг будах, объектыг хянах, 3 хэмжээст алсын хараа гэх мэт доод урсгалын даалгавруудыг гүйцэтгэх хүрээний суурь болж өгдөг. Цаашилбал, Segment Anything загвар нь бас гайхалтай санал болгодог 0-shot сегментчилэл Эрүүл мэндийн судалгаа, эмнэлгийн дүрслэлийн салбар зэрэг хязгаарлагдмал хэмжээний өгөгдөлтэй ажилладаг эмзэг салбаруудад ашиг тусаа өгсөн гүйцэтгэл. 

Хэдий Segment Anything Model-ийн санал болгож буй сегментчлэлийн гайхалтай чадавхийг эргэлзэх боломжгүй ч гэсэн энэ нь архитектурын хэт ачаалал, тооцооллын өндөр шаардлага, үйл ажиллагааны ихээхэн зардал зэрэг сул талтай. Орчин үеийн GPU дээр ажиллаж байгаа системийн хувьд SAM загварын дүгнэлт гаргах хугацаа 2×1024 дүрсний хувьд 1024 секунд хүртэл өндөр байж болно. Үүний үр дүнд SAM програмуудыг тооцоолох чадвар хязгаарлагдмал төхөөрөмж дээр хэрэгжүүлэх нь маш хэцүү ажил юм. Энэхүү саад бэрхшээлийг даван туулахын тулд MobileSAM болон FastSAM зэрэг сүүлийн үеийн ажлууд илүү тооцооллын үр ашигтай SAM загварыг хөгжүүлэхийг оролдсон. MobileSAM хүрээ нь дүрс кодлогч дахь хүнд бүрэлдэхүүн хэсгийг TinyViT фреймворкийн архитектураар солихыг оролддог бол FastSAM загвар нь сегментийн даалгаврыг зөвхөн нэг категори бүхий инстанцийн сегментчлэлийн даалгаварт шилжүүлдэг. YoloV8 загвар. Эдгээр аргууд нь тооцооллын шаардлагуудыг багасгах тал дээр тодорхой түвшинд амжилтанд хүрч чадсан ч, ялангуяа доод урсгалын тэг шидэлт даалгаврын гүйцэтгэлийг хадгалж чадахгүй байв. 

TinySAM буюу Tiny Segment Anything Model нь одоогийн SAM загварын тооцооллын хэрэгцээг 0-shot downstream даалгаврын гүйцэтгэлд саад учруулахгүйгээр багасгах оролдлого юм. Цаашилбал, TinySAM тогтолцоо нь оюутны авсаархан сүлжээний чадварыг сайжруулах зорилгоор өөрийн архитектурт мэдлэг нэрэх бүрэн үе шаттай аргыг хэрэгжүүлэхийг санал болгож байна. TinySAM хүрээ нь янз бүрийн үе шатуудаас багшийн сүлжээний хяналтан дор оюутны сүлжээг эцэс төгсгөлд нь нэрэлдэг. Гүйцэтгэлийг цаашид нэмэгдүүлэхийн тулд уг тогтолцоо нь нэмэлт онлайн хатуу шуурхай түүвэрлэлтийн стратегийг хэрэгжүүлснээр нэрэх процессыг хатуу жишээн дээр илүү их оролцуулах боломжийг олгодог. Цаашилбал, тооцооллын зардлыг бууруулахын тулд TinySAM тогтолцоо нь сургалтын дараах тоон тооцооллын бүрэлдэхүүн хэсгүүдэд шуурхай сегментчлэлийн даалгавруудыг гаргаж өгдөг. 

Segment Anything Model-ийн тооцооллын шаардлагын гол хэсэг нь загвар нь зурган дээрх бүх зүйлийг сегментчилэхийн тулд сүлжээний дохионы цэгүүдээс асар том маск үүсгэдэгтэй холбоотой юм. Энэхүү сегментчилсэн стратегийн тооцооллын шаардлагыг даван туулахын тулд TinySAM хүрээ нь гүйцэтгэлийг бууруулахгүйгээр дүгнэлтийн хурдыг бараг хоёр дахин нэмэгдүүлдэг шаталсан сегментийн стратегийг ашигладаг. Архитектуртаа эдгээр аргуудыг ашигласнаар TinySAM хүрээ нь тооцооллын шаардлагыг мэдэгдэхүйц бууруулж, аливаа сегментийн үр ашигтай даалгаврын шинэ хязгаарлалтуудыг тогтоодог. 

TinySAM: Архитектур ба арга зүй

TinySAM хүрээний архитектур, арга зүйн талаар ярихаасаа өмнө түүний өмнөх хувилбар болох SAM хүрээг харах нь чухал юм. "Segment Anything Model" нь танилцуулагдсан цагаасаа хойш алсын хараа болон объектыг сегментчлэх олон төрлийн ажлуудад гайхалтай гүйцэтгэл, олон талт байдал, нэгтгэх чадварыг харуулсан. 

Үндсэндээ SAM загвар нь шуурхай кодлогч, дүрс кодлогч, маск декодер гэсэн гурван дэд сүлжээнээс бүрдэнэ. Шуурхай кодлогчийн гол зорилго нь дурын хэлбэрийн маск, оролтын цэг, хайрцаг, чөлөөт хэлбэрийн текстийг байрлалын мэдээлэлтэй кодлох явдал юм. Зургийн кодлогч нь хүнд ViT буюу харааны трансформаторт суурилсан сүлжээ бөгөөд оролтын дүрсийг суулгац болгон задалдаг. Уг загвар нь геометрийн болон текстийн сануулгыг боловсруулахдаа өөр өөр сүлжээ ашигладаг. Эцэст нь, маск тайлагч нь эцсийн маскын таамаглалыг бий болгохын тулд мэдээллийн дохионы гаралтыг хүлээн авдаг хоёр талын трансформатор болон дүрс кодлогчийг агуулдаг. Өгөгдлийн багцын тусламжтайгаар SAM хүрээ нь хэлбэр, ангиллаас үл хамааран объектуудыг сегментчилэх гайхалтай чадварыг харуулдаг. Цаашилбал, Ямар ч загварыг сегментчил Объект санал болгох, захын ирмэгийг илрүүлэх, текстээс маскыг урьдчилан таамаглах, жишээний сегментчилэл зэрэг 0 цохилтын доод харааны ажлуудад гайхалтай гүйцэтгэл, үр ашгийг харуулдаг. Өндөр чанартай сегментчилэх чадвар, уян хатан шуурхай санал болгосныхоо ачаар SAM хүрээ нь алсын харааны хэрэглээний үндэс суурийг бүрдүүлдэг. Үүний зэрэгцээ, олон тооны параметр бүхий уламжлалт SAM архитектурын тооцооллын өндөр шаардлагыг үл тоомсорлож болохгүй бөгөөд хөгжүүлэгчид хязгаарлагдмал нөөцтэй төхөөрөмжүүд дээр SAM дээр суурилсан програмуудыг байрлуулах нь бараг боломжгүй юм. 

Мэдлэг нэрэх

Мэдлэг нэрэх нь сургалтын үе шатанд авсаархан сүлжээний гүйцэтгэлийг нэмэгдүүлэх чухал арга юм. Мэдлэг нэрэх арга нь багшийн сүлжээний гаралтыг ашиглан хөнгөн жинтэй оюутны сүлжээний сургалтыг хянах. Мэдлэг нэрэх аргыг хоёр дэд ангилалд хувааж болно: завсрын шинж чанарыг нэрэх, сүлжээний гаралтын нэрэлтийг нэрлэх ба мэдлэгийг нэрэх судалгааны ажлын ихэнх нь зураг ангилах даалгаварт төвлөрдөг. 

Үүний зэрэгцээ, дараах зураг нь TinySAM хүрээний ерөнхий архитектурыг харуулж, тэг шидэлттэй тохиолдлын сегментчиллийн ажлуудын гүйцэтгэлийн тоймыг харуулж байна. 

Эхний шатанд TinySAM хүрээ нь SAM-ийн хүрээнд тусгайлан боловсруулсан мэдлэгийн нэрэлтийг хэрэгжүүлдэг бөгөөд нэрэх үйл явцыг цаашид идэвхжүүлэхийн тулд загвар нь багшийн сүлжээнээс оюутны сүлжээнд хатуу мэдлэгийг олборлохын тулд онлайн хатуу шуурхай түүвэрлэлтийг ашигладаг. Хоёрдахь шатанд TinySAM хүрээ нь сургалтын дараах квантчлалын аргыг шуурхай сегментчлэлийн даалгавруудад тохируулж, хөнгөн жинтэй оюутны сүлжээнд хэрэгжүүлдэг. Эцэст нь, уг загвар нь сегментчлэлийн даалгаварт зориулагдсан шаталсан сегментийн бүх дүгнэлтийн горимыг хэрэгжүүлдэг бөгөөд үр дүнд нь дүгнэлтийн хурдыг үл тоомсорлож, нарийвчлалын алдагдлыг хоёр дахин нэмэгдүүлдэг. 

Бүрэн үе шаттай мэдлэгийн нэрэлт

Өмнө дурьдсанчлан Segment Anything Model нь гурван дэд сүлжээнээс бүрддэг: шуурхай кодлогч, дүрс кодлогч, маск декодер, дүрс кодлогч бүрэлдэхүүн хэсэг нь харааны трансформатор дээр суурилагдсан бөгөөд өндөр тооцооллын шаардлага тавьдаг. Энэ асуудлыг шийдвэрлэхийн тулд MobileSAM хүрээ нь харааны трансформаторыг TinyViT эсвэл Tiny Vision Transformer-ээр сольсон ч гүйцэтгэлийн мэдэгдэхүйц бууралтыг харгалзан орлуулах нь үр дүнтэй биш байсан. Гүйцэтгэлийн бууралтгүй байхын тулд TinySAM хүрээ нь сургалтын түвшингээс олон мэдлэгийн түвшин хүртэл хөнгөн жинтэй дүрс кодлогчийг чиглүүлдэг бүрэн шатны мэдлэгийг нэрэх аргыг хэрэгжүүлдэг. Үндсэн үнэний шошго ба урьдчилан таамагласан үр дүнгийн хоорондох уламжлалт алдагдлаас гадна TinySAM систем нь дараах зурагт үзүүлсэн шиг янз бүрийн үе шатанд олон тооны нэрэлтийн алдагдлыг нэвтрүүлдэг. 

Тоо хэмжээ

Загварын квантчлал нь компьютерийн харааны хүрээн дэх түгээмэл арга бөгөөд гаралтын чанарыг дордуулахгүйгээр тооцооллын нарийн төвөгтэй байдал, хадгалалтын шаардлагыг багасгахын тулд жин буюу идэвхжүүлэлтийг өндөрээс доод зурвасын өргөн рүү тоолох замаар загварыг шахахад ашигладаг. 

TinySAM дахь квантчлалын гол зорилго нь масштабын коэффициентийг оновчтой болгоход чухал үүрэг гүйцэтгэдэг матрицын үржүүлгийн болон квантлагдсан матрицын хоорондох зайг хэмжих хэмжүүр бүхий масштабын коэффициентийг ашиглан хөвөгч цэгийн тензорыг бит бүхэл тоон тензор руу проекцлох явдал юм. 

Аливаа зүйлийг шаталсан сегмент

Segment Anything загвар нь зураг дээрх бүх зүйлийг сегментлэхийн тулд цэгүүдийг сүлжээ болгон түүвэрлэдэг автомат маск үүсгэгчийг ашиглахыг санал болгож байна. Гэсэн хэдий ч нягт цэгийн сүлжээг ашиглах нь хэт нарийн ширхэгтэй сегментчлэлийн үр дүнд хүргэдэг бөгөөд үйл явц нь тооцооллын асар их шаардлагуудыг шаарддаг бөгөөд үйл ажиллагааны өндөр зардал шаарддаг. Цаашилбал, нэг талаас, бүрэн объектын хэт олон түүврийн цэг нь объектын өөр өөр хэсгүүдийг тусад нь маск болгон буруу сегментчэхэд хүргэдэг бол нөгөө талаас бүх зүйлийн горимын дүгнэлтийн цаг хугацааны зардал нь үндсэндээ ийм шалтгаантай холбоотой байдаг. дүрс кодлогч ихээхэн багассан байна. Бүх зүйл горимын үйл ажиллагааны зардлыг бууруулахын тулд TinySAM хүрээ нь маск үүсгэх шаталсан хандлагыг ашигладаг бөгөөд анхны SAM хүрээтэй стратегийн ялгааг дараах зурагт үзүүлэв. 

TinySAM загвар нь анхдагч SAM системд хэрэгжсэн аргаас ялгаатай нь тал тус бүрдээ ердөө 25% оноо ашигладаг тул анхны тохиргоонд байгаа боломжит цэгүүдийн ердөө 1/16-г л ашигладаг. Дараа нь загвар нь маск декодлогч болон мөрийн кодлогчийг эдгээр сануулгуудаар дүгнэж, гаралтыг авдаг. Дараа нь загвар нь тодорхой босгыг давсан итгэлтэйгээр зарим маскуудыг шүүж, харгалзах байршлыг эцсийн таамаглал хийх талбар болгон далдалдаг. Загвар нь эдгээр мужуудыг өндөр итгэлтэй жишээнүүдийн сегментчиллийн үр дүн гэж үздэг тул цэгийн сануулга үүсгэх шаардлагагүй болно. Энэхүү стратеги нь объектын хэт нарийн ширхэгтэй сегментчлэлээс урьдчилан сэргийлэхэд тусалдаг төдийгүй үйл ажиллагааны зардал, тооцооллын шаардлагыг мэдэгдэхүйц бууруулахад тусалдаг. Дараа нь уг хүрээ нь эдгээр хоёр тойргийн үр дүнг нэгтгэж, эцсийн маскыг авахын тулд боловсруулдаг. 

TinySAM: Туршилт ба үр дүн

Нэрэлтийн процессыг хурдасгахын тулд TinySAM хүрээ нь багшийн сүлжээнээс зураг оруулахыг урьдчилан тооцоолж, хадгалдаг тул сургалтын үе шатанд багшийн сүлжээний хүнд дүрс кодлогчийг дахин дахин тооцоолох шаардлагагүй болсон. Сургалтын дараах квантчлалын хувьд TinySAM хүрээ нь бүх матрицын үржүүлгийн давхарга, эвдрэлийн давхаргууд, эвдрэлийн давхаргууд, шугаман давхаргуудыг хэмждэг бөгөөд загвар нь конволюцийн болон задралын давхаргын аль алинд нь Chanel-wise масштабын хүчин зүйлийг ашигладаг. Матрицын үржүүлгийн давхаргын хувьд загвар нь толгойн масштабын коэффициентийг хэрэгжүүлдэг бол шугаман давхаргын хувьд загвар нь шугаман масштабын коэффициентийг хэрэгжүүлдэг. Уг загвар нь мөн 0-shot downstream даалгавар дээр үнэлгээ хийдэг. 

Жишээ нь, 0-shot тохиргоонд сегментчлэх даалгаврын хувьд, TinySAM хүрээ нь өмнөх загвар болох Segment Anything Model-ийн туршилтын тохиргоог дагаж мөрддөг ба жишээнүүдийн сегментчлэлд Vision Transformer Det-H эсвэл VitDet-H хүрээний объект илрүүлэх үр дүнг ашигладаг. Дараах зурган дээр харуулсанчлан TinySAM хүрээ нь жишээний сегментчиллийн нарийвчлал болон FLOP онооны хувьд одоо байгаа аргуудаас давж гардаг. 

Цаашилбал, TinySAM загварын чанарын гүйцэтгэлийг дараах зурган дээр 0 удаагийн тохиолдлын сегментчилэн, хайрцагны сануулгыг төлөөлж буй ногоон хайрцгаар харуулав. 

0 онооны хүчинтэй маск үнэлгээний хувьд TinySAM загвар нь өөр өөр өгөгдлийн багц дээр MobileSAM тогтолцоог илүү сайн гүйцэтгэдэг бөгөөд цөөн тооны оноог уг хүрээний заавар болгон ашиглахад илүү сайн үр дүнг өгдөг. 

Цаашилбал, бүх зүйл шаталсан горимын стратегийн үр дүнд хүрсэн тооцооллын шаардлагын хурдатгал, бууралтын үр дүнг дараах хүснэгтэд нэгтгэн харуулав. Энэхүү загвар нь тогтвортой байдлын оноо, босго утгыг өөр өөр стратеги бүхий шударга харьцуулалтад ашигладаг бөгөөд үр дүнг доор нэгтгэн харуулав. 

Final бодол

Энэ нийтлэлд бид аливаа ажлыг сегментчлэх хил хязгаарыг давж, анхны SAM хүрээтэй дүйцэхүйц тооцооллын шаардлага, нарийвчлал багатай үр ашигтай загварын архитектурыг олж авах санал болгож буй TinySAM-ийн талаар ярилцсан. TinySAM буюу Tiny Segment Anything Model нь анхны фрэймворкийн 0-shot гүйцэтгэлийг хадгалж, хүргэдэг. TinySAM хүрээ нь эхлээд хөнгөн жинтэй оюутны загварыг нэрэхийн тулд онлайн хатуу сануулгыг ашигладаг бүрэн үе шаттай мэдлэг нэрэх аргыг хэрэгжүүлдэг. TinySAM хүрээ нь сургалтын дараах квантчлалыг шуурхай сегментчлэлийн даалгаварт тохируулдаг бөгөөд энэ нь тооцооллын шаардлагыг цаашид бууруулахад тусалдаг. Цаашилбал, уг хүрээ нь гүйцэтгэлд нөлөөлөхгүйгээр дүгнэлт хийх хурдыг бараг хоёр дахин нэмэгдүүлэх бүх зүйлийг шаталсан байдлаар сегментчлэх зорилготой юм. 

"Мэргэжилээрээ инженер, цээжээрээ зохиолч". Кунал бол хиймэл оюун ухаан болон ML-д гүн гүнзгий хайртай, ойлголттой техникийн зохиолч бөгөөд эдгээр салбар дахь нарийн төвөгтэй ойлголтуудыг сонирхолтой, мэдээлэл сайтай баримт бичгүүдээрээ хялбарчлахад зориулагдсан.