Kunstig intelligens

TinySAM : Pushing the Boundaries for Segment Anything Model

Published February 8, 2024

Updated April 4, 2026

Kunal Kejriwal

TinySAM : Pushing the Boundaries for Segment Anything Model

Objektsegmentering er et grunnleggende og kritisk viktig felt i moderne datavisjon. Det spiller en avgjørende rolle i applikasjoner som krever omfattende visuelle komponenter, som objektlokalisering og identifisering, og krever sanntids-, rask og nøyaktig segmentering. Denne betydningen har gjort objektsegmentering til et konstant varmt forskningsemne, med betydelig arbeid gjort i områder som instanssegmentering, semantisk segmentering og panoptisk segmentering.

Med utviklingen av objektsegmentering, har Segment Anything Model (SAM) dukket opp som et bemerkelsesverdig verktøy, som viser fremragende segmenteringsferdigheter og raskt blir adoptert i ulike datavisjonsapplikasjoner. Rammer som bruker en forhåndstrening SAM-arkitektur, har oppnådd imponerende ytelse i nedstrøms visjonstasks. Men, til tross for dens evner og høy nøyaktighet i segmenteringsoppgaver, krever SAMs komplekse og tunge arkitektur betydelig beregningskraft, og hindrer dens implementering på beregningsbegrensede enheter.

For å møte SAMs beregningsutfordringer, har forskere utviklet Tiny Segment Anything Model (TinySAM), som beholder null-skudd-ytelsen til den opprinnelige rammen, samtidig som den er mer lettvekt. TinySAM bruker en fullstendig kunnskapsdestillasjonsmetode med online hard prompts for å skape en mer effektiv studentmodell. Post-trening kvantisering tilpasset promptable segmenteringsoppgaver reduserer ytterligere beregningsbehov. I tillegg, er TinySAMs design rettet mot hierarkisk segmentering, som nesten dobbler inferenshastigheten uten å gå på kompromiss med ytelsen.

Denne artikkelen dykker ned i TinySAM-rammen, og utforsker dens grunnleggende prinsipper, arkitektur og ytelse sammenlignet med andre state-of-the-art segmenteringsrammer. La oss utforske disse aspektene i mer detalj.

TinySAM : Effektiv Segment Anything Model

Segment Anything Model har bidratt til rask fremgang i flere datavisjonsapplikasjoner takket være dens lovlige segmenteringsferdigheter kombinert med en massiv segmenteringsdataset som huset over 11 millioner bilder og over en milliard bildemasker. Takket være dens usedvanlige ytelse på oppgaver som segmenterer objekter med vilkårlige kategorier og former, fungerer den som grunnlag for rammer som utfører nedstrømsoppgaver som bildeinpainting, objektsporing, 3D-visjon og mer. Videre tilbyr Segment Anything Model også bemerkelsesverdig null-skudd-segmentering som har fordelt sensitive industrier som arbeider med begrensede data, inkludert medisinsk forskning og medisinsk bildebehandling.

Selv om man ikke kan iføre tvil om Segment Anything Models bemerkelsesverdige segmenteringsferdigheter på en rekke nedstrøms visjonstasks, har den sine ulemper i form av en kompleks arkitektur, høye beregningskrav og betydelige driftskostnader. For et system som kjører på en moderne GPU, kan inferenstiden for en SAM-modell være så høy som opptil 2 sekunder for et 1024×1024-bilde. Som resultat er det en svært vanskelig oppgave å implementere SAM-applikasjoner på enheter med begrensede beregningsmuligheter. For å overvinne denne hindringen, har nyere arbeid som MobileSAM og FastSAM forsøkt å utvikle en SAM-modell med mer beregnings-effektivitet. MobileSAM-rammen forsøker å erstatte den tunge komponenten i bilde-encoderen med TinyViT-arkitekturen, mens FastSAM-modellen overfører segment-oppgaven til en instans-segmenteringsoppgave med bare en kategori med YoloV8-modellen. Selv om disse metodene klarte å oppnå en viss suksess i å redusere beregningskravene, klarte de ikke å opprettholde ytelsen, spesielt på nedstrøms null-skudd-oppgaver.

TinySAM eller Tiny Segment Anything Model er et forsøk på å redusere beregningskravene til den nåværende SAM-modellen uten å hindre ytelsen på null-skudd-nedstrøms-oppgaver. Videre foreslår TinySAM-rammen å implementere en fullstendig kunnskapsdestillasjonsmetode i sin arkitektur med målet om å forbedre evnen til den kompakte studentnettverket. TinySAM-rammen destillerer studentnettverket på en sluttløs måte under tilsyn av lærer nettverket fra forskjellige stadier. For å forbedre ytelsen ytterligere, tillater rammen destillasjonsprosessen å fokusere mer på vanskelige eksempler ved å implementere en ekstra online hard prompt-sampling-strategi. Videre, for å ytterligere redusere beregningskostnadene, eksponerer TinySAM-rammen promptable segmenteringsoppgaver for post-trening kvantisering.

Den største delen av beregningskravene til en Segment Anything Model skyldes at modellen genererer massive masker fra grid-prompt-punktene for å segmentere alt i bildet. For å overvinne beregningskravene til denne segmenteringsstrategien, bruker TinySAM-rammen en hierarkisk segmenter-alt-strategi som nesten dobbler inferenshastigheten uten å gå på kompromiss med ytelsen. Med disse metodene implementert i sin arkitektur, tilbyr TinySAM-rammen en betydelig reduksjon i beregningskravene og setter nye grenser for effektive segment-alt-oppgaver.

TinySAM : Arkitektur og Metodologi

Før vi snakker om arkitekturen og metodologien til TinySAM-rammen, er det viktig å først se på dens forgjenger, SAM-rammen. Siden dens introduksjon, har Segment Anything Model vist fremragende ytelse, fleksibilitet og generaliseringsferdigheter på en rekke nedstrøms visjon- og objekt-segmenteringsoppgaver.

I sin kerne består SAM-modellen av tre undernettverk: prompt-encoderen, bilde-encoderen og maske-decoderen. Det primære målet med prompt-encoderen er å kode vilkårlige formede masker, inndata-punkter og -bokser og fritekst med posisjonsinformasjon. Bilde-encoderen er et tungt ViT- eller visjonstransformator-basert nettverk som ekstraherer inndata-bildet til innlejring. Modellen bruker forskjellige nettverk for å prosessere geometriske og tekst-prompts. Til slutt inneholder maske-decoderen en to-veisk transformer som mottar utgangen fra prompt- og bilde-encoderen for å generere den endelige maske-prediksjonen. Med datasettet, viser SAM-rammen fremragende høykvalitets segmenteringsferdigheter for objekter uavhengig av deres form og kategori. Videre viser Segment Anything Model fremragende ytelse og effektivitet på null-skudd-nedstrøms visjonstasks, inkludert objekt-forslag, kant-deteksjon, tekst-til-maske-prediksjon og instans-segmentering. Takket være dens høykvalitets segmenteringsferdigheter og fleksible prompt-tilbud, danner SAM-rammene grunnlaget for visjonsapplikasjoner. Med det sagt, kan man ikke ignorere de høye beregningskravene til den tradisjonelle SAM-arkitekturen med et stort antall parametre, noe som gjør det nesten umulig for utviklere å distribuere SAM-baserte applikasjoner på enheter med begrensede ressurser.

Kunnskapsdestillasjon

Kunnskapsdestillasjon er en viktig tilnærming for å forbedre ytelsen til kompakte nettverk under trening. Kunnskapsdestillasjonsmetoden som bruker utgangen fra lærer-nettverket for å veilede treningen av det lettvekte student-nettverket. Kunnskapsdestillasjonsmetoden kan deles inn i to underkategorier: destillasjon for mellomliggende funksjoner og destillasjon for nettverks-utganger, med en majoritet av forskningsarbeid rundt kunnskapsdestillasjon som fokuserer på bilde-klassifiseringsoppgaver.

Med det sagt, viser følgende figur den generiske arkitekturen til TinySAM-rammen sammen med ytelsesoversikten på null-skudd-instans-segmenteringsoppgaver.

I den første fasen, implementerer TinySAM-rammen kunnskapsdestillasjon designet spesifikt for SAM-rammen, og for å aktivere destillasjonsprosessen ytterligere, bruker modellen en online hard prompt-sampling for å utvinne vanskelige kunnskaper til student-nettverket fra lærer-nettverket. I den andre fasen, tilpasser TinySAM-rammen post-trening kvantisering til promptable segmenteringsoppgaver og implementerer det på det lettvekte student-nettverket. Til slutt, implementerer modellen en hierarkisk segmenter-alt-inferens-modus designet for segmenteringsoppgaver, noe som nesten dobbler inferenshastigheten uten å gå på kompromiss med ytelsen.

Fullstendig Kunnskapsdestillasjon

Som nevnt tidligere, består Segment Anything Model av tre undernettverk i sin kerne: prompt-encoderen, bilde-encoderen og maske-decoderen, med bilde-encoder-komponenten bygget på en visjonstransformator og har høye beregningskrav. For å takle dette problemet, erstattet MobileSAM-rammen visjonstransformator med en TinyViT eller Tiny Vision Transformer, selv om erstattningen ikke var effektiv gitt den betydelige ytelsesnedgangen. For å sikre ingen ytelsesnedgang, implementerer TinySAM-rammen en fullstendig kunnskapsdestillasjonsmetode som veileder det lettvekte bilde-encoderen fra læringen til de multiple kunnskapsnivåene. I tillegg til den konvensjonelle tapen mellom grunn-sannhets-etikettene og de predikerte resultene, introduserer TinySAM-rammen flere destillasjons-tap under forskjellige stadier, som vist i følgende figur.

Kvantiseringsmetode

Modell-kvantiseringsmetode er en populær tilnærming i datavisjons-rammer, og brukes til å komprimere modellen ved å kvantisere vekter eller aktiveringer fra høyere til lavere båndbredde i et forsøk på å redusere beregningskompleksiteten og lagringskravene uten å degradere utgangskvaliteten betydelig.

Det primære målet med kvantiseringsmetoden i TinySAM er å projisere flytende punkt-tensoren til bit-integer-tensoren ved hjelp av en skaleringsfaktor, med målet for å måle avstanden mellom matrisemultiplikasjon og kvantisert matrise som spiller en viktig rolle for å optimere skaleringsfaktoren.

Hierarkisk Segmenter Alt

Segment Anything Model foreslår å bruke en automatisk maske-generering som sampler punkter som et grid for å segmentere alt i bildet. Men, det har vært indikert at bruken av tett punkt-grid resulterer i over-fine-grainede segmenterings-utganger og prosessen krever massive beregningskrav og incurrenser høye driftskostnader. Videre, på den ene siden, kan for mange sampling-punkter for et fullstendig objekt resultere i at forskjellige deler av objektet blir segmentert feil som separate masker, mens på den andre siden, er tidskostnaden for alt-inferens hovedsakelig på grunn av at bilde-encoderen har blitt kraftig redusert. For å redusere driftskostnadene til alt-inferens, bruker TinySAM-rammen en hierarkisk maske-genererings-tilnærming, med forskjellen i strategien med den opprinnelige SAM-rammen vist i følgende figur.

Forskjellig fra tilnærmingen implementert i den opprinnelige SAM-rammen, bruker TinySAM-modellen bare 25% punkter på hver side, og bruker dermed bare 1/16 av de tilgjengelige punktene i den opprinnelige innstillingen. Modellen infererer deretter maske-decoderen og prompt-encoderen med disse promptene og får utgangen. Modellen filtrerer deretter noen masker med en tillit som overstiger en viss terskel, og maskerer de tilsvarende stedene som områder for potensielle endelige prediksjoner. Siden modellen behandler disse regionene som segmenteringsresultatet av instanser med høy tillit, har den ingen behov for å generere punkt-prompter. Strategien hjelper ikke bare med å forhindre over-fine-grainede segmentering av objektet, men den hjelper også med å bringe ned driftskostnadene og beregningskravene betydelig. Rammen kombinerer og post-prosesserer deretter resultene fra disse to rundene for å få den endelige masken.

TinySAM : Eksperimenter og Resultater

For å akselerere destillasjonsprosessen, beregner og lagrer TinySAM-rammen bilde-innlejringene fra lærer-nettverket på forhånd, og derfor er det ikke nødvendig for modellen å beregne den tunge bilde-encoderen til lærer-nettverket gjentatte ganger under treningfasen lenger. For post-trening kvantisering, kvantiserer TinySAM-rammen alle matrisemultiplikasjons-lag, konvolusjons-lag, dekonvolusjons-lag og lineære lag, med modellen som bruker kanal-vis skaleringsfaktorer for både konvolusjons- og dekonvolusjons-lag. For matrisemultiplikasjons-lag, implementerer modellen hode-vis skaleringsfaktorer, mens for lineære lag, implementerer modellen lineær-vis skaleringsfaktorer. Modellen gjennomfører også evaluering på null-skudd-nedstrøms-oppgaver.

For instans-segmenteringsoppgaver i en null-skudd-innstilling, følger TinySAM-rammen den eksperimentelle innstillingen til dens forgjenger, Segment Anything Model, og bruker objekt-deteksjonsresultater fra Vision Transformer Det-H eller VitDet-H-rammen for instans-segmentering. Som vist i følgende figur, overgår TinySAM-rammen eksisterende metoder i terms av instans-segmenteringsnøyaktighet og FLOPs-poeng.

Videre er den kvalitative ytelsen til TinySAM-modellen vist i følgende figur for null-skudd-instans-segmentering, med den grønne boksen som representerer boks-prompter.

I terms av null-skudd-punkter-gyldige maske-evaluering, overgår TinySAM-modellen MobileSAM-rammen betydelig på forskjellige datasett, og leverer vesentlig bedre resultater når færre punkter brukes som prompter av rammen.

Videre summerer følgende tabell resultene av akselerasjonen og reduksjonen i beregningskravene som oppnås som et resultat av den hierarkiske alt-inferens-strategien. Modellen bruker samme stabilitetsscore og terskelverdi med forskjellige strategier for en rettferdig sammenligning, og resultene summeres nedenfor.

Slutt tanker

I denne artikkelen, har vi snakket om TinySAM, en foreslått rammeverk som pusher grensene for å segmentere noen oppgaver, og oppnår en effektiv modell-arkitektur med færre beregningskrav og nøyaktighet på linje med den opprinnelige SAM-rammen. TinySAM eller Tiny Segment Anything Model som beholder og leverer null-skudd-ytelsen til den opprinnelige rammen. TinySAM-rammen implementerer først en fullstendig kunnskapsdestillasjonsmetode som bruker online hard prompts for å destillere en lettvekt student-modell. TinySAM-rammen tilpasser deretter post-trening kvantisering til promptable segmenteringsoppgaver som hjelper med å redusere beregningskravene ytterligere. Videre retter rammen seg mot å segmentere alt hierarkisk, noe som nesten dobbler inferenshastigheten uten å gå på kompromiss med ytelsen.

Kunal Kejriwal

En ingeniør av yrke, en forfatter av hjerte. Kunal er en teknisk forfatter med en dyp kjærlighet og forståelse av AI og ML, dedikert til å forenkle komplekse konsepter i disse feltene gjennom sin engasjerende og informerende dokumentasjon.