Kunstig intelligens

TinySAM : Pushing the Boundaries for Segment Anything Model

Published February 8, 2024

Updated April 4, 2026

Kunal Kejriwal

TinySAM : Pushing the Boundaries for Segment Anything Model

Objektsegmentering er et grundlæggende og kritisk vigtigt område inden for moderne computer vision. Det spiller en vital rolle i applikationer, der kræver omfattende visuelle komponenter, såsom objektlokalisering og -identifikation, og kræver realtids-, hurtig og præcis segmentering. Denne vigtighed har gjort objektsegmentering til et konstant varmt forskningsemne, med betydelig arbejde udført inden for områder som instanssegmentering, semantisk segmentering og panoptisk segmentering.

Med udviklingen af objektsegmentering er Segment Anything Model (SAM) dukket op som et bemærkelsesværdigt værktøj, der viser fremragende segmenteringsfærdigheder og hurtigt bliver adopteret i forskellige computer vision-applikationer. Rammer, der bruger en forudtrænet SAM-arkitektur, har opnået imponerende præstationer i downstream vision-opgaver. Men på trods af dets evner og høj nøjagtighed i segmenteringsopgaver, kræver SAM’s komplekse og tunge arkitektur betydelig beregningskraft, hvilket hindrer dets implementering på beregningsbegrænsede enheder.

For at imødekomme SAM’s beregningsudfordringer har forskere udviklet den Tiny Segment Anything Model (TinySAM), der fastholder den zero-shot-præstation af den originale ramme, mens den er mere letvægts. TinySAM bruger en fuld-stadiums viden destillation metode med online hard prompts til at skabe en mere effektiv elevnetværk. Post-trænings kvantificering tilpasset promptable segmenteringsopgaver reducerer yderligere beregningsbehovene. Derudover er TinySAM’s design rettet mod hierarkisk segmentering, næsten fordobler inferencehastigheden uden at gå på kompromis med præstationen.

Denne artikel dykker ned i TinySAM-rammen, hvor vi udforsker dens grundlæggende principper, arkitektur og præstation i forhold til andre state-of-the-art segmenteringsrammer. Lad os udforske disse aspekter i mere detalje.

TinySAM : Effektiv Segment Anything Model

Segment Anything Model har hjulpet med den hurtige fremgang af flere computer vision-applikationer takket være dets prisværdige segmenteringsfærdigheder kombineret med en massiv segmenteringsdataset, der rummer over 11 millioner billeder og over en milliard billedmasker. Takket være dets exceptionelle præstation på opgaver med segmentering af objekter med vilkårlige kategorier og former, fungerer det som grundlag for rammer, der udfører downstream-opgaver som billedindfæring, objektsporring, 3D-vision og mere. Derudover tilbyder Segment Anything Model også bemærkelsesværdig zero-shot segmentering, der har gavnet følsomme industrier, der arbejder med begrænsede mængder data, herunder medicinsk forskning og medicinsk billedbehandling.

Selv om man ikke kan bestride den bemærkelsesværdige segmenteringsfærdighed, som Segment Anything Model tilbyder på en bred vifte af downstream vision-opgaver, har den sin downside i form af en kompleks arkitektur, høje beregningskrav og betydelige driftsomkostninger. For et system, der kører på en moderne GPU, kan inference-tiden for en SAM-model være så høj som op til 2 sekunder for et 1024×1024-billede. Som resultat heraf er det en meget svær opgave at implementere SAM-applikationer på enheder med begrænsede beregningsmuligheder. For at overvinde denne hindring har nyere arbejder som MobileSAM og FastSAM forsøgt at udvikle en SAM-model med større beregningseffektivitet. MobileSAM-rammen forsøger at erstatte den tunge komponent i billedencoderen med TinyViT-arkitekturen, mens FastSAM-modellen overfører segmentopgaven til en instanssegmenteringsopgave med kun én kategori med YoloV8-modellen. Selv om disse metoder opnåede en vis grad af succes i form af reducerede beregningskrav, kunne de ikke fastholde præstationen, især på downstream zero-shot-opgaver.

TinySAM eller den Tiny Segment Anything Model er et forsøg på at reducere den beregningsmæssige krav til den nuværende SAM-model uden at gå på kompromis med præstationen på zero-shot downstream-opgaver. Derudover foreslår TinySAM-rammen at implementere en fuld-stadiums viden destillation metode i sin arkitektur med det formål at forbedre elevnetværkets evne. TinySAM-rammen destillerer elevnetværket på en end-to-end-måde under vejledning af lærer-netværket fra forskellige stadier. For at yderligere forbedre præstationen tillader rammen destillationsprocessen at fokusere mere på svære eksempler ved at implementere en ekstra online hard prompt sampling-strategi. Derudover reducerer TinySAM-rammen yderligere beregningsomkostningerne ved at udsætte promptable segmenteringsopgaver for post-trænings kvantificering.

Den største del af beregningskravet til en Segment Anything Model skyldes, at modellen genererer massive masker fra grid-prompt-punkter for at segmentere alt i billedet. For at overvinde beregningskravet til denne segmenteringsstrategi bruger TinySAM-rammen en hierarkisk segmenter alt-strategi, der næsten fordobler inferencehastigheden uden at gå på kompromis med præstationen. Med disse metoder implementeret i sin arkitektur tilbyder TinySAM-rammen en betydelig reduktion i beregningskrav og sætter nye grænser for effektive segment alt-opgaver.

TinySAM : Arkitektur og Metodologi

Før vi taler om TinySAM-rammens arkitektur og metodologi, er det vigtigt at først kaste et blik på dens forgænger, SAM-rammen. Siden dens introduktion har Segment Anything Model demonstreret bemærkelsesværdig præstation, fleksibilitet og generaliseringsfærdigheder på tværs af en bred vifte af downstream vision- og objektsegmenteringsopgaver.

I sin kerne består SAM-modellen af tre undernetværk: promptencoderen, billedencoderen og maskedecoderen. Promptencoderens primære formål er at kodificere vilkårligt formede masker, indputtpunkter og -kasser samt fri tekst med positionsinformation. Billedencoderen er et tungt ViT- eller visionstransformatorbaseret netværk, der ekstraherer indputbilledet i indlejring. Modellen bruger forskellige netværk til at behandle geometriske og tekstprompter. Endelig indeholder maskedecoderen en to-vejs transformer, der modtager outputtet fra prompt- og billedencoderen for at generere den endelige maskesprediction. Med datasettet demonstrerer SAM-rammen bemærkelsesværdig højkvalitets segmenteringsfærdigheder for objekter uanset deres form og kategori. Derudover demonstrerer Segment Anything Model bemærkelsesværdig præstation og effektivitet på tværs af zero-shot downstream vision-opgaver, herunder objektproposition, kantdetektion, tekst til maskesprediction og instanssegmentering. Takket være dets højkvalitets segmenteringsfærdigheder og fleksible prompttilbud danner SAM-rammerne grundlag for vision-applikationer. Med det sagt kan man ikke ignorere den høje beregningskrav til den traditionelle SAM-arkitektur med et stort antal parametre, der gør det næsten umuligt for udviklere at implementere SAM-baserede applikationer på enheder med begrænsede ressourcer.

Viden Destillation

Viden destillation er en vigtig tilgang til at forbedre præstationen af kompakte netværk under træningsfasen. Viden destillation metoden, der bruger outputtet fra lærer-netværket til at vejlede træningen af det letvægts elevnetværk. Viden destillation metoden kan deles i to underkategorier: destillation for mellemliggende funktioner og destillation for netværksoutput, med en majoritet af forskningsarbejde omkring viden destillation fokuseret på billedklassifikationsopgaver.

Som følger demonstrerer følgende figur den generiske arkitektur af TinySAM-rammen sammen med præstationsoversigten på zero-shot instanssegmenteringsopgaver.

I første stadium implementerer TinySAM-rammen viden destillation designet specifikt til SAM-rammen, og for at aktivere destillationsprocessen yderligere, bruger modellen en ekstra online hard prompt sampling-strategi til at udvinde hård viden til elevnetværket fra lærer-netværket. I andet stadium tilpasser TinySAM-rammen post-trænings kvantificering metoden til promptable segmenteringsopgaver og implementerer den på det letvægts elevnetværk. Endelig implementerer modellen den hierarkiske segmenter alt-inferensmode designet til segmenteringsopgaver, der næsten fordobler inferencehastigheden uden at gå på kompromis med præstationen.

Fuld-Stadiums Viden Destillation

Som nævnt tidligere består Segment Anything Model af tre undernetværk i sin kerne: promptencoderen, billedencoderen og maskedecoderen, med billedencoderkomponenten bygget på en visionstransformator og havende høje beregningskrav. For at tackle dette problem implementerer TinySAM-rammen en fuld-stadiums viden destillation metode, der vejleder det letvægts billedencoder fra læringens niveau til det multiple viden niveau. Derudover introducerer TinySAM-rammen flere destillations-tab under forskellige stadier, som vist i følgende figur.

Kvantificering

Model kvantificering er en populær tilgang i computer vision-rammer og bruges til at komprimere modellen ved at kvantificere vægte eller aktiveringer fra højere til lavere båndbredde i et forsøg på at reducere beregningskompleksiteten og lagringskravene uden at gå på kompromis med outputkvaliteten.

Det primære formål med kvantificering i TinySAM er at projicere flydende punkt tensor til bit-integer tensor ved hjælp af en skalaeringsfaktor, med målet for at måle afstanden mellem matrixmultiplication og den kvantificerede matrix spiller en vital rolle for at optimere skalaeringsfaktoren.

Hierarkisk Segment Alt

Segment Anything Model foreslår at bruge en automatisk maskgenerator, der sampler punkter som et grid for at segmentere alt i billedet. Men det er blevet indikeret, at brugen af tæt punktgrid resulterer i over-fine-grainede segmenteringsoutput og processen kræver massive beregningskrav og medfører høje driftsomkostninger. Derudover kan for mange sampling-punkter for et komplet objekt resultere i, at forskellige sektioner af objektet bliver segmenteret forkert som separate masker, mens på den anden side er tidskosten for alt-inferens primært på grund af, at billedencoderen er blevet reduceret betydeligt. For at reducere driftsomkostningerne for alt-inferens bruger TinySAM-rammen en hierarkisk maskgenerator-strategi, med forskellen i strategien med den originale SAM-ramme demonstreret i følgende figur.

Forskelligt fra tilgangen implementeret i den originale SAM-ramme, bruger TinySAM-modellen kun 25% punkter på hver side, og bruger dermed kun 1/16 af de tilgængelige punkter i den originale indstilling. Modellen inférerer derefter maskdecoderen og promptencoderen med disse prompts og får outputtet. Modellen filtre derefter nogle masker med en tillid, der overstiger en bestemt grænseværdi, og maskerer de tilsvarende lokaliteter som områder for potentielle endelige forudsigelser. Da modellen behandler disse områder som segmenteringsresultatet af instanser med høj tillid, har den ingen behov for at generere punkt-prompts. Strategien hjælper ikke kun med at forhindre over-fine-grainede segmentering af objektet, men den hjælper også med at reducere driftsomkostningerne og beregningskravene betydeligt. Rammen kombinerer og efterbehandler derefter resultaterne fra disse to runder for at opnå de endelige masker.

TinySAM : Eksperimenter og Resultater

For at accelerere destillationsprocessen beregner og gemmer TinySAM-rammen billedindlejringerne fra lærer-netværket i forvejen, hvilket gør, at det ikke er nødvendigt for modellen at beregne den tunge billedencoder fra lærer-netværket gentagne gange under træningsfasen. For post-trænings kvantificering kvantificerer TinySAM-rammen alle matrix-multiplicationslag, convolutionsslag, dekonvolutionslag og lineære lag, med modellen, der bruger kanal-vis skalaeringsfaktorer for både convolution og dekonvolution. For matrix-multiplicationslag implementerer modellen hoved-vis skalaeringsfaktorer, mens for lineære lag implementerer modellen lineære-vis skalaeringsfaktorer. Modellen udfører også evaluering på zero-shot downstream-opgaver.

For instanssegmenteringsopgaver i en zero-shot-indstilling følger TinySAM-rammen den eksperimentelle indstilling af dens forgænger, Segment Anything Model, og bruger objektgenkendelsesresultater fra Vision Transformer Det-H eller VitDet-H-rammen til instanssegmentering. Som demonstreret i følgende figur, overgår TinySAM-rammen eksisterende metoder i forhold til instanssegmenteringsnøjagtighed og FLOPs-scoren.

Derudover demonstreres den kvalitative præstation af TinySAM-modellen i følgende figur for zero-shot instanssegmentering, hvor den grønne boks repræsenterer box-prompts.

I forhold til zero-shot punkt-gyldig mask-evaluering overgår TinySAM-modellen MobileSAM-rammen betydeligt på forskellige dataset, og leverer væsentligt bedre resultater, når færre punkter bruges som prompts af rammen.

Derudover summerer følgende tabel resultaterne af accelerationen og reduktionen i beregningskrav opnået som følge af den hierarkiske alt-inferensstrategi. Modellen anvender den samme stabilitets-score og grænseværdi med forskellige strategier for en fair sammenligning, og resultaterne summeres nedenfor.

Afsluttende Tanker

I denne artikel har vi talt om TinySAM, en foreslået ramme, der skyder grænserne for segmentering af enhver opgave, og opnår en effektiv modelarkitektur med færre beregningskrav og nøjagtighed på niveau med den originale SAM-ramme. TinySAM eller den Tiny Segment Anything Model, der fastholder og leverer den zero-shot-præstation af den originale ramme. TinySAM-rammen implementerer først en fuld-stadiums viden destillation metode, der bruger online hard prompts til at destillere et letvægts elevnetværk. TinySAM-rammen tilpasser derefter post-trænings kvantificering til promptable segmenteringsopgaver, der yderligere hjælper med at reducere beregningskravene. Derudover sigter rammen også mod at segmentere alt hierarkisk, næsten fordobler inferencehastigheden uden at gå på kompromis med præstationen.

Kunal Kejriwal

En ingeniør af profession, en forfatter af hjerte. Kunal er en teknisk forfatter med en dyb kærlighed og forståelse af AI og ML, dedikeret til at forenkle komplekse koncepter inden for disse felter gennem sin engagerende og informative dokumentation.