Kunstig intelligens

Avduking av SAM 2: Meta’s nye åpne kildekode-modell for sanntidsobjekt-segmentering i videoer og bilder

Published August 1, 2024

Updated April 27, 2026

Dr. Tehseen Zia

I de siste få årene har AI-verdenen sett betydelige fremskritt i grunnleggende AI for tekstbehandling, med fremgang som har forvandlet industrier fra kundeservice til juridisk analyse. Likevel, når det kommer til bildebehandling, skraper vi bare overflaten. Kompleksiteten ved visuell data og utfordringene ved å trene modeller for å nøyaktig tolke og analysere bilder har presentert betydelige hindringer. Ettersom forskere fortsetter å utforske grunnleggende AI for bilder og videoer, holder fremtiden for bildebehandling i AI potensialet for innovasjoner i helsevesen, autonome kjøretøy og utenfor.

Objekt-segmentering, som innebærer å peke ut de nøyaktige pikslene i et bilde som korresponderer til et objekt av interesse, er en kritisk oppgave i datavisjon. Tradisjonelt har dette involvert å lage spesialiserte AI-modeller, som krever omfattende infrastruktur og store mengder annotert data. I fjor introduserte Meta Segment Anything Model (SAM), en grunnleggende AI-modell som forenkler denne prosessen ved å tillate brukerne å segmentere bilder med en enkel prompt. Denne innovasjonen reduserte behovet for spesialisert ekspertise og omfattende datamaskinressurser, og gjorde bilde-segmentering mer tilgjengelig.

Nå tar Meta dette et skritt videre med SAM 2. Denne nye iterasjonen forbedrer ikke bare SAMs eksisterende bilde-segmenteringskapasiteter, men utvider den også til video-behandling. SAM 2 kan segmentere ethvert objekt i både bilder og videoer, selv om den ikke har møtt dem før. Denne fremgangen er et sprang fremover i området datavisjon og bildebehandling, og gir en mer fleksibel og kraftfull verktøy for å analysere visuell innhold. Under utforsker vi de spennende fremgangene i SAM 2 og dens potensiale til å omdefinere feltet datavisjon.

Introduksjon av Segment Anything Model (SAM)

Tradisjonelle segmenteringsmetoder krever enten manuell finjustering, kjent som interaktiv segmentering, eller omfattende annotert data for automatisk segmentering i forhåndsdefinerte kategorier. SAM er en grunnleggende AI-modell som støtter interaktiv segmentering ved å bruke fleksible promter som klikk, bokser eller tekst-innputt. Den kan også finjusteres med minimalt data og beregningsressurser for automatisk segmentering. Trenet på over 1 milliard diverse bilde-annoteringer, kan SAM håndtere nye objekter og bilder uten å trenge spesiallaget datainnsamling eller finjustering.

SAM fungerer med to hovedkomponenter: en bilde-encoder som prosesserer bildet og en prompt-encoder som håndterer innputt som klikk eller tekst. Disse komponentene kommer sammen med en lett dekoder for å forutsi segmenteringsmasker. Når bildet er prosessert, kan SAM opprette et segment på bare 50 millisekunder i en nettleser, og gjør det til et kraftfullt verktøy for sanntids-, interaktive oppgaver. For å bygge SAM, utviklet forskerne en tre-stegs datainnsamlingprosess: modell-assistert annotering, en blanding av automatisk og assistert annotering, og fullstendig automatisk maskeskaping. Denne prosessen resulterte i SA-1B-datasettet, som inkluderer over 1,1 milliarder masker på 11 millioner lisensiert, privatlivsbeskyttende bilder – og gjør det 400 ganger større enn noen eksisterende datasett. SAMs imponerende ytelse stammer fra dette omfattende og diverse datasettet, og sikrer bedre representasjon over ulike geografiske regioner sammenlignet med tidligere datasett.

Avduking av SAM 2: Et sprang fra bilde til video-segmentering

Bygget på SAMs grunnlag, er SAM 2 designet for sanntids-, promptbar objekt-segmentering i både bilder og videoer. I motsetning til SAM, som fokuserer utelukkende på statiske bilder, prosesserer SAM 2 videoer ved å behandle hver ramme som en del av en kontinuerlig sekvens. Dette muliggjør SAM 2 å håndtere dynamiske scener og endringer i innhold mer effektivt. For bilde-segmentering forbedrer SAM 2 ikke bare SAMs kapasiteter, men opererer også tre ganger raskere i interaktive oppgaver.

SAM 2 beholder den samme arkitekturen som SAM, men introduserer en minnemekanisme for video-behandling. Denne funksjonen tillater SAM 2 å holde styr på informasjon fra tidligere rammene, og sikrer konsistent objekt-segmentering til tross for endringer i bevegelse, lys eller okklusjon. Ved å referere til tidligere rammene, kan SAM 2 finjustere sine mask-forutsigelser gjennom hele videoen.

Modellen er trenet på et nyutviklet datasett, SA-V-datasettet, som inkluderer over 600 000 mask-annoteringer på 51 000 videoer fra 47 land. Dette diverse datasettet dekker både hele objekter og deres deler, og forbedrer SAM 2s nøyaktighet i sanntids video-segmentering.

SAM 2 er tilgjengelig som en åpen kildekode-modell under Apache 2.0-lisensen, og gjør det tilgjengelig for ulike bruksområder. Meta har også delt datasettet brukt for SAM 2 under en CC BY 4.0-lisens. I tillegg finnes det en nettbasert demo som lar brukerne utforske modellen og se hvordan den fungerer.

Potensielle bruksområder

SAM 2s kapasiteter for sanntids-, promptbar objekt-segmentering for bilder og videoer har låst opp tallrike innovative bruksområder over ulike felt. For eksempel er noen av disse bruksområdene:

Helse-diagnostikk: SAM 2 kan betydelig forbedre sanntids kirurgisk assistanse ved å segmentere anatomiske strukturer og identifisere anomali i sanntids video-strømmer i operasjonsrommet. Den kan også forbedre medisinsk bilde-analyse ved å gi nøyaktig segmentering av organer eller svulster i medisinske skanninger.
Autonome kjøretøy: SAM 2 kan forbedre autonome kjøretøy-systemer ved å forbedre objekt-deteksjon-nøyaktighet gjennom kontinuerlig segmentering og sporings av fotgjengere, kjøretøy og veiskilt over video-rammer. Dens kapasitet til å håndtere dynamiske scener støtter også adaptiv navigasjon og kollisjons-unngåelse-systemer ved å gjenkjenne og reagere på miljø-endringer i sanntid.
Interaktivt media og underholdning: SAM 2 kan forbedre forbedre augmented reality (AR)-applikasjoner ved å nøyaktig segmentere objekter i sanntid, og gjøre det enklere for virtuelle elementer å blande seg med den virkelige verden. Den kan også forbedre video-redigering ved å automatisere objekt-segmentering i opptak, og forenkle prosesser som bakgrunns-fjerning og objekt-erstatning.
Miljø-overvåking: SAM 2 kan assistere i dyre-sporing ved å segmentere og overvåke dyr i video-opptak, og støtte art-forskning og habitat-studier. I katastrofe-respondanse kan den evaluere skader og guide innsats-anstrengelser ved å nøyaktig segmentere berørte områder og objekter i video-strømmer.
Detaljhandel og e-handel: SAM 2 kan forbedre produkt-visning i e-handel ved å aktivere interaktiv segmentering av produkter i bilder og videoer. Dette kan gi kundene mulighet til å se produkter fra ulike vinkler og sammenhenger. For lager-styring kan den hjelpe detaljister med å spore og segmentere produkter på hyller i sanntid, og strømlinje-lagre og forbedre lager-styring.

Overvinnelse av SAM 2s begrensninger: Praktiske løsninger og fremtidige forbedringer

Selv om SAM 2 fungerer godt med bilder og korte videoer, har den noen begrensninger som må tas i betraktning for praktisk bruk. Den kan ha problemer med å spore objekter gjennom betydelige perspektiv-endringer, lange okklusjoner eller i overfyldte scener, særlig i utvidede videoer. Manuell korreksjon med interaktive klikk kan hjelpe med å håndtere disse problemene.

I overfyldte miljøer med lignende objekter, kan SAM 2 noen ganger misidentifisere mål, men ekstra promter i senere rammene kan løse dette. Selv om SAM 2 kan segmentere flere objekter, avtar dens effektivitet fordi den prosesserer hvert objekt separat. Fremtidige oppdateringer kan dra nytte av å integrere delt kontekst-informasjon for å forbedre ytelsen.

SAM 2 kan også gå glipp av fine detaljer med raskt-bevegende objekter, og forutsigelsene kan være ustabile over rammene. Likevel kan videre trening håndtere denne begrensningen. Selv om automatisk generering av annoteringer har forbedret, er menneskelige annotatorer fortsatt nødvendige for kvalitetskontroll og ramme-valg, og ytterligere automatisering kan forbedre effektiviteten.

Bunnpunktet

SAM 2 representerer et betydelig sprang fremover i sanntids-objekt-segmentering for både bilder og videoer, og bygger på grunnlaget lagt av sin forgjenger. Ved å forbedre kapasiteter og utvide funksjonalitet til dynamisk video-innhold, lover SAM 2 å forvandle en rekke felter, fra helsevesen og autonome kjøretøy til interaktivt media og detaljhandel. Selv om utfordringer fortsatt eksisterer, særlig i håndtering av komplekse og overfyldte scener, oppmuntres den åpne kildekode-naturen til SAM 2 til kontinuerlig forbedring og tilpasning. Med sin kraftfulle ytelse og tilgjengelighet, er SAM 2 godt posisjonert til å drive innovasjon og utvide mulighetene i datavisjon og utenfor.

Related Topics:foundation AI image segmentation Meta's SAM 2 SAM 2 segment anything model (SAM)Semantic Segmentation