Kunstig intelligens

Afsløring af SAM 2: Metas nye open-source foundation model til realtidsobjektsegmentering i videoer og billeder

Published August 1, 2024

Updated April 27, 2026

Dr. Tehseen Zia

I de seneste få år har AI-verdenen set betydelige fremskridt i foundation AI til tekstbehandling, med fremskridt, der har transformeret brancher fra kundeservice til juridisk analyse. Dog, når det kommer til billedbehandling, er vi kun lige begyndt at kradsede overfladen. Kompleksiteten af visuel data og udfordringerne ved at træne modeller til at nøjagtigt fortolke og analysere billeder har præsenteret betydelige hindringer. Mens forskere fortsætter med at udforske foundation AI til billeder og videoer, holder fremtiden for billedbehandling i AI potentiale for innovationer inden for sundhedspleje, autonome køretøjer og andet.

Objektsegmentering, der indebærer at pege på de præcise pixels i et billede, der svarer til et objekt af interesse, er en kritisk opgave i computer vision. Traditionelt har dette involveret oprettelse af specialiserede AI-modeller, der kræver omfattende infrastruktur og store mængder annoteret data. Sidste år introducerede Meta Segment Anything Model (SAM), en foundation AI-model, der forenkler denne proces ved at låse brugerne til at segmentere billeder med en simpel prompt. Denne innovation reducerede behovet for specialiseret ekspertise og omfattende beregningsressourcer, hvilket gjorde billedsegmentering mere tilgængelig.

Nu tager Meta dette skridt videre med SAM 2. Denne nye iteration forbedrer ikke kun SAM’s eksisterende billedsegmenteringsfunktioner, men udvider dem også til videobehandling. SAM 2 kan segmentere ethvert objekt i både billeder og videoer, selv dem, den ikke har mødt før. Denne fremgang er et spring fremad i computer vision og billedbehandling, og giver en mere alsidig og kraftfuld værktøj til analyse af visuel indhold. Herunder udforsker vi de spændende fremskridt i SAM 2 og dens potentiale til at omdefinere feltet computer vision.

Introduktion til Segment Anything Model (SAM)

Traditionelle segmenteringsmetoder kræver enten manuel finjustering, kendt som interaktiv segmentering, eller omfattende annoteret data til automatisk segmentering i foruddefinerede kategorier. SAM er en foundation AI-model, der understøtter interaktiv segmentering ved hjælp af fleksible prompts som klik, bokse eller tekstinput. Den kan også finjusteres med minimal data og beregningsressourcer til automatisk segmentering. Trænet på over 1 milliard diverse billedannotationer kan SAM håndtere nye objekter og billeder uden behov for brugerdefineret dataindsamling eller finjustering.

SAM fungerer med to hovedkomponenter: en billedencoder, der behandler billedet, og en promptencoder, der håndterer input som klik eller tekst. Disse komponenter kommer sammen med en let decoder til at forudsige segmenteringsmasker. Når billedet er behandlet, kan SAM oprette et segment på kun 50 millisekunder i en webbrowser, hvilket gør det til et kraftfuldt værktøj til realtids-, interaktive opgaver. For at bygge SAM udviklede forskerne en tretrins dataindsamlingsproces: modelassisteret annotation, en blanding af automatisk og assisteret annotation, og fuldt automatisk maskeskapelse. Denne proces resulterede i SA-1B-datasættet, der indeholder over 1,1 milliarder masker på 11 millioner licenserede, privatlivsbeskyttende billeder – hvilket gør det 400 gange større end nogen eksisterende datasæt. SAM’s imponerende præstation stammer fra dette omfattende og diverse datasæt, hvilket sikrer bedre repræsentation på tværs af forskellige geografiske regioner i forhold til tidligere datasæt.

Afsløring af SAM 2: Et spring fra billedsegmentering til videosegmentering

Bygget på SAM’s grundlag er SAM 2 designed til realtids-, promptbar objektsegmentering i både billeder og videoer. I modsætning til SAM, der fokuserer udelukkende på statiske billeder, behandler SAM 2 videoer ved at behandle hver frame som en del af en kontinuerlig sekvens. Dette giver SAM 2 mulighed for at håndtere dynamiske scener og ændrende indhold mere effektivt. For billedsegmentering forbedrer SAM 2 ikke kun SAM’s funktioner, men fungerer også tre gange hurtigere i interaktive opgaver.

SAM 2 beholder den samme arkitektur som SAM, men introducerer en hukommelsesmekanisme til videobehandling. Denne funktion giver SAM 2 mulighed for at holde styr på information fra tidligere frames, hvilket sikrer konsistent objektsegmentering på trods af ændringer i bevægelse, belysning eller occlusion. Ved at referere til tidligere frames kan SAM 2 finjustere sine maskerforudsigelser på tværs af videoen.

Modellen er trænet på et nyt udviklet datasæt, SA-V-datasættet, der indeholder over 600.000 masklet-annotationer på 51.000 videoer fra 47 lande. Dette diverse datasæt dækker både hele objekter og deres dele, hvilket forbedrer SAM 2’s nøjagtighed i realverdens videosegmentering.

SAM 2 er tilgængelig som en open-source-model under Apache 2.0-licensen, hvilket gør det tilgængeligt for forskellige formål. Meta har også delt datasættet brugt til SAM 2 under en CC BY 4.0-licens. Derudover findes der en webbaseret demo, der giver brugerne mulighed for at udforske modellen og se, hvordan den fungerer.

Potentiale anvendelsesområder

SAM 2’s funktioner i realtids-, promptbar objektsegmentering for billeder og videoer har låst op for talrige innovative anvendelser på tværs af forskellige felter. For eksempel er nogle af disse anvendelser følgende:

Sundhedsdiagnostik: SAM 2 kan betydeligt forbedre realtidskirurgisk assistance ved at segmentere anatomiske strukturer og identificere anomalier under livevideooptagelser i operationsrummet. Den kan også forbedre medicinsk billedanalyse ved at give nøjagtig segmentering af organer eller tumorer i medicinske scans.
Autonome køretøjer: SAM 2 kan forbedre autonome køretøjsystemer ved at forbedre objektgenkendelsesnøjagtighed gennem kontinuerlig segmentering og sporing af fodgængere, køretøjer og vejskilt på tværs af videoframes. Dens evne til at håndtere dynamiske scener understøtter også adaptiv navigation og kollision Undgåelsessystemer ved at genkende og reagere på miljøændringer i realtid.
Interaktivt medie og underholdning: SAM 2 kan forbedre augmented reality (AR)-applikationer ved at nøjagtigt segmentere objekter i realtid, hvilket gør det lettere for virtuelle elementer at blande sig med den virkelige verden. Den kan også forbedre videoediting ved at automatisere objektsegmentering i optagelser, hvilket forenkler processer som baggrundsfjernelse og objektudskiftning.
Miljøovervågning: SAM 2 kan assistere i vildtsporing ved at segmentere og overvåge dyr i videooptagelser, hvilket understøtter artsforskning og habitatstudier. I katastrofeberedskab kan den evaluere skader og vejlede indsatsen ved at nøjagtigt segmentere berørte områder og objekter i videooptagelser.
Detailhandel og e-handel: SAM 2 kan forbedre produktvisualisering i e-handel ved at aktivere interaktiv segmentering af produkter i billeder og videoer. Dette kan give kunderne mulighed for at se produkter fra forskellige vinkler og sammenhænge. For lagerstyring kan den hjælpe detailhandlere med at spore og segmentere produkter på hylder i realtid, hvilket strømliner lageroptælling og forbedrer den overordnede lagerstyring.

Overvindelse af SAM 2’s begrænsninger: Praktiske løsninger og fremtidige forbedringer

Selvom SAM 2 fungerer godt med billeder og korte videoer, har den nogle begrænsninger, der skal tages i betragtning til praktisk brug. Den kan have svært ved at spore objekter gennem betydelige synsvinkelændringer, lange occlusioner eller i overfyldte scener, især i længere videoer. Manuelt korrektion med interaktive klik kan hjælpe med at løse disse problemer.

I overfyldte miljøer med lignende objekter kan SAM 2 occasionelt misidentificere mål, men yderligere prompts i senere frames kan løse dette. Selvom SAM 2 kan segmentere multiple objekter, reduceres dens effektivitet, da den behandler hvert objekt separat. Fremtidige opdateringer kunne drage fordel af at integrere fælles kontekstuel information for at forbedre præstationen.

SAM 2 kan også overse fine detaljer med hurtigtbevægelige objekter, og forudsigelser kan være ustabile på tværs af frames. Dog kunne yderligere træning løse denne begrænsning. Selvom automatisk generering af annotationer er forbedret, er menneskelige annotatorer stadig nødvendige for kvalitetskontrol og frameselektion, og yderligere automatisering kunne forbedre effektiviteten.

Sammenfatning

SAM 2 repræsenterer et betydeligt spring fremad i realtidsobjektsegmentering for både billeder og videoer, bygget på det grundlag, der er lagt af dens forgænger. Ved at forbedre funktioner og udvide funktionaliteten til dynamisk videoindhold lover SAM 2 at transformere en række felter, fra sundhedspleje og autonome køretøjer til interaktivt medie og detailhandel. Selvom udfordringer består, især i håndtering af komplekse og overfyldte scener, opmuntres den open-source-natur af SAM 2 til kontinuerlig forbedring og tilpasning. Med sin kraftfulde præstation og tilgængelighed er SAM 2 parat til at drive innovation og udvide mulighederne i computer vision og andet.

Related Topics:foundation AI image segmentation Meta's SAM 2 SAM 2 segment anything model (SAM)Semantic Segmentation