Artificiell intelligens

Avtäckning av SAM 2: Metas nya öppen källkodsmodell för realtidsobjektsegmentering i videor och bilder

Published August 1, 2024

Updated April 27, 2026

Dr. Tehseen Zia

Under de senaste åren har AI-världen sett anmärkningsvärda framsteg inom grundläggande AI för textbearbetning, med framsteg som har förändrat branscher från kundtjänst till juridisk analys. Men när det gäller bildbearbetning har vi bara skrapat på ytan. Komplexiteten i visuell data och utmaningarna med att träna modeller för att noggrant tolka och analysera bilder har presenterat betydande hinder. Medan forskare fortsätter att utforska grundläggande AI för bilder och videor, har framtiden för bildbearbetning inom AI potential för innovationer inom hälsovård, autonoma fordon och bortom.

Objektsegmentering, som innebär att identifiera exakt de pixlar i en bild som motsvarar ett objekt av intresse, är en kritisk uppgift inom datorseende. Traditionellt har detta inneburit att skapa specialiserade AI-modeller, vilket kräver omfattande infrastruktur och stora mängder annoterade data. Förra året introducerade Meta Segment Anything Model (SAM), en grundläggande AI-modell som förenklar denna process genom att tillåta användare att segmentera bilder med en enkel prompt. Denna innovation minskade behovet av specialiserad expertis och omfattande beräkningsresurser, vilket gjorde bildsegmentering mer tillgänglig.

Nu tar Meta detta ett steg längre med SAM 2. Denna nya iteration förbättrar inte bara SAM:s befintliga bildsegmenteringsförmåga utan utökar den också till videobearbetning. SAM 2 kan segmentera vilket objekt som helst i både bilder och videor, även de som den inte har mött tidigare. Denna framsteg är ett stort steg framåt inom området datorseende och bildbearbetning, och tillhandahåller ett mer mångsidigt och kraftfullt verktyg för att analysera visuellt innehåll. Nedan utforskar vi de spännande framstegen med SAM 2 och dess potential att omdefiniera området datorseende.

Introduktion av Segment Anything Model (SAM)

Traditionella segmenteringsmetoder kräver antingen manuell finjustering, känd som interaktiv segmentering, eller omfattande annoterade data för automatisk segmentering i fördefinierade kategorier. SAM är en grundläggande AI-modell som stöder interaktiv segmentering med hjälp av mångsidiga promptrar som klick, rutor eller textinmatningar. Den kan också finjusteras med minimala data och beräkningsresurser för automatisk segmentering. Tränad på över 1 miljard diverse bildannoteringar kan SAM hantera nya objekt och bilder utan att behöva anpassad datainsamling eller finjustering.

SAM fungerar med två huvudkomponenter: en bildkodare som bearbetar bilden och en promptkodare som hanterar inmatningar som klick eller text. Dessa komponenter kommer samman med en lätt dekodare för att förutsäga segmenteringsmasker. När bilden har bearbetats kan SAM skapa ett segment på bara 50 millisekunder i en webbläsare, vilket gör det till ett kraftfullt verktyg för realtids-, interaktiva uppgifter. För att bygga SAM utvecklade forskare en tre-stegsprocess för datainsamling: modellbaserad annotering, en blandning av automatisk och assisterad annotering, och fullständigt automatisk maskinskapande. Denna process resulterade i SA-1B-datasetet, som innehåller över 1,1 miljarder masker på 11 miljoner licensierade, sekretessbevarande bilder – vilket gör det 400 gånger större än något befintligt dataset. SAM:s imponerande prestanda härrör från detta omfattande och diversa dataset, vilket säkerställer bättre representation över olika geografiska regioner jämfört med tidigare dataset.

Presentation av SAM 2: Ett steg från bild till videosegmentering

Byggd på SAM:s grund, är SAM 2 utformad för realtids-, promptbar objektsegmentering i både bilder och videor. Till skillnad från SAM, som fokuserar enbart på statiska bilder, bearbetar SAM 2 videor genom att behandla varje bildruta som en del av en kontinuerlig sekvens. Detta möjliggör för SAM 2 att hantera dynamiska scener och föränderligt innehåll mer effektivt. För bildsegmentering förbättrar SAM 2 inte bara SAM:s förmåga utan fungerar också tre gånger snabbare i interaktiva uppgifter.

SAM 2 behåller samma arkitektur som SAM men introducerar en minnesmekanism för videobearbetning. Denna funktion tillåter SAM 2 att spara information från tidigare bildrutor, vilket säkerställer konsekvent objektsegmentering trots förändringar i rörelse, belysning eller ocklusion. Genom att referera till tidigare bildrutor kan SAM 2 förfinna sina maskprediktioner under hela videon.

Modellen är tränad på det nyligen utvecklade SA-V-datasetet, som innehåller över 600 000 masklet-annoteringar på 51 000 videor från 47 länder. Detta diversa dataset täcker både hela objekt och deras delar, vilket förbättrar SAM 2:s noggrannhet i realvärldens videosegmentering.

SAM 2 är tillgänglig som en öppen källkodsmodell under Apache 2.0-licensen, vilket gör den tillgänglig för olika användningsområden. Meta har också delat datasetet som användes för SAM 2 under en CC BY 4.0-licens. Dessutom finns det en webbaserad demo som låter användare utforska modellen och se hur den fungerar.

Potentiella användningsfall

SAM 2:s förmåga att utföra realtids-, promptbar objektsegmentering för bilder och videor har låst upp ett antal innovativa tillämpningar inom olika områden. Till exempel är några av dessa tillämpningar:

Hälsovårdsdiagnostik: SAM 2 kan förbättra realtidskirurgiskt stöd genom att segmentera anatomiska strukturer och identifiera avvikelser under livevideoflöden i operationssalen. Den kan också förbättra medicinsk bildanalys genom att tillhandahålla exakt segmentering av organ eller tumörer i medicinska undersökningar.
Autonoma fordon: SAM 2 kan förbättra autonoma fordonssystem genom att förbättra objektdetekteringsnoggrannheten genom kontinuerlig segmentering och spårning av fotgängare, fordon och vägskyltar över videoflöden. Dess förmåga att hantera dynamiska scener stöder också adaptiv navigering och kollisionsundvikande system genom att känna igen och svara på miljöförändringar i realtid.
Interaktiv media och underhållning: SAM 2 kan förbättra augmented reality (AR)-applikationer genom att exakt segmentera objekt i realtid, vilket gör det enklare för virtuella element att blandas med den verkliga världen. Den kan också gynna videoredigering genom att automatisera objektsegmentering i film, vilket förenklar processer som bakgrundsavlägsnande och objektersättning.
Miljöövervakning: SAM 2 kan hjälpa till med viltspårning genom att segmentera och övervaka djur i videoflöden, vilket stöder artforskning och habitatstudier. I katastrofinsatser kan den utvärdera skador och vägleda insatsansträngningar genom att exakt segmentera drabbade områden och objekt i videoflöden.
Detaljhandel och e-handel: SAM 2 kan förbättra produktvisualisering i e-handel genom att möjliggöra interaktiv segmentering av produkter i bilder och videor. Detta kan ge kunderna möjlighet att visa produkter från olika vinklar och sammanhang. För lagerhantering hjälper det detaljhandlare att spåra och segmentera produkter på hyllor i realtid, vilket förenklar lagerhållning och förbättrar den övergripande lagerkontrollen.

Att övervinna SAM 2:s begränsningar: Praktiska lösningar och framtida förbättringar

Medan SAM 2 fungerar bra med bilder och korta videor, finns det vissa begränsningar att beakta för praktisk användning. Den kan ha svårt att spåra objekt genom betydande vyförändringar, långa ocklusioner eller i överfulla scener, särskilt i utökade videor. Manuell korrektion med interaktiva klick kan hjälpa till att hantera dessa problem.

I överfulla miljöer med liknande objekt kan SAM 2 ibland misstolka mål, men ytterligare promptrar i senare bildrutor kan lösa detta. Även om SAM 2 kan segmentera flera objekt, minskar dess effektivitet eftersom den bearbetar varje objekt separat. Framtida uppdateringar kan dra nytta av att integrera delad kontextuell information för att förbättra prestanda.

SAM 2 kan också missa fina detaljer med snabbt rörliga objekt, och förutsägelser kan vara ostabila över bildrutor. Men ytterligare utbildning kan hantera denna begränsning. Även om automatisk generering av annoteringar har förbättrats, behövs fortfarande mänskliga annotatorer för kvalitetskontroller och bildruta-val, och ytterligare automatisering kan förbättra effektiviteten.

Sammanfattning

SAM 2 representerar ett betydande steg framåt i realtidsobjektsegmentering för både bilder och videor, byggd på den grund som lades av dess föregångare. Genom att förbättra förmågor och utöka funktioner till dynamiskt videoinnehåll, lovar SAM 2 att förändra en mängd olika områden, från hälsovård och autonoma fordon till interaktiv media och detaljhandel. Medan utmaningar kvarstår, särskilt i hantering av komplexa och överfulla scener, uppmuntrar den öppna källkodskaraktären hos SAM 2 kontinuerlig förbättring och anpassning. Med sin kraftfulla prestanda och tillgänglighet är SAM 2 redo att driva innovation och expandera möjligheterna inom datorseende och bortom.

Related Topics:foundation AI image segmentation Meta's SAM 2 SAM 2 segment anything model (SAM)Semantic Segmentation