Artificiell intelligens
AvtĂ€ckning av SAM 2: Meta’s nya öppen kĂ€llkodsmodell för realtidsobjektsegmentering i bilder och videor
Under de senaste åren har AI-världen sett anmärkningsvärda framsteg inom grundläggande AI för textbearbetning, med framsteg som har förvandlat branscher från kundtjänst till juridisk analys. Men när det gäller bildbearbetning har vi bara skrapat på ytan. Den komplexa visuella datan och utmaningarna med att träna modeller för att exakt tolka och analysera bilder har presenterat betydande hinder. Medan forskare fortsätter att utforska grundläggande AI för bilder och videor, har framtiden för bildbearbetning inom AI potential för innovationer inom hälsovård, autonoma fordon och bortom.
Objektsegmentering, som innebär att identifiera exakt de pixlar i en bild som motsvarar ett objekt av intresse, är en kritisk uppgift inom datorseende. Traditionellt har detta inneburit att skapa specialiserade AI-modeller, vilket kräver omfattande infrastruktur och stora mängder annoterad data. Förra året introducerade Meta Segment Anything Model (SAM), en grundläggande AI-modell som förenklar denna process genom att tillåta användare att segmentera bilder med en enkel prompt. Denna innovation minskade behovet av specialiserad expertis och omfattande beräkningsresurser, vilket gjorde bildsegmentering mer tillgänglig.
Nu tar Meta detta ett steg längre med SAM 2. Denna nya iteration förbättrar inte bara SAM:s befintliga bildsegmenteringsförmåga utan utökar den också till videobearbetning. SAM 2 kan segmentera vilket objekt som helst i både bilder och videor, även de som den inte har mött tidigare. Denna framsteg är ett stort steg framåt inom området datorseende och bildbearbetning, och erbjuder ett mer flexibelt och kraftfullt verktyg för att analysera visuellt innehåll. Här utforskar vi de spännande framstegen med SAM 2 och dess potential att omdefiniera fältet datorseende.
Introduktion av Segment Anything Model (SAM)
Traditionella segmenteringsmetoder kräver antingen manuell raffinering, känd som interaktiv segmentering, eller omfattande annoterad data för automatisk segmentering i fördefinierade kategorier. SAM är en grundläggande AI-modell som stöder interaktiv segmentering med hjälp av flexibla promptrar som klick, rutor eller textinmatningar. Den kan också finjusteras med minimal data och beräkningsresurser för automatisk segmentering. Tränad på över 1 miljard diverse bildannoteringar kan SAM hantera nya objekt och bilder utan att behöva anpassad datainsamling eller finjustering.
SAM fungerar med två huvudkomponenter: en bildkodare som bearbetar bilden och en promptkodare som hanterar inmatningar som klick eller text. Dessa komponenter kombineras med en lätt viktad avkodare för att förutsäga segmenteringsmasker. När bilden har bearbetats kan SAM skapa ett segment på bara 50 millisekunder i en webbläsare, vilket gör det till ett kraftfullt verktyg för realtids- och interaktiva uppgifter. För att bygga SAM utvecklade forskare en tre-stegsprocess för datainsamling: modellbaserad annotering, en kombination av automatisk och assisterad annotering, och fullständigt automatisk maskinskapsel. Denna process resulterade i SA-1B-databasen, som innehåller över 1,1 miljarder masker på 11 miljoner licensierade, sekretessbevarande bilder – vilket gör den 400 gånger större än någon befintlig databas. SAM:s imponerande prestanda härrör från denna omfattande och diversifierade databas, vilket säkerställer bättre representation över olika geografiska regioner jämfört med tidigare databaser.
Avtäckning av SAM 2: Ett steg från bild till videosegmentering
Byggd på SAM:s grund, är SAM 2 utformad för realtids-, promptbar objektsegmentering i både bilder och videor. Till skillnad från SAM, som fokuserar enbart på statiska bilder, bearbetar SAM 2 videor genom att behandla varje bildruta som en del av en kontinuerlig sekvens. Detta möjliggör för SAM 2 att hantera dynamiska scener och förändrade innehåll mer effektivt. För bildsegmentering förbättrar SAM 2 inte bara SAM:s förmåga utan fungerar också tre gånger snabbare i interaktiva uppgifter.
SAM 2 behåller samma arkitektur som SAM men introducerar en minnesmekanism för videobearbetning. Denna funktion möjliggör för SAM 2 att spåra information från tidigare bildrutor, vilket säkerställer konsekvent objektsegmentering trots förändringar i rörelse, belysning eller ocklusion. Genom att referera till tidigare bildrutor kan SAM 2 förbättra sina maskförutsägelser under hela videon.
Modellen är tränad på en nyutvecklad databas, SA-V-databasen, som innehåller över 600 000 masklet-annoteringar på 51 000 videor från 47 länder. Denna diversifierade databas täcker både hela objekt och deras delar, vilket förbättrar SAM 2:s noggrannhet i realvärldens videosegmentering.
SAM 2 är tillgänglig som en öppen källkodsmodell under Apache 2.0-licensen, vilket gör den tillgänglig för olika användningsområden. Meta har också delat databasen som användes för SAM 2 under en CC BY 4.0-licens. Dessutom finns det en webbaserad demo som låter användare utforska modellen och se hur den fungerar.
Potentiella användningsområden
SAM 2:s förmåga att utföra realtids-, promptbar objektsegmentering för bilder och videor har låst upp ett antal innovativa tillämpningar inom olika områden. Till exempel är några av dessa tillämpningar:
- Hälsovårdsdiagnostik: SAM 2 kan förbättra realtidskirurgisk assistans genom att segmentera anatomiska strukturer och identifiera avvikelser under livevideofeed i operationssalen. Den kan också förbättra medicinsk bildanalys genom att ge exakt segmentering av organ eller tumörer i medicinska undersökningar.
- Autonoma fordon: SAM 2 kan förbättra autonoma fordonssystem genom att förbättra objektdetektionsnoggrannheten genom kontinuerlig segmentering och spårning av fotgängare, fordon och vägskyltar över videoframe. Dess förmåga att hantera dynamiska scener stöder också adaptiv navigering och kollisionsundvikande system genom att känna igen och svara på miljöförändringar i realtid.
- Interaktiv media och underhållning: SAM 2 kan förbättra förstärkt verklighet (AR)-applikationer genom att exakt segmentera objekt i realtid, vilket gör det lättare för virtuella element att blanda sig med den verkliga världen. Den kan också gynna videoredigering genom att automatisera objektsegmentering i film, vilket förenklar processer som bakgrundsavlägsnande och objektersättning.
- Miljöövervakning: SAM 2 kan assistera i viltspårning genom att segmentera och övervaka djur i videofilm, vilket stöder artforskning och habitatstudier. I katastrofinsatser kan den utvärdera skador och vägleda insatsansträngningar genom att exakt segmentera drabbade områden och objekt i videofeed.
- Detaljhandel och e-handel: SAM 2 kan förbättra produktvisualisering i e-handel genom att möjliggöra interaktiv segmentering av produkter i bilder och videor. Detta kan ge kunderna möjlighet att visa artiklar från olika vinklar och sammanhang. För lagerhantering hjälper det detaljhandlare att spåra och segmentera produkter på hyllor i realtid, vilket förenklar lagerhantering och förbättrar den totala lagerkontrollen.
Övervinning av SAM 2:s begränsningar: Praktiska lösningar och framtida förbättringar
Medan SAM 2 fungerar bra med bilder och korta videor, finns det vissa begränsningar att beakta för praktisk användning. Den kan ha svårt att spåra objekt genom betydande vyförändringar, långa ocklusioner eller i överfulla scener, särskilt i utökade videor. Manuell korrektion med interaktiva klick kan hjälpa till att hantera dessa problem.
I överfulla miljöer med liknande objekt kan SAM 2 ibland misstolka mål, men ytterligare promptrar i senare bildrutor kan lösa detta. Även om SAM 2 kan segmentera flera objekt, minskar dess effektivitet eftersom den bearbetar varje objekt separat. Framtida uppdateringar kan dra nytta av att integrera delad kontextuell information för att förbättra prestanda.
SAM 2 kan också missa fina detaljer med snabbt rörliga objekt, och förutsägelser kan vara instabila över bildrutor. Men ytterligare utbildning kan hantera denna begränsning. Även om automatisk generering av annoteringar har förbättrats, behövs fortfarande mänskliga annotatorer för kvalitetskontroller och bildrutval, och ytterligare automatisering kan förbättra effektiviteten.
Slutsatsen
SAM 2 representerar ett betydande steg framåt i realtidsobjektsegmentering för både bilder och videor, byggd på den grund som dess föregångare lade. Genom att förbättra förmågor och utöka funktioner till dynamiskt videoinnehåll, lovar SAM 2 att förvandla en mängd olika områden, från hälsovård och autonoma fordon till interaktiv media och detaljhandel. Medan utmaningar kvarstår, särskilt i hantering av komplexa och överfulla scener, uppmuntrar den öppna källkodskaraktären hos SAM 2 till kontinuerlig förbättring och anpassning. Med sin kraftfulla prestanda och tillgänglighet är SAM 2 redo att driva innovation och expandera möjligheterna inom datorseende och bortom.












