Kunstmatige intelligentie
Onthulling van SAM 2: Meta’s Nieuwe Open-Source Foundation Model voor Real-Time Object Segmentation in Video’s en Afbeeldingen
In de afgelopen paar jaar heeft de wereld van AI een opmerkelijke vooruitgang geboekt in foundation AI voor tekstverwerking, met vooruitgang die industrieën van klantenservice tot juridische analyse hebben getransformeerd. Toch, wanneer het gaat om afbeeldingsverwerking, krabben we nog maar aan het oppervlak. De complexiteit van visuele gegevens en de uitdagingen van het trainen van modellen om afbeeldingen nauwkeurig te interpreteren en te analyseren hebben significante obstakels gevormd. Terwijl onderzoekers blijven onderzoeken foundation AI voor afbeeldingen en video’s, houdt de toekomst van afbeeldingsverwerking in AI potentieel voor innovaties in de gezondheidszorg, autonome voertuigen en daarbuiten.
Objectsegmentatie, die het identificeren van de exacte pixels in een afbeelding omvat die overeenkomen met een object van interesse, is een kritische taak in computerzicht. Traditioneel is dit gedaan door gespecialiseerde AI-modellen te creëren, wat uitgebreide infrastructuur en grote hoeveelheden geannoteerde gegevens vereist. Vorig jaar introduceerde Meta de Segment Anything Model (SAM), een foundation AI-model dat dit proces vereenvoudigt door gebruikers in staat te stellen afbeeldingen te segmenteren met een eenvoudige prompt. Deze innovatie vermindert de behoefte aan gespecialiseerde expertise en uitgebreide rekenbronnen, waardoor afbeeldingssegmentatie toegankelijker wordt.
Nu gaat Meta een stap verder met SAM 2. Deze nieuwe iteratie verbetert niet alleen de bestaande afbeeldingssegmentatiecapaciteiten van SAM, maar breidt deze ook uit naar videoverwerking. SAM 2 kan elk object in zowel afbeeldingen als video’s segmenteren, zelfs die het nog nooit eerder heeft gezien. Deze vooruitgang is een sprong vooruit in het domein van computerzicht en afbeeldingsverwerking, en biedt een meer veelzijdig en krachtig instrument voor het analyseren van visuele inhoud. Hieronder onderzoeken we de spannende vooruitgang van SAM 2 en zijn potentieel om het veld van computerzicht te herdefiniëren.
Introductie van de Segment Anything Model (SAM)
Traditionele segmentatiemethoden vereisen ofwel handmatige verfijning, bekend als interactieve segmentatie, ofwel uitgebreide geannoteerde gegevens voor automatische segmentatie in vooraf gedefinieerde categorieën. SAM is een foundation AI-model dat interactieve segmentatie ondersteunt met behulp van veelzijdige prompts zoals klikken, vakken of tekstinputs. Het kan ook worden gefinetuned met minimale gegevens en rekenbronnen voor automatische segmentatie. Getraind op meer dan 1 miljard diverse afbeeldingsannotaties, kan SAM omgaan met nieuwe objecten en afbeeldingen zonder dat hiervoor aangepaste gegevensverzameling of finetuning nodig is.
SAM werkt met twee hoofdcomponenten: een afbeeldingsencoder die de afbeelding verwerkt en een promptencoder die inputs zoals klikken of tekst afhandelt. Deze componenten komen samen met een lichte decoder om segmentatiemaskers te voorspellen. Zodra de afbeelding is verwerkt, kan SAM een segment creëren in slechts 50 milliseconden in een webbrowser, waardoor het een krachtig instrument is voor real-time, interactieve taken. Om SAM te bouwen, ontwikkelden onderzoekers een driedelige gegevensverzamelingproces: modelondersteunde annotatie, een combinatie van automatische en ondersteunde annotatie, en volledig automatische maskercreeatie. Dit proces resulteerde in de SA-1B-dataset, die meer dan 1,1 miljard maskers op 11 miljoen gelicenceerde, privacy-beschermende afbeeldingen bevat – waardoor het 400 keer groter is dan elke bestaande dataset. De indrukwekkende prestaties van SAM komen voort uit deze uitgebreide en diverse dataset, waardoor een betere vertegenwoordiging wordt gegarandeerd over verschillende geografische regio’s in vergelijking met eerdere datasets.
Onthulling van SAM 2: Een Sprong van Afbeeldingssegmentatie naar Videosegmentatie
Gebouwd op de fundamenten van SAM, is SAM 2 ontworpen voor real-time, promptable objectsegmentatie in zowel afbeeldingen als video’s. In tegenstelling tot SAM, dat zich alleen richt op statische afbeeldingen, verwerkt SAM 2 video’s door elke frame te behandelen als onderdeel van een continue sequentie. Dit stelt SAM 2 in staat om dynamische scènes en veranderende inhoud effectiever aan te pakken. Voor afbeeldingssegmentatie verbetert SAM 2 niet alleen de capaciteiten van SAM, maar werkt het ook drie keer sneller bij interactieve taken.
SAM 2 behoudt dezelfde architectuur als SAM, maar introduceert een geheugemechanisme voor videoverwerking. Deze functie stelt SAM 2 in staat om informatie van eerdere frames bij te houden, waardoor consistent objectsegmentatie wordt gegarandeerd ondanks veranderingen in beweging, verlichting of occlusie. Door naar eerdere frames te verwijzen, kan SAM 2 zijn maskerpredicties verfijnen gedurende de video.
Het model is getraind op een nieuw ontwikkeld dataset, de SA-V-dataset, die meer dan 600.000 maskerannotaties op 51.000 video’s uit 47 landen bevat. Deze diverse dataset dekt zowel complete objecten als hun onderdelen, waardoor de nauwkeurigheid van SAM 2 in real-world videosegmentatie wordt verbeterd.
SAM 2 is beschikbaar als een open-source model onder de Apache 2.0-licentie, waardoor het toegankelijk is voor verschillende toepassingen. Meta heeft ook de dataset die voor SAM 2 is gebruikt, onder een CC BY 4.0-licentie gedeeld. Bovendien is er een webgebaseerde demo die gebruikers in staat stelt om het model te verkennen en te zien hoe het presteert.
Mogelijke Toepassingen
De capaciteiten van SAM 2 voor real-time, promptable objectsegmentatie voor afbeeldingen en video’s hebben talloze innovatieve toepassingen ontsloten in verschillende domeinen. Enkele van deze toepassingen zijn bijvoorbeeld:
- Gezondheidsdiagnostiek: SAM 2 kan real-time chirurgische assistentie aanzienlijk verbeteren door anatomische structuren te segmenteren en afwijkingen te identificeren tijdens live videofeeds in de operatiekamer. Het kan ook medische beeldanalyse verbeteren door nauwkeurige segmentatie van organen of tumoren in medische scans te bieden.
- Autonome Voertuigen: SAM 2 kan autonome voertuigsystemen verbeteren door objectdetectie nauwkeurigheid te verbeteren via continue segmentatie en tracking van voetgangers, voertuigen en verkeersborden over videoframes. Zijn capaciteit om dynamische scènes aan te pakken, ondersteunt ook adaptieve navigatie en botsingsvermijdingssystemen door omgevingsveranderingen in real-time te herkennen en te reageren.
- Interactieve Media en Entertainment: SAM 2 kan augmented reality (AR)-toepassingen verbeteren door objecten in real-time nauwkeurig te segmenteren, waardoor het gemakkelijker wordt voor virtuele elementen om zich te mengen met de echte wereld. Het biedt ook voordelen voor videobewerking door objectsegmentatie in beeldmateriaal te automatiseren, waardoor processen zoals achtergrondverwijdering en objectvervanging worden vereenvoudigd.
- Milieumonitoring: SAM 2 kan helpen bij wildlifetracking door dieren in videomateriaal te segmenteren en te monitoren, waardoor onderzoek naar soorten en habitats wordt ondersteund. In rampenrespons kan het schade evalueren en responsinspanningen leiden door getroffen gebieden en objecten in videofeeds nauwkeurig te segmenteren.
- Detailhandel en E-Commerce: SAM 2 kan productvisualisatie in e-commerce verbeteren door interactieve segmentatie van producten in afbeeldingen en video’s mogelijk te maken. Dit geeft klanten de mogelijkheid om artikelen vanuit verschillende hoeken en contexten te bekijken. Voor voorraadbeheer helpt het detailhandelaren om producten op schappen in real-time te volgen en te segmenteren, waardoor het tellen van de voorraad en het algemene voorraadbeheer worden gestroomlijnd.
Overwinnen van de Beperkingen van SAM 2: Praktische Oplossingen en Toekomstige Verbeteringen
Terwijl SAM 2 goed presteert met afbeeldingen en korte video’s, zijn er enkele beperkingen om rekening mee te houden bij praktisch gebruik. Het kan moeite hebben om objecten te volgen bij significante wijzigingen in het zicht, langdurige occlusies of in drukke scènes, vooral in langere video’s. Handmatige correctie met interactieve klikken kan helpen om deze problemen aan te pakken.
In drukke omgevingen met gelijkende objecten, kan SAM 2 soms doelen verkeerd identificeren, maar aanvullende prompts in latere frames kunnen dit oplossen. Hoewel SAM 2 meerdere objecten kan segmenteren, neemt zijn efficiëntie af omdat het elk object afzonderlijk verwerkt. Toekomstige updates kunnen profiteren van het integreren van gedeelde contextuele informatie om de prestaties te verbeteren.
SAM 2 kan ook fijne details missen bij snel bewegende objecten, en voorspellingen kunnen onstabiel zijn over frames. Verdere training kan deze beperking aanpakken. Hoewel de automatische generatie van annotaties is verbeterd, zijn menselijke annotators nog steeds nodig voor kwaliteitscontroles en frameselectie, en verdere automatisering kan de efficiëntie verhogen.
De Bottom Line
SAM 2 vertegenwoordigt een significante sprong vooruit in real-time objectsegmentatie voor zowel afbeeldingen als video’s, gebouwd op de fundamenten van zijn voorganger. Door de capaciteiten te verbeteren en de functionaliteit uit te breiden naar dynamische video-inhoud, belooft SAM 2 verschillende domeinen te transformeren, van de gezondheidszorg en autonome voertuigen tot interactieve media en detailhandel. Terwijl er uitdagingen blijven bestaan, met name bij het omgaan met complexe en drukke scènes, moedigt de open-source aard van SAM 2 voortdurende verbetering en aanpassing aan. Met zijn krachtige prestaties en toegankelijkheid is SAM 2 klaar om innovatie te stimuleren en de mogelijkheden in computerzicht en daarbuiten uit te breiden.








