Intelligenza artificiale
Svelando SAM 2: il nuovo modello open-source di Meta per la segmentazione degli oggetti in tempo reale in video e immagini
Negli ultimi anni, il mondo dell’AI ha visto notevoli passi avanti nell’elaborazione del testo, con avanzamenti che hanno trasformato settori come il servizio clienti e l’analisi legale. Tuttavia, quando si tratta dell’elaborazione delle immagini, stiamo solo sfiorando la superficie. La complessità dei dati visivi e le sfide di formazione dei modelli per interpretare e analizzare con precisione le immagini hanno presentato ostacoli significativi. Mentre i ricercatori continuano a esplorare l’AI di base per immagini e video, il futuro dell’elaborazione delle immagini nell’AI tiene potenziali innovazioni nel settore sanitario, veicoli autonomi e oltre.
La segmentazione degli oggetti, che consiste nell’individuare i pixel esatti in un’immagine che corrispondono a un oggetto di interesse, è un compito critico nella visione artificiale. Tradizionalmente, ciò ha richiesto la creazione di modelli AI specializzati, che richiede un’infrastruttura estensiva e grandi quantità di dati annotati. L’anno scorso, Meta ha introdotto il Segment Anything Model (SAM), un modello AI di base che semplifica questo processo consentendo agli utenti di segmentare immagini con un semplice prompt. Questa innovazione ha ridotto la necessità di competenze specialistiche e risorse computazionali estensive, rendendo la segmentazione delle immagini più accessibile.
Ora, Meta sta facendo un ulteriore passo avanti con SAM 2. Questa nuova iterazione non solo migliora le capacità di segmentazione delle immagini esistenti di SAM, ma estende anche la funzionalità alla elaborazione dei video. SAM 2 può segmentare qualsiasi oggetto in immagini e video, anche quelli che non ha incontrato prima. Questo avanzamento rappresenta un balzo in avanti nel campo della visione artificiale e dell’elaborazione delle immagini, fornendo uno strumento più versatile e potente per l’analisi dei contenuti visivi. Di seguito, esploriamo le emozionanti innovazioni di SAM 2 e il suo potenziale per ridefinire il campo della visione artificiale.
Introduzione al Segment Anything Model (SAM)
I metodi di segmentazione tradizionali richiedono una rifinitura manuale, nota come segmentazione interattiva, o grandi quantità di dati annotati per la segmentazione automatica in categorie predefinite. SAM è un modello AI di base che supporta la segmentazione interattiva utilizzando prompt versatili come clic, box o input di testo. Può anche essere ottimizzato con dati e risorse computazionali minimi per la segmentazione automatica. Addestrato su oltre 1 miliardo di annotazioni di immagini diverse, SAM può gestire nuovi oggetti e immagini senza necessità di raccolta di dati personalizzati o ottimizzazione.
SAM funziona con due componenti principali: un encoder di immagini che elabora l’immagine e un encoder di prompt che gestisce input come clic o testo. Questi componenti si uniscono con un decoder leggero per prevedere maschere di segmentazione. Una volta elaborata l’immagine, SAM può creare un segmento in soli 50 millisecondi in un browser web, rendendolo uno strumento potente per compiti interattivi in tempo reale. Per costruire SAM, i ricercatori hanno sviluppato un processo di raccolta dei dati in tre fasi: annotazione assistita dal modello, una combinazione di annotazione automatica e assistita, e creazione di maschere completamente automatica. Questo processo ha portato al dataset SA-1B, che include oltre 1,1 miliardo di maschere su 11 milioni di immagini con licenza, preservando la privacy—rendendolo 400 volte più grande di qualsiasi dataset esistente. Le prestazioni impressionanti di SAM derivano da questo dataset estensivo e diversificato, garantendo una migliore rappresentazione in varie regioni geografiche rispetto ai dataset precedenti.
Svelando SAM 2: un balzo dalla segmentazione delle immagini alla segmentazione dei video
Basandosi sulla fondazione di SAM, SAM 2 è progettato per la segmentazione degli oggetti in tempo reale e promptabile in immagini e video. A differenza di SAM, che si concentra esclusivamente su immagini statiche, SAM 2 elabora i video trattando ogni frame come parte di una sequenza continua. Ciò consente a SAM 2 di gestire scene dinamiche e contenuti in movimento più efficacemente. Per la segmentazione delle immagini, SAM 2 non solo migliora le capacità di SAM, ma opera anche tre volte più velocemente nei compiti interattivi.
SAM 2 mantiene la stessa architettura di SAM, ma introduce un meccanismo di memoria per l’elaborazione dei video. Questa funzione consente a SAM 2 di tenere traccia delle informazioni dai frame precedenti, garantendo una segmentazione degli oggetti coerente nonostante i cambiamenti di movimento, illuminazione o occlusione. Facendo riferimento ai frame precedenti, SAM 2 può raffinare le sue previsioni di maschere nel corso del video.
Il modello è addestrato su un nuovo dataset, SA-V dataset, che include oltre 600.000 annotazioni di masklet su 51.000 video di 47 paesi. Questo dataset diversificato copre sia oggetti interi che parti di oggetti, migliorando l’accuratezza di SAM 2 nella segmentazione dei video nel mondo reale.
SAM 2 è disponibile come modello open-source con licenza Apache 2.0, rendendolo accessibile per vari utilizzi. Meta ha condiviso anche il dataset utilizzato per SAM 2 con licenza CC BY 4.0. Inoltre, è disponibile una demo web che consente agli utenti di esplorare il modello e vedere come si esegue.
Casi d’uso potenziali
Le capacità di SAM 2 nella segmentazione degli oggetti in tempo reale e promptabile per immagini e video hanno sbloccato numerose applicazioni innovative in diversi campi. Ad esempio, alcune di queste applicazioni sono le seguenti:
- Diagnostica sanitaria: SAM 2 può migliorare significativamente l’assistenza chirurgica in tempo reale segmentando strutture anatomiche e identificando anomalie durante i feed video live in sala operatoria. Può anche migliorare l’analisi delle immagini mediche fornendo una segmentazione precisa di organi o tumori nelle scansioni mediche.
- Veicoli autonomi: SAM 2 può migliorare i sistemi di veicoli autonomi aumentando l’accuratezza della rilevazione degli oggetti attraverso la segmentazione continua e il tracciamento di pedoni, veicoli e segnali stradali attraverso i frame del video. La sua capacità di gestire scene dinamiche supporta anche i sistemi di navigazione adattiva e prevenzione delle collisioni riconoscendo e rispondendo ai cambiamenti ambientali in tempo reale.
- Media interattivi e intrattenimento: SAM 2 può migliorare le applicazioni di realtà aumentata (AR) segmentando con precisione gli oggetti in tempo reale, rendendo più facile per gli elementi virtuali fondersi con il mondo reale. Beneficia anche il montaggio video automatizzando la segmentazione degli oggetti nelle riprese, semplificando processi come la rimozione dello sfondo e la sostituzione degli oggetti.
- Monitoraggio ambientale: SAM 2 può aiutare nel tracciamento della fauna selvatica segmentando e monitorando gli animali nelle riprese video, supportando la ricerca sulle specie e gli studi sugli habitat. Nelle risposte ai disastri, può valutare i danni e guidare gli sforzi di risposta segmentando con precisione le aree e gli oggetti colpiti nei feed video.
- Commercio al dettaglio e e-commerce: SAM 2 può migliorare la visualizzazione dei prodotti nell’e-commerce abilitando la segmentazione interattiva dei prodotti in immagini e video. Ciò può dare ai clienti la capacità di visualizzare gli articoli da vari angoli e contesti. Per la gestione delle scorte, aiuta i rivenditori a tracciare e segmentare i prodotti sugli scaffali in tempo reale, semplificando l’inventario e migliorando il controllo delle scorte in generale.
Superare le limitazioni di SAM 2: soluzioni pratiche e miglioramenti futuri
Sebbene SAM 2 si esegua bene con immagini e video brevi, presenta alcune limitazioni da considerare per l’uso pratico. Potrebbe avere difficoltà a tracciare oggetti attraverso cambiamenti significativi di prospettiva, lunghe occlusione o in scene affollate, particolarmente in video estesi. La correzione manuale con clic interattivi può aiutare ad affrontare questi problemi.
In ambienti affollati con oggetti simili, SAM 2 potrebbe occasionalmente identificare erroneamente gli obiettivi, ma prompt aggiuntivi in frame successivi possono risolvere questo problema. Sebbene SAM 2 possa segmentare più oggetti, la sua efficienza diminuisce poiché elabora ogni oggetto separatamente. Aggiornamenti futuri potrebbero trarre beneficio dall’integrazione di informazioni contestuali condivise per migliorare le prestazioni.
SAM 2 può anche perdere dettagli fini con oggetti in movimento veloce, e le previsioni possono essere instabili tra i frame. Tuttavia, un ulteriore addestramento potrebbe affrontare questa limitazione. Sebbene la generazione automatica delle annotazioni sia migliorata, gli annotatori umani sono ancora necessari per i controlli di qualità e la selezione dei frame, e un’ulteriore automazione potrebbe migliorare l’efficienza.
Il punto chiave
SAM 2 rappresenta un balzo significativo in avanti nella segmentazione degli oggetti in tempo reale per immagini e video, costruendo sulla fondazione posta dal suo predecessore. Estendendo le capacità e la funzionalità al contenuto video dinamico, SAM 2 promette di trasformare una varietà di campi, dalla sanità ai veicoli autonomi, dai media interattivi al commercio al dettaglio. Sebbene rimangano sfide, in particolare nella gestione di scene complesse e affollate, la natura open-source di SAM 2 incoraggia il miglioramento continuo e l’adattamento. Con le sue potenti prestazioni e accessibilità, SAM 2 è pronto a guidare l’innovazione e ampliare le possibilità nella visione artificiale e oltre.








