Tekoäly

Paljastamme SAM 2: Meta:n uusi avoimen lähdekoodin perusmalli reaaliaikaiselle objekti-segmentoinnille videoissa ja kuvissa

Published August 1, 2024

Updated April 27, 2026

Dr. Tehseen Zia

Viime vuosina tekoälymaailma on nähnyt merkittäviä edistysaskelia perusteellisessa tekoälyssä tekstin käsittelyyn, jossa on tapahtunut edistysaskelia, jotka ovat muuttaneet aloja asiakaspalvelusta oikeudelliseen analyysiin. Kuitenkin, kun puhutaan kuvankäsittelystä, olemme vasta hiertäen pinnan alla. Visuaalisen datan monimutkaisuus ja haasteet mallien kouluttamisessa tarkkaan tulkitsemaan ja analysoimaan kuvia ovat esittäneet merkittäviä esteitä. Tutkijat jatkavat perusteellisen tekoälyn tutkimista kuvien ja videoiden parissa, ja kuvankäsittelyn tulevaisuus tekoälyssä pitää sisällään innovaatioita terveydenhuollossa, autonomeissa ajoneuvoissa ja muualla.

Objektin segmentointi, joka sisältää tarkan paikan määrittämisen kuvan pikseleistä, jotka vastaavat kiinnostuksen kohteena olevaa objektia, on kriittinen tehtävä tietokoneen näön parissa. Perinteisesti tämä on vaatinut erikoistuneiden tekoälymallien luomisen, joka vaatii laajaa infrastruktuuria ja suuria määriä merkittyjä dataja. Viime vuonna Meta esitteli Segment Anything Model (SAM), perusteellisen tekoälymallin, joka yksinkertaa tätä prosessia sallimalla käyttäjien segmentoida kuvia yksinkertaisella kehotteella. Tämä innovaatio vähensi tarvetta erikoistuneelle asiantuntemukselle ja laajoille laskenta-resursseille, tehden kuvien segmentoinnin helpommaksi.

Nyt Meta vie tämän askelen eteenpäin SAM 2:n kanssa. Tämä uusi iterointi ei ainoastaan paranna SAM:n olemassa olevia kuvien segmentointi-ominaisuuksia, vaan laajentaa sitä myös video-käsittelyyn. SAM 2 voi segmentoida minkä tahansa objektin sekä kuvissa että videoissa, myös niitä, joita se ei ole aikaisemmin kohdannut. Tämä edistysaskel on askel eteenpäin tietokoneen näön ja kuvankäsittelyn alalla, tarjoamalla monipuolisemman ja voimakkaamman työkalun visuaalisen sisällön analysointiin. Alla tutkimme SAM 2:n jännittäviä edistysaskelia ja sen potentiaalia määritellä uudelleen tietokoneen näön ala.

Esittely Segment Anything Model (SAM)

Perinteiset segmentointimenetelmät vaativat joko manuaalista hienosäätöä, jota kutsutaan interaktiiviseksi segmentoinniksi, tai laajoja merkittyjä dataja automaattiseen segmentointiin ennalta määrättyihin luokkiin. SAM on perusteellinen tekoälymalli, joka tukee interaktiivista segmentointia monipuolisten kehotteiden avulla, kuten napsautuksilla, ruuduilla tai tekstisyötteillä. Se voidaan myös hienosäätää vähäisillä dataja ja laskenta-resursseilla automaattiseen segmentointiin. Koulutettu yli miljardin monipuolisen kuvamerkinnän avulla SAM voi käsitellä uusia objekteja ja kuvia ilman, että tarvitsee mukautettuja datakokoelmia tai hienosäätöä.

SAM toimii kahden pääkomponentin avulla: kuvakooderin, joka käsittelee kuvaa, ja kehotekooderin, joka käsittelee syötteitä, kuten napsautuksia tai tekstiä. Nämä komponentit yhdistyvät kevyen dekooderin kanssa ennustamaan segmentointimaskuja. Kun kuva on käsitelty, SAM voi luoda segmentin vain 50 millisekunnissa verkkoselaimessa, mikä tekee siitä voimakkaan työkalun reaaliaikaisiin interaktiivisiin tehtäviin. SAM:n rakentamiseksi tutkijat kehittivät kolme askelta datakokoeluprosessiin: mallin avustama annotointi, automaattisen ja avustetun annotoinnin yhdistelmä ja täysin automaattinen maskin luominen. Tämä prosessi johti SA-1B datasettiin, joka sisältää yli 1,1 miljardia maskia 11 miljoonalla lisensoidulla, yksityisyyttä suojaavalla kuvalla – mikä tekee siitä 400 kertaa suuremman kuin mikään aiempi datasetti. SAM:n vaikuttava suorituskyky johtuu tästä laajasta ja monipuolisesta datasetistä, joka takaa paremman edustavuuden eri maantieteellisillä alueilla verrattuna aiempiin datasetteihin.

Esittely SAM 2: Askel kuvista video-segmentointiin

Rakentamalla SAM:n perustalle, SAM 2 on suunniteltu reaaliaikaiseen, kehotettavaan objekti-segmentointiin sekä kuvissa että videoissa. Toisin kuin SAM, joka keskittyy ainoastaan statisiin kuviiin, SAM 2 käsittelee videoita käsittelemällä jokaisen kehyksen jatkuvan sekvenssin osana. Tämä mahdollistaa SAM 2:lle dynaamisten kohtauksien ja muuttuvan sisällön käsittelemisen tehokkaammin. Kuvien segmentoinnissa SAM 2 parantaa SAM:n ominaisuuksia ja toimii kolme kertaa nopeammin interaktiivisissa tehtävissä.

SAM 2 säilyttää saman arkkitehtuurin kuin SAM, mutta esittelee muistimekanismin video-käsittelyyn. Tämä ominaisuus mahdollistaa SAM 2:lle tietojen säilyttämisen edellisistä kehyksistä, varmistamalla johdonmukaisen objekti-segmentoinnin liikkeen, valaistuksen tai peittämisen muutoksista huolimatta. Viittaamalla aiempiin kehyksiin SAM 2 voi hienosäätää maski-ennusteitaan videon aikana.

Malli on koulutettu uudelleen kehittämällä SA-V datasettiin, joka sisältää yli 600 000 maski-merkintää 51 000 videossa 47 maasta. Tämä monipuolinen datasetti kattaa sekä kokonaisia objekteja että niiden osia, parantamalla SAM 2:n tarkkuutta reaaliajaisessa video-segmentoinnissa.

SAM 2 on saatavilla avoimen lähdekoodin mallina Apache 2.0 -lisenssillä, mikä tekee siitä saatavilla eri käyttötarkoituksiin. Meta on myös jakanut SAM 2:ta käytetyn datasetin CC BY 4.0 -lisenssillä. Lisäksi on verkkopohjainen demo, joka mahdollistaa mallin tutkimisen ja sen suorituskyvyn näkemisen.

Sovelluskohteet

SAM 2:n ominaisuudet reaaliajaisessa, kehotettavassa objekti-segmentoinnissa kuvissa ja videoissa ovat avaaneet useita innovatiivisia sovelluksia eri aloilla. Esimerkiksi joitakin näistä sovelluksista ovat:

Terveydenhuollon diagnostiikka: SAM 2 voi parantaa merkittävästi reaaliaikaista kirurgista apua segmentoimalla anatomiallisia rakenteita ja tunnistamalla poikkeamia live-videolähetyksissä operatiivisessa huoneessa. Se voi myös parantaa lääketieteellisen kuvan analyysiä tarjoamalla tarkan segmentoinnin elimistä tai kasvaimia lääketieteellisissä skannoissa.
Autonominen ajoneuvoliikenne: SAM 2 voi parantaa autonomisen ajoneuvoliikenteen järjestelmiä parantamalla objekti-havaitsemisen tarkkuutta jatkuvan segmentoinnin ja seuraamisen kautta jalankulkijoita, ajoneuvoja ja tienviittoja videokehyksissä. Sen kyky käsitellä dynaamisia kohtauksia tukee myös sopeutuvaa navigointia ja törmäysväistämistä tunnistamalla ja reagoimalla ympäristön muutoksiin reaaliajassa.
Interaktiivinen media ja viihde: SAM 2 voi parantaa lisättyä todellisuutta (AR) sovelluksia segmentoimalla objekteja reaaliajassa, mikä tekee virtuaalisten elementtien yhdistämisen todelliseen maailmaan helpommaksi. Se hyödyttää myös videon editointia automatisoimalla objekti-segmentoinnin kuvamateriaalissa, mikä yksinkertaa prosesseja kuten taustan poistamisen ja objekti-correction.
Ympäristön seuranta: SAM 2 voi auttaa eläinten seuraamisessa segmentoimalla ja seuraamalla eläimiä videomateriaalissa, tukeen lajien tutkimusta ja elinympäristön tutkimusta. Häiriötilanteissa se voi arvioida vahinkoa ja ohjata toimintaa segmentoimalla ja tunnistamalla vahingoittuneita alueita ja objekteja videolähetyksistä.
Kaupanhallinta ja vähittäiskauppa: SAM 2 voi parantaa tuotteen visualisointia verkkokaupassa mahdollistamalla interaktiivisen segmentoinnin tuotteista kuvissa ja videoissa. Tämä antaa asiakkaille mahdollisuuden tarkastella tuotteita eri kulmista ja konteksteista. Varastoinnin hallinnassa se auttaa kauppiaita seuraamaan ja segmentoimaan tuotteita hyllyillä reaaliajassa, yksinkertaistaen varastointia ja parantamalla kokonaisvaltaista varastohallintaa.

Voittaminen SAM 2:n rajoitukset: Käytännön ratkaisut ja tulevat parannukset

Vaikka SAM 2 suoriutuu hyvin kuvista ja lyhyistä videoista, siinä on joitakin rajoituksia, jotka on otettava huomioon käytännön käytössä. Se voi kärsiä seuraamasta objekteja merkittävien näkökulman muutoksien, pitkien peittämisten tai väkijoukkokohtauksien aikana, erityisesti pidemmissä videoissa. Manuaalinen korjaus interaktiivisilla napsautuksilla voi auttaa ratkaisemaan nämä ongelmat.

Tiheissä ympäristöissä, joissa on samankaltaisia objekteja, SAM 2 voi toisinaan sekoittaa kohdetta, mutta lisäkehotteita myöhemmissä kehyksissä voi ratkaista tämän ongelman. Vaikka SAM 2 voi segmentoida useita objekteja, sen tehokkuus laskee, koska se käsittelee kunkin objektin erikseen. Tulevat päivitykset voivat hyötyä yhteisen kontekstuaalisen tiedon integroimisesta parantamaan suorituskykyä.

SAM 2 voi myös jättää huomioimatta hienot yksityiskohdat nopeasti liikkuvien objektiiden kanssa, ja ennusteet voivat olla epävakaita kehyskohtaisesti. Kuitenkin, tuleva koulutus voi ratkaista tämän rajoituksen. Vaikka automaattinen annotaation generointi on parantunut, ihmisen annotoijat ovat edelleen tarpeen laadunvalvontaan ja kehysvalintaan, ja tuleva automaatio voi parantaa tehokkuutta.

Päättely

SAM 2 edustaa merkittävää edistysaskelta reaaliaikaisessa objekti-segmentoinnissa sekä kuvissa että videoissa, rakentamalla edelleen edeltäjänsä perustalle. Parantamalla ominaisuuksia ja laajentamalla toiminnallisuutta dynaamisiin video-sisältöihin SAM 2 luvaa muuttaa useita aloja, terveydenhuollosta autonomisiin ajoneuvoihin ja interaktiivisista medioista vähittäiskauppaan. Vaikka haasteita on edelleen, erityisesti käsiteltäessä monimutkaisia ja väkijoukkokohtauksia, SAM 2:n avoimen lähdekoodin luonne rohkaisee jatkuvaan parantamiseen ja sopeutumiseen. Voimakkaan suorituskyvynsä ja saatavuutensa ansiosta SAM 2 on valmis ajamaan innovaatiota ja laajentamaan mahdollisuuksia tietokoneen näön ja sen ulkopuolella.

Related Topics:foundation AI image segmentation Meta's SAM 2 SAM 2 segment anything model (SAM)Semantic Segmentation