Liity verkostomme!

Tekoäly

Segmentoi Anything-malli – Computer Vision saa valtavan tehon

mm
Lähikuva miehen kasvoista kasvojentunnistusosoittimilla.

Konenäkö (CV) on saavuttanut 99 prosentista 50 prosentin tarkkuuden 10 vuodessa. Teknologian odotetaan paranevan ennennäkemättömälle tasolle nykyaikaisten algoritmien ja kuvan segmentointitekniikoiden avulla. Metan FAIR-laboratorio julkaisi hiljattain Segmentoi kaikki malli (SAM) – pelin muuttaja kuvan segmentoinnissa. Tämä edistynyt malli voi tuottaa yksityiskohtaisia ​​objektimaskeja syöttökehotteista, mikä nostaa tietokonenäön uusiin korkeuksiin. Se voi mahdollisesti mullistaa sen, kuinka olemme vuorovaikutuksessa digitaalisen teknologian kanssa tällä aikakaudella.

Tutkitaanpa kuvien segmentointia ja lyhyesti, miten SAM vaikuttaa tietokoneen visio.

Mikä on kuvan segmentointi ja mitkä ovat sen tyypit?

Kuvan segmentointi on tietokonenäön prosessi, joka jakaa kuvan useisiin alueisiin tai segmentteihin, joista jokainen edustaa kuvan eri kohdetta tai aluetta. Tämän lähestymistavan avulla asiantuntijat voivat eristää kuvan tiettyjä osia saadakseen merkityksellisiä oivalluksia.

Kuvan segmentointimallit on koulutettu parantamaan tulosta tunnistamalla tärkeät kuvan yksityiskohdat ja vähentämällä monimutkaisuutta. Nämä algoritmit erottavat tehokkaasti kuvan eri alueet ominaisuuksien, kuten värin, tekstuurin, kontrastin, varjojen ja reunojen, perusteella.

Segmentoimalla kuvan voimme keskittää analyysimme kiinnostaviin alueisiin saadaksemme oivaltavia yksityiskohtia. Alla on erilaisia ​​kuvan segmentointitekniikoita.

  • Semanttinen segmentointi sisältää pikselien merkitsemisen semanttisiin luokkiin.
  • Ilmentymien segmentointi menee pidemmälle havaitsemalla ja rajaamalla jokaisen kuvan objektin.
  • Panoptinen segmentointi määrittää yksilölliset ilmentymän tunnukset yksittäisille objektipikseleille, mikä johtaa kattavampaan ja kontekstuaaliseen nimeämiseen kaikille kuvan kohteille.

Segmentointi toteutetaan kuvapohjaisilla syväoppimismalleilla. Nämä mallit hakevat kaikki arvokkaat datapisteet ja ominaisuudet harjoitussarjasta. Muunna sitten nämä tiedot vektoreiksi ja matriiseiksi ymmärtääksesi monimutkaisia ​​ominaisuuksia. Jotkut laajasti käytetyistä syväoppimismalleista kuvan segmentoinnin takana ovat:

  • Konvoluutiohermoverkot (CNN)
  • Täysin yhdistetyt verkot (FCN)
  • Toistuvat hermoverkot (RNN)

Miten kuvan segmentointi toimii?

In tietokoneen visio, useimmat kuvan segmentointimallit koostuvat enkooderi-dekooderiverkosta. Kooderi koodaa sisääntulodatan piilevän avaruusesityksen, jonka dekooderi dekoodaa segmenttikarttojen muodostamiseksi, tai toisin sanoen karttojen, jotka hahmottelevat kunkin objektin sijainnin kuvassa.

Yleensä segmentointiprosessi koostuu kolmesta vaiheesta:

  • Kuvakooderi, joka muuntaa syötetyn kuvan matemaattiseksi malliksi (vektorit ja matriisit) käsittelyä varten.
  • Kooderi aggregoi vektorit useilla tasoilla.
  • Nopea maskin dekooderi ottaa kuvan upotukset syötteeksi ja tuottaa maskin, joka hahmottelee kuvan eri kohteet erikseen.

Kuvan segmentoinnin tila

Vuodesta 2014 lähtien syntyi syvään oppimiseen perustuvien segmentointialgoritmien aalto, kuten CNN+CRF ja FCN, jotka edistyivät merkittävästi alalla. Vuonna 2015 U-Net ja Deconvolution Network nousivat, mikä paransi segmentointitulosten tarkkuutta.

Sitten vuonna 2016 Instance Aware Segmentation, V-Net ja RefineNet paransivat edelleen segmentoinnin tarkkuutta ja nopeutta. Vuoteen 2017 mennessä Mark-RCNN ja FC-DenseNet ottivat käyttöön objektien havaitsemisen ja tiheän ennustamisen segmentointitehtäviin.

Vuonna 2018 Panoptic Segmentation, Mask-Lab ja Context Encoding Networks olivat vaiheen keskipisteessä, koska nämä lähestymistavat vastasivat instanssitason segmentoinnin tarpeeseen. Vuoteen 2019 mennessä Panoptic FPN, HRNet ja Criss-Cross Attention esittelivät uusia lähestymistapoja instanssitason segmentointiin.

Vuonna 2020 trendi jatkui Detecto RS:n, Panoptic DeepLabin, PolarMaskin, CenterMaskin, DC-NAS:n ja Efficient Net + NAS-FPN:n käyttöönoton myötä. Lopuksi, vuonna 2023, meillä on SAM, josta keskustelemme seuraavaksi.

Segment Anything Model (SAM) – yleiskäyttöinen kuvan segmentointi

- Segmentoi kaikki malli (SAM) on uusi lähestymistapa, joka voi suorittaa interaktiivisia ja automaattisia segmentointitehtäviä yhdessä mallissa. Aikaisemmin interaktiivinen segmentointi salli minkä tahansa objektiluokan segmentoinnin, mutta vaati henkilön ohjaamaan menetelmää iteratiivisesti tarkentamalla maskia.

Automaattinen segmentointi SAM:ssa mahdollistaa tiettyjen ennalta määriteltyjen objektiluokkien segmentoinnin. Sen mainostettava käyttöliittymä tekee siitä erittäin joustavan. Tämän seurauksena SAM voi käsitellä monenlaisia ​​segmentointitehtäviä käyttämällä sopivaa kehotetta, kuten napsautuksia, laatikoita, tekstiä ja paljon muuta.

SAM on koulutettu yli 1 miljardin maskin monipuoliseen ja oivaltavaan tietojoukkoon, mikä mahdollistaa uusien kohteiden ja kuvien tunnistamisen, joita ei ole saatavilla koulutussarja. Tämä moderni kehys mullistaa laajasti CV-malleja hakemuksissa kuten itseajavat autot, turvallisuus ja lisätty todellisuus.

SAM voi havaita ja segmentoida auton ympärillä olevia esineitä itseajavissa autoissa, kuten muut ajoneuvot, jalankulkijat ja liikennemerkit. Lisätyssä todellisuudessa SAM voi segmentoida reaalimaailman ympäristön sijoittaakseen virtuaalikohteita sopiviin paikkoihin, mikä luo realistisemman ja kiinnostavamman käyttökokemuksen.

Kuvan segmentoinnin haasteet vuonna 2023

Myös lisääntyvä kuvasegmentoinnin tutkimus- ja kehitystyö tuo merkittäviä haasteita. Jotkut tärkeimmistä kuvien segmentoinnin haasteista vuonna 2023 ovat seuraavat:

  • Tietojoukkojen monimutkaistuminen, erityisesti 3D-kuvan segmentoinnissa
  • Tulkittavien syvämallien kehittäminen
  • Valvomattomien oppimismallien käyttö, joka minimoi ihmisen puuttumisen
  • Reaaliaikaisten ja muistitehokkaiden mallien tarve
  • 3D-pistepilvisegmentoinnin pullonkaulojen poistaminen

Computer Vision tulevaisuus

Maailmanlaajuinen tietokoneen visio markkinat vaikuttavat useisiin toimialoihin ja niiden ennustetaan ylittävän $ 41 miljardia 2030Nykyaikaiset kuvan segmentointitekniikat, kuten Segment Anything Model, yhdistettynä muihin syväoppimisalgoritmeihin, vahvistavat entisestään konenäön rakennetta digitaalisessa maisemassa. Siksi tulemme tulevaisuudessa näkemään entistä vankempia konenäön malleja ja älykkäitä sovelluksia.

Saat lisätietoja tekoälystä ja ML:stä tutustumalla Unite.ai – keskitetty ratkaisusi kaikkiin tekniikkaa ja sen nykyaikaista tilaa koskeviin kysymyksiin.