stub Segment Anything Model – Computer Vision får et massivt løft – Unite.AI
Kontakt med oss

Kunstig intelligens

Segmenter alt-modellen – Datasyn får et enormt løft

mm

Publisert

 on

Et nærbilde av et mannlig ansikt med pekere for ansiktsgjenkjenning.

Datasyn (CV) har nådd 99 % nøyaktighet fra 50 % innen 10 år. Teknologien forventes å forbedres ytterligere til et enestående nivå med moderne algoritmer og bildesegmenteringsteknikker. Nylig har Metas FAIR-lab gitt ut Segment Anything Model (SAM) – en spillskifter innen bildesegmentering. Denne avanserte modellen kan produsere detaljerte objektmasker fra inndatameldinger, og tar datasyn til nye høyder. Det kan potensielt revolusjonere hvordan vi samhandler med digital teknologi i denne epoken.

La oss utforske bildesegmentering og kort avdekke hvordan SAM påvirker datasyn.

Hva er bildesegmentering og hva er dets typer?

Bildesegmentering er en prosess i datasyn som deler et bilde inn i flere regioner eller segmenter, som hver representerer et annet objekt eller område av bildet. Denne tilnærmingen lar eksperter isolere spesifikke deler av et bilde for å få meningsfull innsikt.

Bildesegmenteringsmodeller er opplært til å forbedre utdata ved å gjenkjenne viktige bildedetaljer og redusere kompleksiteten. Disse algoritmene skiller effektivt mellom ulike områder av et bilde basert på funksjoner som farge, tekstur, kontrast, skygger og kanter.

Ved å segmentere et bilde kan vi fokusere analysen vår på regionene av interesse for å få innsiktsfulle detaljer. Nedenfor er forskjellige bildesegmenteringsteknikker.

  • Semantisk segmentering innebærer å merke piksler i semantiske klasser.
  • Instanssegmentering går videre ved å oppdage og avgrense hvert objekt i et bilde.
  • Panoptisk segmentering tildeler unike forekomst-ID-er til individuelle objektpiksler, noe som resulterer i mer omfattende og kontekstuell merking av alle objekter i et bilde.

Segmentering implementeres ved hjelp av bildebaserte dyplæringsmodeller. Disse modellene henter alle verdifulle datapunkter og funksjoner fra treningssettet. Gjør deretter disse dataene til vektorer og matriser for å forstå komplekse funksjoner. Noen av de mye brukte dyplæringsmodellene bak bildesegmentering er:

  • Konvolusjonelle nevrale nettverk (CNN)
  • Fullt tilkoblede nettverk (FCN)
  • Tilbakevendende nevrale nettverk (RNN)

Hvordan fungerer bildesegmentering?

In datasyn, består de fleste bildesegmenteringsmodeller av et koder-dekoder-nettverk. Koderen koder en latent romrepresentasjon av inngangsdataene som dekoderen dekoder for å danne segmentkart, eller med andre ord, kart som skisserer hvert objekts plassering i bildet.

Vanligvis består segmenteringsprosessen av 3 stadier:

  • En bildekoder som transformerer inngangsbildet til en matematisk modell (vektorer og matriser) for prosessering.
  • Koderen aggregerer vektorene på flere nivåer.
  • En rask maskedekoder tar bildeinnbyggingene som input og produserer en maske som skisserer forskjellige objekter i bildet separat.

Status for bildesegmentering

Fra og med 2014 dukket det opp en bølge av dyplæringsbaserte segmenteringsalgoritmer, som CNN+CRF og FCN, som gjorde betydelige fremskritt på feltet. I 2015 så fremveksten av U-Net og Deconvolution Network, noe som forbedret nøyaktigheten til segmenteringsresultatene.

Så i 2016 forbedret Instance Aware Segmentation, V-Net og RefineNet nøyaktigheten og hastigheten på segmenteringen ytterligere. I 2017 introduserte Mark-RCNN og FC-DenseNet objektdeteksjon og tett prediksjon for segmenteringsoppgaver.

I 2018 var Panoptic Segmentation, Mask-Lab og Context Encoding Networks i sentrum av scenen da disse tilnærmingene adresserte behovet for segmentering på instansnivå. I 2019 introduserte Panoptic FPN, HRNet og Criss-Cross Attention nye tilnærminger for segmentering på forekomstnivå.

I 2020 fortsatte trenden med introduksjonen av Detecto RS, Panoptic DeepLab, PolarMask, CenterMask, DC-NAS og Efficient Net + NAS-FPN. Endelig, i 2023, har vi SAM, som vi skal diskutere videre.

Segment Anything Model (SAM) – Generell bildesegmentering

De Segment Anything Model (SAM) er en ny tilnærming som kan utføre interaktive og automatiske segmenteringsoppgaver i en enkelt modell. Tidligere tillot interaktiv segmentering å segmentere en hvilken som helst objektklasse, men krevde at en person veiledet metoden ved å iterativt avgrense en maske.

Automatisk segmentering i SAM tillater segmentering av spesifikke objektkategorier definert på forhånd. Det promoterbare grensesnittet gjør det svært fleksibelt. Som et resultat kan SAM adressere et bredt spekter av segmenteringsoppgaver ved å bruke en passende ledetekst, for eksempel klikk, bokser, tekst og mer.

SAM er trent på et mangfoldig og innsiktsfullt datasett med over 1 milliard masker, noe som gjør det mulig å gjenkjenne nye objekter og bilder som ikke er tilgjengelige i treningssett. Dette moderne rammeverket vil i stor grad revolusjonere CV-modeller i søknader som selvkjørende biler, sikkerhet og utvidet virkelighet.

SAM kan oppdage og segmentere objekter rundt bilen i selvkjørende biler, for eksempel andre kjøretøy, fotgjengere og trafikkskilt. I utvidet virkelighet kan SAM segmentere det virkelige miljøet for å plassere virtuelle objekter på passende steder, og skape en mer realistisk og engasjerende brukeropplevelse.

Bildesegmenteringsutfordringer i 2023

Den økende forskningen og utviklingen innen bildesegmentering gir også betydelige utfordringer. Noen av de fremste bildesegmenteringsutfordringene i 2023 inkluderer følgende:

  • Den økende kompleksiteten til datasett, spesielt for 3D-bildesegmentering
  • Utviklingen av tolkbare dype modeller
  • Bruk av uovervåket læringsmodeller som minimerer menneskelig intervensjon
  • Behovet for sanntids- og minneeffektive modeller
  • Eliminerer flaskehalsene ved 3D-punktskysegmentering

Fremtiden til datasyn

Den globale datasyn markedet påvirker flere bransjer og forventes å nå over $ 41 milliarder 2030. Moderne bildesegmenteringsteknikker som Segment Anything Model kombinert med andre dyplæringsalgoritmer vil ytterligere styrke stoffet til datasyn i det digitale landskapet. Derfor vil vi se mer robuste datasynsmodeller og intelligente applikasjoner i fremtiden.

For å lære mer om AI og ML, utforsk Unite.ai – din one-stop-løsning for alle spørsmål om teknologi og dens moderne tilstand.