Kunstig intelligens

Segmenter alt-modellen – Datasyn får et enormt løft

Publisert

1 år siden

Kan 5, 2023

Et nærbilde av et mannlig ansikt med pekere for ansiktsgjenkjenning.

Datasyn (CV) har nådd 99 % nøyaktighet fra 50 % innen 10 år. Teknologien forventes å forbedres ytterligere til et enestående nivå med moderne algoritmer og bildesegmenteringsteknikker. Nylig har Metas FAIR-lab gitt ut Segment Anything Model (SAM) – en spillskifter innen bildesegmentering. Denne avanserte modellen kan produsere detaljerte objektmasker fra inndatameldinger, og tar datasyn til nye høyder. Det kan potensielt revolusjonere hvordan vi samhandler med digital teknologi i denne epoken.

La oss utforske bildesegmentering og kort avdekke hvordan SAM påvirker datasyn.

Hva er bildesegmentering og hva er dets typer?

Bildesegmentering er en prosess i datasyn som deler et bilde inn i flere regioner eller segmenter, som hver representerer et annet objekt eller område av bildet. Denne tilnærmingen lar eksperter isolere spesifikke deler av et bilde for å få meningsfull innsikt.

Bildesegmenteringsmodeller er opplært til å forbedre utdata ved å gjenkjenne viktige bildedetaljer og redusere kompleksiteten. Disse algoritmene skiller effektivt mellom ulike områder av et bilde basert på funksjoner som farge, tekstur, kontrast, skygger og kanter.

Ved å segmentere et bilde kan vi fokusere analysen vår på regionene av interesse for å få innsiktsfulle detaljer. Nedenfor er forskjellige bildesegmenteringsteknikker.

Semantisk segmentering innebærer å merke piksler i semantiske klasser.
Instanssegmentering går videre ved å oppdage og avgrense hvert objekt i et bilde.
Panoptisk segmentering tildeler unike forekomst-ID-er til individuelle objektpiksler, noe som resulterer i mer omfattende og kontekstuell merking av alle objekter i et bilde.

Segmentering implementeres ved hjelp av bildebaserte dyplæringsmodeller. Disse modellene henter alle verdifulle datapunkter og funksjoner fra treningssettet. Gjør deretter disse dataene til vektorer og matriser for å forstå komplekse funksjoner. Noen av de mye brukte dyplæringsmodellene bak bildesegmentering er:

Konvolusjonelle nevrale nettverk (CNN)
Fullt tilkoblede nettverk (FCN)
Tilbakevendende nevrale nettverk (RNN)

Hvordan fungerer bildesegmentering?

In datasyn, består de fleste bildesegmenteringsmodeller av et koder-dekoder-nettverk. Koderen koder en latent romrepresentasjon av inngangsdataene som dekoderen dekoder for å danne segmentkart, eller med andre ord, kart som skisserer hvert objekts plassering i bildet.

Vanligvis består segmenteringsprosessen av 3 stadier:

En bildekoder som transformerer inngangsbildet til en matematisk modell (vektorer og matriser) for prosessering.
Koderen aggregerer vektorene på flere nivåer.
En rask maskedekoder tar bildeinnbyggingene som input og produserer en maske som skisserer forskjellige objekter i bildet separat.

Status for bildesegmentering

Fra og med 2014 dukket det opp en bølge av dyplæringsbaserte segmenteringsalgoritmer, som CNN+CRF og FCN, som gjorde betydelige fremskritt på feltet. I 2015 så fremveksten av U-Net og Deconvolution Network, noe som forbedret nøyaktigheten til segmenteringsresultatene.

Så i 2016 forbedret Instance Aware Segmentation, V-Net og RefineNet nøyaktigheten og hastigheten på segmenteringen ytterligere. I 2017 introduserte Mark-RCNN og FC-DenseNet objektdeteksjon og tett prediksjon for segmenteringsoppgaver.

I 2018 var Panoptic Segmentation, Mask-Lab og Context Encoding Networks i sentrum av scenen da disse tilnærmingene adresserte behovet for segmentering på instansnivå. I 2019 introduserte Panoptic FPN, HRNet og Criss-Cross Attention nye tilnærminger for segmentering på forekomstnivå.

I 2020 fortsatte trenden med introduksjonen av Detecto RS, Panoptic DeepLab, PolarMask, CenterMask, DC-NAS og Efficient Net + NAS-FPN. Endelig, i 2023, har vi SAM, som vi skal diskutere videre.

Segment Anything Model (SAM) – Generell bildesegmentering

En illustrasjon av segmenter alt modell arkitektur

Bildekilde

De Segment Anything Model (SAM) er en ny tilnærming som kan utføre interaktive og automatiske segmenteringsoppgaver i en enkelt modell. Tidligere tillot interaktiv segmentering å segmentere en hvilken som helst objektklasse, men krevde at en person veiledet metoden ved å iterativt avgrense en maske.

Automatisk segmentering i SAM tillater segmentering av spesifikke objektkategorier definert på forhånd. Det promoterbare grensesnittet gjør det svært fleksibelt. Som et resultat kan SAM adressere et bredt spekter av segmenteringsoppgaver ved å bruke en passende ledetekst, for eksempel klikk, bokser, tekst og mer.

SAM er trent på et mangfoldig og innsiktsfullt datasett med over 1 milliard masker, noe som gjør det mulig å gjenkjenne nye objekter og bilder som ikke er tilgjengelige i treningssett. Dette moderne rammeverket vil i stor grad revolusjonere CV-modeller i søknader som selvkjørende biler, sikkerhet og utvidet virkelighet.

SAM kan oppdage og segmentere objekter rundt bilen i selvkjørende biler, for eksempel andre kjøretøy, fotgjengere og trafikkskilt. I utvidet virkelighet kan SAM segmentere det virkelige miljøet for å plassere virtuelle objekter på passende steder, og skape en mer realistisk og engasjerende brukeropplevelse.

Bildesegmenteringsutfordringer i 2023

Den økende forskningen og utviklingen innen bildesegmentering gir også betydelige utfordringer. Noen av de fremste bildesegmenteringsutfordringene i 2023 inkluderer følgende:

Den økende kompleksiteten til datasett, spesielt for 3D-bildesegmentering
Utviklingen av tolkbare dype modeller
Bruk av uovervåket læringsmodeller som minimerer menneskelig intervensjon
Behovet for sanntids- og minneeffektive modeller
Eliminerer flaskehalsene ved 3D-punktskysegmentering

Fremtiden til datasyn

Den globale datasyn markedet påvirker flere bransjer og forventes å nå over $ 41 milliarder 2030. Moderne bildesegmenteringsteknikker som Segment Anything Model kombinert med andre dyplæringsalgoritmer vil ytterligere styrke stoffet til datasyn i det digitale landskapet. Derfor vil vi se mer robuste datasynsmodeller og intelligente applikasjoner i fremtiden.

For å lære mer om AI og ML, utforsk Unite.ai – din one-stop-løsning for alle spørsmål om teknologi og dens moderne tilstand.