stub Segmentera Anything Model – Computer Vision får ett enormt lyft - Unite.AI
Anslut dig till vårt nätverk!

Artificiell intelligens

Segmentera Anything Model – Computer Vision får ett enormt uppsving

mm

publicerade

 on

En närbild av ett manligt ansikte med ansiktsdetekteringspekare.

Datorseende (CV) har nått 99 % noggrannhet från 50 % inom 10 år. Tekniken förväntas förbättras ytterligare till en aldrig tidigare skådad nivå med moderna algoritmer och bildsegmenteringstekniker. Nyligen har Metas FAIR-lab släppt Segmentera Anything Model (SAM) – en spelväxlare inom bildsegmentering. Denna avancerade modell kan producera detaljerade objektmasker från inmatningsuppmaningar, vilket tar datorseendet till nya höjder. Det kan potentiellt revolutionera hur vi interagerar med digital teknik i denna era.

Låt oss utforska bildsegmentering och kortfattat avslöja hur SAM påverkar dator vision.

Vad är bildsegmentering och vilka är dess typer?

Bildsegmentering är en process i datorseende som delar upp en bild i flera regioner eller segment, som var och en representerar ett annat objekt eller område av bilden. Detta tillvägagångssätt tillåter experter att isolera specifika delar av en bild för att få meningsfulla insikter.

Bildsegmenteringsmodeller är tränade för att förbättra resultatet genom att känna igen viktiga bilddetaljer och minska komplexiteten. Dessa algoritmer skiljer effektivt mellan olika delar av en bild baserat på egenskaper som färg, struktur, kontrast, skuggor och kanter.

Genom att segmentera en bild kan vi fokusera vår analys på de intressanta regionerna för insiktsfulla detaljer. Nedan finns olika tekniker för bildsegmentering.

  • Semantisk segmentering innebär märkning av pixlar i semantiska klasser.
  • Instanssegmentering går längre genom att detektera och avgränsa varje objekt i en bild.
  • Panoptisk segmentering tilldelar unika instans-ID:n till enskilda objektpixlar, vilket resulterar i mer omfattande och kontextuell märkning av alla objekt i en bild.

Segmentering implementeras med hjälp av bildbaserade modeller för djupinlärning. Dessa modeller hämtar alla värdefulla datapunkter och funktioner från träningsuppsättningen. Förvandla sedan dessa data till vektorer och matriser för att förstå komplexa egenskaper. Några av de mycket använda modellerna för djupinlärning bakom bildsegmentering är:

  • Convolutional Neural Networks (CNN)
  • Fullt anslutna nätverk (FCN)
  • Återkommande neurala nätverk (RNN)

Hur fungerar bildsegmentering?

In dator vision, består de flesta bildsegmenteringsmodeller av ett encoder-decoder-nätverk. Kodaren kodar en latent rymdrepresentation av indata som avkodaren avkodar för att bilda segmentkartor, eller med andra ord, kartor som beskriver varje objekts läge i bilden.

Vanligtvis består segmenteringsprocessen av tre steg:

  • En bildkodare som omvandlar ingångsbilden till en matematisk modell (vektorer och matriser) för bearbetning.
  • Kodaren aggregerar vektorerna på flera nivåer.
  • En snabb maskavkodare tar bildens inbäddningar som indata och producerar en mask som skisserar olika objekt i bilden separat.

Tillståndet för bildsegmentering

Med start 2014 uppstod en våg av djupinlärningsbaserade segmenteringsalgoritmer, såsom CNN+CRF och FCN, som gjorde betydande framsteg på området. 2015 sågs uppkomsten av U-Net och Deconvolution Network, vilket förbättrade noggrannheten i segmenteringsresultaten.

Sedan 2016 förbättrade Instance Aware Segmentation, V-Net och RefineNet ytterligare noggrannheten och hastigheten på segmenteringen. År 2017 introducerade Mark-RCNN och FC-DenseNet objektdetektering och tät prediktion för segmenteringsuppgifter.

Under 2018 stod Panoptic Segmentation, Mask-Lab och Context Encoding Networks i centrum av scenen eftersom dessa tillvägagångssätt tog sig an behovet av segmentering på instansnivå. 2019 introducerade Panoptic FPN, HRNet och Criss-Cross Attention nya metoder för segmentering på instansnivå.

Under 2020 fortsatte trenden med introduktionen av Detecto RS, Panoptic DeepLab, PolarMask, CenterMask, DC-NAS och Efficient Net + NAS-FPN. Äntligen, 2023, har vi SAM, som vi kommer att diskutera härnäst.

Segment Anything Model (SAM) – Bildsegmentering för allmänna ändamål

Smakämnen Segmentera Anything Model (SAM) är ett nytt tillvägagångssätt som kan utföra interaktiva och automatiska segmenteringsuppgifter i en enda modell. Tidigare tillät interaktiv segmentering segmentering av alla objektklasser men krävde att en person vägledde metoden genom att iterativt förfina en mask.

Automatisk segmentering i SAM tillåter segmentering av specifika objektkategorier definierade i förväg. Dess marknadsföringsbara gränssnitt gör den mycket flexibel. Som ett resultat kan SAM hantera ett brett utbud av segmenteringsuppgifter med hjälp av en lämplig prompt, såsom klick, rutor, text och mer.

SAM är utbildad på en mångsidig och insiktsfull datauppsättning med över 1 miljard masker, vilket gör det möjligt att känna igen nya objekt och bilder som inte är tillgängliga i träningsset. Detta moderna ramverk kommer att revolutionera i stor utsträckning CV-modeller i ansökningar som självkörande bilar, säkerhet och förstärkt verklighet.

SAM kan upptäcka och segmentera föremål runt bilen i självkörande bilar, såsom andra fordon, fotgängare och trafikskyltar. I förstärkt verklighet kan SAM segmentera den verkliga miljön för att placera virtuella objekt på lämpliga platser, vilket skapar en mer realistisk och engagerande UX.

Bildsegmenteringsutmaningar 2023

Den ökande forskningen och utvecklingen inom bildsegmentering medför också betydande utmaningar. Några av de främsta utmaningarna för bildsegmentering under 2023 inkluderar följande:

  • Den ökande komplexiteten hos datamängder, särskilt för 3D-bildsegmentering
  • Utvecklingen av tolkbara djupmodeller
  • Användning av oövervakade inlärningsmodeller som minimerar mänskligt ingripande
  • Behovet av realtids- och minneseffektiva modeller
  • Eliminera flaskhalsarna med 3D-punktmolnsegmentering

Framtiden för datorseende

Den globala dator vision marknaden påverkar flera branscher och förväntas nå över $ 41 miljard vid 2030. Moderna bildsegmenteringstekniker som Segment Anything Model i kombination med andra djupinlärningsalgoritmer kommer att ytterligare stärka datorseendet i det digitala landskapet. Därför kommer vi att se mer robusta datorseende modeller och intelligenta applikationer i framtiden.

För att lära dig mer om AI och ML, utforska Unite.ai – din one-stop-lösning för alla frågor om teknik och dess moderna tillstånd.