AI 101

Hva er datasyn?

oppdatert on Juli 21, 2023

Hva er datasyn?

Datasynsalgoritmer er et av de mest transformative og kraftige AI-systemene i verden for øyeblikket. Datasynssystemer se bruk i autonome kjøretøy, robotnavigasjon, ansiktsgjenkjenningssystemer og mer. Men hva er datasynsalgoritmer egentlig? Hvordan fungerer de? For å svare på disse spørsmålene, vil vi dykke dypt inn i teorien bak datasyn, datasynsalgoritmer og applikasjoner for datasynssystemer.

Hvordan fungerer datasynssystemer?

For å fullt ut forstå hvordan datasynssystemer fungerer, la oss først ta et øyeblikk for å diskutere hvordan mennesker gjenkjenner objekter. Den beste forklaringen nevropsykologien har på hvordan vi gjenkjenner objekter er en modell som beskriver startfasen av objektgjenkjenning som en der de grunnleggende komponentene til objekter, som form, farge og dybde, tolkes av hjernen først. Signalene fra øyet som kommer inn i hjernen blir analysert for å trekke ut kantene på et objekt først, og disse kantene blir satt sammen til en mer kompleks representasjon som kompletterer objektets form.

Datasynssystemer fungerer veldig likt det menneskelige visuelle systemet, ved først å skjelne kantene på et objekt og deretter koble disse kantene sammen til objektets form. Den store forskjellen er at fordi datamaskiner tolker bilder som tall, trenger et datasynssystem en måte å tolke de individuelle pikslene som utgjør bildet. Datamaskinsynssystemet vil tilordne verdier til pikslene i bildet, og ved å undersøke forskjellen i verdier mellom ett område med piksler og et annet område med piksler, kan datamaskinen skjelne kanter. For eksempel, hvis det aktuelle bildet er gråtoner, vil verdiene variere fra svart (representert med 0) til hvitt (representert av 255). En plutselig endring i verdiområdet til piksler nær hverandre vil indikere en kant.

Dette grunnleggende prinsippet for å sammenligne pikselverdier kan også gjøres med fargede bilder, med datamaskinen som sammenligner forskjeller mellom de forskjellige RGB-fargekanalene. Så vit at vi vet hvordan et datasynssystem undersøker pikselverdier for å tolke et bilde, la oss ta en titt på arkitekturen til et datasynssystem.

Konvolusjonelle nevrale nettverk (CNN)

Den primære typen AI som brukes i datasynsoppgaver er en basert på konvolusjonelle nevrale nettverk. Hva er en konvolusjon egentlig?

Konvolusjoner er matematiske prosesser nettverket bruker for å bestemme forskjellen i verdier mellom piksler. Hvis du ser for deg et rutenett med pikselverdier, se for deg at et mindre rutenett flyttes over dette hovednettet. Verdiene under det andre rutenettet blir analysert av nettverket, så nettverket undersøker bare en håndfull piksler om gangen. Dette kalles ofte "skyvevinduer"-teknikken. Verdiene som analyseres av skyvevinduet oppsummeres av nettverket, noe som bidrar til å redusere kompleksiteten til bildet og gjøre det lettere for nettverket å trekke ut mønstre.

Konvolusjonelle nevrale nettverk er delt inn i to ulike seksjoner, konvolusjonsseksjonen og den fullt tilkoblede seksjonen. Konvolusjonslagene i nettverket er funksjonsekstraktorene, hvis jobb er å analysere pikslene i bildet og danne representasjoner av dem som de tett sammenkoblede lagene i det nevrale nettverket kan lære mønstre av. Konvolusjonslagene starter med å bare undersøke pikslene og trekke ut funksjonene på lavt nivå i bildet som kanter. Senere konvolusjonslag binder kantene sammen til mer komplekse former. Mot slutten vil nettverket forhåpentligvis ha en representasjon av kantene og detaljene til bildet som det kan overføre til de fullt tilkoblede lagene.

Bildekommentar

Mens et konvolusjonelt nevralt nettverk kan trekke ut mønstre fra bilder av seg selv, kan nøyaktigheten til datasynssystemet forbedres betydelig ved å kommentere bildene. Bildekommentar er prosessen med å legge til metadata til bildet som hjelper klassifisereren med å oppdage viktige objekter i bildet. Bruken av bildekommentarer er viktig når datasynssystemer må være svært nøyaktige, for eksempel når du kontrollerer et autonomt kjøretøy eller robot.

Det er forskjellige måter bilder kan kommenteres for å forbedre ytelsen til en datasynsklassifiserer. Bildekommentarer gjøres ofte med avgrensende bokser, en boks som omgir kantene på målobjektet og ber datamaskinen fokusere oppmerksomheten innenfor boksen. Semantisk segmentering er en annen type bildekommentar, som fungerer ved å tilordne en bildeklasse til hver piksel i et bilde. Med andre ord, hver piksel som kan betraktes som "gress" eller "trær" vil bli merket som tilhørende disse klassene. Teknikken gir presisjon på pikselnivå, men å lage semantiske segmenteringsmerknader er mer komplekst og tidkrevende enn å lage enkle avgrensningsbokser. Andre merknadsmetoder, som linjer og punkter, finnes også.

Neste

Hva er en forvirringsmatrise?

Ikke gå glipp av

Hva er nevrale nettverk?

Daniel Nelson

Blogger og programmerer med spesialiteter innen Maskinlæring og Dyp læring emner. Daniel håper å hjelpe andre å bruke kraften til AI til sosialt gode.