AI 101

Kas ir datorredze?

Atjaunināts on Jūlijs 21, 2023

Kas ir datorredze?

Datorredzes algoritmi šobrīd ir viena no transformatīvākajām un jaudīgākajām mākslīgā intelekta sistēmām pasaulē. Datorredzes sistēmas skatiet izmantošanu autonomos transportlīdzekļos, robotu navigācijā, sejas atpazīšanas sistēmās un citos. Tomēr kādi tieši ir datorredzes algoritmi? Kā viņi strādā? Lai atbildētu uz šiem jautājumiem, mēs iedziļināsimies datorredzes teorijā, datorredzes algoritmos un datorredzes sistēmu lietojumos.

Kā darbojas datorredzes sistēmas?

Lai pilnībā novērtētu, kā darbojas datorredzes sistēmas, vispirms veltīsim laiku, lai apspriestu, kā cilvēki atpazīst objektus. Labākais neiropsiholoģijas skaidrojums tam, kā mēs atpazīstam objektus, ir modelis, kas apraksta sākuma fāzi objektu atpazīšana kā tādu, kurā smadzenes vispirms interpretē objektu pamatkomponentus, piemēram, formu, krāsu un dziļumu. Signāli no acs, kas nonāk smadzenēs, tiek analizēti, lai vispirms izvilktu objekta malas, un šīs malas tiek savienotas kopā sarežģītākā attēlojumā, kas pabeidz objekta formu.

Datorredzes sistēmas darbojas ļoti līdzīgi cilvēka vizuālajai sistēmai, vispirms atpazīstot objekta malas un pēc tam savienojot šīs malas kopā objekta formā. Lielā atšķirība ir tā, ka, tā kā datori attēlus interpretē kā skaitļus, datora redzes sistēmai ir nepieciešams veids, kā interpretēt atsevišķus pikseļus, kas veido attēlu. Datorredzes sistēma piešķirs vērtības attēla pikseļiem, un, pārbaudot vērtību atšķirību starp vienu pikseļu reģionu un citu pikseļu reģionu, dators var saskatīt malas. Piemēram, ja attiecīgais attēls ir pelēktoņu, vērtības būs no melnas (attēlo 0) līdz baltai (attēlo ar 255). Pēkšņas izmaiņas pikseļu vērtību diapazonā, kas atrodas tuvu viens otram, norāda uz malu.

Šo pikseļu vērtību salīdzināšanas pamatprincipu var veikt arī ar krāsainiem attēliem, datoram salīdzinot atšķirības starp dažādiem RGB krāsu kanāliem. Tātad, zinot, ka mēs zinām, kā datorredzes sistēma pārbauda pikseļu vērtības, lai interpretētu attēlu, apskatīsim datorredzes sistēmas arhitektūru.

Konvolucionālie neironu tīkli (CNN)

Galvenais AI veids, ko izmanto datorredzes uzdevumos, ir viens pamatojoties uz konvolucionālajiem neironu tīkliem. Kas īsti ir konvolūcija?

Konvolūcijas ir matemātiski procesi, ko tīkls izmanto, lai noteiktu pikseļu vērtību atšķirību. Ja iztēlojaties pikseļu vērtību režģi, iedomājieties, ka pār šo galveno režģi tiek pārvietots mazāks režģis. Tīkls analizē vērtības zem otrā režģa, tāpēc tīkls vienlaikus pārbauda tikai nedaudzus pikseļus. To bieži sauc par "bīdāmo logu" tehniku. Bīdāmajā logā analizētās vērtības tiek apkopotas tīklā, kas palīdz samazināt attēla sarežģītību un tīklam atvieglo modeļu izņemšanu.

Konvolūcijas neironu tīkli ir sadalīts divās dažādās sadaļās, konvolūcijas sekcija un pilnībā savienotā sadaļa. Tīkla konvolucionālie slāņi ir iezīmju ekstraktori, kuru uzdevums ir analizēt attēla pikseļus un veidot to attēlojumus, no kuriem neironu tīkla blīvi saistītie slāņi var mācīties modeļus. Konvolūcijas slāņi sākas, tikai pārbaudot pikseļus un iegūstot attēla zema līmeņa iezīmes, piemēram, malas. Vēlāk konvolucionālie slāņi savieno malas sarežģītākās formās. Cerams, ka līdz beigām tīklam būs attēla malu un detaļu attēlojums, ko tas var nodot pilnībā savienotajiem slāņiem.

Attēla anotācija

Lai gan konvolucionālais neironu tīkls pats var iegūt modeļus no attēliem, datorredzes sistēmas precizitāti var ievērojami uzlabot, anotējot attēlus. Attēla anotācija ir metadatu pievienošanas process attēlam, kas palīdz klasifikatoram noteikt attēlā svarīgus objektus. Attēla anotācijas izmantošana ir svarīga ikreiz, kad datorredzes sistēmām ir jābūt ļoti precīzām, piemēram, kad tiek vadīts autonoms transportlīdzeklis vai robots.

Ir dažādi veidi, kā attēlus var anotēt, lai uzlabotu datora redzes klasifikatora veiktspēju. Attēla anotācija bieži tiek veikta, izmantojot ierobežojošos lodziņus, kas ieskauj mērķa objekta malas un liek datoram koncentrēt uzmanību lodziņā. Semantiskā segmentācija ir vēl viens attēla anotācijas veids, kas darbojas, katram attēla pikselim piešķirot attēla klasi. Citiem vārdiem sakot, katrs pikselis, ko varētu uzskatīt par "zāli" vai "kokiem", tiks marķēts kā piederīgs šīm klasēm. Šis paņēmiens nodrošina pikseļu līmeņa precizitāti, taču semantiskās segmentācijas anotāciju izveide ir sarežģītāka un laikietilpīgāka nekā vienkāršu ierobežojošo lodziņu izveide. Pastāv arī citas anotācijas metodes, piemēram, līnijas un punkti.

Nākošais

Kas ir apjukuma matrica?

Nepalaidiet garām

Kas ir neironu tīkli?

Daniels Nelsons

Emuāru autors un programmētājs ar specialitātēm Mašīnu mācīšana un Dziļa mācīšanās tēmas. Daniels cer palīdzēt citiem izmantot mākslīgā intelekta spēku sociālā labuma gūšanai.