stubbur Hvað er tölvusjón? - Unite.AI
Tengja við okkur

AI 101

Hvað er tölvusjón?

mm
Uppfært on

Hvað er tölvusjón?

Reiknirit fyrir tölvusjón eru eitt umbreytilegasta og öflugasta gervigreindarkerfi í heiminum um þessar mundir. Tölvusjónkerfi sjá notkun í sjálfstýrðum ökutækjum, vélmennaleiðsögn, andlitsgreiningarkerfi og fleira. Hins vegar, hvað eru reiknirit fyrir tölvusjón nákvæmlega? Hvernig virka þau? Til að svara þessum spurningum munum við kafa djúpt í kenninguna á bak við tölvusjón, reiknirit fyrir tölvusjón og forrit fyrir tölvusjónkerfi.

Hvernig virka tölvusjónkerfi?

Til þess að gera okkur fulla grein fyrir því hvernig tölvusjónkerfi virka skulum við fyrst taka smá stund til að ræða hvernig menn þekkja hluti. Besta skýringin sem taugasálfræði hefur á því hvernig við þekkjum hluti er líkan sem lýsir upphafsstigi mótmæla viðurkenningu sem þar sem grunnþættir hlutar, eins og form, litur og dýpt, eru fyrst túlkaðir af heilanum. Merkin frá auga sem koma inn í heilann eru greind til að draga út brúnir hlutar fyrst, og þessar brúnir eru tengdar saman í flóknari framsetningu sem lýkur form hlutarins.

Tölvusjónkerfi starfa mjög svipað og sjónkerfi mannsins, með því að greina fyrst brúnir hlutar og tengja síðan þessar brúnir saman í form hlutarins. Stóri munurinn er sá að vegna þess að tölvur túlka myndir sem tölur þarf tölvusjónkerfi einhverja leið til að túlka einstaka punkta sem mynda myndina. Tölvusjónkerfið mun úthluta gildum fyrir punktana á myndinni og með því að skoða muninn á gildum á milli svæðis punkta og annars svæðis punkta getur tölvan greint brúnir. Til dæmis, ef myndin sem um ræðir er grátóna, þá munu gildin vera á bilinu svörtu (táknað með 0) til hvíts (táknað með 255). Skyndileg breyting á gildissviði punkta nálægt hvor öðrum mun gefa til kynna brún.

Þessi grundvallarregla að bera saman pixlagildi er einnig hægt að gera með lituðum myndum, þar sem tölvan ber saman mun á mismunandi RGB litarásum. Svo veistu að við vitum hvernig tölvusjónkerfi skoðar pixlagildi til að túlka mynd, við skulum kíkja á arkitektúr tölvusjónkerfis.

Convolutional Neural Networks (CNN)

Aðal tegund gervigreindar sem notuð er í tölvusjónverkefnum er ein byggt á snúnings tauganetum. Hvað er snúningur nákvæmlega?

Snúningur eru stærðfræðilegir ferlar sem netið notar til að ákvarða muninn á gildum milli pixla. Ef þú sérð fyrir þér hnitanet með pixlagildum skaltu sjá fyrir þér að minna rist sé fært yfir þetta aðalnet. Verið er að greina gildin undir öðru ristinni af netinu, þannig að netið er aðeins að skoða handfylli af punktum í einu. Þetta er oft kölluð „rennigluggar“ tæknin. Gildin sem verið er að greina með renniglugganum eru tekin saman af netinu, sem hjálpar til við að draga úr flækjustig myndarinnar og gera það auðveldara fyrir netið að draga út mynstur.

Convolutional tauganet eru skipt í tvo mismunandi hluta, snúningshluti og fulltengdi hluti. Snúningslög netkerfisins eru eiginleikaútdráttartækin, sem hafa það hlutverk að greina pixlana í myndinni og mynda framsetningu þeirra sem þétttengd lög tauganetsins geta lært mynstur af. Snúningslögin byrja á því að skoða pixlana og draga út lágstigs eiginleika myndarinnar eins og brúnir. Síðari sveiflulög tengja brúnirnar saman í flóknari form. Í lokin mun netið vonandi hafa framsetningu á brúnum og smáatriðum myndarinnar sem það getur sent til fulltengdra laga.

Myndaskýring

Þó að snúningstauganet geti dregið mynstur úr myndum af sjálfu sér, er hægt að bæta nákvæmni tölvusjónkerfisins til muna með því að gera athugasemdir við myndirnar. Myndskýring er ferlið við að bæta lýsigögnum við myndina sem aðstoðar flokkarann ​​við að greina mikilvæga hluti í myndinni. Notkun myndskýringa er mikilvæg þegar tölvusjónkerfi þurfa að vera mjög nákvæm, svo sem þegar stjórnað er sjálfstætt ökutæki eða vélmenni.

Það eru ýmsar leiðir sem hægt er að gera athugasemdir við myndir til að bæta árangur tölvusjónflokkunar. Myndskýringar eru oft gerðar með afmarkandi reitum, kassa sem umlykur brúnir markhlutarins og segir tölvunni að einbeita sér að athyglinni innan kassans. Merkingarfræðileg skipting er önnur tegund af myndskýringum, sem virkar með því að úthluta myndaflokki á hvern pixla í mynd. Með öðrum orðum, hver pixla sem gæti talist „gras“ eða „tré“ verður merkt sem tilheyrandi þessum flokkum. Tæknin veitir nákvæmni á pixlastigi, en það er flóknara og tímafrekara að búa til merkingarskilgreiningar en að búa til einfalda afmörkunarkassa. Aðrar skýringaraðferðir, eins og línur og punktar, eru einnig til.

Bloggari og forritari með sérsvið í vél Learning og Deep Learning efni. Daniel vonast til að hjálpa öðrum að nota kraft gervigreindar í félagslegum tilgangi.