IA 101

Què és la visió per ordinador?

actualitzat on Juliol 21, 2023

Què és la visió per ordinador?

Els algorismes de visió per ordinador són un dels sistemes d'IA més transformadors i potents del món, actualment. Sistemes de visió per ordinador veure l'ús en vehicles autònoms, navegació robotitzada, sistemes de reconeixement facial i molt més. Tanmateix, què són exactament els algorismes de visió per ordinador? Com funcionen? Per respondre aquestes preguntes, aprofundirem en la teoria que hi ha darrere de la visió per ordinador, els algorismes de visió per ordinador i les aplicacions per a sistemes de visió per ordinador.

Com funcionen els sistemes de visió per ordinador?

Per tal d'apreciar plenament com funcionen els sistemes de visió per ordinador, primer dediquem un moment a parlar de com els humans reconeixen els objectes. La millor explicació que té la neuropsicologia de com reconeixem els objectes és un model que descriu la fase inicial de reconeixement d'objectes com aquell en què el cervell interpreta primer els components bàsics dels objectes, com ara la forma, el color i la profunditat. Els senyals de l'ull que entren al cervell s'analitzen per treure primer les vores d'un objecte, i aquestes vores s'uneixen en una representació més complexa que completa la forma de l'objecte.

Els sistemes de visió per ordinador funcionen de manera molt semblant al sistema visual humà, discernint primer les vores d'un objecte i després unint aquestes vores en la forma de l'objecte. La gran diferència és que com que els ordinadors interpreten les imatges com a números, un sistema de visió per ordinador necessita alguna manera d'interpretar els píxels individuals que componen la imatge. El sistema de visió per ordinador assignarà valors als píxels de la imatge i examinant la diferència de valors entre una regió de píxels i una altra regió de píxels, l'ordinador pot discernir vores. Per exemple, si la imatge en qüestió és en escala de grisos, els valors aniran des del negre (representat per 0) fins al blanc (representat per 255). Un canvi sobtat en l'interval de valors de píxels a prop els uns dels altres indicarà una vora.

Aquest principi bàsic de comparació de valors de píxels també es pot fer amb imatges en color, amb l'ordinador comparant les diferències entre els diferents canals de color RGB. Així que sabem que sabem com un sistema de visió per ordinador examina els valors de píxels per interpretar una imatge, fem una ullada a l'arquitectura d'un sistema de visió per ordinador.

Xarxes neuronals convolucionals (CNN)

El tipus principal d'IA utilitzat en tasques de visió per ordinador és un basat en xarxes neuronals convolucionals. Què és exactament una circumvolució?

Les convolucions són processos matemàtics que la xarxa utilitza per determinar la diferència de valors entre píxels. Si us imagineu una quadrícula de valors de píxels, imagineu una quadrícula més petita que es mou sobre aquesta quadrícula principal. La xarxa està analitzant els valors de sota de la segona graella, de manera que la xarxa només examina un grapat de píxels alhora. Això sovint s'anomena tècnica de "finestres corredisses". La xarxa resumeix els valors que analitza la finestra lliscant, la qual cosa ajuda a reduir la complexitat de la imatge i facilita que la xarxa pugui extreure patrons.

Les xarxes neuronals convolucionals són dividit en dues seccions diferents, la secció convolucional i la secció totalment connectada. Les capes convolucionals de la xarxa són els extractors de característiques, la feina dels quals és analitzar els píxels de la imatge i formar-ne representacions que les capes densament connectades de la xarxa neuronal puguin aprendre patrons. Les capes convolucionals comencen només examinant els píxels i extreure les característiques de baix nivell de la imatge com les vores. Les capes convolucionals posteriors uneixen les vores en formes més complexes. Al final, s'espera que la xarxa tingui una representació de les vores i detalls de la imatge que pot passar a les capes totalment connectades.

Anotació de la imatge

Tot i que una xarxa neuronal convolucional pot extreure patrons d'imatges per si mateixa, la precisió del sistema de visió per ordinador es pot millorar molt anotant les imatges. Anotació d'imatge és el procés d'afegir metadades a la imatge que ajuda el classificador a detectar objectes importants a la imatge. L'ús de l'anotació d'imatges és important sempre que els sistemes de visió per ordinador necessiten ser molt precisos, com per exemple quan es controla un vehicle autònom o un robot.

Hi ha diverses maneres d'anotar les imatges per millorar el rendiment d'un classificador de visió per ordinador. L'anotació d'imatges sovint es fa amb quadres delimitadors, un quadre que envolta les vores de l'objecte objectiu i diu a l'ordinador que concentri la seva atenció dins del quadre. La segmentació semàntica és un altre tipus d'anotació d'imatge, que funciona assignant una classe d'imatge a cada píxel d'una imatge. En altres paraules, cada píxel que es podria considerar "herba" o "arbres" s'etiquetarà com a pertanyent a aquestes classes. La tècnica proporciona precisió a nivell de píxels, però la creació d'anotacions de segmentació semàntica és més complexa i requereix més temps que crear quadres delimitadors simples. També existeixen altres mètodes d'anotació, com ara línies i punts.

Fins a la propera

Què és una matriu de confusió?

No et perdis

Què són les xarxes neuronals?

Daniel Nelson

Blogger i programador amb especialitats en Aprenentatge automàtic i Aprenentatge profund temes. Daniel espera ajudar els altres a utilitzar el poder de la IA per al bé social.