AI 101

Ce este Computer Vision?

Actualizat on Iulie 21, 2023

Ce este Computer Vision?

Algoritmii de viziune computerizată sunt unul dintre cele mai transformatoare și puternice sisteme AI din lume, în acest moment. Sisteme de viziune computerizată vezi utilizarea în vehicule autonome, navigație robot, sisteme de recunoaștere facială și multe altele. Totuși, ce sunt exact algoritmii de viziune computerizată? Cum funcționează? Pentru a răspunde la aceste întrebări, ne vom aprofunda în teoria din spatele vederii computerizate, a algoritmilor de viziune computerizată și a aplicațiilor pentru sistemele de viziune computerizată.

Cum funcționează sistemele de viziune computerizată?

Pentru a aprecia pe deplin modul în care funcționează sistemele de viziune computerizată, să luăm mai întâi un moment pentru a discuta despre modul în care oamenii recunosc obiectele. Cea mai bună explicație pe care o are neuropsihologia pentru modul în care recunoaștem obiectele este un model care descrie faza inițială a recunoașterea obiectelor ca unul în care componentele de bază ale obiectelor, cum ar fi forma, culoarea și adâncimea, sunt interpretate mai întâi de creier. Semnalele de la ochi care intră în creier sunt analizate pentru a scoate mai întâi marginile unui obiect, iar aceste margini sunt unite într-o reprezentare mai complexă care completează forma obiectului.

Sistemele de viziune computerizată funcționează foarte similar cu sistemul vizual uman, discernând mai întâi marginile unui obiect și apoi unind aceste margini împreună în forma obiectului. Marea diferență este că, deoarece computerele interpretează imaginile ca numere, un sistem de viziune computerizată are nevoie de o modalitate de a interpreta pixelii individuali care compun imaginea. Sistemul de viziune computerizată va atribui valori pixelilor din imagine și examinând diferența de valori dintre o regiune de pixeli și o altă regiune de pixeli, computerul poate discerne marginile. De exemplu, dacă imaginea în cauză este în tonuri de gri, atunci valorile vor varia de la negru (reprezentat cu 0) la alb (reprezentat cu 255). O schimbare bruscă a intervalului de valori ale pixelilor unul lângă altul va indica o margine.

Acest principiu de bază al comparării valorilor pixelilor se poate face și cu imagini colorate, computerul comparând diferențele dintre diferitele canale de culoare RGB. Așa că știți că știm cum un sistem de viziune computerizată examinează valorile pixelilor pentru a interpreta o imagine, să aruncăm o privire asupra arhitecturii unui sistem de viziune computerizată.

Rețele neuronale convoluționale (CNN)

Tipul principal de IA utilizat în sarcinile de viziune pe computer este unul bazate pe rețele neuronale convoluționale. Ce este mai exact o convoluție?

Convoluțiile sunt procese matematice pe care le utilizează rețeaua pentru a determina diferența de valori între pixeli. Dacă vă imaginați o grilă de valori de pixeli, imaginați-vă o grilă mai mică mutată peste această grilă principală. Valorile de sub a doua grilă sunt analizate de rețea, astfel încât rețeaua examinează doar câțiva pixeli odată. Aceasta este adesea numită tehnica „ferestre glisante”. Valorile analizate de fereastra glisantă sunt rezumate de rețea, ceea ce ajută la reducerea complexității imaginii și facilitează extragerea modelelor de către rețea.

Rețelele neuronale convoluționale sunt împărțit în două secțiuni diferite, secțiunea convoluțională și secțiunea complet conectată. Straturile convoluționale ale rețelei sunt extractoare de caracteristici, a căror sarcină este să analizeze pixelii din imagine și să formeze reprezentări ale acestora din care straturile dens conectate ale rețelei neuronale pot învăța modele. Straturile convoluționale încep doar prin a examina pixelii și a extrage caracteristicile de nivel scăzut ale imaginii, cum ar fi marginile. Straturile convoluționale ulterioare unesc marginile împreună în forme mai complexe. Până la sfârșit, rețeaua va avea, sperăm, o reprezentare a marginilor și detaliile imaginii pe care le poate trece la straturile complet conectate.

Adnotarea imaginii

În timp ce o rețea neuronală convoluțională poate extrage singura modele din imagini, precizia sistemului de viziune computerizată poate fi mult îmbunătățită prin adnotarea imaginilor. Adnotare imagine este procesul de adăugare a metadatelor la imagine care ajută clasificatorul în detectarea obiectelor importante din imagine. Utilizarea adnotărilor de imagine este importantă ori de câte ori sistemele de viziune computerizată trebuie să fie foarte precise, cum ar fi atunci când controlați un vehicul autonom sau un robot.

Există diferite moduri prin care imaginile pot fi adnotate pentru a îmbunătăți performanța unui clasificator de viziune computerizată. Adnotarea imaginii se face adesea cu casete de delimitare, o casetă care înconjoară marginile obiectului țintă și îi spune computerului să-și concentreze atenția în cutie. Segmentarea semantică este un alt tip de adnotare a imaginii, care operează prin atribuirea unei clase de imagine fiecărui pixel dintr-o imagine. Cu alte cuvinte, fiecare pixel care ar putea fi considerat „iarbă” sau „copaci” va fi etichetat ca aparținând acelor clase. Tehnica oferă precizie la nivel de pixel, dar crearea de adnotări de segmentare semantică este mai complexă și consumatoare de timp decât crearea unor casete de delimitare simple. Există și alte metode de adnotare, cum ar fi liniile și punctele.

Urmeaza

Ce este o matrice de confuzie?

Nu ratați

Ce sunt rețelele neuronale?

Daniel Nelson

Blogger și programator cu specialități în Invatare mecanica și Invatare profunda subiecte. Daniel speră să-i ajute pe alții să folosească puterea AI pentru binele social.