taló Com funciona la classificació d'imatges? - Unite.AI
Connecteu-vos amb nosaltres
Classe magistral d'IA:

IA 101

Com funciona la classificació d'imatges?

mm
actualitzat on

Com pot el vostre telèfon determinar què és un objecte només fent-ne una foto? Com etiqueten automàticament els llocs web de xarxes socials a les persones a les fotos? Això s'aconsegueix mitjançant el reconeixement i la classificació d'imatges amb IA.

El reconeixement i la classificació d'imatges és el que permet molts dels èxits més impressionants de la intel·ligència artificial. Tanmateix, com aprenen els ordinadors a detectar i classificar imatges? En aquest article, tractarem els mètodes generals que utilitzen els ordinadors per interpretar i detectar imatges i després donarem una ullada a alguns dels mètodes més populars per classificar aquestes imatges.

Classificació a nivell de píxels versus classificació basada en objectes

Les tècniques de classificació d'imatges es poden dividir principalment en dues categories diferents: classificació basada en píxels i classificació basada en objectes.

Els píxels són les unitats base d'una imatge i l'anàlisi dels píxels és la forma principal de classificar les imatges. Tanmateix, els algorismes de classificació poden utilitzar només la informació espectral dins de píxels individuals per classificar una imatge o examinar la informació espacial (píxels propers) juntament amb la informació espectral. Els mètodes de classificació basats en píxels utilitzen només informació espectral (la intensitat d'un píxel), mentre que els mètodes de classificació basats en objectes tenen en compte tant la informació espectral de píxels com la informació espacial.

Hi ha diferents tècniques de classificació utilitzades per a la classificació basada en píxels. Aquests inclouen la distància mínima a la mitjana, la màxima probabilitat i la distància mínima de Mahalanobis. Aquests mètodes requereixen que es coneguin les mitjanes i les variacions de les classes, i tots funcionen examinant la "distància" entre les mitjanes de la classe i els píxels objectiu.

Els mètodes de classificació basats en píxels estan limitats pel fet que no poden utilitzar informació d'altres píxels propers. En canvi, els mètodes de classificació basats en objectes poden incloure altres píxels i, per tant, també utilitzen informació espacial per classificar elements. Tingueu en compte que "objecte" només es refereix a regions contigües de píxels i no si hi ha o no un objecte objectiu dins d'aquesta regió de píxels.

Preprocessament de dades d'imatge per a la detecció d'objectes

Els sistemes de classificació d'imatges més recents i fiables utilitzen principalment esquemes de classificació a nivell d'objecte, i per a aquests enfocaments les dades d'imatge s'han de preparar de maneres específiques. Els objectes/regions han de ser seleccionats i preprocessats.

Abans que una imatge, i els objectes/regions dins d'aquesta imatge, es puguin classificar, les dades que componen aquesta imatge han de ser interpretades per l'ordinador. Les imatges s'han de preprocessar i preparar per introduir-les a l'algorisme de classificació, i això es fa mitjançant la detecció d'objectes. Aquesta és una part fonamental per preparar les dades i preparar les imatges per entrenar el classificador d'aprenentatge automàtic.

La detecció d'objectes es fa amb una varietat de mètodes i tècniques. Per començar, si hi ha o no diversos objectes d'interès o un únic objecte d'interès afecta la manera com es gestiona el preprocessament de la imatge. Si només hi ha un objecte d'interès, la imatge es localitza. Els píxels que componen la imatge tenen valors numèrics que són interpretats per l'ordinador i utilitzats per mostrar els colors i matisos adequats. Al voltant de l'objecte d'interès es dibuixa un objecte conegut com a quadre delimitador, cosa que ajuda a l'ordinador a saber quina part de la imatge és important i quins valors de píxels defineixen l'objecte. Si hi ha diversos objectes d'interès a la imatge, s'utilitza una tècnica anomenada detecció d'objectes per aplicar aquests quadres delimitadors a tots els objectes de la imatge.

Foto: Adrian Rosebrock a través de Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Intersection_over_Union_-_object_detection_bounding_boxes.jpg)

Un altre mètode de preprocessament és la segmentació d'imatges. La segmentació d'imatges funciona dividint tota la imatge en segments basats en característiques similars. Les diferents regions de la imatge tindran valors de píxels similars en comparació amb altres regions de la imatge, de manera que aquests píxels s'agrupen en màscares d'imatge que corresponen a la forma i els límits dels objectes rellevants dins de la imatge. La segmentació d'imatges ajuda l'ordinador a aïllar les característiques de la imatge que l'ajudaran a classificar un objecte, de la mateixa manera que ho fan els quadres delimitadors, però proporcionen etiquetes a nivell de píxels molt més precises.

Un cop finalitzada la detecció d'objectes o la segmentació de la imatge, s'apliquen etiquetes a les regions en qüestió. Aquestes etiquetes s'alimenten, juntament amb els valors dels píxels que componen l'objecte, als algorismes d'aprenentatge automàtic que aprendran patrons associats a les diferents etiquetes.

Algoritmes d'aprenentatge automàtic

Un cop les dades s'han preparat i etiquetat, les dades s'introdueixen a un algorisme d'aprenentatge automàtic, que s'entrena amb les dades. Cobrirem alguns dels tipus més comuns d'aprenentatge automàtic algorismes de classificació d'imatges a continuació.

K-Veïns més propers

K-Nearest Neighbors és un algorisme de classificació que examina els exemples d'entrenament més propers i examina les seves etiquetes per determinar l'etiqueta més probable per a un exemple de prova determinat. Quan es tracta de la classificació d'imatges mitjançant KNN, els vectors de característiques i les etiquetes de les imatges d'entrenament s'emmagatzemen i només el vector de característiques es passa a l'algorisme durant la prova. A continuació, es comparen els vectors de característiques d'entrenament i de prova entre si per semblança.

Els algorismes de classificació basats en KNN són extremadament senzills i s'ocupen de diverses classes amb força facilitat. Tanmateix, KNN calcula la similitud en funció de totes les característiques per igual. Això vol dir que pot ser propens a una classificació errònia quan es proporcionen imatges on només un subconjunt de les característiques és important per a la classificació de la imatge.

Suport de màquines vectorials

Les màquines de vectors de suport són un mètode de classificació que col·loca punts a l'espai i després dibuixa línies divisòries entre els punts, col·locant objectes en diferents classes en funció de quin costat del pla divisor cauen els punts. Les màquines de vectors de suport són capaços de fer una classificació no lineal mitjançant l'ús d'una tècnica coneguda com el truc del nucli. Tot i que els classificadors SVM solen ser molt precisos, un inconvenient substancial dels classificadors SVM és que tendeixen a estar limitats tant per la mida com per la velocitat, amb la velocitat que pateix a mesura que augmenta la mida.

Perceptrons multicapa (xarxes neuronals)

Els perceptrons multicapa, també anomenats models de xarxes neuronals, són algorismes d'aprenentatge automàtic inspirats en el cervell humà. Els perceptrons multicapa es componen de diverses capes que s'uneixen entre si, de la mateixa manera que les neurones del cervell humà estan enllaçades entre si. Les xarxes neuronals fan suposicions sobre com es relacionen les característiques d'entrada amb les classes de dades i aquestes hipòtesis s'ajusten al llarg de la formació. Els models simples de xarxes neuronals com el perceptró multicapa són capaços d'aprendre relacions no lineals i, com a resultat, poden ser molt més precisos que altres models. Tanmateix, els models MLP pateixen alguns problemes notables com la presència de funcions de pèrdua no convexes.

Algoritmes d'aprenentatge profund (CNN)

Foto: APhex34 via Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Typical_cnn.png)

L'algoritme de classificació d'imatges més utilitzat en els últims temps és la Xarxa Neural Convolucional (CNN). Les CNN són versions personalitzades de xarxes neuronals que combinen les xarxes neuronals multicapa amb capes especialitzades que són capaços d'extreure les característiques més importants i rellevants per a la classificació d'un objecte. Les CNN poden descobrir, generar i aprendre automàticament característiques de les imatges. Això redueix molt la necessitat d'etiquetar i segmentar manualment les imatges per preparar-les per als algorismes d'aprenentatge automàtic. També tenen un avantatge sobre les xarxes MLP perquè poden fer front a funcions de pèrdua no convexes.

Les xarxes neuronals convolucionals reben el seu nom pel fet que creen "convolucions". Les CNN funcionen agafant un filtre i fent-lo lliscar sobre una imatge. Podeu pensar en això com veure seccions d'un paisatge a través d'una finestra mòbil, concentrant-vos només en les característiques que es poden veure a través de la finestra en qualsevol moment. El filtre conté valors numèrics que es multipliquen amb els valors dels mateixos píxels. El resultat és un nou marc, o matriu, ple de números que representen la imatge original. Aquest procés es repeteix per a un nombre escollit de filtres, i després els fotogrames s'uneixen en una nova imatge que és lleugerament més petita i menys complexa que la imatge original. S'utilitza una tècnica anomenada agrupació per seleccionar només els valors més importants de la imatge, i l'objectiu és que les capes convolucionals eventualment extreguin només les parts més destacades de la imatge que ajudaran a la xarxa neuronal a reconèixer els objectes de la imatge.

Xarxes neuronals revolucionàries estan formats per dues parts diferents. Les capes convolucionals són les que extreuen les característiques de la imatge i les converteixen en un format que les capes de la xarxa neuronal poden interpretar i aprendre. Les primeres capes convolucionals són les encarregades d'extreure els elements més bàsics de la imatge, com ara línies i límits simples. Les capes convolucionals mitjanes comencen a capturar formes més complexes, com ara corbes i cantonades simples. Les capes convolucionals més profundes i posteriors extreuen les característiques d'alt nivell de la imatge, que són les que es transmeten a la part de la xarxa neuronal de la CNN i són les que aprèn el classificador.

Blogger i programador amb especialitats en Aprenentatge automàtic i Aprenentatge profund temes. Daniel espera ajudar els altres a utilitzar el poder de la IA per al bé social.