IA 101

Aprenentatge supervisat vs no supervisat

actualitzat on Agost 23, 2020

En l'aprenentatge automàtic, la majoria de les tasques es poden classificar fàcilment en dues classes diferents: problemes d'aprenentatge supervisat o problemes d'aprenentatge no supervisat. En l'aprenentatge supervisat, les dades tenen etiquetes o classes annexades, mentre que en el cas de l'aprenentatge no supervisat les dades no estan etiquetades. Vegem de prop per què aquesta distinció és important i analitzem alguns dels algorismes associats a cada tipus d'aprenentatge.

Aprenentatge supervisat vs no supervisat

La majoria de les tasques d'aprenentatge automàtic són del domini de aprenentatge supervisat. En els algorismes d'aprenentatge supervisat, les instàncies/punts de dades individuals del conjunt de dades tenen assignada una classe o una etiqueta. Això vol dir que el model d'aprenentatge automàtic pot aprendre a distingir quines funcions estan correlacionades amb una classe determinada i que l'enginyer d'aprenentatge automàtic pot comprovar el rendiment del model veient quantes instàncies s'han classificat correctament. Els algorismes de classificació es poden utilitzar per discernir molts patrons complexos, sempre que les dades estiguin etiquetades amb les classes adequades. Per exemple, un algorisme d'aprenentatge automàtic pot aprendre a distingir diferents animals entre si a partir de característiques com ara "bigotis", "cua", "urpes", etc.

En contrast amb l'aprenentatge supervisat, l'aprenentatge no supervisat implica la creació d'un model que sigui capaç d'extreure patrons de dades sense etiquetar. En altres paraules, l'ordinador analitza les característiques d'entrada i determina per si mateix quines són les característiques i patrons més importants. L'aprenentatge no supervisat intenta trobar les similituds inherents entre diferents instàncies. Si un algorisme d'aprenentatge supervisat pretén col·locar punts de dades en classes conegudes, els algorismes d'aprenentatge no supervisat examinaran les característiques comunes a les instàncies d'objecte i les col·locaran en grups basats en aquestes característiques, creant essencialment les seves pròpies classes.

Alguns exemples d'algorismes d'aprenentatge supervisat són la regressió lineal, la regressió logística, els veïns més propers K, els arbres de decisió i les màquines de vectors de suport.

Mentrestant, alguns exemples d'algorismes d'aprenentatge no supervisat són l'anàlisi de components principals i la agrupació de mitjans K.

Algorisme d'aprenentatge supervisat

regressió lineal és un algorisme que pren dues característiques i representa la relació entre elles. La regressió lineal s'utilitza per predir valors numèrics en relació amb altres variables numèriques. La regressió lineal té l'equació de Y = a +bX, on b és el pendent de la recta i a és on y creua l'eix X.

Regressió logística és un algorisme de classificació binària. L'algorisme examina la relació entre les característiques numèriques i troba la probabilitat que la instància es pugui classificar en una de dues classes diferents. Els valors de probabilitat s'"espremen" cap a 0 o 1. En altres paraules, les probabilitats fortes s'aproximaran a 0.99 mentre que les probabilitats febles s'aproximaran a 0.

K-Veïns més propers assigna una classe a nous punts de dades en funció de les classes assignades d'alguna quantitat de veïns escollida al conjunt d'entrenament. El nombre de veïns considerats per l'algorisme és important, i massa pocs o massa veïns poden classificar malament els punts.

Arbres de decisió són un tipus d'algorisme de classificació i regressió. Un arbre de decisió funciona dividint un conjunt de dades en porcions cada cop més petites fins que els subconjunts no es poden dividir més i el que resulta és un arbre amb nodes i fulles. Els nodes són on es prenen decisions sobre els punts de dades utilitzant diferents criteris de filtratge, mentre que les fulles són les instàncies a les quals se'ls ha assignat alguna etiqueta (un punt de dades que s'ha classificat). Els algorismes d'arbre de decisions són capaços de manejar dades tant numèriques com categòriques. Les divisions es fan a l'arbre en variables/característiques específiques.

Suport de màquines vectorials són un algorisme de classificació que funciona dibuixant hiperplans, o línies de separació, entre punts de dades. Els punts de dades es separen en classes en funció de quin costat de l'hiperpla es troben. Es poden dibuixar diversos hiperplans a través d'un pla, submergint un conjunt de dades en diverses classes. El classificador intentarà maximitzar la distància entre l'hiperplà de busseig i els punts a banda i banda del pla, i com més gran sigui la distància entre la línia i els punts, més segur tindrà el classificador.

Algoritmes d'aprenentatge no supervisat

Anàlisi de components principals és una tècnica utilitzada per a la reducció de la dimensionalitat, és a dir, que la dimensionalitat o complexitat de les dades es representa d'una manera més senzilla. L'algoritme d'anàlisi de components principals troba noves dimensions per a les dades que són ortogonals. Tot i que la dimensionalitat de les dades es redueix, la variació entre les dades s'ha de preservar tant com sigui possible. El que això significa en termes pràctics és que pren les característiques del conjunt de dades i les destil·la en menys característiques que representen la majoria de les dades.

K-Means Clustering és un algorisme que agrupa automàticament els punts de dades en grups basats en característiques similars. S'analitzen els patrons del conjunt de dades i els punts de dades es divideixen en grups basats en aquests patrons. Bàsicament, K-means crea les seves pròpies classes a partir de dades sense etiquetar. L'algorisme K-Means funciona assignant centres als cúmuls, o centroides, i movent els centroides fins que es trobi la posició òptima per als centroides. La posició òptima serà aquella en què la distància entre els centroides i els punts de dades circumdants dins de la classe es minimitzi. La "K" a l'agrupació K-means fa referència a quants centroides s'han triat.

resum

Per tancar, repassem ràpidament les diferències clau entre aprenentatge supervisat i no supervisat.

Com hem comentat anteriorment, a les tasques d'aprenentatge supervisat s'etiqueten les dades d'entrada i es coneix el nombre de classes. Mentrestant, les dades d'entrada no estan etiquetades i el nombre de classes no es coneix en casos d'aprenentatge no supervisat. L'aprenentatge no supervisat tendeix a ser menys complex computacionalment, mentre que l'aprenentatge supervisat tendeix a ser més complex computacionalment. Tot i que els resultats de l'aprenentatge supervisat solen ser molt precisos, els resultats de l'aprenentatge no supervisat solen ser menys precisos/moderadament precisos.

Fins a la propera

Què són les xarxes neuronals?

No et perdis

Dades estructurades vs no estructurades

Daniel Nelson

Blogger i programador amb especialitats en Aprenentatge automàtic i Aprenentatge profund temes. Daniel espera ajudar els altres a utilitzar el poder de la IA per al bé social.

Unite.AI

Aprenentatge supervisat vs no supervisat

IA 101

Aprenentatge supervisat vs no supervisat

Taula de continguts

Aprenentatge supervisat vs no supervisat

Algorisme d'aprenentatge supervisat

Algoritmes d'aprenentatge no supervisat

resum

Unite.AI

Aprenentatge supervisat vs no supervisat

Taula de continguts

Aprenentatge supervisat vs no supervisat

Algorisme d'aprenentatge supervisat

Algoritmes d'aprenentatge no supervisat

resum

Potser t'agradi