taló Què és la regressió lineal? - Unite.AI
Connecteu-vos amb nosaltres
Classe magistral d'IA:

IA 101

Què és la regressió lineal?

mm
actualitzat on

Què és la regressió lineal?

La regressió lineal és un algorisme utilitzat per predir, o visualitzar, a relació entre dues característiques/variables diferents. A les tasques de regressió lineal, s'examinen dos tipus de variables: la variable dependent i variable independent. La variable independent és la variable que es manté per si mateixa, no afectada per l'altra variable. A mesura que s'ajusta la variable independent, els nivells de la variable dependent fluctuaran. La variable dependent és la variable que s'està estudiant, i és el que el model de regressió resol/intenta predir. A les tasques de regressió lineal, cada observació/instància està formada tant pel valor de la variable dependent com pel valor de la variable independent.

Aquesta va ser una explicació ràpida de la regressió lineal, però assegurem-nos que arribem a una millor comprensió de la regressió lineal mirant-ne un exemple i examinant la fórmula que utilitza.

Comprensió de la regressió lineal

Suposem que tenim un conjunt de dades que cobreix les mides del disc dur i el cost d'aquests discs durs.

Suposem que el conjunt de dades que tenim està format per dues característiques diferents: la quantitat de memòria i el cost. Com més memòria comprem per a un ordinador, més augmenta el cost de la compra. Si dibuixem els punts de dades individuals en un gràfic de dispersió, podríem obtenir un gràfic que s'assembla a això:

La relació exacta memòria-cost pot variar entre fabricants i models de disc dur, però en general, la tendència de les dades és una que comença a la part inferior esquerra (on els discs durs són més barats i tenen una capacitat menor) i es mou a la part superior dreta (on les unitats són més cares i tenen més capacitat).

Si tinguéssim la quantitat de memòria a l'eix X i el cost a l'eix Y, una línia que captura la relació entre les variables X i Y començaria a la cantonada inferior esquerra i aniria cap a la part superior dreta.

La funció d'un model de regressió és determinar una funció lineal entre les variables X i Y que descrigui millor la relació entre les dues variables. En la regressió lineal, s'assumeix que Y es pot calcular a partir d'alguna combinació de les variables d'entrada. La relació entre les variables d'entrada (X) i les variables objectiu (Y) es pot representar dibuixant una línia que passa pels punts del gràfic. La línia representa la funció que millor descriu la relació entre X i Y (per exemple, cada vegada que X augmenta en 3, Y augmenta en 2). L'objectiu és trobar una "línia de regressió" òptima o la línia/funció que millor s'adapti a les dades.

Les línies es representen normalment amb l'equació: Y = m*X + b. X fa referència a la variable dependent mentre que Y és la variable independent. Mentrestant, m és el pendent de la línia, tal com es defineix per la "ascensió" sobre la "carrera". Els professionals de l'aprenentatge automàtic representen la famosa equació de la línia de pendent una mica diferent, utilitzant aquesta equació:

y(x) = w0 + w1 * x

A l'equació anterior, y és la variable objectiu mentre que "w" són els paràmetres del model i l'entrada és "x". Per tant, l'equació es llegeix així: "La funció que dóna Y, depenent de X, és igual als paràmetres del model multiplicats per les característiques". Els paràmetres del model s'ajusten durant l'entrenament per obtenir la línia de regressió més adequada.

Regressió lineal múltiple

Foto: Cbaf via Wikimedia Commons, domini públic (https://commons.wikimedia.org/wiki/File:2d_multiple_linear_regression.gif)

El procés descrit anteriorment s'aplica a la regressió lineal simple o a la regressió en conjunts de dades on només hi ha una característica/variable independent. Tanmateix, també es pot fer una regressió amb múltiples característiques. En el cas que "regressió lineal múltiple”, l'equació s'amplia pel nombre de variables que es troben dins del conjunt de dades. En altres paraules, mentre que l'equació per a la regressió lineal regular és y(x) = w0 + w1 * x, l'equació per a la regressió lineal múltiple seria y(x) = w0 + w1x1 més els pesos i les entrades de les diferents característiques. Si representem el nombre total de pesos i característiques com w(n)x(n), podríem representar la fórmula com aquesta:

y(x) = w0 + w1x1 + w2x2 + … + w(n)x(n)

Després d'establir la fórmula per a la regressió lineal, el model d'aprenentatge automàtic utilitzarà diferents valors per als pesos, dibuixant diferents línies d'ajust. Recordeu que l'objectiu és trobar la línia que millor s'ajusta a les dades per tal de determinar quina de les possibles combinacions de pes (i, per tant, quina possible línia) s'ajusta millor a les dades i explica la relació entre les variables.

Una funció de cost s'utilitza per mesurar la proximitat dels valors Y assumits als valors Y reals quan es dóna un valor de pes particular. La funció de cost per a la regressió lineal és l'error quadrat mitjà, que només pren l'error mitjà (quadrat) entre el valor previst i el valor real de tots els diferents punts de dades del conjunt de dades. La funció de cost s'utilitza per calcular un cost, que captura la diferència entre el valor objectiu previst i el valor objectiu real. Si la línia d'ajust està lluny dels punts de dades, el cost serà més gran, mentre que el cost es farà més petit com més s'apropi la línia de capturar les relacions reals entre les variables. A continuació, s'ajusten els pesos del model fins que es trobi la configuració de pes que produeix la menor quantitat d'error.

Blogger i programador amb especialitats en Aprenentatge automàtic i Aprenentatge profund temes. Daniel espera ajudar els altres a utilitzar el poder de la IA per al bé social.