taló Regresió lineal simple en el camp de la ciència de dades - Unite.AI
Connecteu-vos amb nosaltres

Intel·ligència Artificial

Regression lineal simple en el camp de la ciència de dades

mm
actualitzat on

La ciència de dades és un camp ampli que va creixent cada dia que passa. Avui, les principals empreses cerquen científics de dades professionals que tinguin un fort coneixement sobre el camp i els seus conceptes relacionats. Per tenir un bon rendiment en aquest camp, és important tenir un bon coneixement sobre tots els algorismes de ciència de dades. Un dels algorismes de ciència de dades més bàsics és una regressió lineal simple. Tots els científics de dades haurien de saber utilitzar aquest algorisme per resoldre problemes i obtenir resultats significatius.

La regressió lineal simple és una metodologia per determinar la relació entre les variables d'entrada i de sortida. Les variables d'entrada es consideren variables o predictors independents, i les variables de sortida són variables o respostes dependents. En la regressió lineal simple, només es considera una variable d'entrada.

Un exemple en temps real de regressió lineal simple

Considerem un conjunt de dades format per dos paràmetres: el nombre d'hores treballades i la quantitat de treball realitzat. La regressió lineal simple té com a objectiu endevinar la quantitat de treball realitzat si es donen les hores de treball. Es dibuixa una línia de regressió, que genera un error mínim. També es forma una equació lineal, que després es pot utilitzar per a gairebé qualsevol conjunt de dades.

Principis que representen el propòsit de la regressió lineal simple: 

La regressió lineal simple s'utilitza per predir la relació entre les variables d'un conjunt de dades i obtenir conclusions significatives. La regressió lineal simple s'utilitza principalment per derivar la relació estadística entre les variables, que no és prou precisa. Quatre principis bàsics descriuen l'ús de la regressió lineal simple. Aquests principis s'enumeren a continuació:

  1. La relació entre les dues variables es considera lineal i additiva: S'estableix una funció de línia recta per a cada parell de variables dependents i independents. El pendent d'aquesta recta és diferent dels valors de les variables disponibles al conjunt de dades. Les variables dependents tenen un efecte additiu sobre els valors de les variables independents.
  2. Els errors són estadísticament independents: Aquest principi es pot considerar per a un conjunt de dades que conté informació relacionada amb el temps i les sèries. Els errors consecutius d'aquest conjunt de dades no es correlacionen i són estadísticament independents.
  3. Els errors tenen variància constant (homoscedasticitat):  L'homocedasticitat dels errors es pot considerar en funció de diversos paràmetres. Aquests paràmetres inclouen el temps, altres previsions i altres variables.
  4. Normalitat de distribució d'errors:  Aquest és un principi important, ja que dóna suport als altres tres esmentats anteriorment. Si no es pot establir cap relació entre les variables d'un conjunt de dades, o si no s'estableix cap dels principis anteriors, aleshores totes les prediccions i conclusions produïdes pel model són incorrectes. Aquestes conclusions no es poden utilitzar més en el projecte, ja que no s'obtindran resultats reals si s'utilitzen dades errònies i enganyoses.

Avantatges de la regressió lineal simple

  • Aquesta metodologia és extremadament fàcil d'utilitzar i els resultats es poden obtenir sense esforç.
  • Aquest mètode té una complexitat extremadament menor que altres algorismes de ciència de dades, principalment si es coneix la relació entre les variables dependents i independents.
  • L'excés d'ajust és una condició habitual que es produeix quan aquesta metodologia incorpora informació sense sentit. Per fer front a aquest problema, es disposa de la tècnica de regularització, que redueix el problema del sobreajust reduint la complexitat.

Inconvenients de la regressió lineal simple

  • Tot i que es pot eliminar el problema del sobreajust, no es pot ignorar. El mètode pot tenir en compte dades sense sentit i també eliminar informació significativa. En aquest cas, totes les previsions són conclusions sobre un conjunt de dades concret que seran incorrectes i no es poden generar resultats efectius.
  • El problema dels valors atípics de dades també és molt comú. Els valors atípics es consideren valors incorrectes que no coincideixen amb les dades exactes. Quan es tenen en compte aquests valors, tot el model produirà resultats enganyosos que no serveixen de res.
  • En la regressió lineal simple, es considera que el conjunt de dades a mà té dades independents. Aquesta hipòtesi és incorrecta perquè pot haver-hi certa dependència entre les variables.

Regressió lineal simple és una tècnica útil per determinar les relacions de diverses variables d'entrada i sortida en un conjunt de dades. Hi ha diverses aplicacions en temps real de regressió lineal simple. Aquest algorisme no requereix una gran potència de càlcul i es pot implementar fàcilment. Les equacions i les conclusions derivades es poden construir més i són extremadament senzilles d'entendre. Tanmateix, alguns professionals també consideren que la regressió lineal simple no és la metodologia adequada per a diverses aplicacions, ja que es fan moltes suposicions. Aquestes suposicions també es poden demostrar errònies. Per tant, és necessari utilitzar aquesta tècnica allà on es pugui aplicar correctament.

Personal de Data Scientist amb més de 8 anys d'experiència professional en el sector informàtic. Competent en ciència de dades i màrqueting digital. Experiència en contingut tècnic investigat professionalment.