AI 101
Hvad er Lineær Regression?

Hvad er Lineær Regression?
Lineær regression er en algoritme, der bruges til at forudsige eller visualisere en relation mellem to forskellige funktioner/variable. I lineære regressionsopgaver er der to typer variable, der undersøges: den afhængige variabel og den uafhængige variabel. Den uafhængige variabel er den variabel, der står alene, uden at være påvirket af den anden variabel. Når den uafhængige variabel justeres, vil niveauet af den afhængige variabel fluktuere. Den afhængige variabel er den variabel, der studeres, og det er det, som regressionsmodellen løser for/forsøger at forudsige. I lineære regressionsopgaver består hver observation/eksempel af både den afhængige variabelværdi og den uafhængige variabelværdi.
Dette var en kort forklaring af lineær regression, men lad os sikre, at vi får en bedre forståelse af lineær regression ved at se på et eksempel på det og undersøge formelen, som det bruger.
Forstå Lineær Regression
Antag, at vi har en dataset, der dækker harddiskstørrelser og omkostningerne ved disse harddiske.
Lad os antage, at datasettet består af to forskellige funktioner: mængden af hukommelse og omkostning. Jo mere hukommelse, vi køber til en computer, jo mere stiger omkostningerne ved købet. Hvis vi plottede de enkelte datapunkter på et spredningsdiagram, kunne vi få et diagram, der ligner noget i denne retning:

Den præcise hukommelse-til-omkostningsforhold kan variere mellem fabrikanter og modeller af harddiske, men generelt er trenden i data en, der starter i venstre nedre hjørne (hvor harddiske er både billigere og har mindre kapacitet) og bevæger sig til højre øvre hjørne (hvor diske er mere dyre og har højere kapacitet).
Hvis vi havde mængden af hukommelse på x-aksen og omkostningerne på y-aksen, ville en linje, der fangede relationen mellem x- og y-variablerne, starte i venstre nedre hjørne og løbe til højre øvre hjørne.

Funktionen af en regressionsmodel er at bestemme en lineær funktion mellem x- og y-variablerne, der bedst beskriver relationen mellem de to variable. I lineær regression antages det, at y kan beregnes fra en kombination af inputvariablerne. Relationen mellem inputvariablerne (x) og målvariablerne (y) kan portrætteres ved at tegne en linje gennem punkterne i diagrammet. Linjen repræsenterer den funktion, der bedst beskriver relationen mellem x og y (for eksempel, for hvert punkt x øges, øges y med 2). Målet er at finde en optimal “regressionslinje” eller den linje/funktion, der bedst passer til data.
Linjer repræsenteres typisk ved ligningen: Y = m*X + b. X henviser til den afhængige variabel, mens Y er den uafhængige variabel. Imens er m linjens hældning, som defineres af “stigning” over “løb”. Maskinelæringspraktikere repræsenterer den berømte hældnings-linje-ligning på en lidt anden måde, ved at bruge denne ligning i stedet:
y(x) = w0 + w1 * x
I ovenstående ligning er y målvariablen, mens “w” er modellens parametre, og input er “x”. Så ligningen læses som: “Funktionen, der giver Y, afhængigt af X, er lig med modellens parametre multipliceret med funktionerne”. Modellens parametre justeres under træning for at få den bedste tilpasningsregressionslinje.
Flervariabel Lineær Regression

Foto: Cbaf via Wikimedia Commons, Public Domain (https://commons.wikimedia.org/wiki/File:2d_multiple_linear_regression.gif)
Processen, der er beskrevet ovenfor, gælder for simpel lineær regression eller regression på dataset, hvor der kun er en enkelt funktion/uafhængig variabel. Men en regression kan også udføres med multiple funktioner. I tilfældet af “flervariabel lineær regression“, udvides ligningen med antallet af variable i datasettet. Med andre ord, mens ligningen for almindelig lineær regression er y(x) = w0 + w1 * x, ville ligningen for flervariabel lineær regression være y(x) = w0 + w1x1 plus vægt og input for de forskellige funktioner. Hvis vi repræsenterer det totale antal vægte og funktioner som w(n)x(n), kunne vi repræsentere formelen på denne måde:
y(x) = w0 + w1x1 + w2x2 + … + w(n)x(n)
Efter at have etableret formelen for lineær regression, vil maskinelæringsmodellen bruge forskellige værdier for vægtene og tegne forskellige tilpasningslinjer. Husk, at målet er at finde den linje, der bedst passer til data for at bestemme, hvilken af de mulige vægtkombinationer (og dermed hvilken mulig linje) bedst passer til data og forklarer relationen mellem variablerne.
En kostfunktion bruges til at måle, hvor tæt de antagede y-værdier er på de faktiske y-værdier, når der gives en bestemt vægtværdi. Kostfunktionen for lineær regression er gennemsnitlig kvadreret fejl, der blot tager gennemsnittet (kvadreret) fejl mellem den forudsagte værdi og den sande værdi for alle datapunkter i datasettet. Kostfunktionen bruges til at beregne en kost, der fanger forskellen mellem den forudsagte målværdi og den sande målværdi. Hvis tilpasningslinjen er langt fra datapunkterne, vil kosten være højere, mens kosten bliver mindre, jo tættere linjen kommer på at fange den sande relation mellem variablerne. Vægtene af modellen justeres herefter, indtil vægtkonfigurationen, der producerer den mindste fejl, er fundet.










