AI 101

Vad Àr LinjÀr Regression?

mm

Vad är Linjär Regression?

Linjär regression är en algoritm som används för att förutsäga eller visualisera en relation mellan två olika funktioner/variabler. I linjära regressionsuppgifter finns det två typer av variabler som undersöks: den beroende variabeln och den oberoende variabeln. Den oberoende variabeln är den variabel som står för sig själv, utan att påverkas av den andra variabeln. När den oberoende variabeln justeras, kommer nivåerna på den beroende variabeln att fluktuera. Den beroende variabeln är den variabel som studeras, och det är vad regressionsmodellen löser eller försöker förutsäga. I linjära regressionsuppgifter består varje observation/instans av både den beroende variabelns värde och den oberoende variabelns värde.

Det var en snabb förklaring av linjär regression, men låt oss försöka förstå linjär regression bättre genom att titta på ett exempel och undersöka formeln som den använder.

Att Förstå Linjär Regression

Anta att vi har en datamängd som täcker hårddiskstorlekar och kostnaden för dessa hårddiskar.

Låt oss anta att datamängden består av två olika funktioner: mängden minne och kostnad. Ju mer minne vi köper till en dator, desto högre blir kostnaden för köpet. Om vi plottade ut de individuella datapunkterna på en spridningsplot, kan vi få en graf som ser ut så här:

Den exakta minnes-till-kostnads-förhållandet kan variera mellan tillverkare och modeller av hårddiskar, men i allmänhet är trenden i datat en som börjar i nedre vänstra hörnet (där hårddiskar är både billigare och har mindre kapacitet) och rör sig till övre högra hörnet (där enheterna är dyrare och har högre kapacitet).

Om vi hade mängden minne på X-axeln och kostnaden på Y-axeln, skulle en linje som fångar relationen mellan X- och Y-variablerna börja i nedre vänstra hörnet och löpa till övre högra.

Funktionen hos en regressionsmodell är att bestämma en linjär funktion mellan X- och Y-variablerna som bäst beskriver relationen mellan de två variablerna. I linjär regression antas det att Y kan beräknas från någon kombination av indatavariablerna. Relationen mellan indatavariablerna (X) och målvariablerna (Y) kan porträtteras genom att rita en linje genom punkterna i grafen. Linjen representerar den funktion som bäst beskriver relationen mellan X och Y (t.ex. för varje gång X ökar med 3, ökar Y med 2). Målet är att hitta en optimal “regressionslinje”, eller linjen/funktionen som bäst passar datat.

Linjer representeras vanligtvis av ekvationen: Y = m*X + b. X refererar till den beroende variabeln medan Y är den oberoende variabeln. Medan m är linjens lutning, definierad av “stigningen” över “löparen”. Maskinläringspraktiker representerar den berömda lutnings-linje-ekvationen på ett lite annorlunda sätt, med hjälp av denna ekvation istället:

y(x) = w0 + w1 * x

I ovanstående ekvation är y målvariabeln medan “w” är modellens parametrar och inmatningen är “x”. Så ekvationen läses som: “Funktionen som ger Y, beroende på X, är lika med modellens parametrar multiplicerade med funktionerna”. Modellens parametrar justeras under utbildning för att få den bästa passande regressionslinjen.

Multipel Linjär Regression

Foto: Cbaf via Wikimedia Commons, Public Domain (https://commons.wikimedia.org/wiki/File:2d_multiple_linear_regression.gif)

Processen som beskrivs ovan gäller för enkel linjär regression, eller regression på datamängder där det bara finns en enda funktion/oberoende variabel. Men en regression kan också göras med flera funktioner. I fallet med “multipel linjär regression“, utökas ekvationen av antalet variabler som finns i datamängden. Med andra ord, medan ekvationen för vanlig linjär regression är y(x) = w0 + w1 * x, skulle ekvationen för multipel linjär regression vara y(x) = w0 + w1x1 plus vikterna och inmatningarna för de olika funktionerna. Om vi representerar det totala antalet vikter och funktioner som w(n)x(n), kunde vi representera formeln så här:

y(x) = w0 + w1x1 + w2x2 + … + w(n)x(n)

Efter att ha etablerat formeln för linjär regression, kommer maskinlärningsmodellen att använda olika värden för vikterna, ritande olika linjer för passning. Kom ihåg att målet är att hitta linjen som bäst passar datat för att bestämma vilken av de möjliga vikt-kombinationerna (och därmed vilken möjlig linje) som bäst passar datat och förklarar relationen mellan variablerna.

En kostnadsfunktion används för att mäta hur nära de antagna Y-värdena är de faktiska Y-värdena när en viss vikt ges. Kostnadsfunktionen för linjär regression är medelkvadratfel, som bara tar medelvärdet (kvadrerat) fel mellan den förutsagda värdet och det sanna värdet för alla datapunkter i datamängden. Kostnadsfunktionen används för att beräkna en kostnad, som fångar skillnaden mellan den förutsagda målvariabeln och den sanna målvariabeln. Om passningslinjen är långt ifrån datapunkterna, kommer kostnaden att vara högre, medan kostnaden kommer att bli mindre ju närmare linjen kommer att fånga den sanna relationen mellan variablerna. Vikterna i modellen justeras tills vikt-konfigurationen som producerar den minsta mängden fel hittas.

Blogger och programmerare med specialomrÄden inom Machine Learning och Deep Learning Àmnen. Daniel hoppas pÄ att hjÀlpa andra att anvÀnda kraften frÄn AI för socialt vÀl.