Artificiell intelligens
Enkel linjÀr regression inom data science-omrÄdet

Data science är ett växande område som utvecklas för varje dag som går. Idag söker de bästa företagen efter professionella data scientists som besitter starka kunskaper om området och dess relaterade begrepp. För att prestera bra inom detta område är det viktigt att ha goda kunskaper om alla data science-algoritmer. En av de mest grundläggande data science-algoritmerna är enkel linjär regression. Varje data scientist bör veta hur man använder denna algoritm för att lösa problem och erhålla meningsfulla resultat.
Enkel linjär regression är en metod för att bestämma sambandet mellan indata- och utdatavariabler. Indatavariabler betraktas som oberoende variabler eller prediktorer, och utdatavariabler betraktas som beroende variabler eller svar. I enkel linjär regression betraktas endast en indatavariabel.
Ett verkligt exempel på enkel linjär regression
Låt oss överväga en datamängd som består av två parametrar: antalet arbetade timmar och mängden arbete som utförts. Enkel linjär regression syftar till att gissa mängden arbete som utförts om arbetstiden ges. En regressionslinje ritas, som genererar ett minimum av fel. En linjär ekvation formas också, som sedan kan användas för nästan alla datamängder.
Principer som beskriver syftet med enkel linjär regression:
Enkel linjär regression används för att förutsäga sambandet mellan variablerna i en datamängd och dra meningsfulla slutsatser. Enkel linjär regression används främst för att dra den statistiska relationen mellan variablerna, som inte är tillräckligt exakt. Fyra grundläggande principer beskriver användningen av enkel linjär regression. Dessa principer listas nedan:
- Sambandet mellan de två variablerna anses vara linjärt och additivt: En rak linjefunktion etableras för varje par av beroende och oberoende variabler. Linjens lutning skiljer sig från värdena på variablerna i datamängden. De beroende variablerna har en additiv effekt på värdena på de oberoende variablerna.
- Felen är statistiskt oberoende: Denna princip kan anses för en datamängd som innehåller information relaterad till tid och serie. De på varandra följande felen i en sådan datamängd korrelerar inte och är statistiskt oberoende.
- Fel har konstant varians (homoscedasticitet): Homoscedasticitet av felen kan anses baserat på olika parametrar. Dessa parametrar inkluderar tid, andra prognoser och andra variabler.
- Felfördelningens normalitet: Denna princip är viktig eftersom den stöder de tre ovan nämnda principerna. Om inget samband mellan variablerna i en datamängd kan etableras, eller om någon av de ovan nämnda principerna inte etableras, så är alla förutsägelser och slutsatser som produceras av modellen felaktiga. Dessa slutsatser kan inte användas vidare i projektet eftersom inga riktiga resultat kommer att erhållas om felaktig och vilseledande data används.
Fördelar med enkel linjär regression
- Denna metod är extremt lätt att använda, och resultat kan erhållas utan ansträngning.
- Denna metod har extremt låg komplexitet jämfört med andra data science-algoritmer, främst om sambandet mellan de beroende och oberoende variablerna är känt.
- Överanpassning är ett vanligt tillstånd som uppstår när denna metod tar in meningslös information. För att hantera detta problem finns tekniken regularisering tillgänglig, som minskar problemet med överanpassning genom att minska komplexiteten.
Nackdelar med enkel linjär regression
- Även om problemet med överanpassning kan elimineras, kan det inte ignoreras. Metoden kan ta meningslös data i beaktande och också eliminera meningsfull information. I ett sådant fall kommer alla förutsägelser och slutsatser om en viss datamängd att vara felaktiga och effektiva resultat kan inte genereras.
- Problem med data-utvikare är också mycket vanligt. Utlagare anses vara felaktiga värden som inte matchar den exakta datan. När sådana värden tas i beaktande kommer hela modellen att producera vilseledande resultat som är utan användning.
- I enkel linjär regression anses datamängden i handen vara oberoende data. Denna antagande är fel eftersom det kan finnas viss beroende mellan variablerna.
Enkel linjär regression är en användbar teknik för att bestämma sambanden mellan olika indata- och utdatavariabler i en datamängd. Det finns flera verkliga tillämpningar av enkel linjär regression. Denna algoritm kräver inte hög beräkningskraft och kan enkelt implementeras. Ekvationerna och slutsatserna som härleds kan byggas vidare och är extremt lätta att förstå. Dock anser vissa proffs att enkel linjär regression inte är den rätta metoden att använda för olika tillämpningar eftersom det finns många antaganden som görs. Dessa antaganden kan visa sig vara fel. Därför är det nödvändigt att använda denna teknik där den kan tillämpas korrekt.












