Umělá inteligence
Jednoduchá lineární regrese v oblasti datové vědy

Datová věda je rozsáhlé odvětví, které roste s každým dnem. Dnes největší společnosti hledají profesionální datové vědce, kteří mají silné znalosti o tomto odvětví a jeho souvisejících konceptech. Aby se v tomto odvětví dařilo, je důležité mít hluboké znalosti o všech algoritmech datové vědy. Jedním z nejzákladnějších algoritmů datové vědy je jednoduchá lineární regrese. Každý datový vědec by měl vědět, jak používat tento algoritmus k řešení problémů a získávání smysluplných výsledků.
Jednoduchá lineární regrese je metodou stanovení vztahu mezi vstupními a výstupními proměnnými. Vstupní proměnné se považují za nezávislé proměnné nebo prediktory, a výstupní proměnné se považují za závislé proměnné nebo odpovědi. V jednoduché lineární regresi se bere v úvahu pouze jedna vstupní proměnná.
Reálný příklad jednoduché lineární regrese
Pojďme si vzít datový soubor, který se skládá ze dvou parametrů: počtu odpracovaných hodin a množství práce. Jednoduchá lineární regrese se snaží odhadnout množství práce, pokud jsou známy odpracované hodiny. Čára regrese se vykreslí, která generuje minimální chybu. Také se vytváří lineární rovnice, která může být použita pro téměř jakýkoli datový soubor.
Zásady, které ilustrují účel jednoduché lineární regrese:
Jednoduchá lineární regrese se používá k předpovědi vztahu mezi proměnnými v datovém souboru a získání smysluplných závěrů. Jednoduchá lineární regrese se používá hlavně k získání statistického vztahu mezi proměnnými, který není dostatečně přesný. Čtyři základní zásady ilustrují použití jednoduché lineární regrese. Tyto zásady jsou uvedeny níže:
- Vztah mezi dvěma proměnnými se považuje za lineární a aditivní: Pro každou пару závislé a nezávislé proměnné se stanoví přímá funkce. Sklon této čáry se liší od hodnot proměnných v datovém souboru. Závislé proměnné mají aditivní účinek na hodnoty nezávislých proměnných.
- Chyby jsou statisticky nezávislé: Tento princip lze použít pro datový soubor, který obsahuje informace související s časem a řadami. Po sobě jdoucí chyby takového datového souboru nekorelují a jsou statisticky nezávislé.
- Chyby mají konstantní varianci (homoscedasticitu): Homoscedasticita chyb lze považovat za založenou na různých parametrech. Tyto parametry zahrnují čas, jiné předpovědi a další proměnné.
- Normálnost rozložení chyb: Tento princip je důležitý, protože podporuje tři výše uvedené principy. Pokud nelze stanovit vztah mezi proměnnými v datovém souboru, nebo pokud některý z výše uvedených principů není stanoven, pak jsou všechny předpovědi a závěry vygenerované modelem nesprávné. Tyto závěry nelze dále použít v projektu, protože nelze získat skutečné výsledky, pokud se použije chybná a zavádějící data.
Výhody jednoduché lineární regrese
- Tato metodika je extrémně snadná na použití a výsledky lze získat bez námahy.
- Tato metoda má extrémně nižší složitost než ostatní algoritmy datové vědy, zejména pokud je znám vztah mezi závislými a nezávislými proměnnými.
- Přepřetížení je běžný stav, který nastává, když tato metodika zahrnuje bezvýznamné informace. Pro řešení tohoto problému je k dispozici technika regularizace, která snižuje problém přepřetížení snížením složitosti.
Nevýhody jednoduché lineární regrese
- Přestože lze problém přepřetížení eliminovat, nelze ho ignorovat. Metoda může zahrnout bezvýznamné údaje a také eliminovat významné informace. V takovém případě jsou všechny předpovědi a závěry o konkrétním datovém souboru nesprávné a nelze získat účinné výsledky.
- Problém datových outlierů je také velmi častý. Outliery se považují za chybné hodnoty, které neodpovídají skutečným údajům. Pokud se takové hodnoty zahrnou, celý model vyprodukuje zavádějící výsledky, které jsou bez užitku.
- V jednoduché lineární regresi se předpokládá, že datový soubor obsahuje nezávislé údaje. Tento předpoklad je chybný, protože mezi proměnnými může existovat nějaká závislost.
Jednoduchá lineární regrese je užitečnou technikou pro stanovení vztahů různých vstupních a výstupních proměnných v datovém souboru. Existuje několik reálných aplikací jednoduché lineární regrese. Tento algoritmus nevyžaduje vysoké výpočetní kapacity a lze jej snadno implementovat. Rovnice a závěry odvozené z něj lze dále rozvíjet a jsou extrémně snadné na pochopení. Nicméně někteří odborníci také cítí, že jednoduchá lineární regrese není správnou metodikou pro použití v různých aplikacích, protože existuje mnoho předpokladů, které se mohou ukázat jako chybné. Proto je nutné použít tuto techniku tam, kde lze správně aplikovat.










