Umjetna inteligencija
Jednostavna linearna regresija u polju znanosti o podacima

Znanost o podacima golemo je područje koje raste svakim danom. Danas vrhunske tvrtke traže profesionalne podatkovne znanstvenike koji posjeduju snažno znanje o području i njime povezanim konceptima. Za dobar učinak u ovom području važno je dobro poznavati sve algoritme znanosti o podacima. Jedan od najosnovnijih algoritama znanosti o podacima je jednostavna linearna regresija. Svaki podatkovni znanstvenik trebao bi znati kako koristiti ovaj algoritam za rješavanje problema i izvođenje značajnih rezultata.
Jednostavna linearna regresija je metodologija određivanja odnosa između ulaznih i izlaznih varijabli. Ulazne varijable smatraju se nezavisnim varijablama ili prediktorima, a izlazne varijable ovisnim varijablama ili odgovorima. U jednostavnoj linearnoj regresiji uzima se u obzir samo jedna ulazna varijabla.
Primjer jednostavne linearne regresije u stvarnom vremenu
Razmotrimo skup podataka koji se sastoji od dva parametra: broja radnih sati i količine obavljenog posla. Jednostavna linearna regresija ima za cilj pogoditi količinu obavljenog posla ako su navedeni radni sati. Povlači se regresijska linija koja generira minimalnu pogrešku. Formira se i linearna jednadžba, koja se zatim može koristiti za gotovo svaki skup podataka.
Načela koja opisuju svrhu jednostavne linearne regresije:
Jednostavna linearna regresija koristi se za predviđanje odnosa između varijabli u skupu podataka i izvođenje smislenih zaključaka. Jednostavna linearna regresija uglavnom se koristi za izvođenje statističkog odnosa između varijabli, koji nije dovoljno točan. Četiri osnovna principa opisuju korištenje jednostavne linearne regresije. Ova su načela navedena u nastavku:
- Odnos između dvije varijable smatra se linearnim i aditivnim: Za svaki par zavisnih i nezavisnih varijabli utvrđuje se pravocrtna funkcija. Nagib ove linije razlikuje se od vrijednosti varijabli dostupnih u skupu podataka. Zavisne varijable imaju aditivni učinak na vrijednosti nezavisnih varijabli.
- Pogreške su statistički neovisne: Ovo se načelo može uzeti u obzir za skup podataka koji sadrži informacije povezane s vremenom i serijom. Uzastopne pogreške takvog skupa podataka ne koreliraju i statistički su neovisne.
- Pogreške imaju konstantnu varijancu (homoskedastičnost): Homoskedastičnost pogrešaka može se razmatrati na temelju različitih parametara. Ovi parametri uključuju vrijeme, druge prognoze i druge varijable.
- Normalnost distribucije pogreške: Ovo je važno načelo jer podupire ostala tri gore navedena. Ako se ne može uspostaviti odnos između varijabli u skupu podataka, ili ako bilo koji od gore navedenih principa nije uspostavljen, tada su sva predviđanja i zaključci koje model proizvodi netočni. Ovi se zaključci ne mogu dalje koristiti u projektu jer se neće dobiti stvarni rezultati ako se koriste pogrešni i pogrešni podaci.
Prednosti jednostavne linearne regresije
- Ova je metodologija iznimno jednostavna za korištenje, a rezultati se mogu postići bez napora.
- Ova metoda ima izuzetno manju složenost od drugih algoritama znanosti o podacima, prvenstveno ako je poznat odnos između zavisne i nezavisne varijable.
- Pretjerano prilagođavanje je uobičajeno stanje koje se događa kada ova metodologija uzima besmislene informacije. Za rješavanje ovog problema dostupna je tehnika regularizacije, koja smanjuje problem prekomjernog uklapanja smanjenjem složenosti.
Nedostaci jednostavne linearne regresije
- Iako se problem pretjeranog pristajanja može eliminirati, ne može se zanemariti. Metoda može uzeti u obzir besmislene podatke i također eliminirati značajne informacije. U takvom slučaju, sve prognoze su zaključci o određenom skupu podataka koji će biti netočni i učinkoviti rezultati se ne mogu generirati.
- Problem odstupanja podataka također je vrlo čest. Outlieri se smatraju pogrešnim vrijednostima koje ne odgovaraju točnim podacima. Kada se takve vrijednosti uzmu u obzir, cijeli će model dati pogrešne rezultate koji su beskorisni.
- U jednostavnoj linearnoj regresiji, skup podataka u ruci se smatra neovisnim podacima. Ova pretpostavka je pogrešna jer može postojati određena ovisnost između varijabli.
Jednostavna linearna regresija je korisna tehnika za određivanje odnosa različitih ulaznih i izlaznih varijabli u skupu podataka. Postoji nekoliko primjena jednostavne linearne regresije u stvarnom vremenu. Ovaj algoritam ne zahtijeva veliku računsku snagu i može se lako implementirati. Izvedene jednadžbe i zaključci mogu se dalje graditi i vrlo su jednostavni za razumijevanje. Međutim, neki profesionalci također smatraju da jednostavna linearna regresija nije ispravna metodologija koja bi se koristila za različite primjene budući da postoji mnogo pretpostavki. I ove pretpostavke bi se mogle pokazati pogrešnima. Stoga je ovu tehniku potrebno koristiti svugdje gdje se može pravilno primijeniti.