Dirbtinis intelektas

Paprasta tiesinė regresija duomenų mokslo srityje

Atnaujinta on Gruodis 9, 2022

Duomenų mokslas yra didžiulė sritis, kuri auga su kiekviena diena. Šiandien geriausios įmonės ieško profesionalių duomenų mokslininkų, turinčių stiprių žinių apie šią sritį ir su ja susijusias koncepcijas. Norint gerai dirbti šioje srityje, svarbu turėti patikimų žinių apie visus duomenų mokslo algoritmus. Vienas iš pagrindinių duomenų mokslo algoritmų yra paprasta tiesinė regresija. Kiekvienas duomenų mokslininkas turėtų žinoti, kaip naudoti šį algoritmą problemoms spręsti ir reikšmingiems rezultatams gauti.

Paprastoji tiesinė regresija – tai įvesties ir išvesties kintamųjų ryšio nustatymo metodika. Įvesties kintamieji laikomi nepriklausomais kintamaisiais arba prognozėmis, o išvesties kintamieji yra priklausomi kintamieji arba atsakymai. Taikant paprastą tiesinę regresiją, atsižvelgiama tik į vieną įvesties kintamąjį.

Realaus laiko paprastos tiesinės regresijos pavyzdys

Panagrinėkime duomenų rinkinį, kurį sudaro du parametrai: dirbtų valandų skaičius ir atlikto darbo kiekis. Paprasta tiesine regresija siekiama atspėti atlikto darbo kiekį, jei nurodytos darbo valandos. Nubrėžiama regresijos linija, kuri sukuria minimalią paklaidą. Taip pat sudaroma tiesinė lygtis, kurią vėliau galima naudoti beveik bet kokiam duomenų rinkiniui.

Principai, apibūdinantys paprastos tiesinės regresijos tikslą:

Paprasta tiesinė regresija naudojama duomenų rinkinio kintamųjų santykiams prognozuoti ir prasmingoms išvadoms padaryti. Paprasta tiesinė regresija dažniausiai naudojama statistiniam ryšiui tarp kintamųjų nustatyti, o tai nėra pakankamai tiksli. Keturi pagrindiniai principai vaizduoja paprastos tiesinės regresijos naudojimą. Šie principai yra išvardyti toliau:

Ryšys tarp dviejų kintamųjų laikomas tiesiniu ir adityviu: Kiekvienai priklausomų ir nepriklausomų kintamųjų porai nustatoma tiesi funkcija. Šios linijos nuolydis skiriasi nuo duomenų rinkinyje esančių kintamųjų verčių. Priklausomi kintamieji turi papildomą poveikį nepriklausomų kintamųjų reikšmėms.
Klaidos yra statistiškai nepriklausomos: Šis principas gali būti taikomas duomenų rinkiniui, kuriame yra informacija, susijusi su laiku ir eilėmis. Tokio duomenų rinkinio nuoseklios paklaidos nekoreliuoja ir yra statistiškai nepriklausomos.
Klaidos turi nuolatinę dispersiją (homoskedastiškumą): Klaidų homocedastiškumas gali būti vertinamas remiantis įvairiais parametrais. Šie parametrai apima laiką, kitas prognozes ir kitus kintamuosius.
Klaidų pasiskirstymo normalumas: Tai svarbus principas, nes jis palaiko kitus tris aukščiau paminėtus. Jei negalima nustatyti ryšio tarp duomenų rinkinio kintamųjų arba jei nenustatytas kuris nors iš pirmiau minėtų principų, visos modelio prognozės ir išvados yra neteisingos. Šios išvados negali būti toliau naudojamos projekte, nes naudojant neteisingus ir klaidinančius duomenis nebus pasiekta realių rezultatų.

Paprastos tiesinės regresijos pranašumai

Šią metodiką itin paprasta naudoti, o rezultatų galima pasiekti be pastangų.
Šis metodas yra labai mažiau sudėtingas nei kiti duomenų mokslo algoritmai, visų pirma, jei žinomas ryšys tarp priklausomų ir nepriklausomų kintamųjų.
Per didelis pritaikymas yra dažna būklė, kai ši metodika paima beprasmę informaciją. Šiai problemai išspręsti galima taikyti reguliavimo techniką, kuri sumažina perteklinio pritaikymo problemą sumažindama sudėtingumą.

Paprastos tiesinės regresijos trūkumai

Nors permontavimo problemą galima pašalinti, jos negalima ignoruoti. Metodas gali atsižvelgti į beprasmius duomenis ir taip pat pašalinti reikšmingą informaciją. Tokiu atveju visos prognozės yra išvados apie konkretų duomenų rinkinį, kurios bus neteisingos ir nebus galima gauti efektyvių rezultatų.
Duomenų nukrypimų problema taip pat yra labai dažna. Išskirtinės vertės laikomos neteisingomis reikšmėmis, kurios neatitinka tikslių duomenų. Atsižvelgus į tokias vertes, visas modelis duos klaidinančius rezultatus, kurie nenaudingi.
Taikant paprastą tiesinę regresiją, laikoma, kad duomenų rinkinys turi nepriklausomus duomenis. Ši prielaida klaidinga, nes tarp kintamųjų gali būti tam tikra priklausomybė.

Paprasta tiesinė regresija yra naudingas būdas nustatyti įvairių įvesties ir išvesties kintamųjų ryšius duomenų rinkinyje. Yra keletas realiu laiku taikomų paprastos tiesinės regresijos programų. Šis algoritmas nereikalauja didelės skaičiavimo galios ir gali būti lengvai įgyvendinamas. Išvestos lygtys ir išvados gali būti plėtojamos toliau ir jas labai paprasta suprasti. Tačiau kai kurie specialistai taip pat mano, kad paprasta tiesinė regresija nėra tinkama metodika įvairioms programoms, nes daroma daug prielaidų. Šios prielaidos taip pat gali būti klaidingos. Todėl šią techniką būtina naudoti visur, kur ją galima tinkamai pritaikyti.

Susijusios temos:duomenų mokslas tiesinė regresija

Kitas

Tyrėjai sukūrė optinį jutiklį, kuris imituoja žmogaus akį

Nepraleiskite

Naujasis „DeepMind“ AI gali išmokti žaidimo taisykles

Palakas Aironas

„Data Scientist“ darbuotojai, turintys daugiau nei 8 metų profesinę patirtį IT pramonėje. Kompetentingas duomenų mokslo ir skaitmeninės rinkodaros srityse. Profesionaliai ištirto techninio turinio patirtis.