stub Kas yra tiesinė regresija? - Vienykitės.AI
Susisiekti su mumis
AI meistriškumo klasė:

AI 101 m

Kas yra tiesinė regresija?

mm
Atnaujinta on

Kas yra tiesinė regresija?

Tiesinė regresija yra algoritmas, naudojamas prognozuoti arba vizualizuoti a ryšys tarp dviejų skirtingų požymių/kintamųjų. Atliekant tiesinės regresijos užduotis, tiriami dviejų rūšių kintamieji: priklausomas kintamasis ir nepriklausomas kintamasis. Nepriklausomas kintamasis yra kintamasis, kuris yra pats savaime, o ne paveiktas kito kintamojo. Koreguojant nepriklausomą kintamąjį, priklausomo kintamojo lygiai svyruos. Priklausomas kintamasis yra kintamasis, kuris yra tiriamas, ir tai, ką regresijos modelis išsprendžia / bando numatyti. Atliekant tiesinės regresijos užduotis, kiekvieną stebėjimą / atvejį sudaro ir priklausoma kintamojo reikšmė, ir nepriklausoma kintamojo reikšmė.

Tai buvo greitas tiesinės regresijos paaiškinimas, bet įsitikinkime, kad geriau suprasime tiesinę regresiją, pažvelgę ​​į jos pavyzdį ir išnagrinėję joje naudojamą formulę.

Tiesinės regresijos supratimas

Tarkime, kad turime duomenų rinkinį, apimantį standžiųjų diskų dydžius ir tų standžiųjų diskų kainą.

Tarkime, kad mūsų turimą duomenų rinkinį sudaro dvi skirtingos funkcijos: atminties kiekis ir kaina. Kuo daugiau atminties perkame kompiuteriui, tuo brangiau kainuoja pirkinys. Jei atskirus duomenų taškus nubrėžtume sklaidos diagramoje, gautume grafiką, kuris atrodytų maždaug taip:

Tikslus atminties ir kainos santykis gali skirtis priklausomai nuo kietojo disko gamintojų ir modelių, tačiau apskritai duomenų tendencija prasideda apačioje kairėje (kur standieji diskai yra pigesni ir mažesnės talpos) ir pereina į viršutiniame dešiniajame kampe (kur diskai yra brangesni ir didesnės talpos).

Jei turėtume atminties kiekį X ašyje ir išlaidas Y ašyje, linija, fiksuojanti X ir Y kintamųjų ryšį, prasidėtų apatiniame kairiajame kampe ir eitų į viršutinį dešinįjį.

Regresijos modelio funkcija yra nustatyti tiesinę funkciją tarp X ir Y kintamųjų, kuri geriausiai apibūdina ryšį tarp dviejų kintamųjų. Taikant tiesinę regresiją, daroma prielaida, kad Y galima apskaičiuoti pagal tam tikrą įvesties kintamųjų derinį. Ryšys tarp įvesties kintamųjų (X) ir tikslinių kintamųjų (Y) gali būti pavaizduotas nubrėžiant liniją per grafiko taškus. Linija žymi funkciją, kuri geriausiai apibūdina ryšį tarp X ir Y (pavyzdžiui, kiekvieną kartą, kai X padidėja 3, Y padidėja 2). Tikslas yra rasti optimalią „regresijos liniją“ arba liniją / funkciją, kuri geriausiai atitinka duomenis.

Linijos paprastai vaizduojamos lygtimi: Y = m*X + b. X reiškia priklausomą kintamąjį, o Y yra nepriklausomas kintamasis. Tuo tarpu m yra linijos nuolydis, apibrėžtas „pakilimu“ per „bėgimą“. Mašininio mokymosi praktikai garsiąją nuolydžio linijos lygtį vaizduoja šiek tiek kitaip, vietoj jos naudoja šią lygtį:

y(x) = w0 + w1 * x

Aukščiau pateiktoje lygtyje y yra tikslinis kintamasis, o „w“ yra modelio parametrai, o įvestis yra „x“. Taigi lygtis skaitoma taip: „Funkcija, kuri suteikia Y, priklausomai nuo X, yra lygi modelio parametrams, padaugintam iš savybių“. Modelio parametrai koreguojami treniruočių metu, kad būtų gauta geriausiai tinkanti regresijos linija.

Daugkartinė tiesinė regresija

Nuotrauka: Cbaf per Wikimedia Commons, viešasis domenas (https://commons.wikimedia.org/wiki/File:2d_multiple_linear_regression.gif)

Aukščiau aprašytas procesas taikomas paprastai tiesinei regresijai arba duomenų rinkinių regresijai, kai yra tik viena savybė / nepriklausomas kintamasis. Tačiau regresiją taip pat galima atlikti naudojant kelias funkcijas. Jeigu "daugybinė tiesinė regresija“, lygtis išplečiama duomenų rinkinyje rastų kintamųjų skaičiumi. Kitaip tariant, nors reguliarios tiesinės regresijos lygtis yra y(x) = w0 + w1 * x, daugialypės tiesinės regresijos lygtis būtų y(x) = w0 + w1x1, pridėjus įvairių savybių svorius ir įvestis. Jei bendrą svorių ir savybių skaičių pateiksime kaip w(n)x(n), tada formulę galėtume pavaizduoti taip:

y(x) = w0 + w1x1 + w2x2 + … + w(n)x(n)

Nustačius tiesinės regresijos formulę, mašininio mokymosi modelis naudos skirtingas svorių reikšmes, nubrėždamas skirtingas pritaikymo linijas. Atminkite, kad tikslas yra rasti liniją, kuri geriausiai atitinka duomenis, siekiant nustatyti, kuri iš galimų svorio kombinacijų (taigi ir kuri galima eilutė) geriausiai atitinka duomenis, ir paaiškinti ryšį tarp kintamųjų.

Išlaidų funkcija naudojama norint išmatuoti, kiek numanomos Y vertės yra artimos tikrosioms Y vertėms, kai suteikiama tam tikra svorio reikšmė. Kainos funkcija tiesinei regresijai yra vidutinė kvadratinė paklaida, kuri tiesiog paima vidutinę (kvadratinę) paklaidą tarp numatomos vertės ir tikrosios visų įvairių duomenų rinkinio duomenų taškų vertės. Išlaidų funkcija naudojama sąnaudoms apskaičiuoti, kurios fiksuoja skirtumą tarp numatomos tikslinės vertės ir tikrosios tikslinės vertės. Jei pritaikymo linija yra toli nuo duomenų taškų, kaina bus didesnė, o kaina bus mažesnė, kuo labiau linija priartės prie tikrųjų kintamųjų ryšių fiksavimo. Tada modelio svoriai koreguojami, kol randama svorio konfigūracija, kuri sukelia mažiausią paklaidą.

Tinklaraštininkas ir programuotojas, turintis specialybių Mašininis mokymasis ir Gilus mokymasis temomis. Danielis tikisi padėti kitiems panaudoti AI galią socialinei gerovei.