stubs Kas ir lineārā regresija? - Apvienojieties.AI
Savienoties ar mums
AI meistarklase:

AI 101

Kas ir lineārā regresija?

mm
Atjaunināts on

Kas ir lineārā regresija?

Lineārā regresija ir algoritms, ko izmanto, lai prognozētu vai vizualizētu a attiecības starp divām dažādām pazīmēm/mainīgajiem. Lineārās regresijas uzdevumos tiek pārbaudīti divu veidu mainīgie: atkarīgais mainīgais un neatkarīgais mainīgais. Neatkarīgais mainīgais ir mainīgais, kas pastāv pats, un to neietekmē otrs mainīgais. Tā kā neatkarīgais mainīgais tiek koriģēts, atkarīgā mainīgā līmeņi svārstīsies. Atkarīgais mainīgais ir mainīgais, kas tiek pētīts, un tas ir tas, ko regresijas modelis atrisina/mēģina paredzēt. Lineārās regresijas uzdevumos katrs novērojums/gadījums sastāv gan no atkarīgā mainīgā vērtības, gan no neatkarīgā mainīgā vērtības.

Tas bija ātrs lineārās regresijas skaidrojums, taču pārliecināsimies, ka mēs labāk izprotam lineāro regresiju, aplūkojot tās piemēru un pārbaudot tajā izmantoto formulu.

Lineārās regresijas izpratne

Pieņemsim, ka mums ir datu kopa, kas aptver cieto disku izmērus un šo cieto disku izmaksas.

Pieņemsim, ka mūsu rīcībā esošā datu kopa sastāv no divām dažādām funkcijām: atmiņas apjoma un izmaksām. Jo vairāk atmiņas mēs iegādājamies datoram, jo ​​vairāk pirkuma izmaksas palielinās. Ja mēs izkliedētu atsevišķus datu punktus izkliedes diagrammā, mēs varētu iegūt grafiku, kas izskatās apmēram šādi:

Precīza atmiņas un izmaksu attiecība dažādiem cieto disku ražotājiem un modeļiem var atšķirties, taču kopumā datu tendence sākas apakšējā kreisajā stūrī (kur cietie diski ir lētāki un ar mazāku ietilpību) un pāriet uz augšējā labajā stūrī (kur diskdziņi ir dārgāki un tiem ir lielāka ietilpība).

Ja mums būtu atmiņas apjoms uz X ass un izmaksas uz Y ass, līnija, kas atspoguļo attiecības starp X un Y mainīgajiem, sāktos apakšējā kreisajā stūrī un virzītos uz augšējo labo pusi.

Regresijas modeļa funkcija ir noteikt lineāru funkciju starp X un Y mainīgajiem lielumiem, kas vislabāk raksturo attiecības starp diviem mainīgajiem. Lineārajā regresijā tiek pieņemts, ka Y var aprēķināt no kādas ievades mainīgo kombinācijas. Sakarību starp ievades mainīgajiem (X) un mērķa mainīgajiem (Y) var attēlot, novelkot līniju caur diagrammas punktiem. Līnija attēlo funkciju, kas vislabāk raksturo saistību starp X un Y (piemēram, katru reizi, kad X palielinās par 3, Y palielinās par 2). Mērķis ir atrast optimālu “regresijas līniju” vai līniju/funkciju, kas vislabāk atbilst datiem.

Līnijas parasti attēlo vienādojums: Y = m*X + b. X attiecas uz atkarīgo mainīgo, bet Y ir neatkarīgais mainīgais. Tikmēr m ir līnijas slīpums, ko definē kā “pieaugumu” pār “skrējienu”. Mašīnmācības praktiķi slaveno slīpuma līnijas vienādojumu attēlo nedaudz savādāk, tā vietā izmantojot šo vienādojumu:

y(x) = w0 + w1 * x

Iepriekš minētajā vienādojumā y ir mērķa mainīgais, savukārt “w” ir modeļa parametri un ievade ir “x”. Tātad vienādojums tiek lasīts šādi: "Funkcija, kas dod Y atkarībā no X, ir vienāda ar modeļa parametriem, kas reizināti ar pazīmēm". Modeļa parametri tiek pielāgoti apmācības laikā, lai iegūtu vislabāko regresijas līniju.

Daudzkārtēja lineārā regresija

Foto: Cbaf, izmantojot Wikimedia Commons, publiskais domēns (https://commons.wikimedia.org/wiki/File:2d_multiple_linear_regression.gif)

Iepriekš aprakstītais process attiecas uz vienkāršu lineāro regresiju vai regresiju datu kopās, kurās ir tikai viena iezīme/neatkarīgs mainīgais. Tomēr regresiju var veikt arī ar vairākām funkcijām. Gadījumā, ja "daudzkārtēja lineāra regresija”, vienādojums tiek paplašināts ar datu kopā atrasto mainīgo skaitu. Citiem vārdiem sakot, lai gan regulāras lineārās regresijas vienādojums ir y(x) = w0 + w1 * x, daudzkārtējas lineārās regresijas vienādojums būtu y(x) = w0 + w1x1 plus dažādu pazīmju svari un ievades dati. Ja kopējo svaru un pazīmju skaitu attēlojam kā w(n)x(n), tad formulu varētu attēlot šādi:

y(x) = w0 + w1x1 + w2x2 + … + w(n)x(n)

Pēc lineārās regresijas formulas noteikšanas mašīnmācīšanās modelis izmantos dažādas svaru vērtības, zīmējot dažādas atbilstības līnijas. Atcerieties, ka mērķis ir atrast rindu, kas vislabāk atbilst datiem, lai noteiktu, kura no iespējamām svara kombinācijām (un līdz ar to, kura iespējamā līnija) vislabāk atbilst datiem, un izskaidro attiecības starp mainīgajiem.

Izmaksu funkcija tiek izmantota, lai noteiktu, cik tuvu pieņemtās Y vērtības ir faktiskajām Y vērtībām, ja tiek dota noteikta svara vērtība. Izmaksu funkcija lineārajai regresijai ir vidējā kvadrātā kļūda, kas tikai ņem vidējo (kvadrātveida) kļūdu starp prognozēto vērtību un patieso vērtību visiem dažādajiem datu kopas datu punktiem. Izmaksu funkcija tiek izmantota, lai aprēķinātu izmaksas, kas atspoguļo starpību starp prognozēto mērķa vērtību un patieso mērķa vērtību. Ja atbilstības līnija atrodas tālu no datu punktiem, izmaksas būs lielākas, savukārt izmaksas kļūs mazākas, jo tuvāk līnija tuvosies patieso sakarību noteikšanai starp mainīgajiem. Pēc tam modeļa svarus noregulē, līdz tiek atrasta svara konfigurācija, kas rada vismazāko kļūdu.

Emuāru autors un programmētājs ar specialitātēm Mašīnu mācīšana un Dziļa mācīšanās tēmas. Daniels cer palīdzēt citiem izmantot mākslīgā intelekta spēku sociālā labuma gūšanai.