ciot Ce este regresia liniară? - Unite.AI
Conectează-te cu noi
Masterclass AI:

AI 101

Ce este regresia liniară?

mm
Actualizat on

Ce este regresia liniară?

Regresia liniară este un algoritm folosit pentru a prezice sau vizualiza a relația dintre două caracteristici/variabile diferite. În sarcinile de regresie liniară, sunt examinate două tipuri de variabile: the variabila dependenta si variabila independenta. Variabila independentă este variabila care rămâne de sine stătătoare, care nu este afectată de cealaltă variabilă. Pe măsură ce variabila independentă este ajustată, nivelurile variabilei dependente vor fluctua. Variabila dependentă este variabila care este studiată și este ceea ce rezolvă modelul de regresie/încercă să prezică. În sarcinile de regresie liniară, fiecare observație/instanță este compusă atât din valoarea variabilei dependente, cât și din valoarea variabilei independente.

Aceasta a fost o explicație rapidă a regresiei liniare, dar să ne asigurăm că ajungem la o mai bună înțelegere a regresiei liniare, analizând un exemplu al acesteia și examinând formula pe care o folosește.

Înțelegerea regresiei liniare

Să presupunem că avem un set de date care acoperă dimensiunile hard disk-urilor și costul acelor hard disk.

Să presupunem că setul de date pe care îl avem este compus din două caracteristici diferite: cantitatea de memorie și costul. Cu cât achiziționăm mai multă memorie pentru un computer, cu atât costul achiziției crește. Dacă am trasat punctele de date individuale pe un grafic de dispersie, am putea obține un grafic care arată cam așa:

Raportul exact memorie-cost poate varia între producători și modele de hard disk, dar, în general, tendința datelor este una care începe în stânga jos (unde hard disk-urile sunt atât mai ieftine, cât și au o capacitate mai mică) și se mută către dreapta sus (unde unitățile sunt mai scumpe și au capacitate mai mare).

Dacă am avea cantitatea de memorie pe axa X și costul pe axa Y, o linie care surprinde relația dintre variabilele X și Y ar începe în colțul din stânga jos și ar merge în dreapta sus.

Funcția unui model de regresie este de a determina o funcție liniară între variabilele X și Y care descrie cel mai bine relația dintre cele două variabile. În regresia liniară, se presupune că Y poate fi calculat dintr-o combinație de variabile de intrare. Relația dintre variabilele de intrare (X) și variabilele țintă (Y) poate fi reprezentată prin trasarea unei linii prin punctele din grafic. Linia reprezintă funcția care descrie cel mai bine relația dintre X și Y (de exemplu, pentru fiecare dată când X crește cu 3, Y crește cu 2). Scopul este de a găsi o „linie de regresie” optimă sau linia/funcția care se potrivește cel mai bine datelor.

Liniile sunt reprezentate de obicei prin ecuația: Y = m*X + b. X se referă la variabila dependentă, în timp ce Y este variabila independentă. Între timp, m este panta dreptei, așa cum este definită de „creșterea” peste „curgere”. Practicienii învățării automate reprezintă faimoasa ecuație a liniei pantei puțin diferit, folosind în schimb această ecuație:

y(x) = w0 + w1 * x

În ecuația de mai sus, y este variabila țintă, în timp ce „w” este parametrii modelului, iar intrarea este „x”. Deci ecuația se citește astfel: „Funcția care dă Y, în funcție de X, este egală cu parametrii modelului înmulțiți cu caracteristicile”. Parametrii modelului sunt ajustați în timpul antrenamentului pentru a obține linia de regresie cea mai potrivită.

Regresie liniară multiplă

Foto: Cbaf prin Wikimedia Commons, Public Domain (https://commons.wikimedia.org/wiki/File:2d_multiple_linear_regression.gif)

Procesul descris mai sus se aplică regresiei liniare simple sau regresiei pe seturi de date în care există doar o singură caracteristică/variabilă independentă. Cu toate acestea, o regresie se poate face și cu caracteristici multiple. În cazul în care "regresie liniară multiplă”, ecuația este extinsă cu numărul de variabile găsite în setul de date. Cu alte cuvinte, în timp ce ecuația pentru regresia liniară obișnuită este y(x) = w0 + w1 * x, ecuația pentru regresia liniară multiplă ar fi y(x) = w0 + w1x1 plus ponderile și intrările pentru diferitele caracteristici. Dacă reprezentăm numărul total de greutăți și caracteristici ca w(n)x(n), atunci am putea reprezenta formula astfel:

y(x) = w0 + w1x1 + w2x2 + … + w(n)x(n)

După stabilirea formulei pentru regresia liniară, modelul de învățare automată va folosi valori diferite pentru ponderi, trasând diferite linii de potrivire. Amintiți-vă că scopul este de a găsi linia care se potrivește cel mai bine datelor pentru a determina care dintre combinațiile posibile de ponderi (și, prin urmare, care linie posibilă) se potrivește cel mai bine datelor și explică relația dintre variabile.

O funcție de cost este utilizată pentru a măsura cât de apropiate sunt valorile Y presupuse de valorile reale Y atunci când i se oferă o anumită valoare a greutății. Funcția de cost pentru regresia liniară este eroarea medie pătrată, care ia doar eroarea medie (pătrată) dintre valoarea prezisă și valoarea adevărată pentru toate diferitele puncte de date din setul de date. Funcția de cost este utilizată pentru a calcula un cost, care surprinde diferența dintre valoarea țintă estimată și valoarea țintă reală. Dacă linia de potrivire este departe de punctele de date, costul va fi mai mare, în timp ce costul va deveni mai mic cu cât linia se apropie de captarea adevăratelor relații dintre variabile. Greutățile modelului sunt apoi ajustate până când este găsită configurația de greutate care produce cea mai mică cantitate de eroare.

Blogger și programator cu specialități în Invatare mecanica și Invatare profunda subiecte. Daniel speră să-i ajute pe alții să folosească puterea AI pentru binele social.