Seguici sui social

AI 101

Che cos'è la regressione lineare?

mm

Che cos'è la regressione lineare?

La regressione lineare è un algoritmo utilizzato per prevedere o visualizzare a relazione tra due diverse caratteristiche/variabili. Nei compiti di regressione lineare, vengono esaminati due tipi di variabili: il variabile dipendente e la variabile indipendente. La variabile indipendente è la variabile che sta da sola, non influenzata dall'altra variabile. Man mano che la variabile indipendente viene regolata, i livelli della variabile dipendente fluttueranno. La variabile dipendente è la variabile che viene studiata ed è ciò per cui il modello di regressione risolve/tenta di prevedere. Nelle attività di regressione lineare, ogni osservazione/istanza comprende sia il valore della variabile dipendente che il valore della variabile indipendente.

Questa è stata una rapida spiegazione della regressione lineare, ma assicuriamoci di arrivare a una migliore comprensione della regressione lineare guardandone un esempio ed esaminando la formula che usa.

Comprensione della regressione lineare

Supponiamo di disporre di un set di dati che copre le dimensioni dei dischi rigidi e il costo di tali dischi rigidi.

Supponiamo che il set di dati che abbiamo sia composto da due diverse caratteristiche: la quantità di memoria e il costo. Più memoria acquistiamo per un computer, più aumenta il costo dell'acquisto. Se tracciassimo i singoli punti dati su un grafico a dispersione, potremmo ottenere un grafico simile a questo:

L'esatto rapporto memoria-costo può variare tra produttori e modelli di disco rigido, ma in generale, l'andamento dei dati è quello che inizia in basso a sinistra (dove i dischi rigidi sono sia più economici che con capacità inferiore) e si sposta verso in alto a destra (dove le unità sono più costose e hanno una capacità maggiore).

Se avessimo la quantità di memoria sull'asse X e il costo sull'asse Y, una linea che cattura la relazione tra le variabili X e Y inizierebbe nell'angolo in basso a sinistra e andrebbe in alto a destra.

La funzione di un modello di regressione è determinare una funzione lineare tra le variabili X e Y che meglio descrive la relazione tra le due variabili. Nella regressione lineare, si presume che Y possa essere calcolato da una combinazione delle variabili di input. La relazione tra le variabili di input (X) e le variabili di destinazione (Y) può essere rappresentata tracciando una linea attraverso i punti nel grafico. La linea rappresenta la funzione che meglio descrive la relazione tra X e Y (ad esempio, per ogni volta che X aumenta di 3, Y aumenta di 2). L'obiettivo è trovare una "linea di regressione" ottimale, o la linea/funzione che meglio si adatta ai dati.

Le linee sono tipicamente rappresentate dall'equazione: Y = m*X + b. X si riferisce alla variabile dipendente mentre Y è la variabile indipendente. Nel frattempo, m è la pendenza della linea, come definita dalla “salita” sulla “corsa”. I professionisti dell'apprendimento automatico rappresentano la famosa equazione della linea di pendenza in modo leggermente diverso, utilizzando invece questa equazione:

y(x) = w0 + w1 * x

Nell'equazione precedente, y è la variabile target mentre "w" sono i parametri del modello e l'input è "x". Quindi l'equazione si legge come: “La funzione che dà Y, dipendente da X, è uguale ai parametri del modello moltiplicati per le caratteristiche”. I parametri del modello vengono regolati durante l'addestramento per ottenere la linea di regressione più adatta.

Regressione lineare multipla

Foto: Cbaf via Wikimedia Commons, dominio pubblico (https://commons.wikimedia.org/wiki/File:2d_multiple_linear_regression.gif)

Il processo sopra descritto si applica alla regressione lineare semplice o alla regressione su set di dati in cui è presente una sola caratteristica/variabile indipendente. Tuttavia, è possibile eseguire una regressione anche con più funzionalità. In caso di "regressione lineare multipla”, l'equazione viene estesa dal numero di variabili trovate all'interno del set di dati. In altre parole, mentre l'equazione per la regressione lineare regolare è y(x) = w0 + w1 * x, l'equazione per la regressione lineare multipla sarebbe y(x) = w0 + w1x1 più i pesi e gli input per le varie caratteristiche. Se rappresentiamo il numero totale di pesi e caratteristiche come w(n)x(n), allora potremmo rappresentare la formula in questo modo:

y(x) = w0 + w1x1 + w2x2 + … + w(n)x(n)

Dopo aver stabilito la formula per la regressione lineare, il modello di machine learning utilizzerà valori diversi per i pesi, disegnando diverse linee di adattamento. Ricorda che l'obiettivo è trovare la linea che meglio si adatta ai dati per determinare quale delle possibili combinazioni di peso (e quindi quale possibile linea) si adatta meglio ai dati e spiega la relazione tra le variabili.

Una funzione di costo viene utilizzata per misurare quanto i valori Y assunti siano vicini ai valori Y effettivi quando viene fornito un particolare valore di peso. La funzione di costo per la regressione lineare è l'errore quadratico medio, che prende semplicemente l'errore medio (al quadrato) tra il valore previsto e il valore reale per tutti i vari punti dati nel set di dati. La funzione di costo viene utilizzata per calcolare un costo, che cattura la differenza tra il valore target previsto e il valore target reale. Se la linea di adattamento è lontana dai punti dati, il costo sarà più alto, mentre il costo diventerà più piccolo quanto più la linea si avvicina alla cattura delle vere relazioni tra le variabili. I pesi del modello vengono quindi regolati fino a quando non viene trovata la configurazione del peso che produce la quantità minima di errore.

Blogger e programmatore con specialità in machine Learning e Deep Learning temi. Daniel spera di aiutare gli altri a usare il potere dell'intelligenza artificiale per il bene sociale.