Contáctenos

¿Qué es la regresión lineal?

AI 101

¿Qué es la regresión lineal?

mm

¿Qué es la regresión lineal?

La regresión lineal es un algoritmo utilizado para predecir o visualizar una relación entre dos características/variables diferentes. En las tareas de regresión lineal, se examinan dos tipos de variables: la variable dependiente y la variable independiente. La variable independiente es la variable que se sostiene por sí misma, no afectada por la otra variable. A medida que se ajusta la variable independiente, los niveles de la variable dependiente fluctuarán. La variable dependiente es la variable que se está estudiando, y es lo que el modelo de regresión resuelve/intenta predecir. En las tareas de regresión lineal, cada observación/instancia se compone tanto del valor de la variable dependiente como del valor de la variable independiente.

Esa fue una explicación rápida de la regresión lineal, pero asegurémonos de llegar a una mejor comprensión de la regresión lineal mirando un ejemplo y examinando la fórmula que usa.

Comprender la regresión lineal

Suponga que tenemos un conjunto de datos que cubre los tamaños de los discos duros y el costo de esos discos duros.

Supongamos que el conjunto de datos que tenemos se compone de dos características diferentes: la cantidad de memoria y el costo. Cuanta más memoria adquirimos para un ordenador, más sube el coste de la compra. Si graficamos los puntos de datos individuales en un diagrama de dispersión, podríamos obtener un gráfico similar a este:

La relación exacta entre memoria y costo puede variar entre los fabricantes y los modelos de disco duro, pero en general, la tendencia de los datos comienza en la parte inferior izquierda (donde los discos duros son más baratos y tienen menor capacidad) y se mueve hacia la parte superior derecha (donde las unidades son más caras y tienen mayor capacidad).

Si tuviéramos la cantidad de memoria en el eje X y el costo en el eje Y, una línea que capturara la relación entre las variables X e Y comenzaría en la esquina inferior izquierda y continuaría hasta la esquina superior derecha.

La función de un modelo de regresión es determinar una función lineal entre las variables X e Y que mejor describa la relación entre las dos variables. En la regresión lineal, se supone que Y puede calcularse a partir de alguna combinación de las variables de entrada. La relación entre las variables de entrada (X) y las variables objetivo (Y) se puede representar dibujando una línea a través de los puntos en el gráfico. La línea representa la función que mejor describe la relación entre X e Y (por ejemplo, cada vez que X aumenta en 3, Y aumenta en 2). El objetivo es encontrar una "línea de regresión" óptima, o la línea/función que mejor se ajuste a los datos.

Las líneas suelen estar representadas por la ecuación: Y = m*X + b. X se refiere a la variable dependiente mientras que Y es la variable independiente. Mientras tanto, m es la pendiente de la línea, definida por el "ascenso" sobre el "recorrido". Los profesionales del aprendizaje automático representan la famosa ecuación de la línea pendiente de forma un poco diferente, utilizando en su lugar esta ecuación:

y(x) = w0 + w1 * x

En la ecuación anterior, y es la variable objetivo, mientras que "w" son los parámetros del modelo y la entrada es "x". Entonces la ecuación se lee como: “La función que da Y, dependiendo de X, es igual a los parámetros del modelo multiplicados por las características”. Los parámetros del modelo se ajustan durante el entrenamiento para obtener la línea de regresión de mejor ajuste.

Regresión lineal múltiple

Foto: Cbaf a través de Wikimedia Commons, dominio público (https://commons.wikimedia.org/wiki/File:2d_multiple_linear_regression.gif)

El proceso descrito anteriormente se aplica a la regresión lineal simple o a la regresión en conjuntos de datos en los que solo hay una característica/variable independiente. Sin embargo, también se puede hacer una regresión con múltiples características. En el caso de "regresión lineal múltiple”, la ecuación se extiende por el número de variables encontradas dentro del conjunto de datos. En otras palabras, mientras que la ecuación para la regresión lineal regular es y(x) = w0 + w1 * x, la ecuación para la regresión lineal múltiple sería y(x) = w0 + w1x1 más los pesos y las entradas para las distintas funciones. Si representamos el número total de pesos y características como w(n)x(n), entonces podríamos representar la fórmula de esta manera:

y(x) = w0 + w1x1 + w2x2 + … + w(n)x(n)

Después de establecer la fórmula para la regresión lineal, el modelo de aprendizaje automático utilizará diferentes valores para los pesos, dibujando diferentes líneas de ajuste. Recuerde que el objetivo es encontrar la línea que mejor se ajuste a los datos para determinar cuál de las posibles combinaciones de pesos (y por lo tanto qué línea posible) se ajusta mejor a los datos y explica la relación entre las variables.

Una función de costo se utiliza para medir la proximidad de los valores Y asumidos a los valores Y reales cuando se le asigna un valor de ponderación particular. La función de costo para la regresión lineal es el error cuadrático medio, que simplemente toma el error promedio (cuadrático) entre el valor predicho y el valor real para todos los puntos de datos en el conjunto de datos. La función de costo se utiliza para calcular un costo, que captura la diferencia entre el valor objetivo predicho y el valor objetivo real. Si la línea de ajuste está lejos de los puntos de datos, el costo será mayor, mientras que el costo se reducirá cuanto más se acerque la línea a capturar las verdaderas relaciones entre las variables. Los pesos del modelo se ajustan entonces hasta encontrar la configuración de pesos que produce la menor cantidad de error.

Blogger y programador con especialidades en Aprendizaje automático y Aprendizaje profundo temas Daniel espera ayudar a otros a usar el poder de la IA para el bien social.