toco O que é Regressão Linear? - Unite.AI
Entre em contato
Masterclass de IA:

AI 101

O que é regressão linear?

mm
Atualização do on

O que é regressão linear?

A regressão linear é um algoritmo usado para prever ou visualizar um relação entre dois recursos/variáveis ​​diferentes. Em tarefas de regressão linear, há dois tipos de variáveis ​​sendo examinadas: o variável dependente e a variável independente. A variável independente é a variável que se sustenta sozinha, não impactada pela outra variável. À medida que a variável independente é ajustada, os níveis da variável dependente irão flutuar. A variável dependente é a variável que está sendo estudada e é o que o modelo de regressão resolve/tenta prever. Em tarefas de regressão linear, cada observação/instância é composta pelo valor da variável dependente e pelo valor da variável independente.

Essa foi uma explicação rápida da regressão linear, mas vamos nos certificar de que entendemos melhor a regressão linear observando um exemplo dela e examinando a fórmula que ela usa.

Compreendendo a regressão linear

Suponha que tenhamos um conjunto de dados cobrindo tamanhos de disco rígido e o custo desses discos rígidos.

Vamos supor que o conjunto de dados que temos seja composto por dois recursos diferentes: a quantidade de memória e o custo. Quanto mais memória compramos para um computador, mais o custo da compra aumenta. Se plotássemos os pontos de dados individuais em um gráfico de dispersão, poderíamos obter um gráfico mais ou menos assim:

A relação memória/custo exata pode variar entre fabricantes e modelos de disco rígido, mas, em geral, a tendência dos dados é aquela que começa no canto inferior esquerdo (onde os discos rígidos são mais baratos e têm menor capacidade) e se move para no canto superior direito (onde as unidades são mais caras e têm maior capacidade).

Se tivéssemos a quantidade de memória no eixo X e o custo no eixo Y, uma linha que capturasse a relação entre as variáveis ​​X e Y começaria no canto inferior esquerdo e seguiria para o canto superior direito.

A função de um modelo de regressão é determinar uma função linear entre as variáveis ​​X e Y que melhor descreva a relação entre as duas variáveis. Na regressão linear, assume-se que Y pode ser calculado a partir de alguma combinação das variáveis ​​de entrada. A relação entre as variáveis ​​de entrada (X) e as variáveis ​​de destino (Y) pode ser retratada desenhando uma linha através dos pontos no gráfico. A linha representa a função que melhor descreve a relação entre X e Y (por exemplo, para cada vez que X aumenta em 3, Y aumenta em 2). O objetivo é encontrar uma “linha de regressão” ideal, ou a linha/função que melhor se ajusta aos dados.

As linhas são normalmente representadas pela equação: Y = m*X + b. X refere-se à variável dependente, enquanto Y é a variável independente. Enquanto isso, m é a inclinação da linha, conforme definida pela “ascensão” sobre o “curso”. Os profissionais de aprendizado de máquina representam a famosa equação da reta de inclinação de maneira um pouco diferente, usando esta equação:

y(x) = w0 + w1 * x

Na equação acima, y ​​é a variável alvo enquanto “w” são os parâmetros do modelo e a entrada é “x”. Assim, a equação é lida como: “A função que dá Y, dependendo de X, é igual aos parâmetros do modelo multiplicados pelas características”. Os parâmetros do modelo são ajustados durante o treinamento para obter a linha de regressão de melhor ajuste.

Regressão linear múltipla

Foto: Cbaf via Wikimedia Commons, Domínio público (https://commons.wikimedia.org/wiki/File:2d_multiple_linear_regression.gif)

O processo descrito acima se aplica à regressão linear simples ou à regressão em conjuntos de dados em que há apenas um único recurso/variável independente. No entanto, uma regressão também pode ser feita com vários recursos. No caso de "Regressão linear múltipla”, a equação é estendida pelo número de variáveis ​​encontradas no conjunto de dados. Em outras palavras, enquanto a equação para regressão linear regular é y(x) = w0 + w1 * x, a equação para regressão linear múltipla seria y(x) = w0 + w1x1 mais os pesos e entradas para os vários recursos. Se representarmos o número total de pesos e recursos como w(n)x(n), poderíamos representar a fórmula assim:

y(x) = w0 + w1x1 + w2x2 +… + w(n)x(n)

Depois de estabelecer a fórmula de regressão linear, o modelo de aprendizado de máquina usará diferentes valores para os pesos, desenhando diferentes linhas de ajuste. Lembre-se que o objetivo é encontrar a linha que melhor se ajusta aos dados para determinar qual das possíveis combinações de peso (e, portanto, qual linha possível) melhor se ajusta aos dados e explica a relação entre as variáveis.

Uma função de custo é usada para medir o quão perto os valores de Y assumidos estão dos valores de Y reais quando dado um valor de peso específico. A função de custo para regressão linear é o erro quadrático médio, que apenas considera o erro médio (quadrado) entre o valor previsto e o valor verdadeiro para todos os vários pontos de dados no conjunto de dados. A função de custo é usada para calcular um custo, que captura a diferença entre o valor de destino previsto e o valor de destino real. Se a linha de ajuste estiver longe dos pontos de dados, o custo será maior, enquanto o custo se tornará menor quanto mais perto a linha estiver de capturar as verdadeiras relações entre as variáveis. Os pesos do modelo são então ajustados até que a configuração de peso que produza a menor quantidade de erro seja encontrada.

Blogueiro e programador com especialidades em Machine Learning e Aprendizagem profunda tópicos. Daniel espera ajudar outras pessoas a usar o poder da IA ​​para o bem social.