- Terminologia (A a D)
- Controle de capacidade de IA
- AIOps
- Albumentações
- Desempenho dos Ativos
- Codificador automático
- Retropropagação
- Teorema de Bayes
- Big Data
- Chatbot: um guia para iniciantes
- Pensamento Computacional
- Visão de Computador
- Matriz de Confusão
- Redes Neurais Convolucionais
- Cíber segurança
- Tecido de dados
- Contação de histórias de dados
- Ciência dados
- Data warehousing
- Árvore de decisão
- Deepfakes
- Aprendizagem profunda
- Aprendizagem por Reforço Profundo
- devops
- DevSecOps
- Modelos de Difusão
- Digital Twin
- Redução de dimensionalidade
- Terminologia (E a K)
- IA de borda
- Emoção AI
- Ensemble Learning
- Ethical Hacking
- ETL
- IA explicável
- Aprendizagem Federada
- FinOps
- IA generativa
- Rede Adversarial Geradora
- Generativo vs. Discriminativo
- Intensificação de Gradiente
- Gradiente descendente
- Aprendizagem de poucos tiros
- Classificação de imagens
- Operações de TI (ITOps)
- Automação de Incidentes
- Engenharia de influência
- K-significa clusters
- Vizinhos mais próximos
- Terminologia (L a Q)
- Terminologia (R a Z)
- Aprendizagem por Reforço
- IA responsável
- RLHF
- Automação de Processo Robótica
- Estruturado x Não Estruturado
- Análise de Sentimentos
- Supervisionado x Não supervisionado
- Máquinas de vetor de suporte
- Dados Sintéticos
- Mídia Sintética
- Classificação de Texto
- TinyML
- Aprendizagem por transferência
- Redes Neurais Transformadoras
- Teste de Turing
- Pesquisa de semelhança vetorial
AI 101
O que é regressão linear?
Índice analítico
O que é regressão linear?
A regressão linear é um algoritmo usado para prever ou visualizar um relação entre dois recursos/variáveis diferentes. Em tarefas de regressão linear, há dois tipos de variáveis sendo examinadas: o variável dependente e a variável independente. A variável independente é a variável que se sustenta sozinha, não impactada pela outra variável. À medida que a variável independente é ajustada, os níveis da variável dependente irão flutuar. A variável dependente é a variável que está sendo estudada e é o que o modelo de regressão resolve/tenta prever. Em tarefas de regressão linear, cada observação/instância é composta pelo valor da variável dependente e pelo valor da variável independente.
Essa foi uma explicação rápida da regressão linear, mas vamos nos certificar de que entendemos melhor a regressão linear observando um exemplo dela e examinando a fórmula que ela usa.
Compreendendo a regressão linear
Suponha que tenhamos um conjunto de dados cobrindo tamanhos de disco rígido e o custo desses discos rígidos.
Vamos supor que o conjunto de dados que temos seja composto por dois recursos diferentes: a quantidade de memória e o custo. Quanto mais memória compramos para um computador, mais o custo da compra aumenta. Se plotássemos os pontos de dados individuais em um gráfico de dispersão, poderíamos obter um gráfico mais ou menos assim:
A relação memória/custo exata pode variar entre fabricantes e modelos de disco rígido, mas, em geral, a tendência dos dados é aquela que começa no canto inferior esquerdo (onde os discos rígidos são mais baratos e têm menor capacidade) e se move para no canto superior direito (onde as unidades são mais caras e têm maior capacidade).
Se tivéssemos a quantidade de memória no eixo X e o custo no eixo Y, uma linha que capturasse a relação entre as variáveis X e Y começaria no canto inferior esquerdo e seguiria para o canto superior direito.
A função de um modelo de regressão é determinar uma função linear entre as variáveis X e Y que melhor descreva a relação entre as duas variáveis. Na regressão linear, assume-se que Y pode ser calculado a partir de alguma combinação das variáveis de entrada. A relação entre as variáveis de entrada (X) e as variáveis de destino (Y) pode ser retratada desenhando uma linha através dos pontos no gráfico. A linha representa a função que melhor descreve a relação entre X e Y (por exemplo, para cada vez que X aumenta em 3, Y aumenta em 2). O objetivo é encontrar uma “linha de regressão” ideal, ou a linha/função que melhor se ajusta aos dados.
As linhas são normalmente representadas pela equação: Y = m*X + b. X refere-se à variável dependente, enquanto Y é a variável independente. Enquanto isso, m é a inclinação da linha, conforme definida pela “ascensão” sobre o “curso”. Os profissionais de aprendizado de máquina representam a famosa equação da reta de inclinação de maneira um pouco diferente, usando esta equação:
y(x) = w0 + w1 * x
Na equação acima, y é a variável alvo enquanto “w” são os parâmetros do modelo e a entrada é “x”. Assim, a equação é lida como: “A função que dá Y, dependendo de X, é igual aos parâmetros do modelo multiplicados pelas características”. Os parâmetros do modelo são ajustados durante o treinamento para obter a linha de regressão de melhor ajuste.
Regressão linear múltipla
O processo descrito acima se aplica à regressão linear simples ou à regressão em conjuntos de dados em que há apenas um único recurso/variável independente. No entanto, uma regressão também pode ser feita com vários recursos. No caso de "Regressão linear múltipla”, a equação é estendida pelo número de variáveis encontradas no conjunto de dados. Em outras palavras, enquanto a equação para regressão linear regular é y(x) = w0 + w1 * x, a equação para regressão linear múltipla seria y(x) = w0 + w1x1 mais os pesos e entradas para os vários recursos. Se representarmos o número total de pesos e recursos como w(n)x(n), poderíamos representar a fórmula assim:
y(x) = w0 + w1x1 + w2x2 +… + w(n)x(n)
Depois de estabelecer a fórmula de regressão linear, o modelo de aprendizado de máquina usará diferentes valores para os pesos, desenhando diferentes linhas de ajuste. Lembre-se que o objetivo é encontrar a linha que melhor se ajusta aos dados para determinar qual das possíveis combinações de peso (e, portanto, qual linha possível) melhor se ajusta aos dados e explica a relação entre as variáveis.
Uma função de custo é usada para medir o quão perto os valores de Y assumidos estão dos valores de Y reais quando dado um valor de peso específico. A função de custo para regressão linear é o erro quadrático médio, que apenas considera o erro médio (quadrado) entre o valor previsto e o valor verdadeiro para todos os vários pontos de dados no conjunto de dados. A função de custo é usada para calcular um custo, que captura a diferença entre o valor de destino previsto e o valor de destino real. Se a linha de ajuste estiver longe dos pontos de dados, o custo será maior, enquanto o custo se tornará menor quanto mais perto a linha estiver de capturar as verdadeiras relações entre as variáveis. Os pesos do modelo são então ajustados até que a configuração de peso que produza a menor quantidade de erro seja encontrada.
Blogueiro e programador com especialidades em Machine Learning e Aprendizagem profunda tópicos. Daniel espera ajudar outras pessoas a usar o poder da IA para o bem social.