talon Qu'est-ce que la régression linéaire ? - Unite.AI
Suivez nous sur
Classe de maître IA :

AI 101

Qu'est-ce que la régression linéaire?

mm
Le kit de préparation mis à jour on

Qu'est-ce que la régression linéaire?

La régression linéaire est un algorithme utilisé pour prédire ou visualiser un relation entre deux caractéristiques/variables différentes. Dans les tâches de régression linéaire, deux types de variables sont examinées : variable dépendante et la variable indépendante. La variable indépendante est la variable qui se tient par elle-même, non impactée par l'autre variable. Au fur et à mesure que la variable indépendante est ajustée, les niveaux de la variable dépendante fluctueront. La variable dépendante est la variable qui est étudiée, et c'est ce que le modèle de régression résout/tente de prédire. Dans les tâches de régression linéaire, chaque observation/instance comprend à la fois la valeur de la variable dépendante et la valeur de la variable indépendante.

C'était une explication rapide de la régression linéaire, mais assurons-nous de mieux comprendre la régression linéaire en examinant un exemple et en examinant la formule qu'elle utilise.

Comprendre la régression linéaire

Supposons que nous disposions d'un ensemble de données couvrant la taille des disques durs et le coût de ces disques durs.

Supposons que l'ensemble de données dont nous disposons est composé de deux caractéristiques différentes : la quantité de mémoire et le coût. Plus nous achetons de mémoire pour un ordinateur, plus le coût d'achat augmente. Si nous traçons les points de données individuels sur un nuage de points, nous pourrions obtenir un graphique qui ressemble à ceci :

Le rapport mémoire-coût exact peut varier entre les fabricants et les modèles de disque dur, mais en général, la tendance des données est celle qui commence en bas à gauche (où les disques durs sont à la fois moins chers et ont une plus petite capacité) et se déplace vers en haut à droite (où les disques sont plus chers et ont une plus grande capacité).

Si nous avions la quantité de mémoire sur l'axe X et le coût sur l'axe Y, une ligne capturant la relation entre les variables X et Y commencerait dans le coin inférieur gauche et se dirigerait vers le coin supérieur droit.

La fonction d'un modèle de régression est de déterminer une fonction linéaire entre les variables X et Y qui décrit le mieux la relation entre les deux variables. Dans la régression linéaire, on suppose que Y peut être calculé à partir d'une combinaison des variables d'entrée. La relation entre les variables d'entrée (X) et les variables cibles (Y) peut être illustrée en traçant une ligne à travers les points du graphique. La ligne représente la fonction qui décrit le mieux la relation entre X et Y (par exemple, à chaque fois que X augmente de 3, Y augmente de 2). L'objectif est de trouver une "ligne de régression" optimale, ou la ligne/fonction qui correspond le mieux aux données.

Les lignes sont généralement représentées par l'équation : Y = m*X + b. X fait référence à la variable dépendante tandis que Y est la variable indépendante. Pendant ce temps, m est la pente de la ligne, telle que définie par la « montée » sur la « course ». Les praticiens de l'apprentissage automatique représentent la célèbre équation de la pente-ligne un peu différemment, en utilisant plutôt cette équation :

y(x) = w0 + w1 * x

Dans l'équation ci-dessus, y est la variable cible tandis que "w" est les paramètres du modèle et l'entrée est "x". Ainsi l'équation se lit comme suit : « La fonction qui donne Y, en fonction de X, est égale aux paramètres du modèle multipliés par les caractéristiques ». Les paramètres du modèle sont ajustés pendant la formation pour obtenir la droite de régression la mieux adaptée.

La régression linéaire multiple

Photo : Cbaf via Wikimedia Commons, domaine public (https://commons.wikimedia.org/wiki/File:2d_multiple_linear_regression.gif)

Le processus décrit ci-dessus s'applique à la régression linéaire simple ou à la régression sur des ensembles de données où il n'y a qu'une seule caractéristique/variable indépendante. Cependant, une régression peut également être effectuée avec plusieurs fonctionnalités. Dans le cas d "la régression linéaire multiple”, l'équation est étendue par le nombre de variables trouvées dans l'ensemble de données. En d'autres termes, alors que l'équation de la régression linéaire régulière est y(x) = w0 + w1 * x, l'équation de la régression linéaire multiple serait y(x) = w0 + w1x1 plus les pondérations et les entrées des différentes caractéristiques. Si nous représentons le nombre total de pondérations et de caractéristiques sous la forme w(n)x(n), nous pourrions alors représenter la formule comme suit :

y(x) = w0 + w1x1 + w2x2 + … + w(n)x(n)

Après avoir établi la formule de régression linéaire, le modèle d'apprentissage automatique utilisera différentes valeurs pour les poids, traçant différentes lignes d'ajustement. Rappelez-vous que l'objectif est de trouver la ligne qui correspond le mieux aux données afin de déterminer laquelle des combinaisons de poids possibles (et donc quelle ligne possible) correspond le mieux aux données et explique la relation entre les variables.

Une fonction de coût est utilisée pour mesurer à quel point les valeurs Y supposées sont proches des valeurs Y réelles lorsqu'on leur donne une valeur de pondération particulière. La fonction de coût pour la régression linéaire est l'erreur quadratique moyenne, qui prend juste l'erreur moyenne (carré) entre la valeur prédite et la valeur réelle pour tous les différents points de données dans l'ensemble de données. La fonction de coût est utilisée pour calculer un coût, qui capture la différence entre la valeur cible prévue et la valeur cible réelle. Si la ligne d'ajustement est éloignée des points de données, le coût sera plus élevé, tandis que le coût diminuera à mesure que la ligne se rapprochera de la capture des véritables relations entre les variables. Les poids du modèle sont ensuite ajustés jusqu'à ce que la configuration de poids qui produit la plus petite quantité d'erreur soit trouvée.

Blogueur et programmeur spécialisé dans Machine Learning ainsi que les L'apprentissage en profondeur les sujets. Daniel espère aider les autres à utiliser le pouvoir de l'IA pour le bien social.