AI 101
Qu'est-ce que la régression linéaire?
Qu'est-ce que la régression linéaire?
La régression linéaire est un algorithme utilisé pour prédire ou visualiser un relation entre deux caractéristiques/variables différentes. Dans les tâches de régression linéaire, deux types de variables sont examinées : variable dépendante et la variable indépendante. La variable indépendante est la variable qui se tient par elle-même, non impactée par l'autre variable. Au fur et à mesure que la variable indépendante est ajustée, les niveaux de la variable dépendante fluctueront. La variable dépendante est la variable qui est étudiée, et c'est ce que le modèle de régression résout/tente de prédire. Dans les tâches de régression linéaire, chaque observation/instance comprend à la fois la valeur de la variable dépendante et la valeur de la variable indépendante.
C'était une explication rapide de la régression linéaire, mais assurons-nous de mieux comprendre la régression linéaire en examinant un exemple et en examinant la formule qu'elle utilise.
Comprendre la régression linéaire
Supposons que nous disposions d'un ensemble de données couvrant la taille des disques durs et le coût de ces disques durs.
Supposons que l'ensemble de données dont nous disposons est composé de deux caractéristiques différentes : la quantité de mémoire et le coût. Plus nous achetons de mémoire pour un ordinateur, plus le coût d'achat augmente. Si nous traçons les points de données individuels sur un nuage de points, nous pourrions obtenir un graphique qui ressemble à ceci :

Le rapport mémoire-coût exact peut varier entre les fabricants et les modèles de disque dur, mais en général, la tendance des données est celle qui commence en bas à gauche (où les disques durs sont à la fois moins chers et ont une plus petite capacité) et se déplace vers en haut à droite (où les disques sont plus chers et ont une plus grande capacité).
Si nous avions la quantité de mémoire sur l'axe X et le coût sur l'axe Y, une ligne capturant la relation entre les variables X et Y commencerait dans le coin inférieur gauche et se dirigerait vers le coin supérieur droit.

La fonction d'un modèle de régression est de déterminer une fonction linéaire entre les variables X et Y qui décrit le mieux la relation entre les deux variables. Dans la régression linéaire, on suppose que Y peut être calculé à partir d'une combinaison des variables d'entrée. La relation entre les variables d'entrée (X) et les variables cibles (Y) peut être illustrée en traçant une ligne à travers les points du graphique. La ligne représente la fonction qui décrit le mieux la relation entre X et Y (par exemple, à chaque fois que X augmente de 3, Y augmente de 2). L'objectif est de trouver une "ligne de régression" optimale, ou la ligne/fonction qui correspond le mieux aux données.
Les lignes sont généralement représentées par l'équation : Y = m*X + b. X fait référence à la variable dépendante tandis que Y est la variable indépendante. Pendant ce temps, m est la pente de la ligne, telle que définie par la « montée » sur la « course ». Les praticiens de l'apprentissage automatique représentent la célèbre équation de la pente-ligne un peu différemment, en utilisant plutôt cette équation :
y(x) = w0 + w1 * x
Dans l'équation ci-dessus, y est la variable cible tandis que "w" est les paramètres du modèle et l'entrée est "x". Ainsi l'équation se lit comme suit : « La fonction qui donne Y, en fonction de X, est égale aux paramètres du modèle multipliés par les caractéristiques ». Les paramètres du modèle sont ajustés pendant la formation pour obtenir la droite de régression la mieux adaptée.
La régression linéaire multiple

Photo : Cbaf via Wikimedia Commons, domaine public (https://commons.wikimedia.org/wiki/File:2d_multiple_linear_regression.gif)
Le processus décrit ci-dessus s'applique à la régression linéaire simple ou à la régression sur des ensembles de données où il n'y a qu'une seule caractéristique/variable indépendante. Cependant, une régression peut également être effectuée avec plusieurs fonctionnalités. Dans le cas d "la régression linéaire multiple”, l'équation est étendue par le nombre de variables trouvées dans l'ensemble de données. En d'autres termes, alors que l'équation de la régression linéaire régulière est y(x) = w0 + w1 * x, l'équation de la régression linéaire multiple serait y(x) = w0 + w1x1 plus les pondérations et les entrées des différentes caractéristiques. Si nous représentons le nombre total de pondérations et de caractéristiques sous la forme w(n)x(n), nous pourrions alors représenter la formule comme suit :
y(x) = w0 + w1x1 + w2x2 + … + w(n)x(n)
Après avoir établi la formule de régression linéaire, le modèle d'apprentissage automatique utilisera différentes valeurs pour les poids, traçant différentes lignes d'ajustement. Rappelez-vous que l'objectif est de trouver la ligne qui correspond le mieux aux données afin de déterminer laquelle des combinaisons de poids possibles (et donc quelle ligne possible) correspond le mieux aux données et explique la relation entre les variables.
Une fonction de coût permet de mesurer la proximité des valeurs Y supposées par rapport aux valeurs Y réelles, compte tenu d'une pondération donnée. La fonction de coût de la régression linéaire est l'erreur quadratique moyenne, qui prend simplement l'erreur quadratique moyenne entre la valeur prédite et la valeur réelle pour tous les points de données de l'ensemble de données. La fonction de coût permet de calculer un coût, qui capture la différence entre la valeur cible prédite et la valeur cible réelle. Si la droite d'ajustement est éloignée des points de données, le coût sera plus élevé, tandis qu'il diminuera à mesure que la droite se rapprochera des relations réelles entre les variables. Les pondérations du modèle sont ensuite ajustées jusqu'à trouver la configuration de pondération produisant le moins d'erreur.










