- Terminologie (A à D)
- Contrôle des capacités de l'IA
- AIOps
- Albumentation
- Performance de l'actif
- Encodeur automatique
- Rétropropagation
- Théorème de Bayes
- Big Data
- Chatbot : guide du débutant
- Pensée computationnelle
- Vision par ordinateur
- Matrice de confusion
- Réseaux de neurones convolutionnels
- Cybersécurité
- Structure de données
- Storytelling de données
- Sciences des données
- Entreposage de données
- Arbre de décision
- Deepfakes
- L'apprentissage en profondeur
- Apprentissage par renforcement profond
- Devops
- DevSecOps
- Modèles de diffusion
- Jumeau Numérique
- Réduction de la dimensionnalité
- Terminologie (E à K)
- IA de pointe
- Emotion AI
- Apprentissage d'ensemble
- Piratage éthique
- ETL
- IA explicable
- Apprentissage fédéré
- FinOps
- IA générative
- Réseau d'adversaire génératif
- Génératif vs Discriminatif
- Rehaussement de dégradé
- Descente graduelle
- Apprentissage en quelques coups
- Classification d'image
- Opérations informatiques (ITOps)
- Automatisation des incidents
- Ingénierie d'influence
- K-Means Clustering
- Les voisins les plus proches
- Terminologie (L à Q)
- Terminologie (R à Z)
- Apprentissage par renforcement
- IA responsable
- RLHF
- Automatisation des processus robotiques
- Structuré vs non structuré
- Analyse des sentiments
- Supervisé vs non supervisé
- Machines à vecteurs de support
- Données synthétiques
- Médias synthétiques
- Classification du texte
- MinusculeML
- Transfert d'apprentissage
- Réseaux de neurones de transformateur
- Test de Turing
- Recherche de similarité vectorielle
AI 101
Qu'est-ce que la régression linéaire?
Table des matières
Qu'est-ce que la régression linéaire?
La régression linéaire est un algorithme utilisé pour prédire ou visualiser un relation entre deux caractéristiques/variables différentes. Dans les tâches de régression linéaire, deux types de variables sont examinées : variable dépendante et la variable indépendante. La variable indépendante est la variable qui se tient par elle-même, non impactée par l'autre variable. Au fur et à mesure que la variable indépendante est ajustée, les niveaux de la variable dépendante fluctueront. La variable dépendante est la variable qui est étudiée, et c'est ce que le modèle de régression résout/tente de prédire. Dans les tâches de régression linéaire, chaque observation/instance comprend à la fois la valeur de la variable dépendante et la valeur de la variable indépendante.
C'était une explication rapide de la régression linéaire, mais assurons-nous de mieux comprendre la régression linéaire en examinant un exemple et en examinant la formule qu'elle utilise.
Comprendre la régression linéaire
Supposons que nous disposions d'un ensemble de données couvrant la taille des disques durs et le coût de ces disques durs.
Supposons que l'ensemble de données dont nous disposons est composé de deux caractéristiques différentes : la quantité de mémoire et le coût. Plus nous achetons de mémoire pour un ordinateur, plus le coût d'achat augmente. Si nous traçons les points de données individuels sur un nuage de points, nous pourrions obtenir un graphique qui ressemble à ceci :
Le rapport mémoire-coût exact peut varier entre les fabricants et les modèles de disque dur, mais en général, la tendance des données est celle qui commence en bas à gauche (où les disques durs sont à la fois moins chers et ont une plus petite capacité) et se déplace vers en haut à droite (où les disques sont plus chers et ont une plus grande capacité).
Si nous avions la quantité de mémoire sur l'axe X et le coût sur l'axe Y, une ligne capturant la relation entre les variables X et Y commencerait dans le coin inférieur gauche et se dirigerait vers le coin supérieur droit.
La fonction d'un modèle de régression est de déterminer une fonction linéaire entre les variables X et Y qui décrit le mieux la relation entre les deux variables. Dans la régression linéaire, on suppose que Y peut être calculé à partir d'une combinaison des variables d'entrée. La relation entre les variables d'entrée (X) et les variables cibles (Y) peut être illustrée en traçant une ligne à travers les points du graphique. La ligne représente la fonction qui décrit le mieux la relation entre X et Y (par exemple, à chaque fois que X augmente de 3, Y augmente de 2). L'objectif est de trouver une "ligne de régression" optimale, ou la ligne/fonction qui correspond le mieux aux données.
Les lignes sont généralement représentées par l'équation : Y = m*X + b. X fait référence à la variable dépendante tandis que Y est la variable indépendante. Pendant ce temps, m est la pente de la ligne, telle que définie par la « montée » sur la « course ». Les praticiens de l'apprentissage automatique représentent la célèbre équation de la pente-ligne un peu différemment, en utilisant plutôt cette équation :
y(x) = w0 + w1 * x
Dans l'équation ci-dessus, y est la variable cible tandis que "w" est les paramètres du modèle et l'entrée est "x". Ainsi l'équation se lit comme suit : « La fonction qui donne Y, en fonction de X, est égale aux paramètres du modèle multipliés par les caractéristiques ». Les paramètres du modèle sont ajustés pendant la formation pour obtenir la droite de régression la mieux adaptée.
La régression linéaire multiple
Le processus décrit ci-dessus s'applique à la régression linéaire simple ou à la régression sur des ensembles de données où il n'y a qu'une seule caractéristique/variable indépendante. Cependant, une régression peut également être effectuée avec plusieurs fonctionnalités. Dans le cas d "la régression linéaire multiple”, l'équation est étendue par le nombre de variables trouvées dans l'ensemble de données. En d'autres termes, alors que l'équation de la régression linéaire régulière est y(x) = w0 + w1 * x, l'équation de la régression linéaire multiple serait y(x) = w0 + w1x1 plus les pondérations et les entrées des différentes caractéristiques. Si nous représentons le nombre total de pondérations et de caractéristiques sous la forme w(n)x(n), nous pourrions alors représenter la formule comme suit :
y(x) = w0 + w1x1 + w2x2 + … + w(n)x(n)
Après avoir établi la formule de régression linéaire, le modèle d'apprentissage automatique utilisera différentes valeurs pour les poids, traçant différentes lignes d'ajustement. Rappelez-vous que l'objectif est de trouver la ligne qui correspond le mieux aux données afin de déterminer laquelle des combinaisons de poids possibles (et donc quelle ligne possible) correspond le mieux aux données et explique la relation entre les variables.
Une fonction de coût est utilisée pour mesurer à quel point les valeurs Y supposées sont proches des valeurs Y réelles lorsqu'on leur donne une valeur de pondération particulière. La fonction de coût pour la régression linéaire est l'erreur quadratique moyenne, qui prend juste l'erreur moyenne (carré) entre la valeur prédite et la valeur réelle pour tous les différents points de données dans l'ensemble de données. La fonction de coût est utilisée pour calculer un coût, qui capture la différence entre la valeur cible prévue et la valeur cible réelle. Si la ligne d'ajustement est éloignée des points de données, le coût sera plus élevé, tandis que le coût diminuera à mesure que la ligne se rapprochera de la capture des véritables relations entre les variables. Les poids du modèle sont ensuite ajustés jusqu'à ce que la configuration de poids qui produit la plus petite quantité d'erreur soit trouvée.
Blogueur et programmeur spécialisé dans Machine Learning ainsi que les L'apprentissage en profondeur les sujets. Daniel espère aider les autres à utiliser le pouvoir de l'IA pour le bien social.