talon Qu'est-ce que le surajustement ? - Unite.AI
Suivez nous sur
Classe de maître IA :

AI 101

Qu'est-ce que le surajustement ?

mm
Le kit de préparation mis à jour on

Qu'est-ce que le surajustement ?

Lorsque vous entraînez un réseau de neurones, vous devez éviter le surajustement. Surapprentissage est un problème dans le domaine de l'apprentissage automatique et des statistiques où un modèle apprend trop bien les modèles d'un ensemble de données d'entraînement, expliquant parfaitement l'ensemble de données d'entraînement mais ne parvenant pas à généraliser son pouvoir prédictif à d'autres ensembles de données.

En d'autres termes, dans le cas d'un modèle de surajustement, il affichera souvent une précision extrêmement élevée sur l'ensemble de données d'apprentissage, mais une faible précision sur les données collectées et exécutées dans le modèle à l'avenir. C'est une définition rapide du sur-ajustement, mais passons en revue le concept de sur-ajustement plus en détail. Voyons comment le surajustement se produit et comment il peut être évité.

Comprendre « l'ajustement » et le sous-ajustement

Il est utile de jeter un œil au concept de sous-ajustement et de «s'adapter" généralement lorsqu'on parle de surapprentissage. Lorsque nous formons un modèle, nous essayons de développer un cadre capable de prédire la nature, ou la classe, des éléments dans un ensemble de données, sur la base des caractéristiques qui décrivent ces éléments. Un modèle doit être capable d'expliquer un modèle au sein d'un ensemble de données et de prédire les classes de futurs points de données en fonction de ce modèle. Plus le modèle explique bien la relation entre les caractéristiques de l'ensemble de formation, plus notre modèle est « adapté ».

La ligne bleue représente les prédictions d'un modèle sous-ajusté, tandis que la ligne verte représente un modèle mieux ajusté. Photo : Pep Roca via Wikimedia Commons, CC BY SA 3.0, (https://commons.wikimedia.org/wiki/File:Reg_ls_curvil%C3%ADnia.svg)

Un modèle qui explique mal la relation entre les caractéristiques des données de formation et ne parvient donc pas à classer avec précision les futurs exemples de données est sous-ajustement les données d'entraînement. Si vous deviez représenter graphiquement la relation prédite d'un modèle de sous-ajustement par rapport à l'intersection réelle des caractéristiques et des étiquettes, les prédictions s'écarteraient de la réalité. Si nous avions un graphique avec les valeurs réelles d'un ensemble d'apprentissage étiqueté, un modèle gravement sous-ajusté manquerait considérablement la plupart des points de données. Un modèle avec un meilleur ajustement pourrait couper un chemin à travers le centre des points de données, les points de données individuels étant légèrement éloignés des valeurs prédites.

Un sous-ajustement peut souvent se produire lorsqu'il n'y a pas suffisamment de données pour créer un modèle précis ou lorsque vous essayez de concevoir un modèle linéaire avec des données non linéaires. Plus de données d'entraînement ou plus de fonctionnalités aideront souvent à réduire le sous-ajustement.

Alors pourquoi ne créerions-nous pas simplement un modèle qui explique parfaitement chaque point des données d'entraînement ? Une précision parfaite n'est-elle pas souhaitable ? La création d'un modèle qui a trop bien appris les modèles des données de formation est ce qui provoque le surajustement. L'ensemble de données d'apprentissage et les autres ensembles de données futurs que vous exécutez dans le modèle ne seront pas exactement les mêmes. Ils seront probablement très similaires à bien des égards, mais ils différeront également sur des points essentiels. Par conséquent, la conception d'un modèle qui explique parfaitement l'ensemble de données d'apprentissage signifie que vous vous retrouvez avec une théorie sur la relation entre les fonctionnalités qui ne se généralise pas bien à d'autres ensembles de données.

Comprendre le surajustement

Le surajustement se produit lorsqu'un modèle apprend trop bien les détails de l'ensemble de données d'entraînement, ce qui entraîne des difficultés pour le modèle lorsque des prédictions sont faites sur des données externes. Cela peut se produire lorsque le modèle apprend non seulement les caractéristiques de l'ensemble de données, mais également les fluctuations aléatoires ou bruit dans l'ensemble de données, en accordant de l'importance à ces occurrences aléatoires/sans importance.

Le surajustement est plus susceptible de se produire lorsque des modèles non linéaires sont utilisés, car ils sont plus flexibles lors de l'apprentissage des caractéristiques des données. Les algorithmes d'apprentissage automatique non paramétriques ont souvent divers paramètres et techniques qui peuvent être appliqués pour limiter la sensibilité du modèle aux données et ainsi réduire le surajustement. Par exemple, modèles d'arbre de décision sont très sensibles au surajustement, mais une technique appelée élagage peut être utilisée pour supprimer de manière aléatoire certains des détails que le modèle a appris.

Si vous deviez représenter graphiquement les prédictions du modèle sur les axes X et Y, vous auriez une ligne de prédiction qui zigzague d'avant en arrière, ce qui reflète le fait que le modèle a trop essayé d'adapter tous les points de l'ensemble de données dans son explication.

Contrôler le surajustement

Lorsque nous formons un modèle, nous voulons idéalement que le modèle ne fasse aucune erreur. Lorsque les performances du modèle convergent vers des prédictions correctes sur tous les points de données de l'ensemble de données d'apprentissage, l'ajustement s'améliore. Un modèle avec un bon ajustement est capable d'expliquer la quasi-totalité de l'ensemble de données d'apprentissage sans surajustement.

Au fur et à mesure qu'un modèle s'entraîne, ses performances s'améliorent avec le temps. Le taux d'erreur du modèle diminuera au fur et à mesure que le temps d'apprentissage passe, mais il ne diminue que jusqu'à un certain point. Le point auquel les performances du modèle sur l'ensemble de test recommencent à augmenter est généralement le point auquel le surajustement se produit. Afin d'obtenir le meilleur ajustement pour un modèle, nous voulons arrêter la formation du modèle au point de perte la plus faible sur l'ensemble de formation, avant que l'erreur ne recommence à augmenter. Le point d'arrêt optimal peut être déterminé en représentant graphiquement les performances du modèle tout au long du temps d'entraînement et en arrêtant l'entraînement lorsque la perte est la plus faible. Cependant, un risque avec cette méthode de contrôle du surajustement est que la spécification du point final de la formation basée sur les performances du test signifie que les données de test sont quelque peu incluses dans la procédure de formation et qu'elles perdent leur statut de données purement "intactes".

Il existe plusieurs façons de lutter contre le surajustement. Une méthode pour réduire le surajustement consiste à utiliser une tactique de rééchantillonnage, qui fonctionne en estimant la précision du modèle. Vous pouvez également utiliser un validation ensemble de données en plus de l'ensemble de test et tracer la précision de la formation par rapport à l'ensemble de validation au lieu de l'ensemble de données de test. Cela permet de garder votre ensemble de données de test invisible. Une méthode de rééchantillonnage populaire est la validation croisée K-folds. Cette technique vous permet de diviser vos données en sous-ensembles sur lesquels le modèle est entraîné, puis les performances du modèle sur les sous-ensembles sont analysées pour estimer les performances du modèle sur des données extérieures.

L'utilisation de la validation croisée est l'un des meilleurs moyens d'estimer la précision d'un modèle sur des données invisibles, et lorsqu'il est combiné avec un ensemble de données de validation, le surajustement peut souvent être réduit au minimum.

Blogueur et programmeur spécialisé dans Machine Learning ainsi que le L'apprentissage en profondeur les sujets. Daniel espère aider les autres à utiliser le pouvoir de l'IA pour le bien social.