talon Apprentissage supervisé vs non supervisé - Unite.AI
Suivez nous sur
Classe de maître IA :

AI 101

Apprentissage supervisé vs non supervisé

mm
Le kit de préparation mis à jour on

Dans l’apprentissage automatique, la plupart des tâches peuvent être facilement classées dans l’une des deux classes suivantes : problèmes d’apprentissage supervisé ou problèmes d’apprentissage non supervisé. Dans l’apprentissage supervisé, les données sont accompagnées d’étiquettes ou de classes, tandis que dans le cas d’un apprentissage non supervisé, les données ne sont pas étiquetées. Examinons de près pourquoi cette distinction est importante et examinons certains des algorithmes associés à chaque type d'apprentissage.

Apprentissage supervisé vs non supervisé

La plupart des tâches d'apprentissage automatique relèvent du domaine de enseignement supervisé. Dans les algorithmes d'apprentissage supervisé, les instances/points de données individuels de l'ensemble de données ont une classe ou une étiquette qui leur est attribuée. Cela signifie que le modèle d'apprentissage automatique peut apprendre à distinguer les fonctionnalités qui sont corrélées à une classe donnée et que l'ingénieur en apprentissage automatique peut vérifier les performances du modèle en voyant combien d'instances ont été correctement classées. Les algorithmes de classification peuvent être utilisés pour discerner de nombreux modèles complexes, tant que les données sont étiquetées avec les classes appropriées. Par exemple, un algorithme d'apprentissage automatique peut apprendre à distinguer différents animaux les uns des autres en fonction de caractéristiques telles que "moustaches", "queue", "griffes", etc.

Contrairement à l'apprentissage supervisé, l'apprentissage non supervisé consiste à créer un modèle capable d'extraire des modèles à partir de données non étiquetées. En d'autres termes, l'ordinateur analyse les caractéristiques d'entrée et détermine lui-même quels sont les caractéristiques et les modèles les plus importants. L'apprentissage non supervisé tente de trouver les similitudes inhérentes entre différentes instances. Si un algorithme d'apprentissage supervisé vise à placer des points de données dans des classes connues, les algorithmes d'apprentissage non supervisé examineront les caractéristiques communes aux instances d'objet et les placeront dans des groupes basés sur ces caractéristiques, créant essentiellement ses propres classes.

Des exemples d'algorithmes d'apprentissage supervisé sont la régression linéaire, la régression logistique, les K voisins les plus proches, les arbres de décision et les machines à vecteurs de support.

Pendant ce temps, quelques exemples d'algorithmes d'apprentissage non supervisés sont l'analyse en composantes principales et le clustering K-Means.

Algorithme d'apprentissage supervisé

Régression Linéaire est un algorithme qui prend deux caractéristiques et trace la relation entre elles. La régression linéaire est utilisée pour prédire des valeurs numériques par rapport à d'autres variables numériques. La régression linéaire a l'équation de Y = a + bX, où b est la pente de la ligne et a est l'endroit où y croise l'axe X.

Régression logistique est un algorithme de classification binaire. L'algorithme examine la relation entre les caractéristiques numériques et trouve la probabilité que l'instance puisse être classée dans l'une des deux classes différentes. Les valeurs de probabilité sont « comprimées » vers 0 ou 1. En d'autres termes, les probabilités fortes approcheront 0.99 tandis que les probabilités faibles approcheront 0.

Les voisins les plus proches attribue une classe à de nouveaux points de données en fonction des classes attribuées d'un nombre choisi de voisins dans l'ensemble d'apprentissage. Le nombre de voisins pris en compte par l'algorithme est important, et trop peu ou trop de voisins peuvent mal classer les points.

Arbres de décision sont un type d’algorithme de classification et de régression. Un arbre de décision fonctionne en divisant un ensemble de données en parties de plus en plus petites jusqu'à ce que les sous-ensembles ne puissent plus être divisés et le résultat est un arbre avec des nœuds et des feuilles. Les nœuds sont les endroits où les décisions concernant les points de données sont prises à l'aide de différents critères de filtrage, tandis que les feuilles sont les instances auxquelles une étiquette a été attribuée (un point de données qui a été classé). Les algorithmes d'arbre de décision sont capables de gérer à la fois des données numériques et catégorielles. Des divisions sont effectuées dans l'arborescence sur des variables/caractéristiques spécifiques.

Machines à vecteurs de support sont un algorithme de classification qui fonctionne en dessinant des hyperplans, ou des lignes de séparation, entre les points de données. Les points de données sont séparés en classes en fonction du côté de l'hyperplan sur lequel ils se trouvent. Plusieurs hyperplans peuvent être dessinés sur un plan, plongeant un jeu de données en plusieurs classes. Le classificateur essaiera de maximiser la distance entre l'hyperplan de plongée et les points de chaque côté du plan, et plus la distance entre la ligne et les points est grande, plus le classificateur est confiant.

Algorithmes d'apprentissage non supervisé

Analyse des composants principaux est une technique utilisée pour la réduction de la dimensionnalité, ce qui signifie que la dimensionnalité ou la complexité des données est représentée de manière plus simple. L'algorithme d'analyse en composantes principales trouve de nouvelles dimensions pour les données qui sont orthogonales. Bien que la dimensionnalité des données soit réduite, la variance entre les données doit être préservée autant que possible. Concrètement, cela signifie qu'il prend les caractéristiques de l'ensemble de données et les distille en moins de caractéristiques qui représentent la plupart des données.

K-Means Clustering est un algorithme qui regroupe automatiquement les points de données en clusters en fonction de caractéristiques similaires. Les modèles de l'ensemble de données sont analysés et les points de données sont divisés en groupes en fonction de ces modèles. Essentiellement, K-means crée ses propres classes à partir de données non étiquetées. L'algorithme K-Means fonctionne en attribuant des centres aux clusters, ou centroïdes, et en déplaçant les centroïdes jusqu'à ce que la position optimale des centroïdes soit trouvée. La position optimale sera celle où la distance entre les centroïdes et les points de données environnants dans la classe est minimisée. Le "K" dans K-means clustering fait référence au nombre de centroïdes qui ont été choisis.

Résumé

Pour terminer, passons rapidement en revue les principales différences entre apprentissage supervisé et non supervisé.

Comme nous l'avons vu précédemment, dans les tâches d'apprentissage supervisé, les données d'entrée sont étiquetées et le nombre de classes est connu. Pendant ce temps, les données d'entrée ne sont pas étiquetées et le nombre de classes n'est pas connu dans les cas d'apprentissage non supervisé. L'apprentissage non supervisé a tendance à être moins complexe sur le plan informatique, tandis que l'apprentissage supervisé a tendance à être plus complexe sur le plan informatique. Alors que les résultats d'apprentissage supervisés ont tendance à être très précis, les résultats d'apprentissage non supervisés ont tendance à être moins précis/modérément précis.