Le meilleur

10 Meilleurs Algorithmes d’Apprentissage Automatique

mm

Bien que nous vivions une période d’innovation extraordinaire dans l’apprentissage automatique accéléré par GPU, les derniers articles de recherche présentent fréquemment (et de manière très visible) des algorithmes qui datent de plusieurs décennies, voire de 70 ans dans certains cas.

Certains pourraient affirmer que beaucoup de ces anciennes méthodes relèvent plutôt de l’analyse statistique que de l’apprentissage automatique, et préfèrent faire remonter l’apparition de ce secteur à 1957, avec l’invention du Perceptron.

Étant donné la mesure dans laquelle ces anciens algorithmes soutiennent et sont imbriqués dans les dernières tendances et les développements à sensation dans l’apprentissage automatique, cette position est contestable. Alors, examinons certains des « blocs de construction classiques » qui sous-tendent les dernières innovations, ainsi que certains nouveaux venus qui font une demande précoce pour la gloire de l’IA.

1: Transformateurs

En 2017, la recherche de Google a mené une collaboration de recherche qui a abouti à l’article Attention Is All You Need. Le travail a présenté une nouvelle architecture qui a promu les mécanismes d’attention des modèles de réseau encoder/décodeur et récurrents à une technologie de transformation centrale en soi.

L’approche a été baptisée Transformateur, et est devenue une méthodologie révolutionnaire dans le traitement du langage naturel (NLP), alimentant, entre autres exemples, le modèle de langage autoregressif et l’enfant prodige de l’IA GPT-3.

Les transformateurs ont élégamment résolu le problème de la transduction de séquence, également appelée « transformation », qui consiste à traiter les séquences d’entrée en séquences de sortie. Un transformateur reçoit et gère également les données de manière continue, plutôt que par lots séquentiels, permettant une « persistance de la mémoire » que les architectures RNN ne sont pas conçues pour obtenir. Pour une vue plus détaillée des transformateurs, consultez notre article de référence.

Contrairement aux réseaux de neurones récurrents (RNN) qui avaient commencé à dominer la recherche en apprentissage automatique à l’ère CUDA, l’architecture des transformateurs pouvait également être facilement parallélisée, ouvrant la voie à une adresse productive à une quantité de données beaucoup plus importante que les RNN.

Utilisation populaire

Les transformateurs ont captivé l’imagination du public en 2020 avec la sortie de GPT-3 d’OpenAI, qui s’est vanté d’un record de 175 milliards de paramètres à l’époque. Ce exploit apparemment impressionnant a finalement été éclipsé par des projets ultérieurs, tels que la sortie de 2021 de Megatron-Turing NLG 530B de Microsoft, qui (comme le suggère le nom) présente plus de 530 milliards de paramètres.

Une chronologie des projets NLP à grande échelle des transformateurs. Source: Microsoft

Une chronologie des projets NLP à grande échelle des transformateurs. Source: Microsoft

L’architecture des transformateurs a également traversé le NLP pour la vision par ordinateur, alimentant une nouvelle génération de cadres de synthèse d’images tels que CLIP et DALL-E d’OpenAI, qui utilisent la mise en correspondance de texte vers image pour terminer les images incomplètes et synthétiser de nouvelles images à partir de domaines formés, parmi un nombre croissant d’applications connexes.

DALL-E tente de compléter une image partielle d'un buste de Platon. Source: https://openai.com/blog/dall-e/

DALL-E tente de compléter une image partielle d’un buste de Platon. Source: https://openai.com/blog/dall-e/

2: Réseaux Adverses Génératifs (GAN)

Bien que les transformateurs aient acquis une couverture médiatique extraordinaire grâce à la sortie et à l’adoption de GPT-3, le Réseau Adverses Génératif (GAN) est devenu une marque reconnue en soi, et pourrait finalement rejoindre deepfake en tant que verbe.

Premièrement proposé en 2014 et principalement utilisé pour la synthèse d’images, une architecture de Réseau Adverses Génératif est composée d’un Générateur et d’un Discriminateur. Le Générateur parcourt des milliers d’images dans un ensemble de données, en essayant de les reconstruire de manière itérative. À chaque tentative, le Discriminateur évalue le travail du Générateur et le renvoie pour faire mieux, sans lui donner d’indices sur la façon dont la reconstruction précédente a erré.

Source: https://developers.google.com/machine-learning/gan/gan_structure

Source: https://developers.google.com/machine-learning/gan/gan_structure

Cela force le Générateur à explorer une multitude de voies, au lieu de suivre les avenues potentielles qui auraient résulté si le Discriminateur lui avait indiqué où il s’était trompé (voir #8 ci-dessous). Lorsque la formation est terminée, le Générateur a une carte détaillée et complète des relations entre les points de l’ensemble de données.

Un extrait de la vidéo des chercheurs (voir l'incrustation à la fin de l'article). Notez que l'utilisateur manipule les transformations avec un curseur de saisie (en haut à gauche). Source: https://www.youtube.com/watch?v=k7sG4XY5rIc

À partir de l’article Améliorer l’équilibre du GAN en augmentant la conscience spatiale: un nouveau cadre parcourt l’espace latent d’un GAN, fournissant une instrumentation réactive pour une architecture de synthèse d’images. Source: https://genforce.github.io/eqgan/

Par analogie, c’est la différence entre apprendre un trajet monotone pour le centre de Londres ou acquérir The Knowledge.

Le résultat est une collection de haut niveau de caractéristiques dans l’espace latent du modèle formé. L’indicateur sémantique pour une caractéristique de haut niveau pourrait être « personne », tandis qu’une descente dans la spécificité liée à la caractéristique peut découvrir d’autres caractéristiques apprises, telles que « masculin » et « féminin ». À des niveaux inférieurs, les sous-caractéristiques peuvent se décomposer en « blonde », « caucasien », etc.

L’entrelacement est un problème notable dans l’espace latent des GAN et des cadres encoder/décodeur: est-ce que le sourire sur un visage généré par GAN est une caractéristique entrelacée de son « identité » dans l’espace latent, ou est-ce une branche parallèle ?

Visages générés par GAN à partir de thispersondoesnotexist. Source: https://this-person-does-not-exist.com/en

Visages générés par GAN à partir de thispersondoesnotexist. Source: https://this-person-does-not-exist.com/en

Les deux dernières années ont vu émerger un nombre croissant de nouvelles initiatives de recherche à cet égard, qui pourraient peut-être ouvrir la voie à une édition de niveau de fonctionnalité, style Photoshop, pour l’espace latent d’un GAN, mais pour l’instant, de nombreuses transformations sont effectivement des « tout ou rien » de packages. Notamment, la sortie d’EditGAN de NVIDIA à la fin de 2021 atteint un niveau élevé d’interprétabilité dans l’espace latent en utilisant des masques de segmentation sémantique.

Utilisation populaire

À côté de leur implication (en fait assez limitée) dans les vidéos de deepfake populaires, les GAN axés sur les images/vidéos se sont proliférés au cours des quatre dernières années, enchantant les chercheurs et le public. Il est difficile de suivre le rythme et la fréquence des nouvelles sorties, même si le référentiel GitHub Applications GAN incroyables vise à fournir une liste complète.

Les Réseaux Adverses Génératifs peuvent en théorie dériver des caractéristiques de tout domaine bien défini, y compris le texte.

3: Machines à Vecteurs de Support (SVM)

Originaire de 1963, la Machine à Vecteurs de Support (SVM) est un algorithme de base qui apparaît fréquemment dans les nouvelles recherches. Sous SVM, les vecteurs cartographient la disposition relative des points de données dans un ensemble de données, tandis que les vecteurs de support délimitent les frontières entre différents groupes, caractéristiques ou traits.

Les vecteurs de support définissent les frontières entre les groupes. Source: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

Les vecteurs de support définissent les frontières entre les groupes. Source: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

La frontière dérivée est appelée hyperplan.

À des niveaux de caractéristiques faibles, la SVM est bidimensionnelle (image ci-dessus), mais là où il y a un plus grand nombre de groupes ou de types reconnus, elle devient tridimensionnelle.

Un ensemble de points et de groupes plus profond nécessite une SVM tridimensionnelle. Source: https://cml.rhul.ac.uk/svm.html

Un ensemble de points et de groupes plus profond nécessite une SVM tridimensionnelle. Source: https://cml.rhul.ac.uk/svm.html

Utilisation populaire

Puisque les Machines à Vecteurs de Support peuvent aborder efficacement et de manière agnostique des données à haute dimensionnalité de divers types, elles apparaissent largement dans divers secteurs d’apprentissage automatique, notamment la détection de deepfake, la classification d’images, la classification de discours de haine, l’analyse de l’ADN et la prévision de la structure de population, parmi de nombreux autres.

4: Regroupement K-Means

Le regroupement en général est une approche d’apprentissage non supervisé qui cherche à catégoriser les points de données par estimation de densité, créant une carte de la distribution des données étudiées.

Le regroupement K-Means découvre les segments, les groupes et les communautés dans les données. Source: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

Le regroupement K-Means découvre les segments, les groupes et les communautés dans les données. Source: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

Le regroupement K-Means est devenu la mise en œuvre la plus populaire de cette approche, faisant passer les points de données dans des « groupes K » distincts, qui peuvent indiquer des secteurs démographiques, des communautés en ligne ou toute autre agrégation secrète potentielle à découvrir dans les données statistiques brutes.

Des grappes se forment dans l'analyse K-Means. Source: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

Des grappes se forment dans l’analyse K-Means. Source: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

La valeur K elle-même est le facteur déterminant de l’utilité du processus, et dans l’établissement d’une valeur optimale pour un regroupement. Initialement, la valeur K est attribuée de manière aléatoire, et ses caractéristiques et caractéristiques vectorielles sont comparées à celles de ses voisins. Les voisins qui ressemblent le plus au point de données avec la valeur K attribuée de manière aléatoire sont attribués à son regroupement de manière itérative jusqu’à ce que les données aient produit tous les regroupements que le processus permet.

Le tracé de l’erreur au carré, ou « coût » des valeurs différentes entre les regroupements révélera un point de coude pour les données:

Le point de coude dans un graphique de regroupement. Source: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

Le point de coude dans un graphique de regroupement. Source: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

Le point de coude est similaire au concept de perte qui se stabilise à des rendements décroissants à la fin d’une session d’entraînement pour un ensemble de données. Il représente le point auquel aucune distinction supplémentaire entre les groupes ne va apparaître, indiquant le moment de passer à des phases ultérieures du pipeline de données, ou de signaler les résultats.

Utilisation populaire

Le regroupement K-Means, pour des raisons évidentes, est une technologie principale dans l’analyse client, car il offre une méthodologie claire et explicative pour traduire de grandes quantités d’enregistrements commerciaux en informations démographiques et « leads ».

En dehors de cette application, le regroupement K-Means est également utilisé pour la prévision des glissements de terrain, la segmentation d’images médicales, la synthèse d’images avec GAN, la classification de documents et la planification urbaine, parmi de nombreuses autres utilisations potentielles et réelles.

5: Forêt Aléatoire

La Forêt Aléatoire est une méthode d’apprentissage d’ensemble qui moyenne le résultat d’un tableau de arbres de décision pour établir une prédiction globale du résultat.

Source: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

Source: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

Si vous avez fait des recherches, même en regardant simplement la trilogie Retour vers le futur, un arbre de décision lui-même est assez facile à conceptualiser: un certain nombre de chemins s’offrent à vous, et chaque chemin se divise en un nouveau résultat qui à son tour contient de nouveaux chemins possibles.

Dans l’apprentissage par renforcement, vous pourriez reculer d’un chemin et recommencer à partir d’une position antérieure, tandis que les arbres de décision s’engagent dans leurs voyages.

Ainsi, l’algorithme de Forêt Aléatoire est essentiellement un pari réparti pour les décisions. L’algorithme est appelé « aléatoire » car il fait des sélections et des observations ad hoc pour comprendre la médiane somme des résultats de l’ensemble de l’arbre de décision.

Puisqu’il prend en compte une multiplicité de facteurs, une approche de Forêt Aléatoire peut être plus difficile à convertir en graphiques significatifs qu’un arbre de décision, mais est susceptible d’être nettement plus productive.

Les arbres de décision sont sujets à la suradaptation, où les résultats obtenus sont spécifiques aux données et ne sont pas susceptibles de se généraliser. La sélection aléatoire de données par la Forêt Aléatoire combat cette tendance, en perçant à travers les tendances représentatives et utiles dans les données.

Régression d'arbre de décision. Source: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

Régression d’arbre de décision. Source: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

Utilisation populaire

Comme pour de nombreux algorithmes de cette liste, la Forêt Aléatoire fonctionne généralement comme un « premier » trieuse et filtre de données, et apparaît donc régulièrement dans les nouvelles recherches. Des exemples d’utilisation de la Forêt Aléatoire incluent la synthèse d’images de résonance magnétique, la prévision du prix du Bitcoin, la segmentation des clients, la classification de texte et la détection de la fraude aux cartes de crédit.

Puisque la Forêt Aléatoire est un algorithme de bas niveau dans les architectures d’apprentissage automatique, elle peut également contribuer aux performances d’autres méthodes de bas niveau, ainsi qu’aux algorithmes de visualisation, notamment la regroupement inductif, les transformations de fonctionnalités, la classification de documents de texte en utilisant des fonctionnalités éparses et l’affichage des pipelines.

6: Naive Bayes

Couplé avec l’estimation de densité (voir 4 ci-dessus), un classificateur Naive Bayes est un algorithme puissant mais relativement léger capable d’estimer les probabilités en fonction des caractéristiques calculées des données.

Relations entre les caractéristiques dans un classificateur Naive Bayes. Source: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

Relations entre les caractéristiques dans un classificateur Naive Bayes. Source: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

Le terme « naïf » fait référence à l’hypothèse dans le théorème de Bayes que les caractéristiques sont sans rapport, connu sous le nom de indépendance conditionnelle. Si vous adoptez ce point de vue, marcher et parler comme un canard ne suffisent pas pour établir que nous traitons d’un canard, et aucune hypothèse « évidente » n’est adoptée prématurément.

Ce niveau d’exigence académique et d’investigation serait excessif lorsque le « bon sens » est disponible, mais constitue une norme précieuse lors de la navigation dans les nombreuses ambiguïtés et les corrélations potentiellement sans rapport qui peuvent exister dans un ensemble de données d’apprentissage automatique.

Dans un réseau bayésien d’origine, les caractéristiques sont soumises à des fonctions de notation, notamment la longueur de description minimale et la notation bayésienne, qui peuvent imposer des restrictions sur les données en termes de connexions estimées entre les points de données et de la direction dans laquelle ces connexions s’écoulent.

Un classificateur Naive Bayes, en revanche, fonctionne en supposant que les caractéristiques d’un objet sont indépendantes, en utilisant ensuite le théorème de Bayes pour calculer la probabilité d’un objet donné en fonction de ses caractéristiques.

Utilisation populaire

Les filtres Naive Bayes sont bien représentés dans la prévision de la maladie et la catégorisation de documents, la filtrage des spams, la classification des sentiments, les systèmes de recommandation et la détection de la fraude, parmi d’autres applications.

7: K-Plus Proches Voisins (KNN)

Premièrement proposé par l’École de médecine de l’aviation de l’armée de l’air américaine en 1951 et ayant dû s’adapter à l’état de l’art du matériel informatique de la mi-20e siècle, le K-Plus Proches Voisins (KNN) est un algorithme léger qui figure toujours en bonne place dans les articles universitaires et les initiatives de recherche en apprentissage automatique du secteur privé.

Le KNN a été appelé « l’apprenant paresseux », car il examine de manière exhaustive un ensemble de données pour évaluer les relations entre les points de données, plutôt que d’exiger la formation d’un modèle d’apprentissage automatique complet.

Un regroupement KNN. Source: https://scikit-learn.org/stable/modules/neighbors.html

Un regroupement KNN. Source: https://scikit-learn.org/stable/modules/neighbors.html

Bien que le KNN soit architecturalement mince, son approche systématique place une demande notable sur les opérations de lecture/écriture, et son utilisation dans des ensembles de données très importants peut être problématique sans des technologies auxiliaires telles que l’analyse en composantes principales (ACP), qui peuvent transformer des ensembles de données complexes et à volume élevé en regroupements représentatifs que le KNN peut parcourir avec moins d’efforts.

Une étude récente a évalué l’efficacité et l’économie d’un certain nombre d’algorithmes chargés de prédire si un employé quittera une entreprise, constatant que le KNN septuagénaire restait supérieur à des concurrents plus modernes en termes de précision et d’efficacité prédictive.

Utilisation populaire

Pour toutes ses simplicités de concept et d’exécution populaires, le KNN n’est pas coincé dans les années 50 – il a été adapté dans une approche plus axée sur les RNN dans une proposition de 2018 par l’Université d’État de Pennsylvanie, et reste un processus de premier plan (ou outil d’analyse post-traitement) dans de nombreux cadres d’apprentissage automatique plus complexes.

Dans diverses configurations, le KNN a été utilisé ou pour la vérification de signature en ligne, la classification d’images, la minage de texte, la prévision des cultures et la reconnaissance faciale, outre d’autres applications et incorporations.

Un système de reconnaissance faciale basé sur KNN en formation. Source: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

Un système de reconnaissance faciale basé sur KNN en formation. Source: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

8: Processus de Décision Markovien (MDP)

Un cadre mathématique introduit par le mathématicien américain Richard Bellman en 1957, le Processus de Décision Markovien (MDP) est l’un des blocs de base les plus basiques des architectures d’apprentissage par renforcement. Un algorithme conceptuel en soi, il a été adapté dans un grand nombre d’autres algorithmes et apparaît fréquemment dans la récolte actuelle d’articles de recherche en IA/ML.

Le MDP explore un environnement de données en utilisant son évaluation de son état actuel (c’est-à-dire « où » il se trouve dans les données) pour décider quel nœud des données explorer ensuite.

Source: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

Source: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

Un Processus de Décision Markovien de base donnera la priorité à l’avantage à court terme plutôt qu’à des objectifs à long terme plus souhaitables. Pour cette raison, il est généralement intégré dans le contexte d’une architecture de politique plus complète dans l’apprentissage par renforcement, et est souvent soumis à des facteurs limitants tels que la récompense discountée et d’autres variables environnementales modifiantes qui l’empêcheront de se précipiter vers un objectif immédiat sans tenir compte du résultat souhaité plus large.

Utilisation populaire

Le concept de base du MDP est répandu dans la recherche et les déploiements actifs de l’apprentissage automatique. Il a été proposé pour les systèmes de défense de sécurité IoT, la pêche et la prévision du marché.

Outre son applicabilité évidente aux échecs et à d’autres jeux séquentiels stricts, le MDP est également un concurrent naturel pour la formation procédurale des systèmes de robotique, comme on peut le voir dans la vidéo ci-dessous.

9: Fréquence du Terme-Inverse de la Fréquence du Document (TF-IDF)

La fréquence du terme (TF) divise le nombre de fois qu’un mot apparaît dans un document par le nombre total de mots dans ce document. Ainsi, le mot scelle apparaissant une fois dans un article de 1 000 mots a une fréquence de terme de 0,001. En soi, la TF est largement inutile comme indicateur d’importance du terme, en raison du fait que les articles sans signification (tels que un, et, le et il) prédominent.

Pour obtenir une valeur significative pour un terme, la fréquence inverse du document (IDF) calcule la TF d’un mot à travers plusieurs documents dans un ensemble de données, attribuant une note faible aux mots courants tels que les articles. Les vecteurs de fonctionnalités résultants sont normalisés à des valeurs entières, avec chaque mot attribué un poids approprié.

Le TF-IDF pondère la pertinence des termes en fonction de la fréquence sur un certain nombre de documents, avec une occurrence plus rare comme indicateur de pertinence. Source: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

Le TF-IDF pondère la pertinence des termes en fonction de la fréquence sur un certain nombre de documents, avec une occurrence plus rare comme indicateur de pertinence. Source: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

Bien que cette approche empêche les mots sémantiquement importants d’être perdus en tant que outliers, l’inversion du poids de fréquence ne signifie pas automatiquement qu’un terme à faible fréquence n’est pas un outlier, car certaines choses sont rares et sans valeur. Par conséquent, un terme à faible fréquence devra prouver sa valeur dans le contexte architectural plus large en apparaissant (même à une faible fréquence par document) dans un certain nombre de documents dans l’ensemble de données.

Malgré son âge, le TF-IDF est une méthode puissante et populaire pour les passes de filtration initiales dans les cadres de traitement du langage naturel.

Utilisation populaire

Puisque le TF-IDF a joué au moins un rôle dans le développement de l’algorithme de classement de page de Google largement occulte au cours des vingt dernières années, il est devenu très largement adopté comme une tactique SEO manipulatrice, malgré le désaveu de 2019 de son importance pour les résultats de recherche par John Mueller.

En raison du secret entourant PageRank, il n’y a pas de preuve claire que le TF-IDF n’est pas actuellement une tactique efficace pour augmenter les classements de Google. Des discussions incendiaires parmi les professionnels de l’informatique indiquent une compréhension populaire, correcte ou non, que l’abus de terme peut toujours entraîner une amélioration du positionnement SEO (bien qu’il y ait des accusations de monopole et publicité excessive qui flouent les limites de cette théorie).

10: Descente de Gradient Stochastique

La Descente de Gradient Stochastique (SGD) est une méthode de plus en plus populaire pour optimiser la formation des modèles d’apprentissage automatique.

La Descente de Gradient elle-même est une méthode d’optimisation et de quantification de l’amélioration qu’un modèle réalise pendant la formation.

Dans ce sens, « gradient » indique une pente descendante (plutôt qu’une gradation basée sur la couleur, voir image ci-dessous), où le point le plus élevé de la « colline », à gauche, représente le début du processus de formation. À ce stade, le modèle n’a pas encore vu l’ensemble des données, même une seule fois, et n’a pas encore appris suffisamment de relations entre les données pour produire des transformations efficaces.

Une descente de gradient sur une session d'entraînement FaceSwap. On peut voir que la formation a atteint un plateau pendant un certain temps dans la deuxième moitié, mais a finalement retrouvé son chemin le long de la pente vers une convergence acceptable.

Une descente de gradient sur une session d’entraînement FaceSwap. On peut voir que la formation a atteint un plateau pendant un certain temps dans la deuxième moitié, mais a finalement retrouvé son chemin le long de la pente vers une convergence acceptable.

Le point le plus bas, à droite, représente la convergence (le point auquel le modèle est aussi efficace qu’il le sera jamais sous les contraintes et les paramètres imposés).

Le gradient agit comme un enregistrement et un prédicteur des écarts entre le taux d’erreur (à quel point le modèle a actuellement cartographié avec précision les relations entre les données) et les poids (les paramètres qui influencent la façon dont le modèle apprend).

Cette carte de progrès peut être utilisée pour informer un calendrier de taux d’apprentissage, un processus automatique qui indique à l’architecture de devenir plus granulaire et précis à mesure que les détails vagues précoces se transforment en relations et en mappages clairs. En effet, la perte de gradient fournit une carte juste-à-temps de l’endroit où la formation devrait aller ensuite et de la façon dont elle devrait procéder.

L’innovation de la Descente de Gradient Stochastique est qu’elle met à jour les paramètres du modèle sur chaque exemple d’entraînement par itération, ce qui accélère généralement le voyage vers la convergence. En raison de l’avènement des ensembles de données à grande échelle au cours des dernières années, la SGD a gagné en popularité ces derniers temps comme l’une des méthodes possibles pour résoudre les problèmes logistiques qui en découlent.

D’un autre côté, la SGD a des implications négatives pour la mise à l’échelle des fonctionnalités, et peut nécessiter plus d’itérations pour atteindre le même résultat, nécessitant une planification et des paramètres supplémentaires, par rapport à la Descente de Gradient régulière.

Utilisation populaire

En raison de sa configurabilité, et malgré ses lacunes, la SGD est devenue l’algorithme d’optimisation le plus populaire pour ajuster les réseaux de neurones. Une configuration de la SGD qui devient dominante dans les nouveaux articles de recherche en IA/ML est le choix de l’optimiseur Estimation du Moment Adaptatif (ADAM, introduit en 2015).

L’ADAM adapte le taux d’apprentissage pour chaque paramètre de manière dynamique (« taux d’apprentissage adaptatif »), ainsi que les résultats des mises à jour précédentes dans la configuration suivante (« élan »). De plus, il peut être configuré pour utiliser des innovations ultérieures, telles que le Nesterov Momentum.

Cependant, certains soutiennent que l’utilisation de l’élan peut également accélérer l’ADAM (et des algorithmes similaires) vers une conclusion sous-optimale. Comme pour la plupart des pointes avancées du secteur de la recherche en apprentissage automatique, la SGD est un travail en cours.

Publié pour la première fois le 10 février 2022. Modifié le 10 février 20h05 EET – mise en forme.

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.