Meilleur de
10 meilleurs algorithmes d'apprentissage automatique
Bien que nous vivions une époque d'innovation extraordinaire dans le domaine de l'apprentissage automatique accéléré par GPU, les derniers articles de recherche présentent fréquemment (et de manière visible) des algorithmes vieux de plusieurs décennies, voire de 70 ans dans certains cas.
Certains pourraient soutenir que bon nombre de ces anciennes méthodes relèvent de l'« analyse statistique » plutôt que de l'apprentissage automatique, et préféreraient dater l'avènement du secteur seulement de 1957, avec la invention du perceptron.
Étant donné l'importance de l'intégration de ces anciens algorithmes aux dernières tendances et aux développements marquants de l'apprentissage automatique, cette position est contestable. Examinons donc quelques-uns des éléments fondamentaux « classiques » qui sous-tendent les dernières innovations, ainsi que quelques nouveautés qui se profilent comme des pions au panthéon de l'IA.
1 : Transformateurs
En 2017, Google Research a mené une collaboration de recherche qui a abouti à la papier L'attention est tout ce dont vous avez besoin. Le travail a décrit une nouvelle architecture qui a favorisé mécanismes d'attention du « piping » dans les modèles d'encodeur/décodeur et de réseau récurrent à une technologie de transformation centrale à part entière.
L'approche a été baptisée transformateur, et est depuis devenue une méthodologie révolutionnaire dans le traitement du langage naturel (NLP), alimentant, entre autres exemples, le modèle de langage autorégressif et l'affiche-enfant de l'IA GPT-3.
Les transformateurs ont élégamment résolu le problème de transduction de séquence, également appelé « transformation », qui consiste à transformer des séquences d'entrée en séquences de sortie. Un transformateur reçoit et gère également les données de manière continue, plutôt que par lots séquentiels, ce qui permet une « persistance de la mémoire » que les architectures RNN ne sont pas conçues pour offrir. Pour une présentation plus détaillée des transformateurs, consultez : notre article de référence.
Contrairement aux réseaux de neurones récurrents (RNN) qui avaient commencé à dominer la recherche sur le ML à l'ère CUDA, l'architecture Transformer pouvait également être facilement parallélisé, ouvrant la voie à un traitement productif d'un corpus de données beaucoup plus important que les RNN.
Utilisation populaire
Les Transformers ont captivé l'imagination du public en 2020 avec la sortie de GPT-3 d'OpenAI, qui affichait alors un record 175 milliards de paramètres. Cette réalisation apparemment stupéfiante a finalement été éclipsée par des projets ultérieurs, tels que le 2021 libérer du Megatron-Turing NLG 530B de Microsoft, qui (comme son nom l'indique) présente plus de 530 milliards de paramètres.

Une chronologie des projets hyperscale Transformer NLP. Source: Microsoft
L'architecture des transformateurs est également passée de la PNL à la vision par ordinateur, alimentant un nouvelle génération des cadres de synthèse d'images tels que celui d'OpenAI CLIP et DALL-E, qui utilisent le mappage de domaine texte>image pour terminer les images incomplètes et synthétiser de nouvelles images à partir de domaines formés, parmi un nombre croissant d'applications connexes.

DALL-E tente de compléter une image partielle d'un buste de Platon. Source : https://openai.com/blog/dall-e/
2 : Réseaux antagonistes génératifs (GAN)
Bien que les transformateurs aient acquis une couverture médiatique extraordinaire grâce à la sortie et à l'adoption de GPT-3, le Réseau d'adversaire génératif (GAN) est devenu une marque reconnaissable à part entière et pourrait éventuellement rejoindre deepfake comme verbe.
Première proposition en 2014. et principalement utilisé pour la synthèse d'images, un réseau antagoniste génératif architecture est composé d'un Générateur et DiscriminateurLe générateur parcourt des milliers d'images d'un ensemble de données, tentant de les reconstruire de manière itérative. À chaque tentative, le discriminateur évalue le travail du générateur et le renvoie pour qu'il s'améliore, mais sans connaître les erreurs de reconstruction précédentes.

Source : https://developers.google.com/machine-learning/gan/gan_structure
Cela oblige le Générateur à explorer une multiplicité de voies, au lieu de suivre les impasses potentielles qui auraient résulté si le Discriminateur lui avait dit où cela n'allait pas (voir #8 ci-dessous). À la fin de la formation, le générateur dispose d'une carte détaillée et complète des relations entre les points de l'ensemble de données.

Du papier Améliorer l'équilibre GAN en augmentant la conscience spatiale : un nouveau cadre parcourt l'espace latent parfois mystérieux d'un GAN, fournissant une instrumentation réactive pour une architecture de synthèse d'images. Source : https://genforce.github.io/eqgan/
Par analogie, c'est la différence entre apprendre un simple trajet quotidien vers le centre de Londres ou acquérir minutieusement La connaissance.
Le résultat est un ensemble de caractéristiques de haut niveau dans l'espace latent du modèle entraîné. L'indicateur sémantique d'une caractéristique de haut niveau pourrait être « personne », tandis qu'une descente par spécificité liée à cette caractéristique pourrait révéler d'autres caractéristiques apprises, telles que « homme » et « femme ». À des niveaux inférieurs, les sous-caractéristiques peuvent se décomposer en « blonde », « caucasien », etc.
L'enchevêtrement est un problème notable dans l'espace latent des GAN et des frameworks encodeur/décodeur : le sourire sur un visage féminin généré par GAN est-il une caractéristique intriquée de son « identité » dans l'espace latent, ou s'agit-il d'une branche parallèle ?

Les visages générés par le GAN à partir de cette personne n'existent pas. Source : https://cette-personne-n'existe-pas-existe.com/fr
Ces dernières années ont vu naître un nombre croissant de nouvelles initiatives de recherche à ce sujet, ouvrant peut-être la voie à une édition fonctionnelle de type Photoshop pour l'espace latent d'un GAN. Cependant, à l'heure actuelle, de nombreuses transformations sont de véritables solutions « tout ou rien ». Notamment, la version EditGAN de NVIDIA, sortie fin 2021, atteint un niveau haut niveau d'interprétabilité dans l'espace latent en utilisant des masques de segmentation sémantique.
Utilisation populaire
Outre leur implication (en fait assez limitée) dans les vidéos deepfake populaires, les GAN centrés sur l'image/la vidéo ont proliféré au cours des quatre dernières années, passionnant les chercheurs et le public. Suivre le rythme et la fréquence vertigineux des nouvelles versions est un défi, bien que le référentiel GitHub Applications GAN impressionnantes vise à fournir une liste exhaustive.
Les réseaux antagonistes génératifs peuvent en théorie dériver des fonctionnalités de n'importe quel domaine bien défini, y compris le texte.
3 : SVM
Originaire en 1963., Soutenir la machine vectorielle (SVM) est un algorithme de base qui revient fréquemment dans les nouvelles recherches. Sous SVM, les vecteurs cartographient la disposition relative des points de données dans un ensemble de données, tandis que soutenez les vecteurs délimitent les frontières entre différents groupes, caractéristiques ou traits.

Les vecteurs de support définissent les frontières entre les groupes. Source : https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html
La frontière dérivée est appelée un hyperplan.
Aux faibles niveaux de fonctionnalités, la SVM est bidimensionnel (image ci-dessus), mais lorsqu'il y a un nombre plus élevé de groupes ou de types reconnus, cela devient tridimensionnel.

Un réseau plus profond de points et de groupes nécessite une SVM tridimensionnelle. Source : https://cml.rhul.ac.uk/svm.html
Utilisation populaire
Étant donné que les machines vectorielles de support peuvent traiter de manière efficace et agnostique des données de grande dimension de toutes sortes, elles apparaissent largement dans une variété de secteurs d'apprentissage automatique, notamment détection de deepfake, classification d'image, classification des discours de haine, Analyse d'ADN et prévision de la structure de la population, parmi beaucoup d'autres.
4 : Regroupement de K-moyennes
Le regroupement en général est un apprentissage non supervisé approche qui cherche à catégoriser les points de données à travers estimation de la densité, créant une carte de la distribution des données étudiées.

K-Means regroupe les segments divins, les groupes et les communautés dans les données. Source : https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/
K-Means Clustering est devenue l'implémentation la plus populaire de cette approche, en regroupant les points de données dans des « groupes K » distinctifs, qui peuvent indiquer des secteurs démographiques, des communautés en ligne ou toute autre agrégation secrète possible attendant d'être découverte dans des données statistiques brutes.

Des clusters se forment dans l'analyse K-Means. Source : https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/
La valeur K elle-même est le facteur déterminant dans l'utilité du processus et dans l'établissement d'une valeur optimale pour un cluster. Initialement, la valeur K est attribuée de manière aléatoire, et ses caractéristiques et caractéristiques vectorielles sont comparées à ses voisines. Les voisins qui ressemblent le plus au point de données avec la valeur attribuée de manière aléatoire sont attribués à son cluster de manière itérative jusqu'à ce que les données aient produit tous les regroupements autorisés par le processus.
Le tracé de l'erreur au carré, ou « coût » des valeurs différentes parmi les clusters, révélera une pointe du coude pour les données :

Le « point de coude » dans un graphique en cluster. Source : https://www.scikit-yb.org/en/latest/api/cluster/elbow.html
Le point de coude est similaire dans son concept à la façon dont la perte s'aplatit en rendements décroissants à la fin d'une session de formation pour un ensemble de données. Il représente le point auquel aucune autre distinction entre les groupes ne va devenir apparente, indiquant le moment de passer aux phases suivantes dans le pipeline de données, ou bien de rapporter les résultats.
Utilisation populaire
Le clustering K-Means, pour des raisons évidentes, est une technologie essentielle dans l'analyse client, car il offre une méthodologie claire et explicable pour traduire de grandes quantités d'enregistrements commerciaux en informations démographiques et en « leads ».
En dehors de cette application, K-Means Clustering est également utilisé pour prévision des glissements de terrain, segmentation d'images médicales, synthèse d'images avec GAN, classement des documentsou aménagement de la ville, parmi de nombreuses autres utilisations potentielles et réelles.
5 : Forêt aléatoire
Random Forest est un apprentissage d'ensemble méthode qui fait la moyenne du résultat d'un tableau de arbres de décision pour établir une prédiction globale du résultat.

Source : https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png
Si vous avez fait des recherches, même en regardant simplement le Retour vers le futur trilogie, un arbre de décision lui-même est assez facile à conceptualiser : un certain nombre de chemins s'offrent à vous, et chaque chemin débouche vers un nouveau résultat qui à son tour contient d'autres chemins possibles.
In apprentissage par renforcement, vous pouvez vous retirer d'un chemin et recommencer à partir d'une position antérieure, tandis que les arbres de décision s'engagent dans leurs parcours.
L'algorithme de la forêt aléatoire est donc essentiellement un spread betting pour les décisions. Cet algorithme est dit « aléatoire » car il prend ad hoc sélections et observations afin de comprendre médiane somme des résultats du tableau de l'arbre de décision.
Puisqu'elle prend en compte une multiplicité de facteurs, une approche de forêt aléatoire peut être plus difficile à convertir en graphiques significatifs qu'un arbre de décision, mais est susceptible d'être nettement plus productive.
Les arbres de décision sont sujets au surapprentissage, où les résultats obtenus sont spécifiques aux données et peu susceptibles d'être généralisés. La sélection arbitraire des points de données par Random Forest permet de lutter contre cette tendance en explorant les tendances représentatives significatives et utiles des données.

Régression d'arbre de décision. Source : https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html
Utilisation populaire
Comme beaucoup d'algorithmes de cette liste, la forêt aléatoire fonctionne généralement comme un trieur et un filtre précoces de données, et apparaît donc régulièrement dans les nouvelles publications de recherche. Voici quelques exemples d'utilisation de la forêt aléatoire : Synthèse d'images par résonance magnétique, Prévision de prix Bitcoin, segmentation du recensement, classification de texte et détection de fraude à la carte de crédit.
Étant donné que Random Forest est un algorithme de bas niveau dans les architectures d'apprentissage automatique, il peut également contribuer aux performances d'autres méthodes de bas niveau, ainsi que des algorithmes de visualisation, notamment Clustering inductif, Transformations de fonctionnalités, classification de documents texte utiliser des fonctionnalités raresou affichage des pipelines.
6: Bayes naĂŻf
Couplé à l'estimation de la densité (voir 4, au-dessus de Bayes naïf Le classificateur est un algorithme puissant mais relativement léger capable d'estimer les probabilités en fonction des caractéristiques calculées des données.

Relations d'entités dans un classificateur Bayes naïf. Source : https://www.sciencedirect.com/topics/computer-science/naive-bayes-model
Le terme « naïf » fait référence à l’hypothèse selon laquelle théorème de Bayes que les fonctionnalités ne sont pas liées, appelées indépendance conditionnelle. Si vous adoptez ce point de vue, marcher et parler comme un canard ne suffit pas à établir que nous avons affaire à un canard, et aucune hypothèse « évidente » n’est adoptée prématurément.
Ce niveau de rigueur académique et d’investigation serait excessif lorsque le « bon sens » est disponible, mais il constitue une norme précieuse pour traverser les nombreuses ambiguïtés et corrélations potentiellement sans rapport qui peuvent exister dans un ensemble de données d’apprentissage automatique.
Dans un réseau bayésien original, les entités sont sujettes à fonctions de notation, y compris la longueur de description minimale et Score bayésien, qui peut imposer des restrictions sur les données en termes de connexions estimées trouvées entre les points de données et la direction dans laquelle ces connexions circulent.
Un classificateur bayésien naïf, à l'inverse, fonctionne en supposant que les caractéristiques d'un objet donné sont indépendantes, puis en utilisant le théorème de Bayes pour calculer la probabilité d'un objet donné, en fonction de ses caractéristiques.
Utilisation populaire
Les filtres Naive Bayes sont bien représentés dans prévision des maladies et catégorisation des documents, filtrage du spam, classification des sentiments, systèmes de recommandationou détection de fraude, entre autres applications.
7 : K- Voisins les plus proches (KNN)
Proposé pour la première fois par l'US Air Force School of Aviation Medicine en 1951., et devant s'adapter à l'état de l'art du matériel informatique du milieu du 20e siècle, Les voisins les plus proches (KNN) est un algorithme allégé qui figure toujours en bonne place dans les articles universitaires et les initiatives de recherche en apprentissage automatique du secteur privé.
KNN a été appelé « l'apprenant paresseux », car il analyse de manière exhaustive un ensemble de données afin d'évaluer les relations entre les points de données, plutôt que de nécessiter la formation d'un modèle d'apprentissage automatique à part entière.

Un groupement KNN. Source: https://scikit-learn.org/stable/modules/neighbors.html
Bien que KNN soit architecturalement mince, son approche systématique impose une demande notable sur les opérations de lecture/écriture, et son utilisation dans de très grands ensembles de données peut être problématique sans technologies complémentaires telles que l'analyse en composantes principales (ACP), qui peut transformer des ensembles de données complexes et volumineux. dans groupements représentatifs que KNN peut traverser avec moins d'effort.
A étude récente ont évalué l'efficacité et l'économie d'un certain nombre d'algorithmes chargés de prédire si un employé quittera une entreprise, constatant que le septuagénaire KNN restait supérieur aux concurrents plus modernes en termes de précision et d'efficacité prédictive.
Utilisation populaire
Malgré sa simplicité populaire de concept et d'exécution, KNN n'est pas resté coincé dans les années 1950 - il a été adapté en une approche plus axée sur le DNN dans une proposition de 2018 de la Pennsylvania State University, et reste un processus central à un stade précoce (ou un outil analytique de post-traitement) dans de nombreux cadres d'apprentissage automatique beaucoup plus complexes.
Dans diverses configurations, KNN a été utilisé ou pour vérification de signature en ligne, classification d'image, exploration de texte, prévision des récoltesou la reconnaissance faciale, outre d'autres applications et incorporations.

Un système de reconnaissance faciale basé sur KNN en formation. Source: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf
8 : Processus de décision de Markov (MDP)
Un cadre mathématique introduit par le mathématicien américain Richard Bellman en 1957., Le processus de décision de Markov (MDP) est l'un des blocs les plus élémentaires de apprentissage par renforcement architectures. Algorithme conceptuel à part entière, il a été adapté dans un grand nombre d'autres algorithmes et revient fréquemment dans la culture actuelle de la recherche sur l'IA/ML.
MDP explore un environnement de données en utilisant son évaluation de son état actuel (c'est-à -dire « où » il se trouve dans les données) pour décider quel nœud des données explorer ensuite.

Source : https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420
Un processus décisionnel markovien de base donnera la priorité aux avantages à court terme plutôt qu’aux objectifs à long terme plus souhaitables. Pour cette raison, il est généralement intégré dans le contexte d'une architecture politique plus complète en matière d'apprentissage par renforcement, et est souvent soumis à des facteurs limitants tels qu'une récompense réduite et d'autres variables environnementales modificatrices qui l'empêcheront de se précipiter vers un objectif immédiat sans considération. du résultat souhaité au sens large.
Utilisation populaire
Le concept de bas niveau du MDP est largement répandu dans la recherche et les déploiements actifs de l'apprentissage automatique. Il a été proposé pour Systèmes de défense de sécurité IoT, pêche au poissonou prévisions de marché.
Outre son applicabilité évidente aux échecs et autres jeux strictement séquentiels, MDP est également un concurrent naturel pour le formation procédurale des systèmes robotiques, comme on peut le voir dans la vidéo ci-dessous.
9 : Fréquence du terme-Fréquence inverse du document
Terme Fréquence (TF) divise le nombre de fois qu'un mot apparaît dans un document par le nombre total de mots dans ce document. Ainsi le mot sceller apparaissant une fois dans un article de mille mots a une fréquence de terme de 0.001. En soi, TF est largement inutile comme indicateur de l'importance d'un terme, en raison du fait que des articles sans signification (tels que a, et, leou it) prédominent.
Pour obtenir une valeur significative pour un terme, Inverse Document Frequency (IDF) calcule la TF d'un mot sur plusieurs documents d'un ensemble de données, en attribuant une note faible à une fréquence très élevée. mots vides, tels que les articles. Les vecteurs de caractéristiques résultants sont normalisés à des valeurs entières, chaque mot étant affecté d'un poids approprié.

TF-IDF pondère la pertinence des termes en fonction de leur fréquence dans un certain nombre de documents, une occurrence plus rare étant un indicateur de saillance. Source : https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness
Bien que cette approche empêche les mots sémantiquement importants d'être perdus comme valeurs aberrantes, l'inversion du poids fréquentiel ne signifie pas automatiquement qu'un terme de basse fréquence est pas une valeur aberrante, parce que certaines choses sont rares et sans valeur. Par conséquent, un terme à basse fréquence devra prouver sa valeur dans le contexte architectural plus large en figurant (même à une faible fréquence par document) dans un certain nombre de documents de l'ensemble de données.
Malgré son âge, TF-IDF est une méthode puissante et populaire pour les passes de filtrage initiales dans les frameworks de traitement du langage naturel.
Utilisation populaire
Parce que TF-IDF a joué au moins un rôle dans le développement de l'algorithme PageRank de Google, largement occulte, au cours des vingt dernières années, il est devenu très largement adopté comme une tactique de référencement manipulatrice, malgré les recommandations de John Mueller en 2019 désaveu de son importance pour les résultats de recherche.
En raison du secret autour du PageRank, il n'y a aucune preuve claire que TF-IDF est pas Il s'agit actuellement d'une tactique efficace pour progresser dans le classement Google. Incendiaire spirituelle parmi les professionnels de l'informatique indique récemment une compréhension populaire, correcte ou non, que l'abus de termes peut encore entraîner une amélioration du placement SEO (bien que supplémentaire accusations d'abus de monopole et publicité excessive brouiller les limites de cette théorie).
10 : Descente de gradient stochastique
Descente de gradient stochastique (SGD) est une méthode de plus en plus populaire pour optimiser la formation des modèles d'apprentissage automatique.
Gradient Descent lui-même est une méthode d'optimisation et de quantification ultérieure de l'amélioration qu'un modèle apporte pendant la formation.
En ce sens, le terme « gradient » désigne une pente descendante (plutôt qu'une gradation basée sur les couleurs, voir l'image ci-dessous), où le point culminant de la « colline », à gauche, représente le début du processus d'apprentissage. À ce stade, le modèle n'a pas encore visualisé l'intégralité des données, ne serait-ce qu'une seule fois, et n'a pas encore suffisamment appris sur les relations entre les données pour produire des transformations efficaces.

Une descente en dégradé sur une séance d'entraînement FaceSwap. Nous pouvons voir que la formation a plafonné pendant un certain temps en seconde période, mais a finalement récupéré son chemin vers une convergence acceptable.
Le point le plus bas, à droite, représente la convergence (le point auquel le modèle est aussi efficace qu'il le sera jamais sous les contraintes et paramètres imposés).
Le gradient agit comme un enregistrement et un prédicteur de la disparité entre le taux d'erreur (la précision avec laquelle le modèle a actuellement cartographié les relations de données) et les pondérations (les paramètres qui influencent la manière dont le modèle apprendra).
Cet enregistrement des progrès peut être utilisé pour informer un calendrier des taux d'apprentissage, un processus automatique qui indique à l'architecture de devenir plus granulaire et précise à mesure que les premiers détails vagues se transforment en relations et mappages clairs. En effet, la perte de gradient fournit une carte juste à temps de la prochaine étape de la formation et de la manière dont elle doit se dérouler.
L'innovation de la descente de gradient stochastique réside dans la mise à jour des paramètres du modèle à chaque exemple d'apprentissage par itération, ce qui accélère généralement le processus de convergence. Avec l'avènement des jeux de données hyperscale ces dernières années, la descente de gradient stochastique a gagné en popularité comme méthode possible pour résoudre les problèmes logistiques qui en découlent.
En revanche, SGD a conséquences négatives pour la mise à l'échelle des fonctionnalités, et peut nécessiter plus d'itérations pour obtenir le même résultat, nécessitant une planification supplémentaire et des paramètres supplémentaires, par rapport à la descente de gradient classique.
Utilisation populaire
En raison de sa configurabilité, et malgré ses défauts, SGD est devenu l'algorithme d'optimisation le plus populaire pour l'ajustement des réseaux de neurones. Une configuration de SGD qui devient dominante dans les nouveaux articles de recherche sur l'IA / ML est le choix de l'estimation adaptative du moment (ADAM, introduit en 2015.) optimiseur.
ADAM adapte dynamiquement le taux d'apprentissage de chaque paramètre (« taux d'apprentissage adaptatif ») et intègre les résultats des mises à jour précédentes à la configuration suivante (« momentum »). De plus, il peut être configuré pour utiliser des innovations ultérieures, telles que L’élan de Nesterov.
Cependant, certains soutiennent que l'utilisation de l'élan peut également accélérer ADAM (et des algorithmes similaires) à un conclusion sous-optimale. Comme pour la plupart des technologies de pointe du secteur de la recherche en apprentissage automatique, SGD est un travail en cours.
Première publication le 10 février 2022. Modifié le 10 février 20.05 EET - formatage.