Connect with us

Intelligence artificielle

L’apprentissage automatique traditionnel est-il toujours pertinent ?

mm
Is Traditional Machine Learning Still Relevant?

Ces dernières années, l’IA générative a montré des résultats prometteurs dans la résolution de tâches complexes d’IA. Les modèles d’IA modernes tels que ChatGPT, Bard, LLaMA, DALL-E.3, et SAM ont présenté des capacités remarquables dans la résolution de problèmes multidisciplinaires tels que la réponse à des questions visuelles, la segmentation, le raisonnement et la génération de contenu.

De plus, les techniques d’IA multimodale ont émergé, capables de traiter plusieurs modalités de données, c’est-à-dire le texte, les images, l’audio et les vidéos simultanément. Avec ces progrès, il est naturel de se demander : Approchons-nous de la fin de l’apprentissage automatique traditionnel (ML) ?

Dans cet article, nous examinerons l’état du paysage de l’apprentissage automatique traditionnel par rapport aux innovations de l’IA générative moderne.

Qu’est-ce que l’apprentissage automatique traditionnel ? – Quelles sont ses limites ?

L’apprentissage automatique traditionnel est un terme large qui couvre une grande variété d’algorithmes principalement pilotés par des statistiques. Les deux principaux types d’algorithmes d’apprentissage automatique traditionnel sont supervisé et non supervisé. Ces algorithmes sont conçus pour développer des modèles à partir de jeux de données structurés.

Les algorithmes d’apprentissage automatique traditionnel standard incluent :

  • Les algorithmes de régression tels que linéaire, lasso et ridge.
  • Le regroupement K-means.
  • L’analyse en composantes principales (ACP).
  • Les machines à vecteurs de support (SVM).
  • Les algorithmes basés sur des arbres tels que les arbres de décision et les forêts aléatoires.
  • Les modèles de boosting tels que le boosting de gradient et XGBoost.

Limitations de l’apprentissage automatique traditionnel

L’apprentissage automatique traditionnel a les limites suivantes :

  1. Scalabilité limitée : Ces modèles ont souvent du mal à évoluer avec de grands et de divers jeux de données.
  2. Prétraitement des données et ingénierie des fonctionnalités : L’apprentissage automatique traditionnel nécessite un prétraitement important pour transformer les jeux de données en fonction des exigences du modèle. De plus, l’ingénierie des fonctionnalités peut être chronophage et nécessite de multiples itérations pour capturer des relations complexes entre les fonctionnalités des données.
  3. Données haute dimension et non structurées : L’apprentissage automatique traditionnel a du mal avec des types de données complexes tels que les images, l’audio, les vidéos et les documents.
  4. Adaptabilité aux données non vues : Ces modèles peuvent ne pas s’adapter bien aux données du monde réel qui n’ont pas fait partie de leurs données de formation.

Réseau de neurones : passer de l’apprentissage automatique à l’apprentissage profond et au-delà

Réseau de neurones : passer de l'apprentissage automatique à l'apprentissage profond et au-delà

Les modèles de réseaux de neurones (NN) sont beaucoup plus complexes que les modèles d’apprentissage automatique traditionnel. Le réseau de neurones le plus simple – le perceptron multi-couche (MLP) se compose de plusieurs neurones connectés ensemble pour comprendre les informations et effectuer des tâches, semblable à la façon dont fonctionne le cerveau humain.

Les progrès des techniques de réseaux de neurones ont formé la base du passage de l’apprentissage automatique à l’apprentissage profond. Par exemple, les NN utilisés pour les tâches de vision par ordinateur (détection d’objets et segmentation d’images) sont appelés réseaux de neurones convolutionnels (CNNs), tels que AlexNet, ResNet et YOLO.

Aujourd’hui, la technologie d’IA générative pousse les techniques de réseaux de neurones un peu plus loin, lui permettant d’exceller dans divers domaines d’IA. Par exemple, les réseaux de neurones utilisés pour les tâches de traitement du langage naturel (comme la résumé de texte, la réponse à des questions et la traduction) sont connus sous le nom de transformateurs. Les modèles de transformateurs éminents incluent BERT, GPT-4 et T5. Ces modèles ont un impact sur des industries allant des soins de santé, de la vente au détail, du marketing, finances, etc.

Avoir encore besoin d’algorithmes d’apprentissage automatique traditionnel ?

Avoir encore besoin d'algorithmes d'apprentissage automatique traditionnel ?

Alors que les réseaux de neurones et leurs variantes modernes comme les transformateurs ont reçu beaucoup d’attention, les méthodes d’apprentissage automatique traditionnel restent cruciales. Examinons pourquoi ils sont toujours pertinents.

1. Exigences de données plus simples

Les réseaux de neurones exigent de grands ensembles de données pour la formation, tandis que les modèles d’apprentissage automatique peuvent obtenir des résultats significatifs avec des ensembles de données plus petits et plus simples. Ainsi, l’apprentissage automatique est préféré à l’apprentissage profond pour les ensembles de données structurés plus petits et vice versa.

2. Simplicité et interprétabilité

Les modèles d’apprentissage automatique traditionnel sont construits sur des modèles statistiques et de probabilité plus simples. Par exemple, une droite d’ajustement dans la régression linéaire établit la relation entre les entrées et les sorties en utilisant la méthode des moindres carrés, une opération statistique.

De même, les arbres de décision utilisent des principes probabilistes pour classer les données. L’utilisation de tels principes offre de l’interprétabilité et facilite la compréhension du fonctionnement des algorithmes d’apprentissage automatique pour les praticiens de l’IA.

Les architectures de réseaux de neurones modernes comme les transformateurs et les modèles de diffusion (généralement utilisés pour la génération d’images comme Stable Diffusion ou Midjourney) ont une structure de réseau complexe et multicouche. Comprendre de tels réseaux nécessite une compréhension de concepts mathématiques avancés. C’est pourquoi ils sont également appelés « boîtes noires ».

3. Efficacité des ressources

Les réseaux de neurones modernes comme les grands modèles de langage (LLM) sont formés sur des grappes de GPU coûteux en fonction de leurs exigences de calcul. Par exemple, le GPT4 a été formé sur 25000 GPU Nvidia pendant 90 à 100 jours.

Cependant, le matériel coûteux et le temps de formation long ne sont pas réalisables pour chaque praticien ou équipe d’IA. En revanche, l’efficacité de calcul des algorithmes d’apprentissage automatique traditionnel permet aux praticiens d’obtenir des résultats significatifs même avec des ressources contraintes.

4. Pas tous les problèmes nécessitent un apprentissage profond

L’apprentissage profond n’est pas la solution absolue pour tous les problèmes. Certains scénarios existent où l’apprentissage automatique surpasse l’apprentissage profond.

Par exemple, dans le diagnostic et le pronostic médical avec des données limitées, un algorithme d’apprentissage automatique pour la détection d’anomalies comme REMED donne de meilleurs résultats que l’apprentissage profond. De même, l’apprentissage automatique traditionnel est important dans les scénarios à faible capacité de calcul en tant que solution flexible et efficace.

Principalement, la sélection du meilleur modèle pour tout problème dépend des besoins de l’organisation ou du praticien et de la nature du problème en question.

L’apprentissage automatique en 2023

L'apprentissage automatique en 2023

Image générée à l’aide de Leonardo AI

En 2023, l’apprentissage automatique traditionnel continue d’évoluer et est en concurrence avec l’apprentissage profond et l’IA générative. Il a plusieurs utilisations dans l’industrie, en particulier lorsqu’il s’agit de jeux de données structurés.

Par exemple, de nombreuses sociétés de biens de consommation à rotation rapide (FMCG) traitent de grandes quantités de données tabulaires en s’appuyant sur les algorithmes d’apprentissage automatique pour des tâches critiques comme les recommandations de produits personnalisées, l’optimisation des prix, la gestion des stocks et l’optimisation de la chaîne d’approvisionnement.

En outre, de nombreux modèles de vision et de langage sont toujours basés sur des techniques traditionnelles, offrant des solutions dans les approches hybrides et les applications émergentes. Par exemple, une étude récente intitulée « Do We Really Need Deep Learning Models for Time Series Forecasting? » a discuté de la façon dont les arbres de régression de boosting de gradient (GBRTs) sont plus efficaces pour la prévision de série chronologique que les réseaux de neurones profonds.

L’interprétabilité de l’apprentissage automatique reste très précieuse avec des techniques comme SHAP (Shapley Additive Explanations) et LIME (Local Interpretable Model-agnostic Explanations). Ces techniques expliquent les modèles d’apprentissage automatique complexes et fournissent des informations sur leurs prédictions, aidant ainsi les praticiens de l’apprentissage automatique à mieux comprendre leurs modèles.

Enfin, l’apprentissage automatique traditionnel reste une solution robuste pour diverses industries en répondant à la scalabilité, à la complexité des données et aux contraintes de ressources. Ces algorithmes sont irremplaçables pour l’analyse de données et la modélisation prédictive et continueront de faire partie de l’arsenal d’un scientifique des données.

Si des sujets comme celui-ci vous intriguent, explorez Unite AI pour obtenir plus d’informations.

Haziqa est un Data Scientist avec une expérience approfondie dans la rédaction de contenu technique pour les entreprises d'IA et de SaaS.