IA 101

Qu’est-ce que la science des données ?

Publié le 21 juillet 2020

Mis à jour le 25 mai 2026

Par

Daniel Nelson

Le domaine de la science des données semble ne faire que grandir et gagner en popularité chaque jour. Selon LinkedIn, la science des données était l’un des domaines d’emploi à croissance la plus rapide en 2017 et en 2020, Glassdoor a classé le poste de scientifique des données comme l’un des trois meilleurs emplois aux États-Unis. Étant donné la popularité croissante de la science des données, il n’est pas surprenant que de plus en plus de personnes s’intéressent à ce domaine. Pourtant, qu’est-ce que la science des données exactement ?

Commençons par nous familiariser avec la science des données, en prenant le temps de définir la science des données, en explorant comment les mégadonnées et l’intelligence artificielle changent le domaine, en apprenant sur certains outils de science des données courants et en examinant quelques exemples de science des données.

Qu’est-ce que la science des données ?

Avant de pouvoir explorer les outils ou les exemples de science des données, nous voulons obtenir une définition concise de la science des données.

La définition de « science des données » est en fait un peu délicate, car le terme est appliqué à de nombreuses tâches et méthodes d’investigation et d’analyse. Nous pouvons commencer par nous rappeler ce que signifie le terme « science ». La science est l’étude systématique du monde physique et naturel à travers l’observation et l’expérimentation, visant à faire progresser la compréhension humaine des processus naturels. Les mots importants dans cette définition sont « observation » et « compréhension ».

Si la science des données est le processus de compréhension du monde à partir de modèles dans les données, alors la responsabilité d’un scientifique des données est de transformer les données, d’analyser les données et d’extraire des modèles à partir des données. En d’autres termes, un scientifique des données est fourni avec des données et il utilise un certain nombre d’outils et de techniques pour prétraiter les données (les préparer pour l’analyse) et ensuite analyser les données pour trouver des modèles significatifs.

Le rôle d’un scientifique des données est similaire à celui d’un scientifique traditionnel. Les deux sont préoccupés par l’analyse des données pour soutenir ou rejeter des hypothèses sur la façon dont le monde fonctionne, en essayant de donner un sens aux modèles dans les données pour améliorer notre compréhension du monde. Les scientifiques des données utilisent les mêmes méthodes scientifiques qu’un scientifique traditionnel. Un scientifique des données commence par recueillir des observations sur un phénomène qu’il aimerait étudier. Il formule ensuite une hypothèse sur le phénomène en question et essaie de trouver des données qui contredisent son hypothèse d’une manière ou d’une autre.

Si l’hypothèse n’est pas contredite par les données, il peut être possible de construire une théorie ou un modèle sur la façon dont le phénomène fonctionne, qu’il peut ensuite tester à nouveau et à nouveau en vérifiant s’il s’applique à d’autres ensembles de données similaires. Si un modèle est suffisamment robuste, s’il explique bien les modèles et n’est pas contredit lors d’autres tests, il peut même être utilisé pour prédire des événements futurs.

Un scientifique des données ne recueillera généralement pas ses propres données à travers une expérience. Il ne concevra généralement pas d’expériences avec des contrôles et des essais à double insu pour découvrir des variables de confusion qui pourraient interférer avec une hypothèse. La plupart des données analysées par un scientifique des données seront des données obtenues à travers des études observationnelles et des systèmes, ce qui est une façon dont le travail d’un scientifique des données peut différer de celui d’un scientifique traditionnel, qui a tendance à effectuer plus d’expériences.

Cela étant dit, un scientifique des données peut être appelé à effectuer une forme d’expérimentation appelée test A/B où des ajustements sont apportés à un système qui recueille des données pour voir comment les modèles de données changent.

Quelle que soit la technique ou l’outil utilisé, la science des données vise ultimement à améliorer notre compréhension du monde en donnant un sens aux données, et les données sont obtenues à travers l’observation et l’expérimentation. La science des données est le processus d’utilisation d’algorithmes, de principes statistiques et de divers outils et machines pour tirer des informations des données, des informations qui nous aident à comprendre les modèles dans le monde qui nous entoure.

Que font les scientifiques des données ?

Vous pouvez voir que toute activité qui implique l’analyse de données d’une manière scientifique peut être appelée science des données, ce qui est partiellement ce qui rend la définition de la science des données si difficile. Pour clarifier les choses, explorons certaines des activités que un scientifique des données peut effectuer quotidiennement.

La science des données rassemble de nombreuses disciplines et spécialités différentes. Photo : Calvin Andrus via Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

Un jour donné, un scientifique des données peut être invité à : créer des schémas de stockage et de récupération de données, créer des pipelines ETL (extract, transform, load) et nettoyer les données, employer des méthodes statistiques, créer des visualisations de données et des tableaux de bord, mettre en œuvre des algorithmes d’intelligence artificielle et d’apprentissage automatique, faire des recommandations pour des actions basées sur les données.

Commençons par décomposer les tâches ci-dessus.

Un scientifique des données peut être tenu de gérer l’installation des technologies nécessaires pour stocker et récupérer des données, en prêtant attention à la fois au matériel et au logiciel. La personne responsable de ce poste peut également être appelée « Data Engineer ». Cependant, certaines entreprises incluent ces responsabilités dans le rôle des scientifiques des données. Un scientifique des données peut également avoir besoin de créer, ou d’aider à la création de, pipelines ETL. Les données sont rarement fournies sous le format dont un scientifique des données a besoin. Au lieu de cela, les données devront être reçues sous forme brute à partir de la source de données, transformées en un format utilisable et prétraitées (choses comme la standardisation des données, la suppression des redondances et la suppression des données corrompues).

Méthodes statistiques de la science des données

L’application de la statistique est nécessaire pour transformer le simple fait de regarder les données et de les interpréter en une véritable science. Les méthodes statistiques sont utilisées pour extraire des modèles pertinents à partir d’ensembles de données, et un scientifique des données doit être bien versé dans les concepts statistiques. Il doit être capable de distinguer les corrélations significatives des corrélations spurieuses en contrôlant les variables de confusion. Il doit également savoir quels outils utiliser pour déterminer quels éléments de l’ensemble de données sont importants pour son modèle / ont un pouvoir prédictif. Un scientifique des données doit savoir quand utiliser une approche de régression par rapport à une approche de classification, et quand se soucier de la moyenne d’un échantillon par rapport à la médiane d’un échantillon. Un scientifique des données ne serait simplement pas un scientifique sans ces compétences cruciales.

Visualisation de données

Une partie cruciale du travail d’un scientifique des données est de communiquer ses résultats aux autres. Si un scientifique des données ne peut pas communiquer efficacement ses résultats aux autres, les implications de ses résultats n’ont pas d’importance. Un scientifique des données devrait être un conteur efficace. Cela signifie produire des visualisations qui communiquent des points pertinents sur l’ensemble de données et les modèles découverts à l’intérieur. Il existe un grand nombre d’outils de visualisation de données différents qu’un scientifique des données peut utiliser, et il peut visualiser les données à des fins d’exploration initiale (analyse de données exploratoire) ou visualiser les résultats qu’un modèle produit.

Recommandations et applications commerciales

Un scientifique des données doit avoir une certaine intuition des exigences et des objectifs de son organisation ou de son entreprise. Un scientifique des données doit comprendre ces choses car il doit savoir quels types de variables et de fonctionnalités il devrait analyser, en explorant des modèles qui aideront son organisation à atteindre ses objectifs. Les scientifiques des données doivent être conscients des contraintes auxquelles ils sont confrontés et des hypothèses que la direction de l’organisation fait.

Apprentissage automatique et intelligence artificielle

L’apprentissage automatique et d’autres algorithmes et modèles d’intelligence artificielle sont des outils utilisés par les scientifiques des données pour analyser les données, identifier des modèles dans les données, discerner les relations entre les variables et prédire des événements futurs.

Science des données traditionnelle vs. science des données des mégadonnées

À mesure que les méthodes de collecte de données sont devenues plus sophistiquées et que les bases de données sont devenues plus grandes, une différence est apparue entre la science des données traditionnelle et la « science des données des mégadonnées ».

Les analyses de données traditionnelles et la science des données sont effectuées avec des analyses descriptives et exploratoires, visant à trouver des modèles et à analyser les résultats des performances des projets. Les méthodes d’analyse de données traditionnelles se concentrent souvent sur les données passées et actuelles. Les analystes de données traitent généralement des données qui ont déjà été nettoyées et standardisées, tandis que les scientifiques des données traitent souvent de données complexes et sales. Des méthodes d’analyse de données plus avancées peuvent être utilisées pour prédire le comportement futur, bien que cela soit plus souvent fait avec les mégadonnées, car les modèles prédictifs ont souvent besoin de grandes quantités de données pour être construits de manière fiable.

Les « mégadonnées » font référence à des données qui sont trop grandes et complexes pour être gérées avec des techniques et des outils d’analyse de données traditionnels. Les mégadonnées sont souvent collectées à travers des plateformes en ligne et des outils de transformation de données avancés sont utilisés pour rendre les grandes quantités de données prêtes pour l’inspection par la science des données. À mesure que davantage de données sont collectées tout le temps, plus de travail d’un scientifique des données implique l’analyse des mégadonnées.

Outils de science des données

Les outils de science des données courants incluent des outils pour stocker des données, effectuer une analyse de données exploratoire, modéliser des données, effectuer des ETL et visualiser des données. Les plateformes comme Amazon Web Services, Microsoft Azure et Google Cloud offrent des outils pour aider les scientifiques des données à stocker, transformer, analyser et modéliser des données. Il existe également des outils de science des données autonomes comme Airflow (infrastructure de données) et Tableau (visualisation et analyse de données).

En termes d’algorithmes et de modèles d’apprentissage automatique et d’intelligence artificielle utilisés pour modéliser les données, ils sont souvent fournis à travers des modules et des plateformes de science des données comme TensorFlow, PyTorch et le studio d’apprentissage automatique Azure. Ces plateformes comme les scientifiques des données font des modifications à leurs ensembles de données, composent des architectures d’apprentissage automatique et forment des modèles d’apprentissage automatique.

D’autres outils et bibliothèques de science des données courants incluent SAS (pour la modélisation statistique), Apache Spark (pour l’analyse de données en streaming), D3.js (pour les visualisations interactives dans le navigateur) et Jupyter (pour les blocs de code interactifs et les visualisations partagés).

Photo : Seonjae Jo via Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

Exemples de science des données

Les exemples de science des données et de ses applications sont partout. La science des données a des applications dans tout, de la livraison de nourriture, des sports, de la circulation et de la santé. Les données sont partout et la science des données peut donc être appliquée à tout.

En termes de nourriture, Uber investit dans une expansion de son système de covoiturage axée sur la livraison de nourriture, Uber Eats. Uber Eats doit apporter les gens leur nourriture de manière rapide, tout en la gardant chaude et fraîche. Pour que cela se produise, les scientifiques des données de l’entreprise doivent utiliser la modélisation statistique qui prend en compte des aspects tels que la distance entre les restaurants et les points de livraison, les ruées de vacances, le temps de cuisson et même les conditions météorologiques, le tout considéré dans le but d’optimiser les temps de livraison.

Les statistiques sportives sont utilisées par les directeurs d’équipe pour déterminer quels sont les meilleurs joueurs et former des équipes solides et fiables qui gagneront des matchs. Un exemple notable est la science des données documentée par Michael Lewis dans le livre Moneyball, où le directeur général de l’équipe des Athletics d’Oakland a analysé diverses statistiques pour identifier des joueurs de qualité qui pourraient être signés par l’équipe à relativement faible coût.

L’analyse des modèles de circulation est cruciale pour la création de véhicules autonomes. Les véhicules autonomes doivent être capables de prédire l’activité qui les entoure et de répondre aux changements des conditions de la route, comme la distance d’arrêt requise lorsqu’il pleut, ainsi que la présence de plus de voitures sur la route pendant les heures de pointe. Au-delà des véhicules autonomes, des applications comme Google Maps analysent les modèles de circulation pour indiquer aux usagers combien de temps il leur faudra pour se rendre à destination en utilisant diverses routes et modes de transport.

En termes de données de santé, la vision par ordinateur est souvent combinée avec l’apprentissage automatique et d’autres techniques d’intelligence artificielle pour créer des classificateurs d’images capables d’examiner des choses comme des radiographies, des IRM et des échographies pour voir s’il y a des problèmes médicaux potentiels qui pourraient apparaître sur la scan. Ces algorithmes peuvent être utilisés pour aider les cliniciens à diagnostiquer des maladies.

En fin de compte, la science des données couvre de nombreuses activités et rassemble des aspects de différentes disciplines. Cependant, la science des données est toujours préoccupée par le fait de raconter des histoires intéressantes et captivantes à partir des données, et d’utiliser les données pour mieux comprendre le monde.

Daniel Nelson

Blogueur et programmeur avec des spécialités en Machine Learning et Deep Learning sujets. Daniel espère aider les autres à utiliser le pouvoir de l'IA pour le bien social.