IA 101
Qu’est-ce que la science des données ?

Le domaine de la science des données semble ne faire que grandir et devenir plus populaire chaque jour. Selon LinkedIn, la science des données était l’un des domaines d’emploi à croissance la plus rapide en 2017 et en 2020, Glassdoor a classé le poste de scientifique des données comme l’un des trois meilleurs emplois aux États-Unis. Étant donné la popularité croissante de la science des données, il n’est pas surprenant que de plus en plus de personnes s’intéressent à ce domaine. Pourtant, qu’est-ce que la science des données exactement ?
Commençons par nous familiariser avec la science des données, en prenant le temps de définir la science des données, d’explorer comment les grandes données et l’intelligence artificielle changent le domaine, d’apprendre sur certains outils courants de science des données et d’examiner quelques exemples de science des données.
Qu’est-ce que la science des données ?
Avant de pouvoir explorer les outils ou les exemples de science des données, nous voulons obtenir une définition concise de la science des données.
Définir « la science des données » est en fait un peu délicat, car le terme est appliqué à de nombreuses tâches et méthodes d’enquête et d’analyse. Nous pouvons commencer par nous rappeler ce que signifie le terme « science ». La science est l’étude systématique du monde physique et naturel à travers l’observation et l’expérimentation, visant à faire progresser la compréhension humaine des processus naturels. Les mots importants dans cette définition sont « observation » et « compréhension ».
Si la science des données est le processus de compréhension du monde à partir de modèles dans les données, alors la responsabilité d’un scientifique des données est de transformer les données, d’analyser les données et d’extraire des modèles à partir des données. En d’autres termes, un scientifique des données est fourni avec des données et il utilise un certain nombre d’outils et de techniques pour prétraiter les données (les préparer pour l’analyse) et puis analyser les données pour trouver des modèles significatifs.
Le rôle d’un scientifique des données est similaire à celui d’un scientifique traditionnel. Les deux sont préoccupés par l’analyse des données pour soutenir ou rejeter des hypothèses sur la façon dont le monde fonctionne, en essayant de donner un sens aux modèles dans les données pour améliorer notre compréhension du monde. Les scientifiques des données utilisent les mêmes méthodes scientifiques qu’un scientifique traditionnel. Un scientifique des données commence par recueillir des observations sur un phénomène qu’il aimerait étudier. Il formule ensuite une hypothèse sur le phénomène en question et essaie de trouver des données qui contredisent son hypothèse d’une manière ou d’une autre.
Si l’hypothèse n’est pas contredite par les données, il peut être possible de construire une théorie ou un modèle sur la façon dont le phénomène fonctionne, qu’il peut ensuite tester à nouveau et à nouveau en voyant si cela s’applique à d’autres ensembles de données similaires. Si un modèle est suffisamment robuste, s’il explique bien les modèles et n’est pas contredit lors d’autres tests, il peut même être utilisé pour prédire des événements futurs de ce phénomène.
Un scientifique des données ne recueillera généralement pas ses propres données à travers une expérience. Il ne concevra généralement pas d’expériences avec des contrôles et des essais à double insu pour découvrir des variables de confusion qui pourraient interférer avec une hypothèse. La plupart des données analysées par un scientifique des données seront des données obtenues à travers des études observationnelles et des systèmes, ce qui est une façon dont le travail d’un scientifique des données peut différer de celui d’un scientifique traditionnel, qui a tendance à effectuer plus d’expériences.
Cela étant dit, un scientifique des données peut être appelé à effectuer une forme d’expérimentation appelée test A/B où des ajustements sont apportés à un système qui recueille des données pour voir comment les modèles de données changent.
Quels que soient les techniques et les outils utilisés, la science des données vise ultimement à améliorer notre compréhension du monde en donnant un sens aux données, et les données sont obtenues à travers l’observation et l’expérimentation. La science des données est le processus d’utilisation d’algorithmes, de principes statistiques et de divers outils et machines pour tirer des informations des données, des informations qui nous aident à comprendre les modèles du monde qui nous entoure.
Que font les scientifiques des données ?
Vous pouvez voir que toute activité qui implique l’analyse de données d’une manière scientifique peut être appelée science des données, ce qui fait partie de ce qui rend la définition de la science des données si difficile. Pour clarifier les choses, explorons quelques-unes des activités que un scientifique des données peut effectuer quotidiennement.

La science des données rassemble de nombreuses disciplines et spécialités différentes. Photo : Calvin Andrus via Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)
Un jour donné, un scientifique des données peut être invité à : créer des schémas de stockage et de récupération de données, créer des pipelines ETL (extract, transform, load) et nettoyer les données, employer des méthodes statistiques, créer des visualisations de données et des tableaux de bord, mettre en œuvre des algorithmes d’intelligence artificielle et d’apprentissage automatique, faire des recommandations pour des actions basées sur les données.
Décomposons un peu les tâches ci-dessus.
Un scientifique des données peut être chargé de gérer l’installation des technologies nécessaires pour stocker et récupérer des données, en tenant compte à la fois du matériel et du logiciel. La personne responsable de ce poste peut également être appelée « Ingénieur de données ». Cependant, certaines entreprises incluent ces responsabilités dans le rôle des scientifiques des données. Un scientifique des données peut également avoir besoin de créer, ou d’aider à la création de, pipelines ETL. Les données ne sont presque jamais formatées exactement comme un scientifique des données le souhaite. Au lieu de cela, les données devront être reçues sous forme brute à partir de la source de données, transformées en un format utilisable et prétraitées (choses comme la standardisation des données, la suppression des redondances et la suppression des données corrompues).
Méthodes statistiques de la science des données
L’application de la statistique est nécessaire pour transformer le simple fait de regarder les données et de les interpréter en une véritable science. Les méthodes statistiques sont utilisées pour extraire des modèles pertinents à partir d’ensembles de données, et un scientifique des données doit être bien versé dans les concepts statistiques. Il doit être capable de discerner des corrélations significatives des corrélations spurieuses en contrôlant les variables de confusion. Il doit également savoir quels outils utiliser pour déterminer quels éléments de l’ensemble de données sont importants pour son modèle / ont un pouvoir prédictif. Un scientifique des données doit savoir quand utiliser une approche de régression par rapport à une approche de classification, et quand se soucier de la moyenne d’un échantillon par rapport à la médiane d’un échantillon. Un scientifique des données ne serait pas un scientifique sans ces compétences cruciales.
Visualisation des données
Une partie cruciale du travail d’un scientifique des données est de communiquer ses résultats aux autres. Si un scientifique des données ne peut pas communiquer efficacement ses résultats aux autres, alors les implications de ses résultats n’ont pas d’importance. Un scientifique des données devrait être un conteur efficace. Cela signifie produire des visualisations qui communiquent des points pertinents sur l’ensemble de données et les modèles découverts à l’intérieur. Il existe un grand nombre d’outils de visualisation de données différents qu’un scientifique des données peut utiliser, et il peut visualiser les données à des fins d’exploration initiale, de base (analyse de données exploratoire) ou visualiser les résultats qu’un modèle produit.
Recommandations et applications commerciales
Un scientifique des données doit avoir une certaine intuition des exigences et des objectifs de son organisation ou de son entreprise. Un scientifique des données doit comprendre ces choses car il doit savoir quels types de variables et de fonctionnalités il doit analyser, en explorant des modèles qui aideront son organisation à atteindre ses objectifs. Les scientifiques des données doivent être conscients des contraintes sous lesquelles ils opèrent et des hypothèses que la direction de l’organisation fait.
Apprentissage automatique et IA
L’apprentissage automatique et d’autres algorithmes et modèles d’intelligence artificielle sont des outils utilisés par les scientifiques des données pour analyser les données, identifier des modèles dans les données, discerner des relations entre les variables et prédire des événements futurs.
Science des données traditionnelle vs. Science des données Big Data
À mesure que les méthodes de collecte de données sont devenues plus sophistiquées et que les bases de données sont devenues plus grandes, une différence est apparue entre la science des données traditionnelle et la « science des données Big Data ».
L’analyse de données traditionnelle et la science des données sont effectuées avec des analyses descriptives et exploratoires, visant à trouver des modèles et à analyser les résultats des performances des projets. Les méthodes d’analyse de données traditionnelles se concentrent souvent sur les données passées et actuelles. Les analystes de données traitent souvent des données qui ont déjà été nettoyées et standardisées, tandis que les scientifiques des données traitent souvent de données complexes et sales. Des techniques d’analyse de données plus avancées et de science des données peuvent être utilisées pour prédire le comportement futur, bien que cela soit plus souvent fait avec les grandes données, car les modèles prédictifs ont souvent besoin de grandes quantités de données pour être construits de manière fiable.
Les « grandes données » font référence à des données qui sont trop grandes et complexes pour être gérées avec des techniques et des outils d’analyse de données traditionnels et de science des données. Les grandes données sont souvent collectées à travers des plateformes en ligne et des outils de transformation de données avancés sont utilisés pour rendre les grandes quantités de données prêtes pour l’inspection par la science des données. À mesure que plus de données sont collectées tout le temps, plus de travail d’un scientifique des données implique l’analyse des grandes données.
Outils de science des données
Les outils de science des données courants incluent des outils pour stocker des données, effectuer une analyse de données exploratoire, modéliser des données, effectuer des ETL et visualiser des données. Les plateformes comme Amazon Web Services, Microsoft Azure et Google Cloud offrent des outils pour aider les scientifiques des données à stocker, à transformer, à analyser et à modéliser des données. Il existe également des outils de science des données autonomes comme Airflow (infrastructure de données) et Tableau (visualisation de données et analyse).
En termes d’algorithmes d’apprentissage automatique et d’intelligence artificielle utilisés pour modéliser les données, ils sont souvent fournis via des modules et des plateformes de science des données comme TensorFlow, PyTorch et le studio d’apprentissage automatique Azure. Ces plateformes comme les scientifiques des données font des modifications à leurs ensembles de données, composent des architectures d’apprentissage automatique et forment des modèles d’apprentissage automatique.
D’autres outils et bibliothèques de science des données courants incluent SAS (pour la modélisation statistique), Apache Spark (pour l’analyse de données en continu), D3.js (pour les visualisations interactives dans le navigateur) et Jupyter (pour les blocs de code interactifs et les visualisations partagables).

Photo : Seonjae Jo via Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)
Exemples de science des données
Les exemples de science des données et de ses applications sont partout. La science des données a des applications dans tout, de la livraison de nourriture, des sports, de la circulation et de la santé. Les données sont partout et la science des données peut donc être appliquée à tout.
En termes de nourriture, Uber investit dans une expansion de son système de covoiturage axée sur la livraison de nourriture, Uber Eats. Uber Eats doit apporter de la nourriture aux gens à temps, tout en la gardant chaude et fraîche. Pour que cela se produise, les scientifiques des données de l’entreprise doivent utiliser la modélisation statistique qui prend en compte des aspects tels que la distance entre les restaurants et les points de livraison, les ruées de vacances, le temps de cuisson et même les conditions météorologiques, le tout considéré dans le but d’optimiser les temps de livraison.
Les statistiques sportives sont utilisées par les directeurs d’équipes pour déterminer quels sont les meilleurs joueurs et former des équipes fortes et fiables qui gagneront des matchs. Un exemple notable est la science des données documentée par Michael Lewis dans le livre Moneyball, où le directeur général de l’équipe des Athletics d’Oakland a analysé une variété de statistiques pour identifier des joueurs de qualité qui pourraient être signés par l’équipe à un coût relativement faible.
L’analyse des modèles de circulation est cruciale pour la création de véhicules autonomes. Les véhicules autonomes doivent être capables de prédire l’activité qui les entoure et de réagir aux changements des conditions de la route, comme la distance d’arrêt accrue requise lorsqu’il pleut, ainsi que la présence de plus de voitures sur la route pendant les heures de pointe. Au-delà des véhicules autonomes, des applications comme Google Maps analysent les modèles de circulation pour dire aux usagers combien de temps il leur faudra pour se rendre à leur destination en utilisant différents itinéraires et modes de transport.
En termes de données de santé, la vision par ordinateur est souvent combinée avec l’apprentissage automatique et d’autres techniques d’IA pour créer des classificateurs d’images capables d’examiner des choses comme les radiographies, les IRM et les échographies pour voir s’il y a des problèmes de santé potentiels qui pourraient apparaître sur la scan.
Finalement, la science des données couvre de nombreuses activités et rassemble des aspects de différentes disciplines. Cependant, la science des données est toujours préoccupée par le fait de raconter des histoires intéressantes et captivantes à partir des données, et d’utiliser les données pour mieux comprendre le monde.












