AI 101

Qu'est-ce que la science des données?

Le kit de préparation mis à jour on 23 août 2020

Le domaine de la science des données semble devenir chaque jour plus grand et plus populaire. Selon LinkedIn, la science des données a été l'un des domaines d'emploi à la croissance la plus rapide en 2017 et en 2020, Glassdoor a classé le travail de la science des données comme l'un des trois meilleurs emplois aux États-Unis. Compte tenu de la popularité croissante de la science des données, il n'est pas surprenant que de plus en plus de personnes s'y intéressent. Mais qu'est-ce que la science des données exactement ?

Familiarisons-nous avec la science des données, prenons le temps de définir la science des données, explorons comment les mégadonnées et l'intelligence artificielle changent le domaine, découvrons certains outils communs de science des données et examinons quelques exemples de science des données.

Qu'est-ce que la science des données?

Avant de pouvoir explorer des outils ou des exemples de science des données, nous voudrons obtenir une définition concise de science des données.

Définir la «science des données» est en fait un peu délicat, car le terme s'applique à de nombreuses tâches et méthodes d'enquête et d'analyse différentes. Nous pouvons commencer par nous rappeler ce que signifie le terme « science ». La science est l'étude systématique du monde physique et naturel par l'observation et l'expérimentation, visant à faire progresser la compréhension humaine des processus naturels. Les mots importants dans cette définition sont « observation » et « compréhension ».

Si la science des données est le processus de compréhension du monde à partir de modèles de données, alors le responsabilité d'un data scientist est de transformer des données, d'analyser des données et d'extraire des modèles à partir de données. En d'autres termes, un scientifique des données reçoit des données et utilise un certain nombre d'outils et de techniques différents pour prétraiter les données (les préparer pour l'analyse), puis analyser les données pour des modèles significatifs.

Le rôle d'un scientifique des données est similaire au rôle d'un scientifique traditionnel. Les deux concernent l'analyse des données soutenir ou rejeter des hypothèses sur la façon dont le monde fonctionne, en essayant de donner un sens aux modèles dans les données pour améliorer notre compréhension du monde. Les data scientists utilisent les mêmes méthodes scientifiques qu'un scientifique traditionnel. Un scientifique des données commence par recueillir des observations sur certains phénomènes qu'il aimerait étudier. Ils formulent ensuite une hypothèse sur le phénomène en question et essaient de trouver des données qui annulent leur hypothèse d'une manière ou d'une autre.

Si l'hypothèse n'est pas contredite par les données, ils pourraient être en mesure de construire une théorie, ou un modèle, sur la façon dont le phénomène fonctionne, qu'ils peuvent continuer à tester encore et encore en voyant si cela est vrai pour d'autres ensembles de données similaires. Si un modèle est suffisamment robuste, s'il explique bien les modèles et n'est pas annulé lors d'autres tests, il peut même être utilisé pour prédire les occurrences futures de ce phénomène.

Un scientifique des données ne recueillera généralement pas ses propres données par le biais d'une expérience. Ils ne conçoivent généralement pas d'expériences avec des contrôles et des essais en double aveugle pour découvrir des variables confusionnelles susceptibles d'interférer avec une hypothèse. La plupart des données analysées par un scientifique des données seront des données acquises grâce à des études et des systèmes d'observation, ce qui est une façon dont le travail d'un scientifique des données peut différer du travail d'un scientifique traditionnel, qui a tendance à effectuer plus d'expériences.

Cela dit, un scientifique des données pourrait être appelé à faire une forme d'expérimentation appelé test A/B où des ajustements sont apportés à un système qui recueille des données pour voir comment les modèles de données changent.

Quels que soient les techniques et les outils utilisés, la science des données vise en fin de compte à améliorer notre compréhension du monde en donnant un sens aux données, et les données sont acquises par l'observation et l'expérimentation. La science des données est le processus d'utilisation d'algorithmes, de principes statistiques et de divers outils et machines pour tirer des enseignements des données, des informations qui nous aident à comprendre les modèles du monde qui nous entoure.

Que font les scientifiques des données ?

Vous voyez peut-être que toute activité qui implique l'analyse de données de manière scientifique peut être appelée science des données, ce qui fait partie de ce qui rend la définition de la science des données si difficile. Pour que ce soit plus clair, explorons quelques-unes des activités qu'un data scientist pourrait faire sur une base quotidienne.

La science des données rassemble de nombreuses disciplines et spécialités différentes. Photo : Calvin Andrus via Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

Chaque jour, un data scientist peut être invité à : créer un schéma de stockage et de récupération de données, créer des pipelines ETL (extraire, transformer, charger) de données et nettoyer les données, utiliser des méthodes statistiques, créer des visualisations et des tableaux de bord de données, mettre en œuvre l'intelligence artificielle et les algorithmes d'apprentissage automatique font des recommandations d'actions basées sur les données.

Décomposons un peu les tâches énumérées ci-dessus.

Un scientifique des données peut être amené à gérer l'installation des technologies nécessaires pour stocker et récupérer des données, en prêtant attention à la fois au matériel et aux logiciels. La personne responsable de ce poste peut également être appelée "Ingénieur de données”. Cependant, certaines entreprises incluent ces responsabilités dans le rôle des data scientists. Un scientifique des données peut également avoir besoin de créer, ou d'aider à la création de, Pipelines ETL. Les données sont très rarement formatées selon les besoins d'un data scientist. Au lieu de cela, les données devront être reçues sous forme brute à partir de la source de données, transformées en un format utilisable et prétraitées (des choses comme la normalisation des données, la suppression des redondances et la suppression des données corrompues).

Méthodes statistiques de la science des données

Les application de statistiques est nécessaire pour transformer le simple fait de regarder des données et de les interpréter en une véritable science. Méthodes statistiques sont utilisés pour extraire des modèles pertinents à partir d'ensembles de données, et un spécialiste des données doit être bien familiarisé avec les concepts statistiques. Ils doivent être capables de discerner les corrélations significatives des fausses corrélations en contrôlant les variables confusionnelles. Ils doivent également connaître les bons outils à utiliser pour déterminer quelles caractéristiques de l'ensemble de données sont importantes pour leur modèle/ont un pouvoir prédictif. Un scientifique des données doit savoir quand utiliser une approche de régression par rapport à une approche de classification, et quand se soucier de la moyenne d'un échantillon par rapport à la médiane d'un échantillon. Un data scientist ne serait tout simplement pas un scientifique sans ces compétences cruciales.

Visualisation de données

Une partie cruciale du travail d'un data scientist consiste à communiquer ses découvertes à d'autres. Si un data scientist ne peut pas communiquer efficacement ses découvertes à d'autres, alors les implications de ses découvertes n'ont pas d'importance. Un scientifique des données doit également être un conteur efficace. Cela signifie produire des visualisations qui communiquent des points pertinents sur l'ensemble de données et les modèles qui y sont découverts. Il existe un grand nombre de différents visualisation de données outils qu'un spécialiste des données pourrait utiliser, et ils peuvent visualiser des données à des fins d'exploration initiale de base (analyse exploratoire de données) ou visualiser les résultats produits par un modèle.

Recommandations et applications métier

Un scientifique des données doit avoir une certaine intuition des exigences et des objectifs de son organisation ou de son entreprise. Un scientifique des données doit comprendre ces choses, car il doit savoir quels types de variables et de caractéristiques il doit analyser, en explorant les modèles qui aideront son organisation à atteindre ses objectifs. Les scientifiques des données doivent être conscients des contraintes dans lesquelles ils opèrent et des hypothèses que font les dirigeants de l'organisation.

Apprentissage automatique et IA

Apprentissage automatique et d'autres algorithmes et modèles d'intelligence artificielle sont des outils utilisés par les scientifiques des données pour analyser les données, identifier des modèles dans les données, discerner les relations entre les variables et faire des prédictions sur les événements futurs.

Science des données traditionnelle vs Big Data Science

Comme les méthodes de collecte de données sont devenues plus sophistiquées et les bases de données plus grandes, une différence est apparue entre la science des données traditionnelle et "Big Data" science.

L'analyse de données traditionnelle et la science des données sont effectuées avec des analyses descriptives et exploratoires, visant à trouver des modèles et à analyser les résultats de performance des projets. Les méthodes d'analyse de données traditionnelles se concentrent souvent sur les données passées et les données actuelles. Les analystes de données traitent souvent des données qui ont déjà été nettoyées et standardisées, tandis que les data scientists traitent souvent des données complexes et sales. Des techniques d'analyse de données et de science des données plus avancées pourraient être utilisées pour prédire le comportement futur, bien que cela soit plus souvent fait avec des mégadonnées, car les modèles prédictifs nécessitent souvent de grandes quantités de données pour être construits de manière fiable.

Le « mégadonnées » fait référence à des données trop volumineuses et complexes pour être traitées avec des techniques et des outils traditionnels d'analyse de données et de science. Les mégadonnées sont souvent collectées via des plateformes en ligne et des outils avancés de transformation des données sont utilisés pour préparer les gros volumes de données à être inspectés par la science des données. Comme de plus en plus de données sont collectées en permanence, le travail d'un data scientist implique davantage l'analyse de données volumineuses.

Outils de science des données

Science des données communes les outils inclure des outils pour stocker des données, effectuer une analyse exploratoire des données, modéliser des données, effectuer un ETL et visualiser des données. Des plates-formes comme Amazon Web Services, Microsoft Azure et Google Cloud offrent toutes des outils pour aider les data scientists à stocker, transformer, analyser et modéliser les données. Il existe également des outils de science des données autonomes comme Airflow (infrastructure de données) et Tableau (visualisation et analyse des données).

En termes d'algorithmes d'apprentissage automatique et d'intelligence artificielle utilisés pour modéliser les données, ils sont souvent fournis via des modules et des plates-formes de science des données comme TensorFlow, PyTorch et le studio Azure Machine-learning. Ces plates-formes, telles que les scientifiques des données, apportent des modifications à leurs ensembles de données, composent des architectures d'apprentissage automatique et forment des modèles d'apprentissage automatique.

Parmi les autres outils et bibliothèques de science des données courants, citons SAS (pour la modélisation statistique), Apache Spark (pour l'analyse des données en continu), D3.js (pour les visualisations interactives dans le navigateur) et Jupyter (pour les blocs de code et les visualisations interactifs et partageables) .

Photo : Seonjae Jo via Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

Exemples de science des données

Les exemples de science des données et de ses applications sont partout. La science des données a des applications dans tous les domaines, de la livraison de nourriture, des sports, du trafic et de la santé. Les données sont partout et la science des données peut donc être appliquée à tout.

En matière de nourriture, Uber investit dans l'expansion de son système de covoiturage axé sur la livraison de nourriture, Uber Eats. Uber Eats doit fournir aux gens leur nourriture en temps opportun, alors qu'il est encore chaud et frais. Pour que cela se produise, les scientifiques des données de l'entreprise doivent utiliser une modélisation statistique qui prend en compte des aspects tels que la distance entre les restaurants et les points de livraison, les précipitations des vacances, le temps de cuisson et même les conditions météorologiques, tous pris en compte dans le but d'optimiser les délais de livraison. .

Les statistiques sportives sont utilisées par les chefs d'équipe pour déterminer qui sont les meilleurs joueurs et former des équipes solides et fiables qui gagneront des matchs. Un exemple notable est la science des données documentée par Michael Lewis dans le livre Moneyball, où le directeur général de l'équipe d'Oakland Athletics a analysé une variété de statistiques pour identifier des joueurs de qualité qui pourraient être signés dans l'équipe à un coût relativement faible.

L'analyse des modèles de trafic est essentielle pour la création de véhicules autonomes. Véhicules autonomes doivent être en mesure de prévoir l'activité autour d'eux et de réagir aux changements des conditions routières, comme l'augmentation de la distance d'arrêt requise lorsqu'il pleut, ainsi que la présence de plus de voitures sur la route aux heures de pointe. Au-delà des véhicules autonomes, des applications comme Google Maps analysent les modèles de trafic pour indiquer aux navetteurs combien de temps il leur faudra pour se rendre à leur destination en utilisant divers itinéraires et modes de transport.

Sur le plan de science des données de santé, la vision par ordinateur est souvent combinée à l'apprentissage automatique et à d'autres techniques d'IA pour créer des classificateurs d'images capables d'examiner des éléments tels que les rayons X, les IRM et les échographies pour voir si des problèmes médicaux potentiels pourraient apparaître lors de l'analyse. Ces algorithmes peuvent être utilisés pour aider les cliniciens à diagnostiquer une maladie.

En définitive, la science des données couvre de nombreuses activités et rassemble des aspects de différentes disciplines. Cependant, la science des données vise toujours à raconter des histoires captivantes et intéressantes à partir de données et à utiliser les données pour mieux comprendre le monde.

Qu'est-ce que le test de Turing et pourquoi est-ce important ?

Ne manquez pas

Que sont les ordinateurs quantiques ?

Daniel Nelson

Blogueur et programmeur spécialisé dans Machine Learning ainsi que le L'apprentissage en profondeur les sujets. Daniel espère aider les autres à utiliser le pouvoir de l'IA pour le bien social.