Connect with us

Qu’est-ce que les Big Data ?

Intelligence artificielle

Qu’est-ce que les Big Data ?

mm

Qu’est-ce que les Big Data ?

“Big Data” est l’un des mots à la mode les plus couramment utilisés dans notre ère actuelle, mais qu’est-ce que cela signifie vraiment ?

Voici une définition rapide et simple des big data. Big data sont des données qui sont trop grandes et complexes pour être traitées par les méthodes traditionnelles de traitement et de stockage de données. Même si c’est une définition rapide que vous pouvez utiliser comme une heuristique, il serait utile d’avoir une compréhension plus approfondie et plus complète des big data. Examinons quelques-uns des concepts qui sous-tendent les big data, comme le stockage, la structure et le traitement.

Quelle est la taille des Big Data ?

Ce n’est pas aussi simple que de dire « toutes les données supérieures à la taille ‘X’ sont des big data », l’environnement dans lequel les données sont traitées est un facteur extrêmement important pour déterminer ce qui constitue des big data. La taille que les données doivent avoir pour être considérées comme des big data dépend du contexte, ou de la tâche pour laquelle les données sont utilisées. Deux jeux de données de tailles très différentes peuvent être considérés comme des « big data » dans des contextes différents.

Pour être plus concret, si vous essayez d’envoyer un fichier de 200 mégaoctets en pièce jointe d’un e-mail, vous ne pourrez pas le faire. Dans ce contexte, le fichier de 200 mégaoctets pourrait être considéré comme des big data. En revanche, copier un fichier de 200 mégaoctets sur un autre appareil dans le même LAN ne prendra peut-être pas de temps, et dans ce contexte, il ne serait pas considéré comme des big data.

Cependant, supposons que 15 téraoctets de vidéos doivent être prétraités pour une utilisation dans des applications de vision par ordinateur. Dans ce cas, les fichiers vidéo occupent tellement d’espace que même un ordinateur puissant mettrait beaucoup de temps à les traiter tous, et le traitement serait normalement distribué sur plusieurs ordinateurs liés ensemble pour diminuer le temps de traitement. Ces 15 téraoctets de données vidéo seraient définitivement considérés comme des big data.

Types de structures de Big Data

Les big data se présentent sous trois catégories de structure différentes : des données non structurées, des données semi-structurées et des données structurées.

Les données non structurées sont des données qui ne possèdent pas de structure définie, ce qui signifie que les données sont essentiellement dans un grand bassin. Des exemples de données non structurées seraient une base de données remplie d’images non étiquetées.

Les données semi-structurées sont des données qui n’ont pas de structure formelle, mais qui existent dans une structure lâche. Par exemple, les données de messagerie électronique pourraient être considérées comme des données semi-structurées, car vous pourriez vous référer aux données contenues dans les e-mails individuels, mais des modèles de données formels n’ont pas été établis.

Les données structurées sont des données qui ont une structure formelle, avec des points de données catégorisés par différentes fonctionnalités. Un exemple de données structurées est une feuille de calcul Excel contenant des informations de contact telles que des noms, des adresses e-mail, des numéros de téléphone et des sites Web.

Si vous souhaitez en savoir plus sur les différences entre ces types de données, consultez le lien ici.

Métriques pour évaluer les Big Data

Les big data peuvent être analysés en termes de trois métriques différentes : volume, vitesse et variété.

Le volume fait référence à la taille des données. La taille moyenne des jeux de données augmente souvent. Par exemple, le plus grand disque dur en 2006 était un disque dur de 750 Go. En revanche, Facebook est censé générer plus de 500 téraoctets de données par jour et le plus grand disque dur de consommation disponible aujourd’hui est un disque dur de 16 téraoctets. Ce qui constitue des big data dans une ère peut ne pas être des big data dans une autre. Plus de données sont générées aujourd’hui parce que de plus en plus d’objets qui nous entourent sont équipés de capteurs, de caméras, de microphones et d’autres appareils de collecte de données.

La vitesse fait référence à la rapidité avec laquelle les données se déplacent, ou pour le dire autrement, à la quantité de données générées dans une période de temps donnée. Les flux de médias sociaux génèrent des centaines de milliers de publications et de commentaires chaque minute, tandis que votre propre boîte de réception de messagerie électronique aura probablement beaucoup moins d’activité. Les flux de big data sont des flux qui traitent souvent des centaines de milliers ou des millions d’événements en temps réel. Des exemples de ces flux de données sont les plateformes de jeux en ligne et les algorithmes de trading haute fréquence.

La variété fait référence aux différents types de données contenues dans le jeu de données. Les données peuvent être constituées de nombreux formats différents, comme de l’audio, de la vidéo, du texte, des photos ou des numéros de série. En général, les bases de données traditionnelles sont conçues pour gérer un ou deux types de données. Pour le dire autrement, les bases de données traditionnelles sont structurées pour contenir des données qui sont assez homogènes et d’une structure prévisible. À mesure que les applications deviennent plus diversifiées, remplies de fonctionnalités différentes et utilisées par plus de personnes, les bases de données ont dû évoluer pour stocker plus de types de données. Les bases de données non structurées sont idéales pour stocker les big data, car elles peuvent contenir plusieurs types de données qui ne sont pas liés les uns aux autres.

Méthodes de traitement des Big Data

Il existe un certain nombre de plates-formes et d’outils conçus pour faciliter l’analyse des big data. Les piscines de big data doivent être analysées pour extraire des modèles significatifs des données, une tâche qui peut s’avérer assez difficile avec les outils traditionnels d’analyse de données. En réponse au besoin d’outils pour analyser de grandes quantités de données, plusieurs entreprises ont créé des outils d’analyse de big data. Les outils d’analyse de big data incluent des systèmes tels que ZOHO Analytics, Cloudera et Microsoft BI.

Blogueur et programmeur avec des spécialités en Machine Learning et Deep Learning sujets. Daniel espère aider les autres à utiliser le pouvoir de l'IA pour le bien social.