Connect with us

Was ist Big Data?

Künstliche Intelligenz

Was ist Big Data?

mm

Was ist Big Data?

“Big Data” ist eines der häufig verwendeten Buzz-Wörter unserer aktuellen Ära, aber was bedeutet es wirklich?

Hier ist eine schnelle, einfache Definition von Big Data. Big Data sind Daten, die zu groß und komplex sind, um von herkömmlichen Datenverarbeitungs- und Speichermethoden gehandhabt zu werden. Während das eine schnelle Definition ist, die Sie als Heuristik verwenden können, wäre es hilfreich, ein tieferes, umfassenderes Verständnis von Big Data zu haben. Lassen Sie uns einige der Konzepte betrachten, die Big Data zugrunde liegen, wie Speicher, Struktur und Verarbeitung.

Wie groß ist Big Data?

Es ist nicht so einfach, wie wenn man sagt: „Jede Datenmenge über die Größe ‘X‘ ist Big Data“, die Umgebung, in der die Daten gehandhabt werden, ist ein extrem wichtiger Faktor bei der Bestimmung dessen, was als Big Data qualifiziert. Die Größe, die die Daten haben müssen, um als Big Data betrachtet zu werden, hängt vom Kontext ab, oder der Aufgabe, für die die Daten verwendet werden. Zwei Datensätze von sehr unterschiedlichen Größen können in verschiedenen Kontexten als „Big Data“ betrachtet werden.

Um konkreter zu sein, wenn Sie versuchen, eine 200-Megabyte-Datei als E-Mail-Anhang zu senden, können Sie dies nicht tun. In diesem Kontext kann die 200-Megabyte-Datei als Big Data betrachtet werden. Im Gegensatz dazu kann das Kopieren einer 200-Megabyte-Datei auf ein anderes Gerät innerhalb desselben LAN keine Zeit in Anspruch nehmen, und in diesem Kontext würde es nicht als Big Data angesehen werden.

Allerdings nehmen wir an, dass 15 Terabyte an Video vorverarbeitet werden müssen, um für die Verwendung in Computer-Vision-Anwendungen verwendet zu werden. In diesem Fall nehmen die Video-Dateien so viel Speicherplatz ein, dass sogar ein leistungsstarker Computer viel Zeit benötigen würde, um sie alle zu verarbeiten, und die Verarbeitung würde normalerweise auf mehrere Computer verteilt, die über ein Netzwerk miteinander verbunden sind, um die Verarbeitungszeit zu verkürzen. Diese 15 Terabyte an Video-Daten würden definitiv als Big Data qualifizieren.

Arten von Big-Data-Strukturen

Big Data kommt in drei verschiedenen Kategorien von Strukturen vor: unstrukturierte Daten, semi-strukturierte und strukturierte Daten.

Unstrukturierte Daten sind Daten, die keine definierbare Struktur besitzen, was bedeutet, dass die Daten im Wesentlichen nur in einem großen Pool sind. Beispiele für unstrukturierte Daten wären eine Datenbank voller unbeschrifteter Bilder.

Semi-strukturierte Daten sind Daten, die keine formale Struktur haben, aber innerhalb einer lockeren Struktur existieren. Zum Beispiel könnten E-Mail-Daten als semi-strukturierte Daten gezählt werden, da Sie auf die Daten in einzelnen E-Mails verweisen könnten, aber formale Datenmuster sind nicht etabliert.

Strukturierte Daten sind Daten, die eine formale Struktur haben, wobei die Datenpunkte nach verschiedenen Merkmalen kategorisiert sind. Ein Beispiel für strukturierte Daten ist eine Excel-Tabelle, die Kontaktinformationen wie Namen, E-Mails, Telefonnummern und Websites enthält.

Wenn Sie mehr über die Unterschiede zwischen diesen Datentypen lesen möchten, überprüfen Sie den Link hier.

Metriken zur Bewertung von Big Data

Big Data kann in Bezug auf drei verschiedene Metriken analysiert werden: Volumen, Geschwindigkeit und Vielfalt.

Volumen bezieht sich auf die Größe der Daten. Die durchschnittliche Größe von Datensätzen ist oft zunehmend. Zum Beispiel war die größte Festplatte im Jahr 2006 eine 750-GB-Festplatte. Im Gegensatz dazu wird angenommen, dass Facebook über 500 Terabyte an Daten pro Tag generiert und die größte verfügbare Consumer-Festplatte heute eine 16-Terabyte-Festplatte ist. Was in einer Ära als Big Data qualifiziert, muss in einer anderen nicht unbedingt Big Data sein. Heute werden mehr Daten generiert, weil mehr und mehr der uns umgebenden Objekte mit Sensoren, Kameras, Mikrofonen und anderen Datenerfassungsgeräten ausgestattet sind.

Geschwindigkeit bezieht sich auf die Geschwindigkeit, mit der Daten bewegt werden, oder um es anders auszudrücken, wie viel Daten in einem bestimmten Zeitraum generiert werden. Social-Media-Streams generieren Hunderttausende von Posts und Kommentaren pro Minute, während Ihr eigener E-Mail-Posteingang wahrscheinlich viel weniger Aktivität aufweisen wird. Big-Data-Streams sind Streams, die oft Hunderttausende oder Millionen von Ereignissen in Echtzeit verarbeiten. Beispiele für diese Datenströme sind Online-Gaming-Plattformen und Hochfrequenz-Handelsalgorithmen.

Vielfalt bezieht sich auf die verschiedenen Arten von Daten, die in dem Datensatz enthalten sind. Daten können aus vielen verschiedenen Formaten bestehen, wie Audio, Video, Text, Fotos oder Seriennummern. Im Allgemeinen sind traditionelle Datenbanken darauf ausgelegt, eine oder nur wenige Arten von Daten zu verarbeiten. Um es anders auszudrücken, traditionelle Datenbanken sind darauf ausgelegt, Daten zu speichern, die ziemlich homogen und von konsistenter, vorhersehbarer Struktur sind. Da Anwendungen vielfältiger werden, mehr Funktionen haben und von mehr Menschen verwendet werden, mussten Datenbanken evolvieren, um mehr Arten von Daten zu speichern. Unstrukturierte Datenbanken sind ideal für die Speicherung von Big Data, da sie mehrere nicht miteinander verwandte Datentypen speichern können.

Methoden zur Handhabung von Big Data

Es gibt eine Vielzahl von Plattformen und Tools, die zur Analyse von Big Data entwickelt wurden. Big-Data-Pools müssen analysiert werden, um sinnvolle Muster aus den Daten zu extrahieren, eine Aufgabe, die mit herkömmlichen Datenanalyse-Tools sehr herausfordernd sein kann. Als Reaktion auf die Notwendigkeit von Tools zur Analyse großer Datenmengen haben verschiedene Unternehmen Big-Data-Analyse-Tools entwickelt. Big-Data-Analyse-Tools umfassen Systeme wie ZOHO Analytics, Cloudera und Microsoft BI.

Blogger und Programmierer mit Spezialisierungen in Machine Learning und Deep Learning Themen. Daniel hofft, anderen zu helfen, die Macht von KI für das soziale Wohl zu nutzen.