AI 101
Was sind Big Data?
Was sind Big Data?
„Big Data“ ist eines der am häufigsten verwendeten Schlagworte unserer heutigen Zeit, aber was bedeutet es wirklich?
Hier ist eine kurze und einfache Definition von Big Data. Große Daten Dabei handelt es sich um Daten, die zu groß und komplex sind, als dass sie mit herkömmlichen Datenverarbeitungs- und Speichermethoden verarbeitet werden könnten. Dies ist zwar eine schnelle Definition, die Sie als Heuristik verwenden können, es wäre jedoch hilfreich, ein tieferes und umfassenderes Verständnis von Big Data zu erlangen. Werfen wir einen Blick auf einige der Konzepte, die Big Data zugrunde liegen, wie etwa Speicherung, Struktur und Verarbeitung.
Wie groß ist Big Data?
Es ist nicht so einfach zu sagen: „Alle Daten über der Größe „X“ sind Big Data“, sondern die Umgebung, in der die Daten verarbeitet werden, ist ein äußerst wichtiger Faktor Bestimmen, was als Big Data gilt. Die Größe, die Daten haben müssen, um als Big Data zu gelten, hängt vom Kontext oder der Aufgabe ab, für die die Daten verwendet werden. Zwei Datensätze sehr unterschiedlicher Größe können in unterschiedlichen Kontexten als „Big Data“ betrachtet werden.
Konkreter ausgedrückt: Wenn Sie versuchen würden, eine 200-Megabyte-Datei als E-Mail-Anhang zu versenden, wäre Ihnen dies nicht möglich. In diesem Zusammenhang könnte die 200-Megabyte-Datei als Big Data gelten. Im Gegensatz dazu nimmt das Kopieren einer 200-Megabyte-Datei auf ein anderes Gerät im selben LAN möglicherweise überhaupt keine Zeit in Anspruch und würde in diesem Zusammenhang nicht als Big Data betrachtet werden.
Nehmen wir jedoch an, dass 15 Terabyte Videomaterial vorverarbeitet werden müssen, um für das Training von Computer-Vision-Anwendungen verwendet zu werden. In diesem Fall beanspruchen die Videodateien so viel Platz, dass selbst ein leistungsstarker Computer lange brauchen würde, um sie alle zu verarbeiten. Daher würde die Verarbeitung normalerweise auf mehrere miteinander verbundene Computer verteilt, um die Verarbeitungszeit zu verkürzen. Diese 15 Terabyte an Videodaten würden definitiv als Big Data gelten.
Arten von Big-Data-Strukturen
Big Data gibt es in drei verschiedenen Strukturkategorien: unstrukturierte Daten, halbstrukturierte und strukturierte Daten.
Unstrukturierte Daten sind Daten, die keine definierbare Struktur besitzen, d. h. die Daten befinden sich im Wesentlichen nur in einem großen Pool. Beispiele für unstrukturierte Daten wären eine Datenbank voller unbeschrifteter Bilder.
Halbstrukturierte Daten sind Daten, die keine formale Struktur haben, aber in einer losen Struktur vorliegen. Beispielsweise könnten E-Mail-Daten als halbstrukturierte Daten gelten, da Sie zwar auf die in einzelnen E-Mails enthaltenen Daten verweisen könnten, formale Datenmuster jedoch nicht etabliert wurden.
Strukturierte Daten sind Daten mit einer formalen Struktur, wobei die Datenpunkte nach verschiedenen Merkmalen kategorisiert sind. Ein Beispiel für strukturierte Daten ist eine Excel-Tabelle mit Kontaktinformationen wie Namen, E-Mail-Adressen, Telefonnummern und Websites.
Wenn Sie mehr über die Unterschiede zwischen diesen Datentypen erfahren möchten, klicken Sie hier.
Metriken zur Bewertung von Big Data
Big Data kann anhand von drei verschiedenen Metriken analysiert werden: Volumen, Geschwindigkeit und Vielfalt.
Unter Volumen versteht man die Größe der Daten. Die durchschnittliche Größe von Datensätzen nimmt häufig zu. Beispielsweise war die größte Festplatte im Jahr 2006 eine 750-GB-Festplatte. Im Gegensatz dazu generiert Facebook schätzungsweise über 500 Terabyte an Daten pro Tag und die größte heute erhältliche Privatfestplatte ist eine 16-Terabyte-Festplatte. Was in einer Ära als Big Data gilt, ist in einer anderen möglicherweise nicht Big Data. Heutzutage werden mehr Daten generiert, weil immer mehr Objekte um uns herum mit Sensoren, Kameras, Mikrofonen und anderen Datenerfassungsgeräten ausgestattet sind.
Geschwindigkeit bezieht sich darauf, wie schnell sich Daten bewegen, oder anders ausgedrückt, wie viele Daten innerhalb eines bestimmten Zeitraums generiert werden. Social-Media-Streams generieren jede Minute Hunderttausende Beiträge und Kommentare, während Ihr eigener E-Mail-Posteingang wahrscheinlich deutlich weniger Aktivität aufweist. Big-Data-Streams sind Streams, die oft Hunderttausende oder Millionen von Ereignissen mehr oder weniger in Echtzeit verarbeiten. Beispiele für diese Datenströme sind Online-Gaming-Plattformen und Hochfrequenz-Aktienhandelsalgorithmen.
Vielfalt bezieht sich auf die verschiedenen Arten von Daten, die im Datensatz enthalten sind. Daten können aus vielen verschiedenen Formaten bestehen, z. B. Audio, Video, Text, Fotos oder Seriennummern. Im Allgemeinen sind herkömmliche Datenbanken für die Verarbeitung eines oder nur einiger Datentypen formatiert. Anders ausgedrückt: Herkömmliche Datenbanken sind so strukturiert, dass sie Daten enthalten, die ziemlich homogen sind und eine konsistente, vorhersehbare Struktur haben. Da Anwendungen immer vielfältiger werden, über unterschiedliche Funktionen verfügen und von immer mehr Menschen genutzt werden, mussten Datenbanken weiterentwickelt werden, um mehr Datentypen zu speichern. Unstrukturierte Datenbanken eignen sich ideal für die Speicherung großer Datenmengen, da sie mehrere Datentypen enthalten können, die nicht miteinander in Zusammenhang stehen.
Methoden zum Umgang mit Big Data
Es gibt eine Reihe verschiedener Plattformen und Tools, die die Analyse von Big Data erleichtern sollen. Große Datenpools müssen analysiert werden, um aussagekräftige Muster aus den Daten zu extrahieren, eine Aufgabe, die sich mit herkömmlichen Datenanalysetools als ziemlich schwierig erweisen kann. Als Reaktion auf den Bedarf an Tools zur Analyse großer Datenmengen haben verschiedene Unternehmen Big-Data-Analysetools entwickelt. Zu den Big-Data-Analysetools gehören Systeme wie ZOHO Analytics, Cloudera und Microsoft BI.