στέλεχος Τι είναι τα Big Data; - Unite.AI
Συνδεθείτε μαζί μας

AI 101

Τι είναι το Big Data;

mm
Ενημερώθηκε on

Τι είναι το Big Data;

Το "Big Data" είναι μια από τις ευρέως χρησιμοποιούμενες λέξεις της τρέχουσας εποχής μας, αλλά τι σημαίνει πραγματικά;

Ακολουθεί ένας γρήγορος, απλός ορισμός των μεγάλων δεδομένων. Big δεδομένων είναι δεδομένα που είναι πολύ μεγάλα και πολύπλοκα για να τα χειρίζονται με παραδοσιακές μεθόδους επεξεργασίας και αποθήκευσης δεδομένων. Αν και αυτός είναι ένας γρήγορος ορισμός που μπορείτε να χρησιμοποιήσετε ως ευρετικό, θα ήταν χρήσιμο να έχετε μια βαθύτερη, πληρέστερη κατανόηση των μεγάλων δεδομένων. Ας ρίξουμε μια ματιά σε μερικές από τις έννοιες που αποτελούν τη βάση των μεγάλων δεδομένων, όπως η αποθήκευση, η δομή και η επεξεργασία.

Πόσο μεγάλα είναι τα μεγάλα δεδομένα;

Δεν είναι τόσο απλό όσο να πούμε ότι "οποιαδήποτε δεδομένα πάνω από το μέγεθος "X" είναι μεγάλα δεδομένα", το περιβάλλον στο οποίο γίνεται ο χειρισμός των δεδομένων είναι ένας εξαιρετικά σημαντικός παράγοντας τον καθορισμό του τι χαρακτηρίζεται ως big data. Το μέγεθος που πρέπει να έχουν τα δεδομένα, για να θεωρηθούν μεγάλα δεδομένα, εξαρτάται από το πλαίσιο ή την εργασία στην οποία χρησιμοποιούνται τα δεδομένα. Δύο σύνολα δεδομένων πολύ διαφορετικών μεγεθών μπορούν να θεωρηθούν "μεγάλα δεδομένα" σε διαφορετικά περιβάλλοντα.

Για να είμαστε πιο συγκεκριμένοι, αν προσπαθήσετε να στείλετε ένα αρχείο 200 megabyte ως συνημμένο email, δεν θα μπορέσετε να το κάνετε. Σε αυτό το πλαίσιο, το αρχείο των 200 megabyte θα μπορούσε να θεωρηθεί μεγάλο δεδομένων. Αντίθετα, η αντιγραφή ενός αρχείου 200 megabyte σε άλλη συσκευή εντός του ίδιου LAN μπορεί να μην πάρει καθόλου χρόνο και σε αυτό το πλαίσιο, δεν θα θεωρηθεί ως μεγάλα δεδομένα.

Ωστόσο, ας υποθέσουμε ότι βίντεο αξίας 15 terabyte πρέπει να υποβληθεί σε προεπεξεργασία για χρήση στην εκπαίδευση εφαρμογών όρασης υπολογιστή. Σε αυτήν την περίπτωση, τα αρχεία βίντεο καταλαμβάνουν τόσο χώρο που ακόμη και ένας ισχυρός υπολογιστής θα χρειαζόταν πολύ χρόνο για να τα επεξεργαστεί όλα, και έτσι η επεξεργασία θα κατανεμηθεί κανονικά σε πολλούς υπολογιστές συνδεδεμένους μεταξύ τους προκειμένου να μειωθεί ο χρόνος επεξεργασίας. Αυτά τα 15 terabyte δεδομένων βίντεο θα θεωρούνταν σίγουρα μεγάλα δεδομένα.

Τύποι δομών μεγάλων δεδομένων

Τα μεγάλα δεδομένα έρχονται σε τρεις διαφορετικές κατηγορίες δομών: μη δομημένα δεδομένα, ημι-δομημένα και δομημένα δεδομένα.

Τα αδόμητα δεδομένα είναι δεδομένα που δεν διαθέτουν καθορισμένη δομή, που σημαίνει ότι τα δεδομένα βρίσκονται ουσιαστικά μόνο σε μια μεγάλη δεξαμενή. Παραδείγματα μη δομημένων δεδομένων θα ήταν μια βάση δεδομένων γεμάτη από εικόνες χωρίς ετικέτα.

Ημι-δομημένα δεδομένα είναι δεδομένα που δεν έχουν επίσημη δομή, αλλά υπάρχουν μέσα σε μια χαλαρή δομή. Για παράδειγμα, τα δεδομένα email μπορεί να υπολογίζονται ως ημιδομημένα δεδομένα, επειδή θα μπορούσατε να ανατρέξετε στα δεδομένα που περιέχονται σε μεμονωμένα μηνύματα ηλεκτρονικού ταχυδρομείου, αλλά δεν έχουν καθοριστεί επίσημα μοτίβα δεδομένων.

Τα δομημένα δεδομένα είναι δεδομένα που έχουν επίσημη δομή, με σημεία δεδομένων που κατηγοριοποιούνται με διαφορετικά χαρακτηριστικά. Ένα παράδειγμα δομημένων δεδομένων είναι ένα υπολογιστικό φύλλο excel που περιέχει πληροφορίες επικοινωνίας όπως ονόματα, email, αριθμούς τηλεφώνου και ιστότοπους.

Εάν θέλετε να διαβάσετε περισσότερα σχετικά με τις διαφορές σε αυτούς τους τύπους δεδομένων, ελέγξτε τον σύνδεσμο εδώ.

Μετρήσεις για την αξιολόγηση μεγάλων δεδομένων

Τα μεγάλα δεδομένα μπορούν να αναλυθούν με βάση τρεις διαφορετικές μετρήσεις: όγκο, ταχύτητα και ποικιλία.

Ο όγκος αναφέρεται στο μέγεθος των δεδομένων. Το μέσο μέγεθος των συνόλων δεδομένων συχνά αυξάνεται. Για παράδειγμα, ο μεγαλύτερος σκληρός δίσκος το 2006 ήταν ένας σκληρός δίσκος 750 GB. Αντίθετα, το Facebook θεωρείται ότι παράγει πάνω από 500 terabyte δεδομένων την ημέρα και ο μεγαλύτερος σκληρός δίσκος που διατίθεται σήμερα για καταναλωτές είναι ένας σκληρός δίσκος 16 terabyte. Αυτό που ποσοτικοποιείται ως μεγάλα δεδομένα σε μια εποχή μπορεί να μην είναι μεγάλα δεδομένα σε μια άλλη. Περισσότερα δεδομένα παράγονται σήμερα επειδή όλο και περισσότερα από τα αντικείμενα που μας περιβάλλουν είναι εξοπλισμένα με αισθητήρες, κάμερες, μικρόφωνα και άλλες συσκευές συλλογής δεδομένων.

Η ταχύτητα αναφέρεται στο πόσο γρήγορα κινούνται τα δεδομένα, ή για να το θέσω διαφορετικά, πόσα δεδομένα παράγονται μέσα σε μια δεδομένη χρονική περίοδο. Οι ροές των μέσων κοινωνικής δικτύωσης δημιουργούν εκατοντάδες χιλιάδες αναρτήσεις και σχόλια κάθε λεπτό, ενώ τα δικά σας εισερχόμενα email θα έχουν πιθανώς πολύ λιγότερη δραστηριότητα. Οι ροές μεγάλων δεδομένων είναι ροές που συχνά χειρίζονται εκατοντάδες χιλιάδες ή εκατομμύρια συμβάντα σε περισσότερο ή λιγότερο πραγματικό χρόνο. Παραδείγματα αυτών των ροών δεδομένων είναι οι διαδικτυακές πλατφόρμες τυχερών παιχνιδιών και οι αλγόριθμοι διαπραγμάτευσης μετοχών υψηλής συχνότητας.

Η ποικιλία αναφέρεται στους διαφορετικούς τύπους δεδομένων που περιέχονται στο σύνολο δεδομένων. Τα δεδομένα μπορούν να αποτελούνται από πολλές διαφορετικές μορφές, όπως ήχου, βίντεο, κείμενο, φωτογραφίες ή σειριακούς αριθμούς. Σε γενικές γραμμές, οι παραδοσιακές βάσεις δεδομένων είναι διαμορφωμένες για να χειρίζονται έναν ή μόνο δύο τύπους δεδομένων. Για να το θέσουμε διαφορετικά, οι παραδοσιακές βάσεις δεδομένων είναι δομημένες έτσι ώστε να διατηρούν δεδομένα που είναι αρκετά ομοιογενή και συνεπής, προβλέψιμη δομή. Καθώς οι εφαρμογές γίνονται πιο διαφορετικές, γεμάτες διαφορετικά χαρακτηριστικά και χρησιμοποιούνται από περισσότερους ανθρώπους, οι βάσεις δεδομένων έπρεπε να εξελιχθούν για να αποθηκεύουν περισσότερους τύπους δεδομένων. Οι μη δομημένες βάσεις δεδομένων είναι ιδανικές για τη διατήρηση μεγάλων δεδομένων, καθώς μπορούν να κρατήσουν πολλούς τύπους δεδομένων που δεν σχετίζονται μεταξύ τους.

Μέθοδοι Χειρισμού Μεγάλων Δεδομένων

Υπάρχει ένας αριθμός διαφορετικών πλατφορμών και εργαλείων που έχουν σχεδιαστεί για να διευκολύνουν την ανάλυση μεγάλων δεδομένων. Οι μεγάλες δεξαμενές δεδομένων πρέπει να αναλυθούν για να εξαχθούν σημαντικά μοτίβα από τα δεδομένα, μια εργασία που μπορεί να αποδειχθεί αρκετά δύσκολη με τα παραδοσιακά εργαλεία ανάλυσης δεδομένων. Ως απάντηση στην ανάγκη για εργαλεία για την ανάλυση μεγάλου όγκου δεδομένων, διάφορες εταιρείες έχουν δημιουργήσει εργαλεία ανάλυσης μεγάλων δεδομένων. Τα εργαλεία ανάλυσης μεγάλων δεδομένων περιλαμβάνουν συστήματα όπως το ZOHO Analytics, το Cloudera και το Microsoft BI.

Blogger και προγραμματιστής με ειδικότητες στο Μηχανική μάθηση και Βαθιά μάθηση Θέματα. Ο Daniel ελπίζει να βοηθήσει άλλους να χρησιμοποιήσουν τη δύναμη της τεχνητής νοημοσύνης για κοινωνικό καλό.