στέλεχος Τι είναι η Επιστήμη Δεδομένων; - Unite.AI
Συνδεθείτε μαζί μας
Masterclass AI:

AI 101

Τι είναι η Επιστήμη των Δεδομένων;

mm
Ενημερώθηκε on

Το πεδίο της επιστήμης δεδομένων φαίνεται να γίνεται όλο και πιο δημοφιλές καθημερινά. Σύμφωνα με το LinkedIn, την επιστήμη δεδομένων ήταν ένας από τους ταχύτερα αναπτυσσόμενους τομείς εργασίας το 2017 και το 2020 η Glassdoor κατέταξε τη δουλειά της επιστήμης δεδομένων ως μία από τις τρεις καλύτερες θέσεις εργασίας στις Ηνωμένες Πολιτείες. Δεδομένης της αυξανόμενης δημοτικότητας της επιστήμης δεδομένων, δεν αποτελεί έκπληξη το γεγονός ότι περισσότεροι άνθρωποι ενδιαφέρονται για τον τομέα. Ωστόσο, τι είναι ακριβώς η επιστήμη των δεδομένων;

Ας εξοικειωθούμε με την επιστήμη των δεδομένων, αφιερώνοντας λίγο χρόνο για να ορίσουμε την επιστήμη δεδομένων, να εξερευνήσουμε πώς τα μεγάλα δεδομένα και η τεχνητή νοημοσύνη αλλάζουν το πεδίο, να μάθουμε για μερικά κοινά εργαλεία επιστήμης δεδομένων και να εξετάσουμε μερικά παραδείγματα επιστήμης δεδομένων.

Τι είναι η Επιστήμη των Δεδομένων;

Προτού μπορέσουμε να εξερευνήσουμε οποιαδήποτε εργαλεία ή παραδείγματα επιστήμης δεδομένων, θα θέλαμε να πάρουμε έναν συνοπτικό ορισμό επιστημονικά δεδομένα.

Ο ορισμός της «επιστήμης δεδομένων» είναι στην πραγματικότητα λίγο δύσκολος, επειδή ο όρος εφαρμόζεται σε πολλές διαφορετικές εργασίες και μεθόδους έρευνας και ανάλυσης. Μπορούμε να ξεκινήσουμε υπενθυμίζοντας στον εαυτό μας τι σημαίνει ο όρος «επιστήμη». Η επιστήμη είναι η συστηματική μελέτη του φυσικού και φυσικού κόσμου μέσω παρατήρησης και πειραματισμού, με στόχο την προώθηση της ανθρώπινης κατανόησης των φυσικών διεργασιών. Οι σημαντικές λέξεις σε αυτόν τον ορισμό είναι «παρατήρηση» και «κατανόηση».

Εάν η επιστήμη των δεδομένων είναι η διαδικασία κατανόησης του κόσμου από μοτίβα στα δεδομένα, τότε η ευθύνη ενός επιστήμονα δεδομένων είναι ο μετασχηματισμός δεδομένων, η ανάλυση δεδομένων και η εξαγωγή μοτίβων από δεδομένα. Με άλλα λόγια, σε έναν επιστήμονα δεδομένων παρέχονται δεδομένα και χρησιμοποιούν μια σειρά από διαφορετικά εργαλεία και τεχνικές για να προεπεξεργαστούν τα δεδομένα (να τα ετοιμάσουν για ανάλυση) και στη συνέχεια να αναλύσουν τα δεδομένα για σημαντικά μοτίβα.

Ο ρόλος ενός επιστήμονα δεδομένων είναι παρόμοιος με τον ρόλο ενός παραδοσιακού επιστήμονα. Και οι δύο ασχολούνται με την ανάλυση των δεδομένων να υποστηρίζει ή να απορρίπτει υποθέσεις για το πώς λειτουργεί ο κόσμος, προσπαθώντας να κατανοήσουμε τα πρότυπα στα δεδομένα για να βελτιώσουμε την κατανόησή μας για τον κόσμο. Οι επιστήμονες δεδομένων χρησιμοποιούν τις ίδιες επιστημονικές μεθόδους που κάνει ένας παραδοσιακός επιστήμονας. Ένας επιστήμονας δεδομένων ξεκινά συλλέγοντας παρατηρήσεις σχετικά με ορισμένα φαινόμενα που θα ήθελαν να μελετήσουν. Στη συνέχεια διατυπώνουν μια υπόθεση για το εν λόγω φαινόμενο και προσπαθούν να βρουν δεδομένα που ακυρώνουν την υπόθεσή τους κατά κάποιο τρόπο.

Εάν η υπόθεση δεν αντικρούεται από τα δεδομένα, μπορεί να είναι σε θέση να κατασκευάσουν μια θεωρία ή ένα μοντέλο για το πώς λειτουργεί το φαινόμενο, το οποίο μπορούν να συνεχίσουν να εξετάζουν ξανά και ξανά βλέποντας αν ισχύει για άλλα παρόμοια σύνολα δεδομένων. Εάν ένα μοντέλο είναι αρκετά ισχυρό, εάν εξηγεί καλά τα μοτίβα και δεν ακυρώνεται κατά τη διάρκεια άλλων δοκιμών, μπορεί ακόμη και να χρησιμοποιηθεί για την πρόβλεψη μελλοντικών εμφανίσεων αυτού του φαινομένου.

Ένας επιστήμονας δεδομένων συνήθως δεν συλλέγει τα δικά του δεδομένα μέσω ενός πειράματος. Συνήθως δεν σχεδιάζουν πειράματα με μάρτυρες και διπλές τυφλές δοκιμές για να ανακαλύψουν συγχυτικές μεταβλητές που μπορεί να παρεμβαίνουν σε μια υπόθεση. Τα περισσότερα δεδομένα που αναλύονται από έναν επιστήμονα δεδομένων θα είναι δεδομένα που αποκτώνται μέσω μελετών και συστημάτων παρατήρησης, κάτι που είναι ένας τρόπος με τον οποίο η δουλειά ενός επιστήμονα δεδομένων μπορεί να διαφέρει από τη δουλειά ενός παραδοσιακού επιστήμονα, ο οποίος τείνει να εκτελεί περισσότερα πειράματα.

Τούτου λεχθέντος, ένας επιστήμονας δεδομένων μπορεί να κληθεί να κάνει μια μορφή πειραματισμού ονομάζεται δοκιμή A / B όπου γίνονται τροποποιήσεις σε ένα σύστημα που συλλέγει δεδομένα για να δει πώς αλλάζουν τα μοτίβα δεδομένων.

Ανεξάρτητα από τις τεχνικές και τα εργαλεία που χρησιμοποιούνται, η επιστήμη των δεδομένων στοχεύει τελικά να βελτιώσει την κατανόησή μας για τον κόσμο βγάζοντας νόημα από τα δεδομένα και τα δεδομένα αποκτώνται μέσω παρατήρησης και πειραματισμού. Η επιστήμη δεδομένων είναι η διαδικασία χρήσης αλγορίθμων, στατιστικών αρχών και διαφόρων εργαλείων και μηχανημάτων για την εξαγωγή πληροφοριών από δεδομένα, πληροφορίες που μας βοηθούν να κατανοήσουμε τα μοτίβα στον κόσμο γύρω μας.

Τι κάνουν οι επιστήμονες δεδομένων;

Ίσως βλέπετε ότι οποιαδήποτε δραστηριότητα που περιλαμβάνει την ανάλυση δεδομένων με επιστημονικό τρόπο μπορεί να ονομαστεί επιστήμη δεδομένων, κάτι που είναι μέρος αυτού που κάνει τον ορισμό της επιστήμης δεδομένων τόσο δύσκολο. Για να γίνει πιο σαφές, ας διερευνήσουμε μερικές από τις δραστηριότητες που κάνει ένας επιστήμονας δεδομένων μπορεί να κάνει σε καθημερινή βάση.

Η επιστήμη δεδομένων συγκεντρώνει πολλούς διαφορετικούς κλάδους και ειδικότητες. Φωτογραφία: Calvin Andrus μέσω Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)

Κάθε μέρα, ένας επιστήμονας δεδομένων μπορεί να κληθεί: να δημιουργήσει σχήμα αποθήκευσης και ανάκτησης δεδομένων, να δημιουργήσει αγωγούς ETL δεδομένων (εξαγωγή, μετασχηματισμός, φόρτωση) και να καθαρίσει δεδομένα, να χρησιμοποιήσει στατιστικές μεθόδους, να δημιουργήσει οπτικοποιήσεις δεδομένων και πίνακες εργαλείων, να εφαρμόσει τεχνητή νοημοσύνη και αλγόριθμοι μηχανικής μάθησης, κάνουν συστάσεις για ενέργειες με βάση τα δεδομένα.

Ας αναλύσουμε λίγο τις εργασίες που αναφέρονται παραπάνω.

Ένας επιστήμονας δεδομένων μπορεί να χρειαστεί να χειριστεί την εγκατάσταση των τεχνολογιών που απαιτούνται για την αποθήκευση και την ανάκτηση δεδομένων, δίνοντας προσοχή τόσο στο υλικό όσο και στο λογισμικό. Ο υπεύθυνος για αυτή τη θέση μπορεί επίσης να αναφέρεται ως «Μηχανικός δεδομένων". Ωστόσο, ορισμένες εταιρείες περιλαμβάνουν αυτές τις ευθύνες στο ρόλο των επιστημόνων δεδομένων. Ένας επιστήμονας δεδομένων μπορεί επίσης να χρειαστεί να δημιουργήσει ή να βοηθήσει στη δημιουργία Αγωγοί ETL. Τα δεδομένα πολύ σπάνια διαμορφώνονται ακριβώς όπως χρειάζεται ένας επιστήμονας δεδομένων. Αντίθετα, τα δεδομένα θα πρέπει να ληφθούν σε ακατέργαστη μορφή από την πηγή δεδομένων, να μετατραπούν σε χρησιμοποιήσιμη μορφή και να υποβληθούν σε προεπεξεργασία (πράγματα όπως η τυποποίηση των δεδομένων, η απόρριψη πλεονασμάτων και η κατάργηση κατεστραμμένων δεδομένων).

Στατιστικές Μέθοδοι Επιστήμης Δεδομένων

Η εφαρμογή στατιστικών είναι απαραίτητο να μετατραπεί η απλή εξέταση δεδομένων και η ερμηνεία τους σε πραγματική επιστήμη. Στατιστικές μέθοδοι χρησιμοποιούνται για την εξαγωγή σχετικών μοτίβων από σύνολα δεδομένων και ένας επιστήμονας δεδομένων πρέπει να γνωρίζει καλά τις στατιστικές έννοιες. Πρέπει να είναι σε θέση να διακρίνουν σημαντικούς συσχετισμούς από ψευδείς συσχετίσεις ελέγχοντας τις συγχυτικές μεταβλητές. Πρέπει επίσης να γνωρίζουν τα σωστά εργαλεία που θα χρησιμοποιήσουν για να προσδιορίσουν ποια χαρακτηριστικά στο σύνολο δεδομένων είναι σημαντικά για το μοντέλο τους/έχουν προγνωστική ισχύ. Ένας επιστήμονας δεδομένων πρέπει να γνωρίζει πότε να χρησιμοποιήσει μια προσέγγιση παλινδρόμησης έναντι μιας προσέγγισης ταξινόμησης και πότε να ενδιαφέρεται για τον μέσο όρο ενός δείγματος έναντι του μέσου όρου ενός δείγματος. Ένας επιστήμονας δεδομένων απλά δεν θα ήταν επιστήμονας χωρίς αυτές τις κρίσιμες δεξιότητες.

Οπτικοποίηση δεδομένων

Ένα κρίσιμο μέρος της δουλειάς ενός επιστήμονα δεδομένων είναι να γνωστοποιεί τα ευρήματά του σε άλλους. Εάν ένας επιστήμονας δεδομένων δεν μπορεί να επικοινωνήσει αποτελεσματικά τα ευρήματά του σε άλλους, τότε οι επιπτώσεις των ευρημάτων τους δεν έχουν σημασία. Ένας επιστήμονας δεδομένων θα πρέπει επίσης να είναι ένας αποτελεσματικός αφηγητής ιστοριών. Αυτό σημαίνει παραγωγή οπτικοποιήσεων που επικοινωνούν σχετικά σημεία σχετικά με το σύνολο δεδομένων και τα μοτίβα που ανακαλύφθηκαν σε αυτό. Υπάρχει ένας μεγάλος αριθμός διαφορετικών οπτικοποίηση δεδομένων εργαλεία που μπορεί να χρησιμοποιήσει ένας επιστήμονας δεδομένων και μπορεί να οπτικοποιήσει δεδομένα για τους σκοπούς της αρχικής, βασικής εξερεύνησης (αναλύσεις διερευνητικών δεδομένων) ή να οπτικοποιήσει τα αποτελέσματα που παράγει ένα μοντέλο.

Συστάσεις και Επιχειρηματικές Εφαρμογές

Ένας επιστήμονας δεδομένων πρέπει να έχει κάποια διαίσθηση για τις απαιτήσεις και τους στόχους του οργανισμού ή της επιχείρησής του. Ένας επιστήμονας δεδομένων πρέπει να κατανοήσει αυτά τα πράγματα επειδή πρέπει να γνωρίζει ποιους τύπους μεταβλητών και χαρακτηριστικών πρέπει να αναλύει, εξερευνώντας μοτίβα που θα βοηθήσουν τον οργανισμό του να επιτύχει τους στόχους του. Οι επιστήμονες δεδομένων πρέπει να γνωρίζουν τους περιορισμούς υπό τους οποίους λειτουργούν και τις υποθέσεις που κάνει η ηγεσία του οργανισμού.

Μηχανική εκμάθηση και τεχνητή νοημοσύνη

Εκμάθηση μηχανών και άλλοι αλγόριθμοι και μοντέλα τεχνητής νοημοσύνης είναι εργαλεία που χρησιμοποιούνται από επιστήμονες δεδομένων για την ανάλυση δεδομένων, τον εντοπισμό μοτίβων μέσα στα δεδομένα, τη διάκριση σχέσεων μεταξύ μεταβλητών και την πραγματοποίηση προβλέψεων για μελλοντικά γεγονότα.

Παραδοσιακή Επιστήμη Δεδομένων εναντίον Επιστήμης Μεγάλων Δεδομένων

Καθώς οι μέθοδοι συλλογής δεδομένων έχουν γίνει πιο περίπλοκες και οι βάσεις δεδομένων μεγαλύτερες, έχει προκύψει διαφορά μεταξύ της παραδοσιακής επιστήμης δεδομένων και "μεγάλα δεδομένα" επιστήμη.

Η παραδοσιακή ανάλυση δεδομένων και η επιστήμη δεδομένων γίνεται με περιγραφική και διερευνητική ανάλυση, με στόχο την εύρεση προτύπων και την ανάλυση των αποτελεσμάτων απόδοσης έργων. Οι παραδοσιακές μέθοδοι ανάλυσης δεδομένων συχνά εστιάζουν μόνο σε προηγούμενα και τρέχοντα δεδομένα. Οι αναλυτές δεδομένων συχνά ασχολούνται με δεδομένα που έχουν ήδη καθαριστεί και τυποποιηθεί, ενώ οι επιστήμονες δεδομένων συχνά ασχολούνται με πολύπλοκα και βρώμικα δεδομένα. Πιο προηγμένες τεχνικές ανάλυσης δεδομένων και επιστήμης δεδομένων μπορεί να χρησιμοποιηθούν για την πρόβλεψη της μελλοντικής συμπεριφοράς, αν και αυτό γίνεται πιο συχνά με μεγάλα δεδομένα, καθώς τα προγνωστικά μοντέλα χρειάζονται συχνά μεγάλες ποσότητες δεδομένων για να κατασκευαστούν αξιόπιστα.

Τα "μεγάλα δεδομένα" αναφέρονται σε δεδομένα που είναι πολύ μεγάλα και πολύπλοκα για να τα χειριστούμε με παραδοσιακές τεχνικές και εργαλεία ανάλυσης δεδομένων και επιστήμης. Τα μεγάλα δεδομένα συλλέγονται συχνά μέσω διαδικτυακών πλατφορμών και χρησιμοποιούνται προηγμένα εργαλεία μετασχηματισμού δεδομένων για να κάνουν τους μεγάλους όγκους δεδομένων έτοιμους για επιθεώρηση από την επιστήμη δεδομένων. Καθώς συλλέγονται συνεχώς περισσότερα δεδομένα, η εργασία των επιστημόνων δεδομένων περιλαμβάνει την ανάλυση μεγάλων δεδομένων.

Εργαλεία Επιστήμης Δεδομένων

Κοινή επιστήμη δεδομένων εργαλεία περιλαμβάνει εργαλεία για την αποθήκευση δεδομένων, τη διενέργεια διερευνητικής ανάλυσης δεδομένων, τη μοντελοποίηση δεδομένων, την εκτέλεση ETL και την οπτικοποίηση δεδομένων. Πλατφόρμες όπως το Amazon Web Services, το Microsoft Azure και το Google Cloud προσφέρουν όλα εργαλεία που βοηθούν τους επιστήμονες δεδομένων να αποθηκεύουν, να μεταμορφώνουν, να αναλύουν και να μοντελοποιούν δεδομένα. Υπάρχουν επίσης αυτόνομα εργαλεία επιστήμης δεδομένων όπως το Airflow (υποδομή δεδομένων) και το Tableau (οπτικοποίηση και ανάλυση δεδομένων).

Όσον αφορά τους αλγόριθμους μηχανικής μάθησης και τεχνητής νοημοσύνης που χρησιμοποιούνται για τη μοντελοποίηση δεδομένων, παρέχονται συχνά μέσω ενοτήτων και πλατφορμών επιστήμης δεδομένων όπως το TensorFlow, το PyTorch και το στούντιο εκμάθησης μηχανών Azure. Αυτές οι πλατφόρμες, όπως οι επιστήμονες δεδομένων, κάνουν αλλαγές στα σύνολα δεδομένων τους, συνθέτουν αρχιτεκτονικές μηχανικής μάθησης και εκπαιδεύουν μοντέλα μηχανικής μάθησης.

Άλλα κοινά εργαλεία και βιβλιοθήκες επιστήμης δεδομένων περιλαμβάνουν το SAS (για στατιστική μοντελοποίηση), το Apache Spark (για την ανάλυση δεδομένων ροής), το D3.js (για διαδραστικές απεικονίσεις στο πρόγραμμα περιήγησης) και το Jupyter (για διαδραστικά μπλοκ κώδικα με δυνατότητα κοινής χρήσης και απεικονίσεις) .

Φωτογραφία: Seonjae Jo μέσω Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)

Παραδείγματα Επιστήμης Δεδομένων

Παραδείγματα επιστήμης δεδομένων και οι εφαρμογές της υπάρχουν παντού. Η επιστήμη δεδομένων έχει εφαρμογές σε όλα, από την παράδοση φαγητού, τον αθλητισμό, την κυκλοφορία και την υγεία. Τα δεδομένα είναι παντού και έτσι η επιστήμη των δεδομένων μπορεί να εφαρμοστεί σε όλα.

Όσον αφορά τα τρόφιμα, η Uber επενδύει σε μια επέκταση του συστήματος κοινής χρήσης της διαδρομής που επικεντρώνεται στην παράδοση τροφίμων, Uber Eats. Η Uber Eats πρέπει να παρέχει στους ανθρώπους έγκαιρα το φαγητό τους, όσο είναι ακόμα ζεστό και φρέσκο. Για να συμβεί αυτό, οι επιστήμονες δεδομένων για την εταιρεία πρέπει να χρησιμοποιήσουν στατιστική μοντελοποίηση που να λαμβάνει υπόψη πτυχές όπως η απόσταση από τα εστιατόρια έως τα σημεία παράδοσης, οι βιασύνες διακοπών, ο χρόνος μαγειρέματος, ακόμη και οι καιρικές συνθήκες, όλα τα οποία εξετάζονται με στόχο τη βελτιστοποίηση των χρόνων παράδοσης .

Τα αθλητικά στατιστικά χρησιμοποιούνται από τους διευθυντές ομάδων για να καθορίσουν ποιοι είναι οι καλύτεροι παίκτες και να σχηματίσουν ισχυρές, αξιόπιστες ομάδες που θα κερδίσουν παιχνίδια. Ένα αξιοσημείωτο παράδειγμα είναι η επιστήμη των δεδομένων που τεκμηριώνεται από τον Michael Lewis στο βιβλίο Moneyball, όπου ο γενικός διευθυντής της ομάδας Oakland Athletics ανέλυσε μια ποικιλία στατιστικών για να εντοπίσει ποιοτικούς παίκτες που θα μπορούσαν να υπογραφούν στην ομάδα με σχετικά χαμηλό κόστος.

Η ανάλυση των προτύπων κυκλοφορίας είναι κρίσιμη για τη δημιουργία αυτοοδηγούμενων οχημάτων. Αυτοκίνητα οχήματα πρέπει να είναι σε θέση να προβλέψει τη δραστηριότητα γύρω τους και να ανταποκρίνεται σε αλλαγές στις συνθήκες του δρόμου, όπως η αυξημένη απόσταση ακινητοποίησης που απαιτείται όταν βρέχει, καθώς και η παρουσία περισσότερων αυτοκινήτων στο δρόμο κατά τις ώρες αιχμής. Πέρα από τα αυτόνομα οχήματα, εφαρμογές όπως το Google Maps αναλύουν τα μοτίβα της κυκλοφορίας για να ενημερώσουν τους επιβάτες πόσο χρόνο θα τους πάρει για να φτάσουν στον προορισμό τους χρησιμοποιώντας διάφορες διαδρομές και τρόπους μεταφοράς.

Από την άποψη της επιστήμη δεδομένων υγείας, η όραση υπολογιστή συχνά συνδυάζεται με μηχανική μάθηση και άλλες τεχνικές τεχνητής νοημοσύνης για τη δημιουργία ταξινομητών εικόνων ικανών να εξετάζουν πράγματα όπως ακτίνες Χ, FMRI και υπερήχους για να δουν εάν υπάρχουν πιθανά ιατρικά ζητήματα που μπορεί να εμφανιστούν στη σάρωση. Αυτοί οι αλγόριθμοι μπορούν να χρησιμοποιηθούν για να βοηθήσουν τους κλινικούς γιατρούς να διαγνώσουν ασθένεια.

Τελικά, η επιστήμη των δεδομένων καλύπτει πολλές δραστηριότητες και συγκεντρώνει πτυχές διαφορετικών κλάδων. Ωστόσο, η επιστήμη των δεδομένων ασχολείται πάντα με την αφήγηση συναρπαστικών, ενδιαφέρουσες ιστορίες από δεδομένα και με τη χρήση δεδομένων για την καλύτερη κατανόηση του κόσμου.

Blogger και προγραμματιστής με ειδικότητες στο Μηχανική μάθηση και Βαθιά μάθηση Θέματα. Ο Daniel ελπίζει να βοηθήσει άλλους να χρησιμοποιήσουν τη δύναμη της τεχνητής νοημοσύνης για κοινωνικό καλό.