Τεχνητή νοημοσύνη 101
Τι είναι η Επιστήμη Δεδομένων;

Το πεδίο της επιστήμης δεδομένων φαίνεται να μεγαλώνει και να γίνεται πιο δημοφιλές κάθε μέρα. Σύμφωνα με το LinkedIn, η επιστήμη δεδομένων ήταν ένα από τα ταχύτερα εξελισσόμενα πεδία εργασίας το 2017 και το 2020 η Glassdoor κατέταξε την εργασία της επιστήμης δεδομένων ως μια από τις τρεις καλύτερες εργασίες στις Ηνωμένες Πολιτείες. Δεδομένης της αυξανόμενης δημοτικότητας της επιστήμης δεδομένων, δεν είναι έκπληξη ότι περισσότεροι άνθρωποι ενδιαφέρονται για το πεδίο. Ωστόσο, τι είναι ακριβώς η επιστήμη δεδομένων;
Ας γνωρίσουμε την επιστήμη δεδομένων, passing κάποιο χρόνο για να ορίσουμε την επιστήμη δεδομένων, να εξερευνήσουμε πώς τα μεγαλύτερα δεδομένα και η τεχνητή νοημοσύνη αλλάζουν το πεδίο, να μάθουμε για κάποια κοινά εργαλεία επιστήμης δεδομένων και να εξετάσουμε κάποια παραδείγματα επιστήμης δεδομένων.
Τι είναι η Επιστήμη Δεδομένων;
Πριν εξερευνήσουμε οποιαδήποτε εργαλεία ή παραδείγματα επιστήμης δεδομένων, θα θέλαμε να πάρουμε μια συντομη ορισμό της επιστήμης δεδομένων.
Ο ορισμός της “επιστήμης δεδομένων” είναι στην πραγματικότητα λίγο δύσκολος, επειδή ο όρος εφαρμόζεται σε πολλές διαφορετικές εργασίες και μεθόδους ερεύνης και ανάλυσης. Μπορούμε να ξεκινήσουμε υπενθυμίζοντας τι σημαίνει ο όρος “επιστήμη”. Η επιστήμη είναι η συστηματική μελέτη του φυσικού και φυσικού κόσμου μέσω της παρατήρησης και του πειράματος, με στόχο την προώθηση της ανθρώπινης κατανόησης των φυσικών διαδικασιών. Τα σημαντικά λόγια σε αυτήν την ορισμό είναι “παρατήρηση” και “κατανόηση”.
Εάν η επιστήμη δεδομένων είναι η διαδικασία της κατανόησης του κόσμου από τα πρότυπα στα δεδομένα, τότε η ευθύνη ενός επιστήμονα δεδομένων είναι να μετατρέψει τα δεδομένα, να αναλύσει τα δεδομένα και να εξαγάγει πρότυπα από τα δεδομένα. Με άλλα λόγια, ένας επιστήμονας δεδομένων παρέχεται με δεδομένα και χρησιμοποιεί μια σειρά από διαφορετικά εργαλεία και τεχνικές για να προετοιμάσει τα δεδομένα (να τα κάνει έτοιμα για ανάλυση) και στη συνέχεια να αναλύσει τα δεδομένα για σημαντικά πρότυπα.
Ο ρόλος ενός επιστήμονα δεδομένων είναι παρόμοιος με τον ρόλο ενός παραδοσιακού επιστήμονα. Και οι δύο ασχολούνται με την ανάλυση δεδομένων για να υποστηρίξουν ή να απορρίψουν υποθέσεις σχετικά με το πώς λειτουργεί ο κόσμος, προσπαθώντας να δώσουν νόημα στα πρότυπα στα δεδομένα για να βελτιώσουν την κατανόησή μας για τον κόσμο. Οι επιστήμονες δεδομένων χρησιμοποιούν τις ίδιες επιστημονικές μεθόδους που χρησιμοποιεί ένας παραδοσιακός επιστήμονας. Ένας επιστήμονας δεδομένων ξεκινά συλλέγοντας παρατηρήσεις για κάποιο φαινόμενο που θα ήθελε να μελετήσει. Στη συνέχεια, διατυπώνει μια υπόθεση σχετικά με το φαινόμενο και προσπαθεί να βρει δεδομένα που να αναιρούν την υπόθεσή του με κάποιο τρόπο.
Εάν η υπόθεση δεν αναιρείται από τα δεδομένα, μπορεί να κατασκευάσει μια θεωρία ή ένα μοντέλο για το πώς λειτουργεί το φαινόμενο, το οποίο μπορεί να ελέγξει ξανά και ξανά για να δει αν ισχύει για άλλα παρόμοια σύνολα δεδομένων. Εάν ένα μοντέλο είναι αρκετά robust, εάν εξηγεί τα πρότυπα καλά και δεν αναιρείται κατά τη διάρκεια άλλων ελέγχων, μπορεί ακόμη και να χρησιμοποιηθεί για να προβλέψει μελλοντικές εμφανίσεις του φαινομένου.
Ένας επιστήμονας δεδομένων συνήθως δεν συλλέγει τα δικά του δεδομένα μέσω ενός πειράματος. Δεν θα σχεδιάσει πειράματα με ελέγχους και διπλά τυφλά δοκιμές για να ανακαλύψει παραγόμενες μεταβλητές που μπορεί να παρεμβαίνουν με μια υπόθεση. Τα περισσότερα δεδομένα που αναλύονται από einen επιστήμονα δεδομένων θα ληφθούν μέσω παρατηρητικών μελετών και συστημάτων, το οποίο είναι ένας τρόπος με τον οποίο η δουλειά ενός επιστήμονα δεδομένων μπορεί να διαφέρει από την δουλειά ενός παραδοσιακού επιστήμονα, ο οποίος συνήθως εκτελεί περισσότερα πειράματα.
Όμως, ένας επιστήμονας δεδομένων μπορεί να καλεστεί να κάνει ένα είδος πειράματος που ονομάζεται A/B testing, όπου γίνονται προσαρμογές σε ένα σύστημα που συλλέγει δεδομένα για να δει πώς αλλάζουν τα πρότυπα δεδομένων.
Ανεξάρτητα από τις τεχνικές και τα εργαλεία που χρησιμοποιούνται, η επιστήμη δεδομένων στοχεύει τελικά να βελτιώσει την κατανόησή μας για τον κόσμο, δίνοντας νόημα στα δεδομένα, και τα δεδομένα λαμβάνονται μέσω παρατήρησης και πειράματος. Η επιστήμη δεδομένων είναι η διαδικασία της χρήσης αλγορίθμων, στατιστικών αρχών και διαφόρων εργαλείων και μηχανών για να εξαγάγει ερευνες από τα δεδομένα, ερευνες που μας βοηθούν να κατανοήσουμε τα πρότυπα στον κόσμο γύρω μας.
Τι Κάνουν οι Επιστήμονες Δεδομένων;
Μπορείτε να δείτε ότι οποιαδήποτε δραστηριότητα που εμπλέκει την ανάλυση δεδομένων με einem επιστημονικό τρόπο μπορεί να ονομάζεται επιστήμη δεδομένων, το οποίο είναι μέρος του τι κάνει τον ορισμό της επιστήμης δεδομένων τόσο δύσκολο. Για να το κάνουμε πιο σαφές, ας εξετάσουμε κάποιες από τις δραστηριότητες που ένας επιστήμονας δεδομένων μπορεί να κάνει σε μια καθημερινή βάση.

Η επιστήμη δεδομένων φέρνει μαζί πολλά διαφορετικά πεδία και ειδικότητες. Φωτογραφία: Calvin Andrus via Wikimeedia Commons, CC BY SA 3.0 (https://commons.wikimedia.org/wiki/File:DataScienceDisciplines.png)
Σε οποιαδήποτε δεδομένη μέρα, ένας επιστήμονας δεδομένων μπορεί να ζητηθεί να: δημιουργήσει σχήματα αποθήκευσης και ανάκτησης δεδομένων, δημιουργήσει ETL (εξαγωγή, μετασχηματισμός, φόρτωση) pipelines και καθαρίσει τα δεδομένα, να χρησιμοποιήσει στατιστικές μεθόδους, να δημιουργήσει οπτικοποιήσεις δεδομένων και πίνακες ελέγχου, να εφαρμόσει αλγόριθμους τεχνητής νοημοσύνης και μηχανικής μάθησης, να κάνει συστάσεις για δράσεις με βάση τα δεδομένα.
Ας τα σπάσουμε τα παραπάνω καθήκοντα λίγο.
Ένας επιστήμονας δεδομένων μπορεί να απαιτεί να χειριστεί την εγκατάσταση των τεχνολογιών που χρειάζονται για την αποθήκευση και ανάκτηση δεδομένων, με προσοχή και στο υλικό και στο λογισμικό. Ο άνθρωπος που είναι υπεύθυνος για αυτήν τη θέση μπορεί επίσης να ονομάζεται “Data Engineer”. Ωστόσο, κάποιες εταιρείες περιλαμβάνουν αυτές τις ευθύνες στο ρόλο των επιστημόνων δεδομένων. Ένας επιστήμονας δεδομένων μπορεί επίσης να χρειάζεται να δημιουργήσει, ή να βοηθήσει στη δημιουργία, ETL pipelines. Τα δεδομένα σπάνια έρχονται με τη μορφή που χρειάζεται ένας επιστήμονας δεδομένων. Αντίθετα, τα δεδομένα θα χρειαστεί να ληφθούν σε μια άγρια μορφή από την πηγή δεδομένων, να μετασχηματιστούν σε eine χρήσιμη μορφή και να προετοιμαστούν (πράγματα όπως η τυποποίηση των δεδομένων, η διαγραφή των ανακρίβειων και η αφαίρεση των ελαττωματικών δεδομένων).
Στατιστικές Μέθοδοι της Επιστήμης Δεδομένων
Η εφαρμογή της στατιστικής είναι απαραίτητη για να μετατρέψει την απλή παρατήρηση δεδομένων και ερμηνεία σε μια πραγματική επιστήμη. Οι στατιστικές μέθοδοι χρησιμοποιούνται για να εξαγάγουν σχετικά πρότυπα από σύνολα δεδομένων, και ένας επιστήμονας δεδομένων χρειάζεται να είναι καλά εξοικειωμένος με στατιστικές έννοιες. Χρειάζεται να μπορεί να διακρίνει σημαντικές συσχετίσεις από ψευδείς συσχετίσεις ελέγχοντας για παραγόμενες μεταβλητές. Χρειάζεται επίσης να γνωρίζει τα σωστά εργαλεία για να καθορίσει ποια χαρακτηριστικά στο σύνολο δεδομένων είναι σημαντικά για το μοντέλο/έχουν προβλεπτική δύναμη. Ένας επιστήμονας δεδομένων χρειάζεται να γνωρίζει πότε να χρησιμοποιήσει μια регрессιακή προσέγγιση versus μια ταξινόμηση προσέγγιση, και πότε να φροντίσει για το μέσο μιας δειγματοληψίας versus τη μέση μιας δειγματοληψίας. Ένας επιστήμονας δεδομένων απλά δεν θα ήταν ένας επιστήμονας χωρίς αυτές τις κρίσιμες δεξιότητες.
Οπτικοποίηση Δεδομένων
Ένα κρίσιμο μέρος του ρόλου ενός επιστήμονα δεδομένων είναι η επικοινωνία των ευρημάτων του με άλλους. Εάν ένας επιστήμονας δεδομένων δεν μπορεί να επικοινωνήσει αποτελεσματικά τα ευρήματά του με άλλους, τότε οι επιπτώσεις των ευρημάτων του δεν έχουν σημασία. Ένας επιστήμονας δεδομένων πρέπει να είναι ένας αποτελεσματικός αφηγητής ιστοριών. Αυτό σημαίνει την παραγωγή οπτικοποιήσεων που επικοινωνούν σχετικά σημεία για το σύνολο δεδομένων και τα πρότυπα που ανακαλύπτονται μέσα σε αυτό. Υπάρχει ένας μεγάλος αριθμός διαφορετικών εργαλείων οπτικοποίησης δεδομένων που ένας επιστήμονας δεδομένων μπορεί να χρησιμοποιήσει, και μπορεί να οπτικοποιήσει δεδομένα για τους σκοπούς της αρχικής, βασικής εξερεύνησης (εξερεύνηση δεδομένων) ή να οπτικοποιήσει τα αποτελέσματα που παράγει ένα μοντέλο.
Συστάσεις και Εφαρμογές Επιχειρήσεων
Ένας επιστήμονας δεδομένων χρειάζεται να έχει κάποια直觉 για τις απαιτήσεις και τους στόχους της οργάνωσής του ή της επιχείρησής του. Ένας επιστήμονας δεδομένων χρειάζεται να κατανοήσει αυτά τα πράγματα επειδή χρειάζεται να γνωρίζει ποια είδη μεταβλητών και χαρακτηριστικών πρέπει να αναλύει, εξερευνώντας πρότυπα που θα βοηθήσουν την οργάνωσή του να επιτύχει τους στόχους της. Οι επιστήμονες δεδομένων πρέπει να είναι ενήμεροι για τις περιορισμούς που λειτουργούν και τις υποθέσεις που η ηγεσία της οργάνωσης κάνει.
Μηχανική Μάθηση και Τεχνητή Νοημοσύνη
Η μηχανική μάθηση και άλλοι αλγόριθμοι και μοντέλα τεχνητής νοημοσύνης είναι εργαλεία που χρησιμοποιούνται από επιστήμονες δεδομένων για να αναλύσουν δεδομένα, να ανακαλύψουν πρότυπα μέσα στα δεδομένα, να διακρίνουν σχέσεις μεταξύ μεταβλητών και να κάνουν προβλέψεις για μελλοντικά γεγονότα.
Παραδοσιακή Επιστήμη Δεδομένων versus Μεγάλη Επιστήμη Δεδομένων
Όπως οι μεθόδους συλλογής δεδομένων έχουν γίνει πιο εξελιγμένες και οι βάσεις δεδομένων μεγαλύτερες, μια διαφορά έχει προκύψει μεταξύ της παραδοσιακής επιστήμης δεδομένων και της “μεγάλης” επιστήμης δεδομένων.
Η παραδοσιακή ανάλυση δεδομένων και η επιστήμη δεδομένων γίνονται με περιγραφικές και εξερευνητικές αναλύσεις, με στόχο να βρουν πρότυπα και να αναλύσουν τα αποτελέσματα των έργων. Οι παραδοσιακές μεθόδους ανάλυσης δεδομένων συχνά εστιάζουν μόνο στα παρελθοντικά δεδομένα και τα τρέχοντα δεδομένα. Οι αναλυτές δεδομένων συχνά ασχολούνται με δεδομένα που έχουν ήδη καθαριστεί και τυποποιηθεί, ενώ οι επιστήμονες δεδομένων συχνά ασχολούνται με σύνθετα και βρώμικα δεδομένα. Περισσότερες προηγμένες μεθόδους ανάλυσης δεδομένων και επιστήμης δεδομένων μπορεί να χρησιμοποιηθούν για να προβλέψουν μελλοντική συμπεριφορά, αν και αυτό γίνεται πιο συχνά με μεγάλα δεδομένα, поскольку τα προβλεπτικά μοντέλα συχνά χρειάζονται μεγάλα ποσά δεδομένων για να κατασκευαστούν αξιοπιστώς.
“Μεγάλα δεδομένα” αναφέρονται σε δεδομένα που είναι πολύ μεγάλα και σύνθετα για να χειριστούν με παραδοσιακές μεθόδους ανάλυσης δεδομένων και επιστήμης δεδομένων. Τα μεγάλα δεδομένα συλλέγονται συχνά μέσω διαδικτυακών πλατφορμών και προηγμένων εργαλείων μετασχηματισμού δεδομένων που χρησιμοποιούνται για να κάνουν τα μεγάλα όγκους δεδομένων έτοιμα για επιθεώρηση από την επιστήμη δεδομένων. Όπως περισσότερα δεδομένα συλλέγονται συνεχώς, περισσότερο από την δουλειά ενός επιστήμονα δεδομένων εμπλέκει την ανάλυση μεγάλων δεδομένων.
Εργαλεία Επιστήμης Δεδομένων
Κοινά εργαλεία επιστήμης δεδομένων περιλαμβάνουν εργαλεία για την αποθήκευση δεδομένων, την εκτέλεση εξερευνητικής ανάλυσης δεδομένων, το μοντέλο δεδομένων, την εκτέλεση ETL και την οπτικοποίηση δεδομένων. Πλατφόρμες όπως το Amazon Web Services, το Microsoft Azure και το Google Cloud προσφέρουν εργαλεία για να βοηθήσουν τους επιστήμονες δεδομένων να αποθηκεύουν, να μετασχηματίζουν, να αναλύουν και να μοντελοποιούν δεδομένα. Υπάρχουν επίσης αυτόνομα εργαλεία επιστήμης δεδομένων όπως το Airflow (υфраструктура δεδομένων) και το Tableau (οπτικοποίηση και ανάλυση δεδομένων).
Σχετικά με τους αλγόριθμους μηχανικής μάθησης και τεχνητής νοημοσύνης που χρησιμοποιούνται για να μοντελοποιήσουν δεδομένα, αυτά παρέχονται συχνά μέσω μονάδων και πλατφορμών επιστήμης δεδομένων όπως το TensorFlow, το PyTorch και το Azure Machine-learning studio. Αυτές οι πλατφόρμες επιτρέπουν στους επιστήμονες δεδομένων να κάνουν επεξεργασίες στα σύνολα δεδομένων, να συνθέτουν αρχιτεκτονικές μηχανικής μάθησης και να εκπαιδεύουν μοντέλα μηχανικής μάθησης.
Άλλα κοινά εργαλεία και βιβλιοθήκες επιστήμης δεδομένων περιλαμβάνουν το SAS (για στατιστική μοντελοποίηση), το Apache Spark (για την ανάλυση δεδομένων ροής), το D3.js (για διαδραστικές οπτικοποιήσεις στο πρόγραμμα περιήγησης) και το Jupyter (για διαδραστικά, κοινά μπλοκ κώδικα και οπτικοποιήσεις).

Φωτογραφία: Seonjae Jo via Flickr, CC BY SA 2.0 (https://www.flickr.com/photos/130860834@N02/19786840570)
Παραδείγματα Επιστήμης Δεδομένων
Παραδείγματα επιστήμης δεδομένων και των εφαρμογών της είναι παντού. Η επιστήμη δεδομένων έχει εφαρμογές σε όλα, από την παράδοση φαγητού, τον αθλητισμό, την κυκλοφορία και την υγεία. Τα δεδομένα είναι παντού και έτσι η επιστήμη δεδομένων μπορεί να εφαρμοστεί σε όλα.
Σχετικά με το φαγητό, η Uber επενδύει σε μια επέκταση του συστήματος μεταφοράς, επικεντρωμένη στην παράδοση φαγητού, Uber Eats. Η Uber Eats χρειάζεται να φέρει τους ανθρώπους το φαγητό τους σε ένα χρονικό διάστημα, ενώ είναι ακόμη ζεστό και φρέσκο. Για να συμβεί αυτό, οι επιστήμονες δεδομένων της εταιρείας χρειάζεται να χρησιμοποιήσουν στατιστική μοντελοποίηση που λαμβάνει υπόψη πτυχές όπως η απόσταση από τα εστιατόρια στα σημεία παράδοσης, οι εορτασμοί, ο χρόνος μαγειρέματος και ακόμη και οι καιρικές συνθήκες, όλα αυτά με στόχο την оптимποίηση των χρόνων παράδοσης.
Οι στατιστικές του αθλητισμού χρησιμοποιούνται από τους διευθυντές των ομάδων για να καθορίσουν ποιος είναι ο καλύτερος παίκτης και να σχηματίσουν ισχυρές, αξιόπιστες ομάδες που θα κερδίσουν αγώνες. Ένα αξιοσημείωτο παράδειγμα είναι η επιστήμη δεδομένων που τεκμηριώθηκε από τον Michael Lewis στο βιβλίο Moneyball, όπου ο γενικός διευθυντής της ομάδας Oakland Athletics ανέλυσε eine ποικιλία στατιστικών για να ανακαλύψει ποιοτικούς παίκτες που θα μπορούσαν να υπογραφούν στην ομάδα με σχετικά χαμηλό κόστος.
Η ανάλυση των προτύπων κυκλοφορίας είναι κρίσιμη για τη δημιουργία αυτονομών οχημάτων. Τα αυτονομικά οχήματα πρέπει να είναι σε θέση να προβλέψουν τη δραστηριότητα γύρω τους και να ανταποκριθούν σε αλλαγές στις συνθήκες του δρόμου, όπως η αυξημένη απόσταση στάσης που απαιτείται όταν βρέχει, καθώς και την παρουσία περισσότερων αυτοκινήτων στο δρόμο κατά τη διάρκεια της ώρας αιχμής. Πέρα από τα αυτονομικά οχήματα, εφαρμογές όπως το Google Maps αναλύουν τα πρότυπα κυκλοφορίας για να πει στους κομμωτές πόσο χρόνο θα χρειαστούν για να φτάσουν στον προορισμό τους χρησιμοποιώντας διάφορους δρόμους και μέσα μεταφοράς.
Σχετικά με την υγεία, η επιστήμη δεδομένων, η υπολογιστική όραση συνδυάζεται συχνά με τη μηχανική μάθηση και άλλες τεχνικές τεχνητής νοημοσύνης για να δημιουργήσει ταξινομητές εικόνων ικανούς να εξετάσουν πράγματα όπως ακτίνες-Χ, FMRIs και υπερήχους για να δουν αν υπάρχουν潜在τικά ιατρικά προβλήματα που μπορεί να εμφανιστούν στην σάρωση. Αυτοί οι αλγόριθμοι μπορούν να χρησιμοποιηθούν για να βοηθήσουν τους κλινικούς γιατρούς να διαγνώσουν ασθένειες.
Τελικά, η επιστήμη δεδομένων καλύπτει πολλές δραστηριότητες και φέρνει μαζί της πτυχές διαφόρων πεδίων. Ωστόσο, η επιστήμη δεδομένων ασχολούνται πάντα με το να λέει ενδιαφέρουσες ιστορίες από δεδομένα, και με τη χρήση δεδομένων για να βελτιώσει την κατανόησή μας για τον κόσμο.












