AI 101
Εποπτευόμενη vs Μη εποπτευόμενη μάθηση
Στη μηχανική μάθηση, οι περισσότερες εργασίες μπορούν εύκολα να κατηγοριοποιηθούν σε μία από τις δύο διαφορετικές κατηγορίες: προβλήματα μάθησης με επίβλεψη ή προβλήματα μάθησης χωρίς επίβλεψη. Στην εποπτευόμενη μάθηση, τα δεδομένα έχουν ετικέτες ή κλάσεις προσαρτημένες σε αυτά, ενώ στην περίπτωση μάθησης χωρίς επίβλεψη τα δεδομένα είναι χωρίς ετικέτα. Ας ρίξουμε μια προσεκτική ματιά στο γιατί αυτή η διάκριση είναι σημαντική και ας δούμε μερικούς από τους αλγόριθμους που σχετίζονται με κάθε τύπο μάθησης.
Εποπτευόμενη vs Μη εποπτευόμενη μάθηση
Οι περισσότερες εργασίες μηχανικής εκμάθησης ανήκουν στον τομέα του εποπτευόμενη μάθηση. Στους εποπτευόμενους αλγόριθμους εκμάθησης, τα μεμονωμένα στιγμιότυπα/σημεία δεδομένων στο σύνολο δεδομένων έχουν μια κλάση ή μια ετικέτα που τους έχει εκχωρηθεί. Αυτό σημαίνει ότι το μοντέλο μηχανικής εκμάθησης μπορεί να μάθει να διακρίνει ποια χαρακτηριστικά συσχετίζονται με μια δεδομένη τάξη και ότι ο μηχανικός μηχανικής μάθησης μπορεί να ελέγξει την απόδοση του μοντέλου βλέποντας πόσες περιπτώσεις ταξινομήθηκαν σωστά. Οι αλγόριθμοι ταξινόμησης μπορούν να χρησιμοποιηθούν για τη διάκριση πολλών πολύπλοκων μοτίβων, αρκεί τα δεδομένα να επισημαίνονται με τις κατάλληλες κλάσεις. Για παράδειγμα, ένας αλγόριθμος μηχανικής μάθησης μπορεί να μάθει να διακρίνει διαφορετικά ζώα μεταξύ τους με βάση χαρακτηριστικά όπως «μουστάκια», «ουρά», «νύχια» κ.λπ.
Σε αντίθεση με την εποπτευόμενη μάθηση, η μάθηση χωρίς επίβλεψη περιλαμβάνει τη δημιουργία ενός μοντέλου που είναι σε θέση να εξάγει μοτίβα από δεδομένα χωρίς ετικέτα. Με άλλα λόγια, ο υπολογιστής αναλύει τα χαρακτηριστικά εισόδου και καθορίζει μόνος του ποια είναι τα πιο σημαντικά χαρακτηριστικά και μοτίβα. Η μάθηση χωρίς επίβλεψη προσπαθεί να βρει τις εγγενείς ομοιότητες μεταξύ διαφορετικών περιπτώσεων. Εάν ένας αλγόριθμος εποπτευόμενης μάθησης στοχεύει να τοποθετήσει σημεία δεδομένων σε γνωστές κλάσεις, οι αλγόριθμοι μάθησης χωρίς επίβλεψη θα εξετάσουν τα κοινά χαρακτηριστικά των παρουσιών αντικειμένων και θα τα τοποθετήσουν σε ομάδες με βάση αυτά τα χαρακτηριστικά, δημιουργώντας ουσιαστικά τις δικές τους κλάσεις.
Παραδείγματα εποπτευόμενων αλγορίθμων εκμάθησης είναι η Γραμμική παλινδρόμηση, η λογιστική παλινδρόμηση, οι K-πλησιέστεροι γείτονες, τα δέντρα απόφασης και οι μηχανές διανυσμάτων υποστήριξης.
Εν τω μεταξύ, μερικά παραδείγματα αλγορίθμων μάθησης χωρίς επίβλεψη είναι η Ανάλυση Κύριων Στοιχείων και η Ομαδοποίηση K-Μέσων.
Αλγόριθμος εποπτευόμενης μάθησης
γραμμική Παλινδρόμηση είναι ένας αλγόριθμος που παίρνει δύο χαρακτηριστικά και σχεδιάζει τη σχέση μεταξύ τους. Η γραμμική παλινδρόμηση χρησιμοποιείται για την πρόβλεψη αριθμητικών τιμών σε σχέση με άλλες αριθμητικές μεταβλητές. Η γραμμική παλινδρόμηση έχει την εξίσωση Y = a +bX, όπου b είναι η κλίση της γραμμής και a είναι όπου το y διασχίζει τον άξονα Χ.
Η Logistic Regression είναι ένας δυαδικός αλγόριθμος ταξινόμησης. Ο αλγόριθμος εξετάζει τη σχέση μεταξύ των αριθμητικών χαρακτηριστικών και βρίσκει την πιθανότητα ότι το στιγμιότυπο μπορεί να ταξινομηθεί σε μία από δύο διαφορετικές κλάσεις. Οι τιμές πιθανότητας «συμπιέζονται» είτε προς το 0 είτε προς το 1. Με άλλα λόγια, οι ισχυρές πιθανότητες θα πλησιάσουν το 0.99 ενώ οι ασθενείς πιθανότητες θα πλησιάσουν το 0.
K-Κοντινότεροι γείτονες αντιστοιχίζει μια κλάση σε νέα σημεία δεδομένων με βάση τις εκχωρημένες κλάσεις ορισμένου επιλεγμένου αριθμού γειτόνων στο σετ εκπαίδευσης. Ο αριθμός των γειτόνων που εξετάζονται από τον αλγόριθμο είναι σημαντικός και πολύ λίγοι ή πάρα πολλοί γείτονες μπορούν να ταξινομήσουν εσφαλμένα σημεία.
Αποφάσεις δέντρων είναι ένας τύπος αλγορίθμου ταξινόμησης και παλινδρόμησης. Ένα δέντρο αποφάσεων λειτουργεί διαιρώντας ένα σύνολο δεδομένων σε όλο και μικρότερα τμήματα έως ότου τα υποσύνολα δεν μπορούν να διαχωριστούν περαιτέρω και το αποτέλεσμα είναι ένα δέντρο με κόμβους και φύλλα. Οι κόμβοι είναι όπου λαμβάνονται αποφάσεις σχετικά με τα σημεία δεδομένων χρησιμοποιώντας διαφορετικά κριτήρια φιλτραρίσματος, ενώ τα φύλλα είναι οι περιπτώσεις στις οποίες έχει εκχωρηθεί κάποια ετικέτα (ένα σημείο δεδομένων που έχει ταξινομηθεί). Οι αλγόριθμοι του δέντρου αποφάσεων είναι ικανοί να χειρίζονται τόσο αριθμητικά όσο και κατηγορικά δεδομένα. Οι διαχωρισμοί γίνονται στο δέντρο σε συγκεκριμένες μεταβλητές/χαρακτηριστικά.
Υποστηρικτικές μηχανές υποστήριξης είναι ένας αλγόριθμος ταξινόμησης που λειτουργεί σχεδιάζοντας υπερεπίπεδα ή γραμμές διαχωρισμού μεταξύ σημείων δεδομένων. Τα σημεία δεδομένων χωρίζονται σε κλάσεις ανάλογα με την πλευρά του υπερεπίπεδου που βρίσκονται. Πολλαπλά υπερεπίπεδα μπορούν να σχεδιαστούν σε ένα επίπεδο, καταδύοντας ένα σύνολο δεδομένων σε πολλαπλές κλάσεις. Ο ταξινομητής θα προσπαθήσει να μεγιστοποιήσει την απόσταση μεταξύ του καταδυτικού υπερεπιπέδου και των σημείων εκατέρωθεν του επιπέδου και όσο μεγαλύτερη είναι η απόσταση μεταξύ της γραμμής και των σημείων, τόσο πιο σίγουρος είναι ο ταξινομητής.
Αλγόριθμοι μάθησης χωρίς επίβλεψη
Ανάλυση κύριων συστατικών είναι μια τεχνική που χρησιμοποιείται για τη μείωση των διαστάσεων, που σημαίνει ότι η διάσταση ή η πολυπλοκότητα των δεδομένων αναπαρίσταται με απλούστερο τρόπο. Ο αλγόριθμος ανάλυσης κύριου στοιχείου βρίσκει νέες διαστάσεις για τα δεδομένα που είναι ορθογώνια. Ενώ η διάσταση των δεδομένων μειώνεται, η απόκλιση μεταξύ των δεδομένων θα πρέπει να διατηρείται όσο το δυνατόν περισσότερο. Αυτό σημαίνει πρακτικά ότι παίρνει τα χαρακτηριστικά του συνόλου δεδομένων και τα αποστάζει σε λιγότερα χαρακτηριστικά που αντιπροσωπεύουν τα περισσότερα από τα δεδομένα.
Το K-Means Clustering είναι ένας αλγόριθμος που ομαδοποιεί αυτόματα τα σημεία δεδομένων σε συμπλέγματα με βάση παρόμοια χαρακτηριστικά. Τα μοτίβα μέσα στο σύνολο δεδομένων αναλύονται και τα σημεία δεδομένων χωρίζονται σε ομάδες με βάση αυτά τα μοτίβα. Ουσιαστικά, το K-means δημιουργεί τις δικές του κλάσεις από δεδομένα χωρίς ετικέτα. Ο αλγόριθμος K-Means λειτουργεί εκχωρώντας κέντρα στα συμπλέγματα ή κεντροειδή και μετακινώντας τα κεντροειδή μέχρι να βρεθεί η βέλτιστη θέση για τα κεντροειδή. Η βέλτιστη θέση θα είναι εκείνη όπου ελαχιστοποιείται η απόσταση μεταξύ των κεντροειδών στα γύρω σημεία δεδομένων εντός της κλάσης. Το "K" στη ομαδοποίηση K-means αναφέρεται στο πόσα κεντροειδή έχουν επιλεγεί.
Περίληψη
Για να κλείσουμε, ας εξετάσουμε γρήγορα τις βασικές διαφορές μεταξύ τους μάθηση με επίβλεψη και χωρίς επίβλεψη.
Όπως συζητήσαμε προηγουμένως, στις εποπτευόμενες εργασίες εκμάθησης τα δεδομένα εισόδου επισημαίνονται και ο αριθμός των τάξεων είναι γνωστός. Εν τω μεταξύ, τα δεδομένα εισόδου είναι χωρίς ετικέτα και ο αριθμός των τάξεων δεν είναι γνωστός σε περιπτώσεις εκμάθησης χωρίς επίβλεψη. Η μάθηση χωρίς επίβλεψη τείνει να είναι λιγότερο υπολογιστικά πολύπλοκη, ενώ η εποπτευόμενη μάθηση τείνει να είναι πιο σύνθετη υπολογιστικά. Ενώ τα αποτελέσματα εποπτευόμενης μάθησης τείνουν να είναι εξαιρετικά ακριβή, τα αποτελέσματα μάθησης χωρίς επίβλεψη τείνουν να είναι λιγότερο ακριβή/μέτρια ακριβή.












