Τεχνητή νοημοσύνη 101

Εποπτισμένη vs Μη Εποπτισμένη Μάθηση

mm

Σε μηχανική μάθηση, οι περισσότερες εργασίες μπορούν να κατηγοριοποιηθούν εύκολα σε μία από τις δύο διαφορετικές κατηγορίες: προβλήματα εποπτισμένης μάθησης ή προβλήματα μη εποπτισμένης μάθησης. Στην εποπτισμένη μάθηση, τα δεδομένα έχουν ετικέτες ή κατηγορίες που προστίθενται σε αυτά, ενώ στην περίπτωση της μη εποπτισμένης μάθησης τα δεδομένα είναι بدون ετικέτα. Ας ρίξουμε μια πιο προσεκτική ματιά στο γιατί αυτή η διάκριση είναι σημαντική και να εξετάσουμε κάποιους από τους αλγορίθμους που συνδέονται με κάθε τύπο μάθησης.

Εποπτισμένη vs Μη Εποπτισμένη Μάθηση

Οι περισσότερες εργασίες μηχανικής μάθησης ανήκουν στο πεδίο της εποπτισμένης μάθησης. Στους αλγορίθμους εποπτισμένης μάθησης, τα μεμονωμένα περιστατικά/σημεία δεδομένων στη βάση δεδομένων έχουν μια κατηγορία ή ετικέτα που έχει ανατεθεί σε αυτά. Αυτό σημαίνει ότι το μοντέλο μηχανικής μάθησης μπορεί να μάθει να διακρίνει ποια χαρακτηριστικά συσχετίζονται με μια δεδομένη κατηγορία και ότι ο μηχανικός μηχανικής μάθησης μπορεί να ελέγξει την απόδοση του μοντέλου βλέποντας πόσα περιστατικά ταξινομήθηκαν σωστά. Οι αλγόριθμοι ταξινόμησης μπορούν να χρησιμοποιηθούν για να διακρίνουν πολύπλοκα μοτίβα, αρκεί τα δεδομένα να έχουν ετικέτα με τις σωστές κατηγορίες. Για παράδειγμα, ένας αλγόριθμος μηχανικής μάθησης μπορεί να μάθει να διακρίνει διαφορετικά ζώα μεταξύ τους με βάση χαρακτηριστικά όπως “γουστ” , “ουρά”, “νύχια” κ.λπ.

Σε αντίθεση με την εποπτισμένη μάθηση, η μη εποπτισμένη μάθηση περιλαμβάνει τη δημιουργία ενός μοντέλου που μπορεί να εξάγει μοτίβα από μη ετικεтировμένα δεδομένα. Με άλλα λόγια, ο υπολογιστής αναλύει τα χαρακτηριστικά εισόδου και καθορίζει από μόνος του ποια είναι τα πιο σημαντικά χαρακτηριστικά και μοτίβα. Η μη εποπτισμένη μάθηση προσπαθεί να βρει τις εγγενείς ομοιότητες μεταξύ των διαφορετικών περιστατικών. Αν ένας αλγόριθμος εποπτισμένης μάθησης στοχεύει να τοποθετήσει τα σημεία δεδομένων σε γνωστές κατηγορίες, οι αλγόριθμοι μη εποπτισμένης μάθησης θα εξετάσουν τα χαρακτηριστικά που είναι κοινά στα περιστατικά των αντικειμένων και θα τα τοποθετήσουν σε ομάδες με βάση αυτά τα χαρακτηριστικά, δημιουργώντας ουσιαστικά τις δικές τους κατηγορίες.

Παραδείγματα αλγορίθμων εποπτισμένης μάθησης είναι η Γραμμική Παλινδρόμηση, η Logistic Παλινδρόμηση, ο K-πιο Κοντινός Γείτονας, τα Δέντρα Απόφασης και οι Μηχανές Υποστηρικτικών Διανυσμάτων.

Εν τω μεταξύ, κάποια παραδείγματα αλγορίθμων μη εποπτισμένης μάθησης είναι η Principal Component Analysis και η K-Means Ομαδοποίηση.

Αλγόριθμος Εποπτισμένης Μάθησης

Η Γραμμική Παλινδρόμηση είναι ένας αλγόριθμος που λαμβάνει δύο χαρακτηριστικά και σχεδιάζει τη σχέση μεταξύ τους. Η Γραμμική Παλινδρόμηση χρησιμοποιείται για να προβλέψει αριθμητικές τιμές σε σχέση με άλλες αριθμητικές μεταβλητές. Η Γραμμική Παλινδρόμηση έχει την εξίσωση Y = a + bX, όπου b είναι η κλίση της γραμμής και a είναι το σημείο όπου y διασχίζει τον άξονα X.

Η Logistic Παλινδρόμηση είναι ένας αλγόριθμος δυαδικής ταξινόμησης. Ο αλγόριθμος εξετάζει τη σχέση μεταξύ αριθμητικών χαρακτηριστικών και βρίσκει την πιθανότητα ότι το περιστατικό μπορεί να ταξινομηθεί σε μία από τις δύο διαφορετικές κατηγορίες. Οι πιθανότητες είναι “πιεσμένες” προς το 0 ή το 1. Με άλλα λόγια, ισχυρές πιθανότητες θα προσεγγίσουν το 0,99 ενώ αδύναμες πιθανότητες θα προσεγγίσουν το 0.

Ο K-πιο Κοντινός Γείτονας αναθέτει μια κατηγορία σε νέα σημεία δεδομένων με βάση τις ανατεθειμένες κατηγορίες κάποιων επιλεγμένων γειτόνων στη βάση εκπαίδευσης. Ο αριθμός των γειτόνων που εξετάζει ο αλγόριθμος είναι σημαντικός, και πολύ λίγοι ή πολύ πολλοί γείτονες μπορούν να ταξινομήσουν λανθασμένα τα σημεία.

Τα Δέντρα Απόφασης είναι ένας τύπος αλγορίθμου ταξινόμησης και παλινδρόμησης. Ένα δέντρο απόφασης λειτουργεί με το να χωρίζει ένα σύνολο δεδομένων σε μικρότερα και μικρότερα τμήματα μέχρι τα υποσύνολα να μην μπορούν να χωριστούν περαιτέρω και το αποτέλεσμα είναι ένα δέντρο με κόμβους και φύλλα. Οι κόμβοι είναι там όπου γίνονται αποφάσεις για τα σημεία δεδομένων με διαφορετικά κριτήρια φιλτραρίσματος, ενώ τα φύλλα είναι τα περιστατικά που έχουν ανατεθεί κάποια ετικέτα (ένα σημείο δεδομένων που έχει ταξινομηθεί). Οι αλγόριθμοι δέντρων απόφασης είναι ικανοί να χειρίζονται τόσο αριθμητικά όσο και κατηγορικά δεδομένα. Οι διαιρέσεις στο δέντρο γίνονται σε συγκεκριμένες μεταβλητές/χαρακτηριστικά.

Οι Μηχανές Υποστηρικτικών Διανυσμάτων είναι ένας αλγόριθμος ταξινόμησης που λειτουργεί με το να σχεδιάζει υπερεπίπεδα, ή γραμμές διαχωρισμού, μεταξύ των σημείων δεδομένων. Τα σημεία δεδομένων χωρίζονται σε κατηγορίες με βάση την πλευρά του υπερεπίπεδου που βρίσκονται. Πολλά υπερεπίπεδα μπορούν να σχεδιαστούν σε ένα επίπεδο, χωρίζοντας ένα σύνολο δεδομένων σε πολλές κατηγορίες. Ο ταξινομητής θα προσπαθήσει να μεγιστοποιήσει την απόσταση μεταξύ του διαχωριστικού υπερεπίπεδου και των σημείων σε κάθε πλευρά του επιπέδου, και όσο μεγαλύτερη είναι η απόσταση μεταξύ της γραμμής και των σημείων, τόσο πιο σίγουρος είναι ο ταξινομητής.

Αλγόριθμοι Μη Εποπτισμένης Μάθησης

Η Principal Component Analysis είναι μια τεχνική που χρησιμοποιείται για τη μείωση της διαστατικότητας, που σημαίνει ότι η διαστατικότητα ή η сложκότητα των δεδομένων αντιπροσωπεύεται με ένα απλούστερο τρόπο. Ο αλγόριθμος Principal Component Analysis βρίσκει νέες διαστάσεις για τα δεδομένα που είναι ορθογώνιες. Ενώ η διαστατικότητα των δεδομένων μειώνεται, η διακύμανση μεταξύ των δεδομένων πρέπει να διατηρηθεί όσο το δυνατόν περισσότερο. Αυτό σημαίνει στην πράξη ότι παίρνει τα χαρακτηριστικά στη βάση δεδομένων και τα αποστάζει σε λιγότερα χαρακτηριστικά που αντιπροσωπεύουν τα περισσότερα δεδομένα.

Η K-Means Ομαδοποίηση είναι ένας αλγόριθμος που ομαδοποιεί αυτόματα τα σημεία δεδομένων σε ομάδες με βάση παρόμοια χαρακτηριστικά. Τα μοτίβα στο σύνολο δεδομένων αναλύονται και τα σημεία δεδομένων χωρίζονται σε ομάδες με βάση αυτά τα μοτίβα, δημιουργώντας ουσιαστικά τις δικές τους κατηγορίες. Ο αλγόριθμος K-Means λειτουργεί με το να αναθέτει κέντρα στις ομάδες, ή κέντρα, και να μετακινεί τα κέντρα μέχρι να βρεθεί η βέλτιστη θέση για τα κέντρα. Η βέλτιστη θέση θα είναι εκείνη όπου η απόσταση μεταξύ των κέντρων και των γύρω σημείων δεδομένων μέσα στην κατηγορία είναι ελαχιστοποιημένη. Το “K” στην K-Means ομαδοποίηση αναφέρεται σε πόσα κέντρα έχουν επιλεγεί.

Περίληψη

Για να κλείσουμε, ας ξαναδούμε γρήγορα τις βασικές διαφορές μεταξύ εποπτισμένης και μη εποπτισμένης μάθησης.

Όπως συζητήσαμε προηγουμένως, στις εργασίες εποπτισμένης μάθησης τα δεδομένα εισόδου έχουν ετικέτα και ο αριθμός των κατηγοριών είναι γνωστός. Εν τω μεταξύ, τα δεδομένα εισόδου είναι χωρίς ετικέτα και ο αριθμός των κατηγοριών δεν είναι γνωστός στις περιπτώσεις μη εποπτισμένης μάθησης. Η μη εποπτισμένη μάθηση έχει την τάση να είναι λιγότερο υπολογιστικά σύνθετη, ενώ η εποπτισμένη μάθηση έχει την τάση να είναι περισσότερο υπολογιστικά σύνθετη. Ενώ τα αποτελέσματα της εποπτισμένης μάθησης έχουν την τάση να είναι πολύ ακριβή, τα αποτελέσματα της μη εποπτισμένης μάθησης έχουν την τάση να είναι λιγότερο ακριβή/μετρίως ακριβή.

Blogger και προγραμματιστής με ειδικότητες στα Machine Learning και Deep Learning θέματα. Ο Daniel ελπίζει να βοηθήσει τους άλλους να χρησιμοποιήσουν τη δύναμη του AI για κοινωνικό καλό.