στέλεχος Generative vs. Discriminative Machine Learning Models - Unite.AI
Συνδεθείτε μαζί μας
Masterclass AI:

AI 101

Μοντέλα Μηχανικής Μάθησης Γενετικής έναντι Διακρίσεων

mm
Ενημερώθηκε on

Ορισμένα μοντέλα μηχανικής μάθησης ανήκουν είτε στις κατηγορίες μοντέλων «γεννητικών» ή «διακριτικών». Κι όμως τι είναι η διαφορά μεταξύ αυτές οι δύο κατηγορίες μοντέλων; Τι σημαίνει για ένα μοντέλο να είναι διακριτικό ή γεννητικό;

Η σύντομη απάντηση είναι ότι τα παραγωγικά μοντέλα είναι εκείνα που περιλαμβάνουν την κατανομή του συνόλου δεδομένων, επιστρέφοντας μια πιθανότητα για ένα δεδομένο παράδειγμα. Τα παραγωγικά μοντέλα χρησιμοποιούνται συχνά για να προβλέψουν τι θα συμβεί στη συνέχεια σε μια ακολουθία. Εν τω μεταξύ, τα διακριτικά μοντέλα χρησιμοποιούνται είτε για ταξινόμηση είτε για παλινδρόμηση και επιστρέφουν μια πρόβλεψη με βάση υπό όρους πιθανότητα. Ας διερευνήσουμε τις διαφορές μεταξύ μοντέλων παραγωγής και διακρίσεων με περισσότερες λεπτομέρειες, ώστε να κατανοήσουμε πραγματικά τι διαχωρίζει τους δύο τύπους μοντέλων και πότε πρέπει να χρησιμοποιείται κάθε τύπος.

Μοντέλα Παραγωγής έναντι Διακρίσεων

Υπάρχουν διάφοροι τρόποι για να κατηγοριοποιήσετε ένα μοντέλο μηχανικής μάθησης. Ένα μοντέλο μπορεί να ταξινομηθεί ότι ανήκει σε διαφορετικές κατηγορίες όπως: παραγωγικά μοντέλα, διακριτικά μοντέλα, παραμετρικά μοντέλα, μη παραμετρικά μοντέλα, μοντέλα που βασίζονται σε δέντρα, μοντέλα που δεν βασίζονται σε δέντρα.

Αυτό το άρθρο θα επικεντρωθεί στις διαφορές μεταξύ μοντέλων παραγωγής και διακριτικών μοντέλων. Θα ξεκινήσουμε ορίζοντας τόσο παραγωγικά όσο και διακριτικά μοντέλα και στη συνέχεια θα εξερευνήσουμε ορισμένα παραδείγματα για κάθε τύπο μοντέλου.

Γενετικά μοντέλα

Μοντέλα παραγωγής είναι εκείνα που επικεντρώνονται στην κατανομή των κλάσεων μέσα στο σύνολο δεδομένων. Οι αλγόριθμοι μηχανικής μάθησης τυπικά μοντελοποιούν την κατανομή των σημείων δεδομένων. Τα παραγωγικά μοντέλα βασίζονται στην εύρεση κοινής πιθανότητας. Δημιουργία σημείων όπου ένα δεδομένο χαρακτηριστικό εισόδου και μια επιθυμητή έξοδος/ετικέτα υπάρχουν ταυτόχρονα.

Τα παραγωγικά μοντέλα χρησιμοποιούνται συνήθως για την εκτίμηση των πιθανοτήτων και της πιθανότητας, για τη μοντελοποίηση σημείων δεδομένων και τη διάκριση μεταξύ των κλάσεων με βάση αυτές τις πιθανότητες. Επειδή το μοντέλο μαθαίνει μια κατανομή πιθανότητας για το σύνολο δεδομένων, μπορεί να παραπέμψει σε αυτήν την κατανομή πιθανότητας για να δημιουργήσει νέα στιγμιότυπα δεδομένων. Τα παραγωγικά μοντέλα βασίζονται συχνά σε Θεώρημα Bayes να βρείτε την κοινή πιθανότητα, βρίσκοντας p(x,y). Ουσιαστικά, τα παραγωγικά μοντέλα μοντελοποιούν πώς δημιουργήθηκαν τα δεδομένα, απαντούν στην ακόλουθη ερώτηση:

"Ποια είναι η πιθανότητα αυτή η κλάση ή μια άλλη κλάση να δημιούργησε αυτό το σημείο/στιγμιότυπο δεδομένων;"

Παραδείγματα μοντέλων γενετικής μηχανικής μάθησης περιλαμβάνουν τη Linear Discriminant Analysis (LDA), τα μοντέλα Hidden Markov και δίκτυα Bayes, όπως το Naive Bayes.

Διακριτικά Μοντέλα

Ενώ τα παραγωγικά μοντέλα μαθαίνουν για την κατανομή του συνόλου δεδομένων, μεροληπτικά μοντέλα μάθετε για τα όρια μεταξύ των κλάσεων μέσα σε ένα σύνολο δεδομένων. Με τα διακριτικά μοντέλα, ο στόχος είναι η ταυτοποίηση το όριο της απόφασης μεταξύ των κλάσεων για την εφαρμογή αξιόπιστων ετικετών κλάσεων σε στιγμιότυπα δεδομένων. Τα διακριτικά μοντέλα διαχωρίζουν τις κλάσεις στο σύνολο δεδομένων χρησιμοποιώντας πιθανότητες υπό όρους, χωρίς να κάνουν υποθέσεις για μεμονωμένα σημεία δεδομένων.

Τα διακριτικά μοντέλα αποσκοπούν στην απάντηση στην ακόλουθη ερώτηση:

"Σε ποια πλευρά του ορίου απόφασης βρίσκεται αυτή η περίπτωση;"

Παραδείγματα διακριτικών μοντέλων στη μηχανική μάθηση περιλαμβάνουν μηχανές διανυσμάτων υποστήριξης, λογιστική παλινδρόμηση, δέντρα αποφάσεων και τυχαία δάση.

Διαφορές μεταξύ γενεσιουργού και διακριτικού

Ακολουθεί μια σύντομη περιγραφή των σημαντικών διαφορών μεταξύ μοντέλων παραγωγής και διακρίσεων.

Μοντέλα παραγωγής:

  • Τα παραγωγικά μοντέλα στοχεύουν στην αποτύπωση της πραγματικής κατανομής των κλάσεων στο σύνολο δεδομένων.
  • Τα παραγωγικά μοντέλα προβλέπουν την κοινή κατανομή πιθανοτήτων – p(x,y) – χρησιμοποιώντας το θεώρημα Bayes.
  • Τα παραγωγικά μοντέλα είναι υπολογιστικά ακριβά σε σύγκριση με τα διακριτικά μοντέλα.
  • Τα μοντέλα παραγωγής είναι χρήσιμα για εργασίες μηχανικής εκμάθησης χωρίς επίβλεψη.
  • Τα παραγωγικά μοντέλα επηρεάζονται από την παρουσία ακραίων τιμών περισσότερο από τα διακριτικά μοντέλα.

Διακριτικά μοντέλα:

  • Τα διακριτικά μοντέλα μοντελοποιούν το όριο απόφασης για τις κατηγορίες δεδομένων.
  • Τα διακριτικά μοντέλα μαθαίνουν την υπό όρους πιθανότητα – p(y|x).
  • Τα διακριτικά μοντέλα είναι υπολογιστικά φθηνά σε σύγκριση με τα μοντέλα παραγωγής.
  • Τα διακριτικά μοντέλα είναι χρήσιμα για εποπτευόμενες εργασίες μηχανικής εκμάθησης.
  • Τα διακριτικά μοντέλα έχουν το πλεονέκτημα ότι είναι πιο ανθεκτικά σε ακραίες τιμές, σε αντίθεση με τα παραγωγικά μοντέλα.
  • Τα διακριτικά μοντέλα είναι πιο ανθεκτικά σε ακραίες τιμές σε σύγκριση με τα παραγωγικά μοντέλα.

Θα εξερευνήσουμε τώρα εν συντομία μερικά διαφορετικά παραδείγματα μοντέλων μηχανικής μάθησης με δυνατότητα δημιουργίας και διάκρισης.

Παραδείγματα μοντέλων παραγωγής

Γραμμική ανάλυση διακρίσεων (LDA)

Μοντέλα LDA λειτουργούν με την εκτίμηση της διακύμανσης και του μέσου όρου των δεδομένων για κάθε κλάση στο σύνολο δεδομένων. Αφού υπολογιστεί ο μέσος όρος και οι διακυμάνσεις για κάθε τάξη, μπορούν να γίνουν προβλέψεις υπολογίζοντας την πιθανότητα ότι ένα δεδομένο σύνολο εισόδων ανήκει σε μια δεδομένη τάξη.

Κρυφά μοντέλα Markov

Markov Chains μπορεί να θεωρηθεί ως γραφήματα με πιθανότητες που δείχνουν πόσο πιθανό είναι να μετακινηθούμε από ένα σημείο της αλυσίδας, μια «κατάσταση», σε μια άλλη κατάσταση. Οι αλυσίδες Markov χρησιμοποιούνται για τον προσδιορισμό της πιθανότητας μετακίνησης από την κατάσταση j στην κατάσταση i, η οποία μπορεί να συμβολιστεί ως p(i,j). Αυτή είναι μόνο η κοινή πιθανότητα που αναφέρθηκε παραπάνω. Ένα κρυφό μοντέλο Markov είναι όπου χρησιμοποιείται μια αόρατη, μη παρατηρήσιμη αλυσίδα Markov. Τα δεδομένα εισόδου δίνονται στο μοντέλο και χρησιμοποιούνται οι πιθανότητες για την τρέχουσα κατάσταση και την κατάσταση που προηγείται αμέσως για τον υπολογισμό του πιο πιθανού αποτελέσματος.

Δίκτυα Bayesian

Μπεϋζιανά δίκτυα είναι ένας τύπος πιθανολογικού γραφικού μοντέλου. Αντιπροσωπεύουν εξαρτήσεις υπό όρους μεταξύ μεταβλητών, όπως αντιπροσωπεύονται από ένα κατευθυνόμενο άκυκλο γράφημα. Σε ένα Bayesian δίκτυο, κάθε άκρο του γραφήματος αντιπροσωπεύει μια υπό όρους εξάρτηση και κάθε κόμβος αντιστοιχεί σε μια μοναδική μεταβλητή. Η υπό όρους ανεξαρτησία για τις μοναδικές σχέσεις στο γράφημα μπορεί να χρησιμοποιηθεί για τον προσδιορισμό της κοινής κατανομής των μεταβλητών και τον υπολογισμό της κοινής πιθανότητας. Με άλλα λόγια, ένα δίκτυο Bayes συλλαμβάνει ένα υποσύνολο των ανεξάρτητων σχέσεων σε μια συγκεκριμένη κοινή κατανομή πιθανοτήτων.

Μόλις δημιουργηθεί και οριστεί σωστά ένα δίκτυο Bayes, με γνωστές Τυχαίες Μεταβλητές, Σχέσεις υπό όρους και Κατανομές Πιθανοτήτων, μπορεί να χρησιμοποιηθεί για την εκτίμηση της πιθανότητας γεγονότων ή αποτελεσμάτων.

Ένας από τους πιο συχνά χρησιμοποιούμενους τύπους Bayesian Networks είναι ένα μοντέλο Naive Bayes. Ένα μοντέλο Naive Bayes χειρίζεται την πρόκληση του υπολογισμού της πιθανότητας για σύνολα δεδομένων με πολλές παραμέτρους/μεταβλητές, αντιμετωπίζοντας όλα τα χαρακτηριστικά ως ανεξάρτητα το ένα από το άλλο.

Παραδείγματα Διακριτικών Μοντέλων

Υποστηρικτικές μηχανές υποστήριξης

Υποστήριξη διανυσματικά μηχανήματα λειτουργούν σχεδιάζοντας ένα όριο απόφασης μεταξύ σημείων δεδομένων, βρίσκοντας το όριο απόφασης που διαχωρίζει καλύτερα τις διαφορετικές κλάσεις στο σύνολο δεδομένων. Ο αλγόριθμος SVM σχεδιάζει είτε γραμμές είτε υπερεπίπεδα που διαχωρίζουν σημεία, για δισδιάστατους και τρισδιάστατους χώρους αντίστοιχα. Η SVM προσπαθεί να βρει τη γραμμή/υπερεπίπεδο που διαχωρίζει καλύτερα τις κατηγορίες προσπαθώντας να μεγιστοποιήσει το περιθώριο ή την απόσταση μεταξύ της γραμμής/υπερεπιπέδου στα πλησιέστερα σημεία. Τα μοντέλα SVM μπορούν επίσης να χρησιμοποιηθούν σε σύνολα δεδομένων που δεν διαχωρίζονται γραμμικά χρησιμοποιώντας το «κόλπο του πυρήνα» για τον εντοπισμό μη γραμμικών ορίων απόφασης.

Λογιστική παλινδρόμηση

Λογιστική παλινδρόμηση είναι ένας αλγόριθμος που χρησιμοποιεί μια συνάρτηση logit (log-odds) για να προσδιορίσει την πιθανότητα μια είσοδο να βρίσκεται σε μία από τις δύο καταστάσεις. Μια σιγμοειδής συνάρτηση χρησιμοποιείται για να «συμπιέσει» την πιθανότητα είτε προς το 0 είτε προς το 1, αληθές ή ψευδές. Οι πιθανότητες μεγαλύτερες από 0.50 θεωρούνται ως κατηγορία 1, ενώ οι πιθανότητες 0.49 ή χαμηλότερες θεωρούνται ως 0. Για το λόγο αυτό, η λογιστική παλινδρόμηση χρησιμοποιείται συνήθως σε προβλήματα δυαδικής ταξινόμησης. Ωστόσο, η λογιστική παλινδρόμηση μπορεί να εφαρμοστεί σε προβλήματα πολλαπλών κλάσεων χρησιμοποιώντας μια προσέγγιση ένα έναντι όλων, δημιουργώντας ένα δυαδικό μοντέλο ταξινόμησης για κάθε κλάση και προσδιορίζοντας την πιθανότητα ένα παράδειγμα να είναι μια κλάση στόχος ή μια άλλη κλάση στο σύνολο δεδομένων.

Δέντρο απόφασης

A δέντρο απόφασης Το μοντέλο λειτουργεί διαιρώντας ένα σύνολο δεδομένων σε όλο και μικρότερα τμήματα και όταν τα υποσύνολα δεν μπορούν να διαχωριστούν περαιτέρω, το αποτέλεσμα είναι ένα δέντρο με κόμβους και φύλλα. Οι κόμβοι σε ένα δέντρο αποφάσεων είναι όπου λαμβάνονται αποφάσεις σχετικά με τα σημεία δεδομένων χρησιμοποιώντας διαφορετικά κριτήρια φιλτραρίσματος. Τα φύλλα σε ένα δέντρο αποφάσεων είναι τα σημεία δεδομένων που έχουν ταξινομηθεί. Οι αλγόριθμοι δέντρου αποφάσεων μπορούν να χειριστούν τόσο αριθμητικά όσο και κατηγορικά δεδομένα και οι διαχωρισμοί στο δέντρο βασίζονται σε συγκεκριμένες μεταβλητές/χαρακτηριστικά.

Τυχαία δάση

A τυχαίο μοντέλο δάσους είναι βασικά απλώς μια συλλογή δέντρων απόφασης όπου οι προβλέψεις των μεμονωμένων δέντρων υπολογίζονται κατά μέσο όρο για να καταλήξουν σε μια τελική απόφαση. Ο αλγόριθμος τυχαίων δασών επιλέγει παρατηρήσεις και χαρακτηρίζει τυχαία, χτίζοντας τα μεμονωμένα δέντρα με βάση αυτές τις επιλογές.

Αυτό το άρθρο εκμάθησης θα διερευνήσει πώς να δημιουργήσετε ένα Box Plot στο Matplotlib. Τα διαγράμματα πλαισίου χρησιμοποιούνται για την απεικόνιση συνοπτικών στατιστικών στοιχείων ενός συνόλου δεδομένων, εμφανίζοντας χαρακτηριστικά της κατανομής, όπως το εύρος και η κατανομή των δεδομένων.

Blogger και προγραμματιστής με ειδικότητες στο Μηχανική μάθηση και Βαθιά μάθηση Θέματα. Ο Daniel ελπίζει να βοηθήσει άλλους να χρησιμοποιήσουν τη δύναμη της τεχνητής νοημοσύνης για κοινωνικό καλό.