στέλεχος Τι είναι το Confusion Matrix; - Unite.AI
Συνδεθείτε μαζί μας
Masterclass AI:

AI 101

Τι είναι το Confusion Matrix;

mm
Ενημερώθηκε on

Ένα από τα πιο ισχυρά αναλυτικά εργαλεία στη μηχανική μάθηση και την επιστήμη δεδομένων η μήτρα σύγχυσης. Ο πίνακας σύγχυσης είναι ικανός να παρέχει στους ερευνητές λεπτομερείς πληροφορίες σχετικά με την απόδοση ενός ταξινομητή μηχανικής μάθησης σε σχέση με τις τάξεις-στόχους στο σύνολο δεδομένων. Ένας πίνακας σύγχυσης θα επιδεικνύει παραδείγματα εμφάνισης που έχουν ταξινομηθεί σωστά έναντι παραδειγμάτων με εσφαλμένη ταξινόμηση. Ας ρίξουμε μια πιο βαθιά ματιά στο πώς είναι δομημένος ένας πίνακας σύγχυσης και πώς μπορεί να ερμηνευτεί.

Τι είναι η μήτρα σύγχυσης;

Ας ξεκινήσουμε δίνοντας έναν απλό ορισμό του πίνακα σύγχυσης. Ο πίνακας σύγχυσης είναι ένα εργαλείο πρόβλεψης ανάλυσης. Συγκεκριμένα, είναι ένας πίνακας που εμφανίζει και συγκρίνει τις πραγματικές τιμές με τις προβλεπόμενες τιμές του μοντέλου. Στο πλαίσιο της μηχανικής μάθησης, ένας πίνακας σύγχυσης χρησιμοποιείται ως μέτρηση για την ανάλυση του τρόπου απόδοσης ενός ταξινομητή μηχανικής μάθησης σε ένα σύνολο δεδομένων. Ένας πίνακας σύγχυσης δημιουργεί μια απεικόνιση μετρήσεων όπως η ακρίβεια, η ακρίβεια, η ειδικότητα και η ανάκληση.

Ο λόγος που ο πίνακας σύγχυσης είναι ιδιαίτερα χρήσιμος είναι ότι, σε αντίθεση με άλλους τύπους μετρήσεων ταξινόμησης, όπως η απλή ακρίβεια, ο πίνακας σύγχυσης δημιουργεί μια πιο ολοκληρωμένη εικόνα του τρόπου απόδοσης ενός μοντέλου. Μόνο η χρήση μιας μετρικής όπως η ακρίβεια μπορεί να οδηγήσει σε μια κατάσταση όπου το μοντέλο προσδιορίζει εντελώς και συνεχώς εσφαλμένα μια κατηγορία, αλλά περνά απαρατήρητο επειδή κατά μέσο όρο η απόδοση είναι καλή. Εν τω μεταξύ, η μήτρα σύγχυσης δίνει μια σύγκριση διαφορετικών τιμών όπως τα ψευδώς αρνητικά, τα αληθινά αρνητικά, τα ψευδώς θετικά και τα αληθινά θετικά.

Ας ορίσουμε τις διαφορετικές μετρήσεις που αντιπροσωπεύει ένας πίνακας σύγχυσης.

Ανάκληση σε μια μήτρα σύγχυσης

Η ανάκληση είναι ο αριθμός των πραγματικά θετικών παραδειγμάτων διαιρεμένος με τον αριθμό των ψευδώς αρνητικών παραδειγμάτων και των συνολικών θετικών παραδειγμάτων. Με άλλα λόγια, η ανάκληση είναι αντιπροσωπευτική του ποσοστού των αληθινών θετικών παραδειγμάτων που έχει ταξινομήσει ένα μοντέλο μηχανικής μάθησης. Η ανάκληση δίνεται ως το ποσοστό των θετικών παραδειγμάτων που το μοντέλο μπόρεσε να ταξινομήσει από όλα τα θετικά παραδείγματα που περιέχονται στο σύνολο δεδομένων. Αυτή η τιμή μπορεί επίσης να αναφέρεται ως "ποσοστό επιτυχίας" και μια σχετική τιμή είναι "ευαισθησία”, το οποίο περιγράφει την πιθανότητα ανάκλησης ή το ποσοστό των γνήσιων θετικών προβλέψεων.

Ακρίβεια σε μια μήτρα σύγχυσης

Όπως και η ανάκληση, η ακρίβεια είναι μια τιμή που παρακολουθεί την απόδοση ενός μοντέλου από την άποψη της ταξινόμησης θετικού παραδείγματος. Ωστόσο, σε αντίθεση με την ανάκληση, η ακρίβεια αφορά το πόσα από τα παραδείγματα που το μοντέλο χαρακτηρίστηκε θετικό ήταν πραγματικά θετικά. Για να υπολογιστεί αυτό, ο αριθμός των αληθινών θετικών παραδειγμάτων διαιρείται με τον αριθμό των ψευδώς θετικών παραδειγμάτων συν τα αληθινά θετικά.

Για να γίνει η διάκριση μεταξύ ανάκληση και ακρίβεια σαφέστερη, η ακρίβεια στοχεύει να υπολογίσει το ποσοστό όλων των παραδειγμάτων που φέρουν την επισήμανση θετικά και ήταν πραγματικά θετικά, ενώ η ανάκληση παρακολουθεί το ποσοστό όλων των αληθινών θετικών παραδειγμάτων που το μοντέλο θα μπορούσε να αναγνωρίσει.

Ειδικότητα σε μια μήτρα σύγχυσης

Ενώ η ανάκληση και η ακρίβεια είναι τιμές που παρακολουθούν θετικά παραδείγματα και το πραγματικό θετικό ποσοστό, εξειδίκευση ποσοτικοποιεί το πραγματικό αρνητικό ποσοστό ή τον αριθμό των παραδειγμάτων που το μοντέλο όρισε ως αρνητικά που ήταν πραγματικά αρνητικά. Αυτό υπολογίζεται λαμβάνοντας τον αριθμό των παραδειγμάτων που ταξινομούνται ως αρνητικά και διαιρώντας τα με τον αριθμό των ψευδώς θετικών παραδειγμάτων σε συνδυασμό με τα αληθινά αρνητικά παραδείγματα.

Κάνοντας νόημα στη μήτρα σύγχυσης

Φωτογραφία: Jackverr μέσω Wikimedia Commons, (https://commons.wikimedia.org/wiki/File:ConfusionMatrix.png), CC BY SA 3.0

Παράδειγμα μήτρας σύγχυσης

Αφού ορίσουμε τους απαραίτητους όρους όπως η ακρίβεια, η ανάκληση, η ευαισθησία και η ειδικότητα, μπορούμε να εξετάσουμε πώς αυτές οι διαφορετικές τιμές αντιπροσωπεύονται σε έναν πίνακα σύγχυσης. Δημιουργείται ένας πίνακας σύγχυσης σε περιπτώσεις ταξινόμησης, που ισχύει όταν υπάρχουν δύο ή περισσότερες κλάσεις. Ο πίνακας σύγχυσης που δημιουργείται μπορεί να είναι τόσο ψηλός και ευρύς όσο χρειάζεται, χωρώντας τον επιθυμητό αριθμό κλάσεων, αλλά για λόγους απλότητας, θα εξετάσουμε έναν πίνακα σύγχυσης 2 x 2 για μια εργασία δυαδικής ταξινόμησης.

Για παράδειγμα, ας υποθέσουμε ότι χρησιμοποιείται ένας ταξινομητής για να προσδιοριστεί εάν ένας ασθενής έχει ασθένεια ή όχι. Τα χαρακτηριστικά θα τροφοδοτηθούν στον ταξινομητή και ο ταξινομητής θα επιστρέψει μία από τις δύο διαφορετικές ταξινομήσεις – είτε ο ασθενής δεν έχει τη νόσο είτε έχει.

Ας ξεκινήσουμε με την αριστερή πλευρά του πίνακα. Η αριστερή πλευρά του πίνακα σύγχυσης αντιπροσωπεύει τις προβλέψεις που έκανε ο ταξινομητής για τις μεμονωμένες κατηγορίες. Μια εργασία δυαδικής ταξινόμησης θα έχει δύο σειρές εδώ. Όσον αφορά το επάνω τμήμα του πίνακα, παρακολουθεί τις πραγματικές τιμές, τις πραγματικές ετικέτες κλάσεων, των παρουσιών δεδομένων.

Η ερμηνεία ενός πίνακα σύγχυσης μπορεί να γίνει εξετάζοντας πού τέμνονται οι γραμμές και οι στήλες. Ελέγξτε τις προβλέψεις του μοντέλου σε σχέση με τις αληθινές ετικέτες του μοντέλου. Σε αυτήν την περίπτωση, οι τιμές True Positives, ο αριθμός των σωστών θετικών προβλέψεων, βρίσκονται στην επάνω αριστερή γωνία. Τα ψευδώς θετικά στοιχεία βρίσκονται στην επάνω δεξιά γωνία, όπου τα παραδείγματα είναι στην πραγματικότητα αρνητικά, αλλά ο ταξινομητής το επισήμανε ως θετικό.

Η κάτω αριστερή γωνία του πλέγματος εμφανίζει περιπτώσεις που ο ταξινομητής έχει επισημάνει ως αρνητικές αλλά ήταν πραγματικά θετικές. Τέλος, στην κάτω δεξιά γωνία του πίνακα σύγχυσης βρίσκονται οι τιμές True Negative ή όπου βρίσκονται τα πραγματικά ψευδή παραδείγματα.

Όταν το σύνολο δεδομένων περιέχει περισσότερες από δύο κλάσεις, ο πίνακας αυξάνεται κατά τόσες κλάσεις. Για παράδειγμα, εάν υπάρχουν τρεις κλάσεις, ο πίνακας θα είναι ένας πίνακας 3 x 3. Ανεξάρτητα από το μέγεθος του πίνακα σύγχυσης, η μέθοδος ερμηνείας τους είναι ακριβώς η ίδια. Η αριστερή πλευρά περιέχει τις προβλεπόμενες τιμές και οι πραγματικές ετικέτες κλάσης τρέχουν στην κορυφή. Οι περιπτώσεις που ο ταξινομητής έχει προβλέψει σωστά εκτελούνται διαγώνια από πάνω αριστερά προς τα κάτω δεξιά. Εξετάζοντας τη μήτρα μπορείτε να διακρίνετε τις τέσσερις προγνωστικές μετρήσεις που συζητήθηκαν παραπάνω.

Για παράδειγμα, μπορείτε να υπολογίσετε την ανάκληση λαμβάνοντας τα αληθινά θετικά και τα ψευδώς αρνητικά, προσθέτοντάς τα μαζί και διαιρώντας τα με τον αριθμό των αληθινών θετικών παραδειγμάτων. Εν τω μεταξύ, η ακρίβεια μπορεί να υπολογιστεί συνδυάζοντας τα ψευδώς θετικά με τα αληθινά θετικά και στη συνέχεια διαιρώντας την τιμή στον συνολικό αριθμό των αληθινών θετικών.

Ενώ κάποιος θα μπορούσε να αφιερώσει χρόνο στον χειροκίνητο υπολογισμό μετρήσεων όπως η ακρίβεια, η ανάκληση και η ειδικότητα, αυτές οι μετρήσεις χρησιμοποιούνται τόσο συχνά που οι περισσότερες βιβλιοθήκες μηχανικής εκμάθησης έχουν μεθόδους εμφάνισης. Για παράδειγμα, το Scikit-learn για Python έχει μια συνάρτηση που δημιουργεί έναν πίνακα σύγχυσης.

Blogger και προγραμματιστής με ειδικότητες στο Μηχανική μάθηση και Βαθιά μάθηση Θέματα. Ο Daniel ελπίζει να βοηθήσει άλλους να χρησιμοποιήσουν τη δύναμη της τεχνητής νοημοσύνης για κοινωνικό καλό.