AI 101

Πώς λειτουργεί η ταξινόμηση κειμένων;

Ενημερώθηκε on Αύγουστος 23, 2020

Ταξινόμηση κειμένων είναι η διαδικασία ανάλυσης αλληλουχιών κειμένων και ανάθεσης μιας ετικέτας, τοποθέτησής τους σε μια ομάδα με βάση το περιεχόμενό τους. Η ταξινόμηση κειμένου βασίζεται σχεδόν σε κάθε εργασία τεχνητής νοημοσύνης ή μηχανικής μάθησης που περιλαμβάνει την Επεξεργασία Φυσικής Γλώσσας (NLP). Με την ταξινόμηση κειμένου, ένα πρόγραμμα υπολογιστή μπορεί να εκτελέσει μια μεγάλη ποικιλία διαφορετικών εργασιών όπως η αναγνώριση ανεπιθύμητων μηνυμάτων, η ανάλυση συναισθημάτων και οι λειτουργίες chatbot. Πώς ακριβώς λειτουργεί η ταξινόμηση κειμένου; Ποιες είναι οι διαφορετικές μέθοδοι για την πραγματοποίηση της ταξινόμησης κειμένων; Θα διερευνήσουμε τις απαντήσεις σε αυτές τις ερωτήσεις παρακάτω.

Καθορισμός ταξινόμησης κειμένων

Είναι σημαντικό να αφιερώσουμε λίγο χρόνο και να βεβαιωθούμε ότι καταλαβαίνουμε τι είναι η ταξινόμηση κειμένου, γενικά, πριν εμβαθύνουμε στις διάφορες μεθόδους ταξινόμησης κειμένων. Η ταξινόμηση κειμένου είναι ένας από εκείνους τους όρους που εφαρμόζεται σε πολλές διαφορετικές εργασίες και αλγόριθμους, επομένως είναι χρήσιμο να βεβαιωθείτε ότι κατανοούμε τη βασική έννοια της ταξινόμησης κειμένου πριν προχωρήσουμε στην εξερεύνηση των διαφορετικών τρόπων με τους οποίους μπορεί να εκτελεστεί.

Οτιδήποτε περιλαμβάνει τη δημιουργία διαφορετικών κατηγοριών για κείμενο και στη συνέχεια την επισήμανση διαφορετικών δειγμάτων κειμένου ως αυτές τις κατηγορίες, μπορεί να θεωρηθεί ταξινόμηση κειμένου. Εφόσον ένα σύστημα εκτελεί αυτά τα βασικά βήματα, μπορεί να θεωρηθεί ως ταξινομητής κειμένου, ανεξάρτητα από την ακριβή μέθοδο που χρησιμοποιείται για την ταξινόμηση του κειμένου και ανεξάρτητα από τον τρόπο με τον οποίο εφαρμόζεται τελικά ο ταξινομητής κειμένου. Ο εντοπισμός ανεπιθύμητων μηνυμάτων ηλεκτρονικού ταχυδρομείου, η οργάνωση εγγράφων ανά θέμα ή τίτλος και η αναγνώριση του συναισθήματος μιας κριτικής για ένα προϊόν είναι όλα παραδείγματα ταξινόμησης κειμένου, επειδή επιτυγχάνονται με τη λήψη κειμένου ως εισαγωγή και την έξοδο μιας ετικέτας τάξης για αυτό το κομμάτι κειμένου.

Πώς λειτουργεί η ταξινόμηση κειμένων;

Φωτογραφία: Quinn Dombrowski μέσω Flickr, CC BY SA 2.0 , (https://www.flickr.com/photos/quinnanya/4714794045)

Οι περισσότερες μέθοδοι ταξινόμησης κειμένου μπορούν να τοποθετηθούν σε μία από τις τρεις διαφορετικές κατηγορίες: μεθόδους που βασίζονται σε κανόνες ή μεθόδους μηχανικής μάθησης.

Μέθοδοι ταξινόμησης βάσει κανόνων

Οι μέθοδοι ταξινόμησης κειμένου που βασίζονται σε κανόνες λειτουργούν μέσω της χρήσης ρητά σχεδιασμένων γλωσσικών κανόνων. Το σύστημα χρησιμοποιεί τους κανόνες που δημιουργήθηκαν από τον μηχανικό για να καθορίσει σε ποια κατηγορία πρέπει να ανήκει ένα δεδομένο κομμάτι κειμένου, αναζητώντας ενδείξεις με τη μορφή σημασιολογικά σχετικών στοιχείων κειμένου. Κάθε κανόνας έχει ένα μοτίβο που πρέπει να ταιριάζει το κείμενο για να τοποθετηθεί στην αντίστοιχη κατηγορία.

Για να γίνουμε πιο συγκεκριμένοι, ας υποθέσουμε ότι θέλετε να σχεδιάσετε έναν ταξινομητή κειμένου ικανό να διακρίνει κοινά θέματα συνομιλίας, όπως ο καιρός, οι ταινίες ή το φαγητό. Για να επιτρέψετε στον ταξινομητή κειμένου σας να αναγνωρίζει τη συζήτηση για τον καιρό, μπορείτε να του πείτε να αναζητήσει λέξεις που σχετίζονται με τον καιρό στο σώμα των δειγμάτων κειμένου που τροφοδοτούνται. Θα έχετε μια λίστα με λέξεις-κλειδιά, φράσεις και άλλα σχετικά μοτίβα που θα μπορούσαν να χρησιμοποιηθούν για τη διάκριση του θέματος. Για παράδειγμα, μπορείτε να δώσετε εντολή στον ταξινομητή να αναζητήσει λέξεις όπως "άνεμος", "βροχή", "ήλιος", "χιόνι" ή "σύννεφο". Στη συνέχεια, θα μπορούσατε να ζητήσετε από τον ταξινομητή να κοιτάξει μέσα από το κείμενο εισαγωγής και να μετρήσει πόσες φορές εμφανίζονται αυτές οι λέξεις στο σώμα του κειμένου και αν εμφανίζονται πιο συχνά από λέξεις που σχετίζονται με ταινίες, θα ταξινομήσετε το κείμενο ως ανήκον στην κατηγορία καιρού.

Το πλεονέκτημα των συστημάτων που βασίζονται σε κανόνες είναι ότι οι εισροές και οι εκροές τους είναι προβλέψιμες και ερμηνεύσιμες από τον άνθρωπο και μπορούν να βελτιωθούν με χειροκίνητη παρέμβαση του μηχανικού. Ωστόσο, οι μέθοδοι ταξινόμησης που βασίζονται σε κανόνες είναι επίσης κάπως εύθραυστες και συχνά δυσκολεύονται να γενικεύσουν επειδή μπορούν να τηρήσουν μόνο τα προκαθορισμένα μοτίβα που έχουν προγραμματιστεί. Για παράδειγμα, η λέξη "σύννεφο" θα μπορούσε να αναφέρεται στην υγρασία στο ουρανό, ή θα μπορούσε να αναφέρεται σε ένα ψηφιακό σύννεφο όπου αποθηκεύονται δεδομένα. Είναι δύσκολο για συστήματα που βασίζονται σε κανόνες να χειριστούν αυτές τις αποχρώσεις χωρίς οι μηχανικοί να ξοδεύουν αρκετό χρόνο προσπαθώντας να προβλέψουν και να προσαρμόσουν χειροκίνητα αυτές τις λεπτές αποχρώσεις.

Συστήματα Μηχανικής Μάθησης

Όπως αναφέρθηκε παραπάνω, τα συστήματα που βασίζονται σε κανόνες έχουν περιορισμούς, καθώς οι λειτουργίες και οι κανόνες τους πρέπει να είναι προγραμματισμένοι εκ των προτέρων. Αντίθετα, τα συστήματα ταξινόμησης που βασίζονται στη μηχανική μάθηση λειτουργούν με την εφαρμογή αλγορίθμων που αναλύουν σύνολα δεδομένων για μοτίβα που σχετίζονται με μια συγκεκριμένη κλάση.

Οι αλγόριθμοι μηχανικής εκμάθησης τροφοδοτούνται με προεπισημασμένες/προ-ταξινομημένες περιπτώσεις που αναλύονται για σχετικά χαρακτηριστικά. Αυτές οι προεπισημασμένες περιπτώσεις είναι τα δεδομένα εκπαίδευσης.

Ο ταξινομητής μηχανικής μάθησης αναλύει τα δεδομένα εκπαίδευσης και μαθαίνει μοτίβα που σχετίζονται με τις διαφορετικές κλάσεις. Μετά από αυτό, τα μη εμφανή στιγμιότυπα αφαιρούνται από τις ετικέτες τους και τροφοδοτούνται στον αλγόριθμο ταξινόμησης που εκχωρεί στα στιγμιότυπα μια ετικέτα. Στη συνέχεια, οι εκχωρημένες ετικέτες συγκρίνονται με τις αρχικές ετικέτες για να δούμε πόσο ακριβής ήταν ο ταξινομητής μηχανικής μάθησης, μετρώντας πόσο καλά έμαθε το μοντέλο ποια μοτίβα προβλέπουν ποιες κλάσεις.

Οι αλγόριθμοι μηχανικής μάθησης λειτουργούν με την ανάλυση αριθμητικών δεδομένων. Αυτό σημαίνει ότι για να χρησιμοποιηθεί ένας αλγόριθμος μηχανικής εκμάθησης σε δεδομένα κειμένου, το κείμενο πρέπει να μετατραπεί σε αριθμητική μορφή. Υπάρχουν διάφορες μέθοδοι κωδικοποίησης δεδομένων κειμένου ως αριθμητικών δεδομένων και δημιουργίας μεθόδων μηχανικής εκμάθησης γύρω από αυτά τα δεδομένα. Θα καλύψουμε μερικούς από τους διαφορετικούς τρόπους αναπαράστασης δεδομένων κειμένου παρακάτω.

Σακούλα με λέξεις

Τσάντα-από-λόγια είναι μια από τις πιο συχνά χρησιμοποιούμενες προσεγγίσεις για την κωδικοποίηση και την αναπαράσταση δεδομένων κειμένου. Ο όρος "bag-of-words" προέρχεται από το γεγονός ότι ουσιαστικά παίρνετε όλες τις λέξεις στα έγγραφα και τις βάζετε όλες σε μια "τσάντα" χωρίς να δίνετε προσοχή στη σειρά λέξεων ή τη γραμματική, δίνοντας προσοχή μόνο στη συχνότητα λέξεων στην τσάντα. Αυτό οδηγεί σε έναν μακρύ πίνακα, ή διάνυσμα, που περιέχει μια ενιαία αναπαράσταση όλων των λέξεων στα έγγραφα εισόδου. Έτσι, εάν υπάρχουν συνολικά 10000 μοναδικές λέξεις στα έγγραφα εισόδου, τα διανύσματα χαρακτηριστικών θα είναι 10000 λέξεις. Έτσι υπολογίζεται το μέγεθος του διανύσματος λέξης τσάντα/χαρακτηριστικό.

Φωτογραφία: gk_ via Machinelearning.co, (https://machinelearnings.co/text-classification-using-neural-networks-f5cd7b8765c6)

Αφού καθοριστεί το μέγεθος του διανύσματος χαρακτηριστικών, σε κάθε έγγραφο στη λίστα των συνολικών εγγράφων εκχωρείται το δικό του διάνυσμα γεμάτο με αριθμούς που υποδεικνύουν πόσες φορές η εν λόγω λέξη εμφανίζεται στο τρέχον έγγραφο. Αυτό σημαίνει ότι εάν η λέξη "φαγητό" εμφανίζεται οκτώ φορές σε ένα έγγραφο κειμένου, αυτό το αντίστοιχο διάνυσμα χαρακτηριστικών/πίνακας χαρακτηριστικών θα έχει ένα οκτώ στην αντίστοιχη θέση.

Με άλλα λόγια, όλες οι μοναδικές λέξεις που εμφανίζονται στα έγγραφα εισαγωγής συσσωρεύονται σε μια τσάντα και, στη συνέχεια, κάθε έγγραφο παίρνει ένα διάνυσμα λέξης του ίδιου μεγέθους, το οποίο στη συνέχεια συμπληρώνεται με τον αριθμό των φορών που εμφανίζονται οι διαφορετικές λέξεις στο έγγραφο .

Τα σύνολα δεδομένων κειμένου συχνά περιέχουν μεγάλο αριθμό μοναδικών λέξεων, αλλά οι περισσότερες από αυτές δεν χρησιμοποιούνται πολύ συχνά. Για το λόγο αυτό, ο αριθμός των λέξεων που χρησιμοποιούνται για τη δημιουργία του διανύσματος λέξης συνήθως περιορίζεται σε μια επιλεγμένη τιμή (N) και στη συνέχεια η διάσταση του διανύσματος χαρακτηριστικών θα είναι Nx1.

Συχνότητα όρου-Αντίστροφη συχνότητα εγγράφου (TF-IDF)

Ένας άλλος τρόπος για να αναπαραστήσετε ένα έγγραφο με βάση τις λέξεις σε αυτό είναι η μεταγλώττιση Συχνότητα όρου-Αντίστροφη συχνότητα εγγράφου (TF-IDF). Μια προσέγγιση TF-IDF δημιουργεί επίσης ένα διάνυσμα που αντιπροσωπεύει το έγγραφο με βάση τις λέξεις σε αυτό, αλλά σε αντίθεση με το Bag-of-words αυτές οι λέξεις είναι σταθμίζονται με περισσότερο από τη συχνότητά τους. Το TF-IDF εξετάζει τη σημασία των λέξεων στα έγγραφα, προσπαθώντας να ποσοτικοποιήσει πόσο σχετική είναι αυτή η λέξη με το θέμα του εγγράφου. Με άλλα λόγια, το TF-IDF αναλύει τη συνάφεια αντί για τη συχνότητα και οι μετρήσεις λέξεων σε ένα διάνυσμα χαρακτηριστικών αντικαθίστανται από μια βαθμολογία TF-IDF που υπολογίζεται σε σχέση με ολόκληρο το σύνολο δεδομένων.

Μια προσέγγιση TF-IDF λειτουργεί υπολογίζοντας πρώτα τη συχνότητα του όρου, τον αριθμό των φορών που εμφανίζονται οι μοναδικοί όροι σε ένα συγκεκριμένο έγγραφο. Ωστόσο, το TF-IDF φροντίζει επίσης να περιορίσει την επιρροή που ασκούν οι εξαιρετικά κοινές λέξεις όπως «το», «ή» και «και», καθώς αυτές οι «σημειώσεις» είναι πολύ συνηθισμένες αλλά μεταφέρουν πολύ λίγες πληροφορίες σχετικά με το περιεχόμενο του εγγράφου. Αυτές οι λέξεις πρέπει να ληφθούν υπόψη, κάτι στο οποίο αναφέρεται το τμήμα «αντίστροφης συχνότητας εγγράφων» του TF-IDF. Αυτό γίνεται επειδή όσο περισσότερα έγγραφα εμφανίζονται μια συγκεκριμένη λέξη, τόσο λιγότερο χρήσιμη είναι αυτή η λέξη για τη διάκρισή της από τα άλλα έγγραφα στη λίστα όλων των εγγράφων. Ο τύπος που χρησιμοποιεί το TF-IDF για να υπολογίσει τη σημασία μιας λέξης έχει σχεδιαστεί για να διατηρεί τις λέξεις που είναι οι πιο συχνές και οι πιο πλούσιες σημασιολογικά.

Τα διανύσματα χαρακτηριστικών που δημιουργούνται από την προσέγγιση TF-IDF περιέχουν κανονικοποιημένες τιμές που αθροίζονται σε ένα, εκχωρώντας σε κάθε λέξη μια σταθμισμένη τιμή όπως υπολογίζεται από τον τύπο TF-IDF.

Ενσωμάτωση λέξεων

Ενσωματώσεις λέξεων είναι μέθοδοι αναπαράστασης κειμένου που διασφαλίζουν ότι οι λέξεις με παρόμοια σημασία έχουν παρόμοιες αριθμητικές αναπαραστάσεις.

Ενσωματώσεις λέξεων λειτουργούν «διανυσματικά» λέξεων, που σημαίνει ότι αντιπροσωπεύουν λέξεις ως διανύσματα με πραγματική αξία σε ένα διανυσματικό χώρο. Τα διανύσματα υπάρχουν σε ένα πλέγμα ή μήτρα και έχουν κατεύθυνση και μήκος (ή μέγεθος). Όταν αναπαριστούν λέξεις ως διανύσματα, οι λέξεις μετατρέπονται σε διανύσματα που αποτελούνται από πραγματικές τιμές. Κάθε λέξη αντιστοιχίζεται σε ένα διάνυσμα και λέξεις που έχουν παρόμοια σημασία έχουν παρόμοια κατεύθυνση και μέγεθος. Αυτός ο τύπος κωδικοποίησης καθιστά δυνατό για έναν αλγόριθμο μηχανικής μάθησης να μάθει περίπλοκες σχέσεις μεταξύ λέξεων.

Οι ενσωματώσεις που αντιπροσωπεύουν διαφορετικές λέξεις δημιουργούνται σε σχέση με τον τρόπο χρήσης των εν λόγω λέξεων. Επειδή οι λέξεις που χρησιμοποιούνται με παρόμοιους τρόπους θα έχουν παρόμοια διανύσματα, η διαδικασία δημιουργίας ενσωματώσεων λέξεων μεταφράζει αυτόματα μέρος της σημασίας που έχουν οι λέξεις. Αντίθετα, η προσέγγιση μιας τσάντας λέξεων δημιουργεί εύθραυστες αναπαραστάσεις όπου διαφορετικές λέξεις θα έχουν ανόμοιες αναπαραστάσεις ακόμα κι αν χρησιμοποιούνται σε πολύ παρόμοια περιβάλλοντα.

Ως αποτέλεσμα, οι ενσωματώσεις λέξεων είναι καλύτερες στην αποτύπωση του πλαισίου των λέξεων μέσα σε μια πρόταση.

Υπάρχουν διαφορετικοί αλγόριθμοι και προσεγγίσεις που χρησιμοποιούνται για τη δημιουργία ενσωματώσεων λέξεων. Μερικές από τις πιο κοινές και αξιόπιστες μεθόδους ενσωμάτωσης λέξεων περιλαμβάνουν: ενσωμάτωση επιπέδων, word2vec και GloVe.

Ενσωμάτωση στρωμάτων

Ένας πιθανός τρόπος χρήσης ενσωματώσεων λέξεων παράλληλα με ένα σύστημα μηχανικής μάθησης/βαθιάς μάθησης είναι να χρησιμοποιήστε ένα στρώμα ενσωμάτωσης. Τα επίπεδα ενσωμάτωσης είναι επίπεδα βαθιάς εκμάθησης που μετατρέπουν λέξεις σε ενσωματώσεις, οι οποίες στη συνέχεια τροφοδοτούνται στο υπόλοιπο σύστημα βαθιάς μάθησης. Οι ενσωματώσεις λέξεων μαθαίνονται καθώς το δίκτυο εκπαιδεύεται για μια συγκεκριμένη εργασία που βασίζεται σε κείμενο.

Σε μια προσέγγιση ενσωμάτωσης λέξεων, παρόμοιες λέξεις θα έχουν παρόμοιες αναπαραστάσεις και θα είναι πιο κοντά η μία στην άλλη παρά σε ανόμοιες λέξεις.

Για να χρησιμοποιήσετε επίπεδα ενσωμάτωσης, το κείμενο πρέπει πρώτα να υποβληθεί σε προεπεξεργασία. Το κείμενο στο έγγραφο πρέπει να είναι κωδικοποιημένο και το μέγεθος του διανύσματος πρέπει να καθοριστεί εκ των προτέρων. Στη συνέχεια, το ένα καυτό κείμενο μετατρέπεται σε διανύσματα λέξεων και τα διανύσματα περνούν στο μοντέλο μηχανικής εκμάθησης.

Word2 Old

Word2 Old είναι μια άλλη κοινή μέθοδος ενσωμάτωσης λέξεων. Το Word2Vec χρησιμοποιεί στατιστικές μεθόδους για τη μετατροπή λέξεων σε ενσωματώσεις και έχει βελτιστοποιηθεί για χρήση με μοντέλα που βασίζονται σε νευρωνικά δίκτυα. Το Word2Vec αναπτύχθηκε από ερευνητές της Google και είναι μια από τις πιο συχνά χρησιμοποιούμενες μεθόδους ενσωμάτωσης, καθώς αποδίδει αξιόπιστα χρήσιμες, πλούσιες ενσωματώσεις. Οι αναπαραστάσεις Word2Vec είναι χρήσιμες για τον εντοπισμό σημασιολογικών και συντακτικών κοινών στη γλώσσα. Αυτό σημαίνει ότι οι αναπαραστάσεις του Word2Vec καταγράφουν σχέσεις μεταξύ παρόμοιων εννοιών, έχοντας τη δυνατότητα να διακρίνουν ότι η κοινότητα μεταξύ "Βασιλιάς" και "Βασίλισσας" είναι δικαιώματα και ότι "Βασιλιάς" υποδηλώνει "ανδρισμός" ενώ η Βασίλισσα υποδηλώνει "Γυναίκα".

Γάντι

GloVE ή Παγκόσμιο Διάνυσμα για αναπαράσταση λέξεων, βασίζεται στους αλγόριθμους ενσωμάτωσης που χρησιμοποιούνται από το Word2Vec. Οι μέθοδοι ενσωμάτωσης GloVe συνδυάζουν πτυχές τόσο του Word2Vec όσο και των τεχνικών παραγοντοποίησης μήτρας, όπως η Λανθάνουσα Σημασιολογική Ανάλυση. Το πλεονέκτημα του Word2Vec είναι ότι μπορεί να συλλάβει το περιβάλλον, αλλά ως συμβιβασμός καταγράφει ελάχιστα παγκόσμια στατιστικά στοιχεία κειμένου. Αντίθετα, οι παραδοσιακές διανυσματικές αναπαραστάσεις είναι καλές στον προσδιορισμό των παγκόσμιων στατιστικών στοιχείων κειμένου, αλλά δεν είναι χρήσιμες για τον προσδιορισμό του πλαισίου των λέξεων και των φράσεων. Το GloVE αντλεί από τις καλύτερες και των δύο προσεγγίσεων, δημιουργώντας πλαίσιο λέξεων με βάση τις παγκόσμιες στατιστικές κειμένου.

Σχετικά θέματα:σακούλα με λέξεις nlp ταξινόμηση κειμένου ενσωματώσεις λέξεων

Επόμενο

Πώς λειτουργεί η ταξινόμηση εικόνων;

Μην χάσετε

Τι είναι ο αυτοματισμός ρομποτικής διαδικασίας (RPA);

Ντάνιελ Νέλσον

Blogger και προγραμματιστής με ειδικότητες στο Μηχανική μάθηση και Βαθιά μάθηση Θέματα. Ο Daniel ελπίζει να βοηθήσει άλλους να χρησιμοποιήσουν τη δύναμη της τεχνητής νοημοσύνης για κοινωνικό καλό.