στέλεχος Τι είναι το NLP (Natural Language Processing); - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

Τι είναι το NLP (Natural Language Processing);

mm
Ενημερώθηκε on

Επεξεργασία φυσικής γλώσσας (NLP) είναι η μελέτη και εφαρμογή τεχνικών και εργαλείων που επιτρέπουν στους υπολογιστές να επεξεργάζονται, να αναλύουν, να ερμηνεύουν και να αιτιολογούν την ανθρώπινη γλώσσα. Το NLP είναι ένα διεπιστημονικό πεδίο και συνδυάζει τεχνικές που έχουν καθιερωθεί σε τομείς όπως η γλωσσολογία και η επιστήμη των υπολογιστών. Αυτές οι τεχνικές χρησιμοποιούνται σε συνεργασία με την τεχνητή νοημοσύνη για τη δημιουργία chatbot και ψηφιακών βοηθών όπως το Google Assistant και το Alexa της Amazon.

Ας αφιερώσουμε λίγο χρόνο για να εξερευνήσουμε το σκεπτικό πίσω από την Επεξεργασία Φυσικής Γλώσσας, μερικές από τις τεχνικές που χρησιμοποιούνται στο NLP και ορισμένες περιπτώσεις κοινών χρήσεων για το NLP.

Γιατί έχει σημασία η Επεξεργασία Φυσικής Γλώσσας (NLP).

Προκειμένου οι υπολογιστές να ερμηνεύουν την ανθρώπινη γλώσσα, πρέπει να μετατραπούν σε μια μορφή που μπορεί να χειριστεί ένας υπολογιστής. Ωστόσο, αυτό δεν είναι τόσο απλό όσο η μετατροπή δεδομένων κειμένου σε αριθμούς. Προκειμένου να αντληθεί νόημα από την ανθρώπινη γλώσσα, τα πρότυπα πρέπει να εξαχθούν από τις εκατοντάδες ή χιλιάδες λέξεις που συνθέτουν ένα έγγραφο κειμένου. Αυτό δεν είναι εύκολο έργο. Υπάρχουν λίγοι αυστηροί και γρήγοροι κανόνες που μπορούν να εφαρμοστούν στην ερμηνεία της ανθρώπινης γλώσσας. Για παράδειγμα, το ίδιο ακριβώς σύνολο λέξεων μπορεί να σημαίνει διαφορετικά πράγματα ανάλογα με το πλαίσιο. Η ανθρώπινη γλώσσα είναι ένα περίπλοκο και συχνά διφορούμενο πράγμα, και μια δήλωση μπορεί να εκφωνηθεί με ειλικρίνεια ή σαρκασμό.

Παρόλα αυτά, υπάρχουν ορισμένες γενικές οδηγίες που μπορούν να χρησιμοποιηθούν κατά την ερμηνεία λέξεων και χαρακτήρων, όπως ο χαρακτήρας «s» που χρησιμοποιείται για να δηλώσει ότι ένα στοιχείο είναι πληθυντικός. Αυτές οι γενικές κατευθυντήριες γραμμές πρέπει να χρησιμοποιούνται σε συνεννόηση μεταξύ τους για την εξαγωγή νοήματος από το κείμενο, για τη δημιουργία χαρακτηριστικών που μπορεί να ερμηνεύσει ένας αλγόριθμος μηχανικής μάθησης.

Η Επεξεργασία Φυσικής Γλώσσας περιλαμβάνει την εφαρμογή διαφόρων αλγορίθμων ικανών να λαμβάνουν μη δομημένα δεδομένα και να τα μετατρέπουν σε δομημένα δεδομένα. Εάν αυτοί οι αλγόριθμοι εφαρμοστούν με λάθος τρόπο, ο υπολογιστής συχνά θα αποτυγχάνει να αντλήσει το σωστό νόημα από το κείμενο. Αυτό μπορεί συχνά να φανεί στη μετάφραση κειμένου μεταξύ γλωσσών, όπου συχνά χάνεται το ακριβές νόημα της πρότασης. Ενώ η αυτόματη μετάφραση έχει βελτιωθεί σημαντικά τα τελευταία χρόνια, τα σφάλματα μηχανικής μετάφρασης εξακολουθούν να συμβαίνουν συχνά.

Τεχνικές Επεξεργασίας Φυσικής Γλώσσας (NLP).

Φωτογραφία: Tamur μέσω WikiMedia Commons, Public Domain (https://commons.wikimedia.org/wiki/File:ParseTree.svg)

Πολλά από τα τεχνικές που χρησιμοποιούνται στην επεξεργασία της φυσικής γλώσσας μπορούν να τοποθετηθούν σε μία από τις δύο κατηγορίες: σύνταξη ή σημασιολογία. Οι συντακτικές τεχνικές είναι αυτές που ασχολούνται με τη σειρά των λέξεων, ενώ οι σημασιολογικές τεχνικές είναι οι τεχνικές που εμπεριέχουν το νόημα των λέξεων.

Συντακτικές Τεχνικές NLP

Παραδείγματα σύνταξης περιλαμβάνουν:

  • Εξευγενισμός
  • Μορφολογική Τμηματοποίηση
  • Επισήμανση μέρους του λόγου
  • Τεχνολογία
  • Σπάζοντας ποινή
  • Βλάστηση
  • Τμηματοποίηση λέξεων

Η ληματοποίηση αναφέρεται στην απόσταξη των διαφορετικών εγκλίσεων μιας λέξης σε μια ενιαία μορφή. Η λημματοποίηση παίρνει πράγματα όπως χρόνους και πληθυντικούς και τα απλοποιεί, για παράδειγμα, τα «πόδια» μπορεί να γίνουν «πόδι» και οι «ρίγες» μπορεί να γίνουν «ρίγα». Αυτή η απλοποιημένη μορφή λέξης διευκολύνει έναν αλγόριθμο να ερμηνεύσει τις λέξεις σε ένα έγγραφο.

Μορφολογική κατάτμηση είναι η διαδικασία διαίρεσης των λέξεων σε μορφώματα ή τις βασικές μονάδες μιας λέξης. Αυτές οι μονάδες είναι πράγματα σαν δωρεάν morphemes (που μπορεί να στέκεται μόνο του ως λέξεις) και προθέματα ή επιθήματα.

Επισήμανση μέρους του λόγου είναι απλώς η διαδικασία προσδιορισμού του τμήματος του λόγου κάθε λέξη σε ένα έγγραφο εισόδου.

Τεχνολογία αναφέρεται στην ανάλυση όλων των λέξεων σε μια πρόταση και στον συσχετισμό τους με τις τυπικές γραμματικές τους ετικέτες ή στη γραμματική ανάλυση για όλες τις λέξεις.

Σπάσιμο πρότασης ή τμηματοποίηση ορίων πρότασης, αναφέρεται στο να αποφασίσετε πού αρχίζει και πού τελειώνει μια πρόταση.

Βλάστηση είναι η διαδικασία αναγωγής των λέξεων στη ρίζα της λέξης. Για παράδειγμα, η σύνδεση, η σύνδεση και οι συνδέσεις θα προέρχονται από τη «σύνδεση».

Τμηματοποίηση λέξεων είναι η διαδικασία διαίρεσης μεγάλων κομματιών κειμένου σε μικρές ενότητες, οι οποίες μπορεί να είναι λέξεις ή ενότητες με βάση/λεμματοποιημένες.

Σημασιολογικές Τεχνικές NLP

Οι σημασιολογικές τεχνικές NLP περιλαμβάνουν τεχνικές όπως:

  • Αναγνωρισμένη οντότητα
  • Φυσική Γλώσσα
  • Αποσαφήνιση λέξης-αίσθησης

Αναγνωρισμένη οντότητα περιλαμβάνει την προσθήκη ετικετών σε ορισμένα τμήματα κειμένου που μπορούν να τοποθετηθούν σε μία από πολλές διαφορετικές προκαθορισμένες ομάδες. Οι προκαθορισμένες κατηγορίες περιλαμβάνουν πράγματα όπως ημερομηνίες, πόλεις, μέρη, εταιρείες και άτομα.

Φυσική παραγωγή γλωσσών είναι η διαδικασία χρήσης βάσεων δεδομένων για τη μετατροπή δομημένων δεδομένων σε φυσική γλώσσα. Για παράδειγμα, τα στατιστικά στοιχεία για τον καιρό, όπως η θερμοκρασία και η ταχύτητα του ανέμου θα μπορούσαν να συνοψιστούν με φυσική γλώσσα.

Η αποσαφήνιση λέξης είναι η διαδικασία απόδοσης νοήματος σε λέξεις μέσα σε ένα κείμενο με βάση το πλαίσιο στο οποίο εμφανίζονται οι λέξεις.

Μοντέλα βαθιάς μάθησης για NLP

Τα κανονικά πολυστρωματικά perceptrons δεν είναι σε θέση να χειριστούν την ερμηνεία διαδοχικών δεδομένων, όπου η σειρά των πληροφοριών είναι σημαντική. Προκειμένου να αντιμετωπιστεί η σημασία της τάξης στα διαδοχικά δεδομένα, χρησιμοποιείται ένας τύπος νευρωνικού δικτύου που διατηρεί πληροφορίες από προηγούμενα χρονικά βήματα στην εκπαίδευση.

Επαναλαμβανόμενα νευρωνικά δίκτυα είναι τύποι νευρωνικών δικτύων που βρόχο πάνω από δεδομένα από προηγούμενα χρονικά βήματα, λαμβάνοντας τα υπόψη κατά τον υπολογισμό των βαρών του τρέχοντος χρονικού βήματος. Ουσιαστικά, τα RNN έχουν τρεις παραμέτρους που χρησιμοποιούνται κατά τη διάρκεια του μπροστινού περάσματος εκπαίδευσης: έναν πίνακα που βασίζεται στην Προηγούμενη Κρυφή Κατάσταση, έναν πίνακα που βασίζεται στην Τρέχουσα Είσοδο και έναν πίνακα που βρίσκεται μεταξύ της κρυφής κατάστασης και της εξόδου. Επειδή τα RNN μπορούν να λαμβάνουν υπόψη πληροφορίες από προηγούμενα χρονικά βήματα, μπορούν να εξάγουν σχετικά μοτίβα από δεδομένα κειμένου λαμβάνοντας υπόψη προηγούμενες λέξεις στην πρόταση κατά την ερμηνεία της σημασίας μιας λέξης.

Ένας άλλος τύπος αρχιτεκτονικής βαθιάς μάθησης που χρησιμοποιείται για την επεξεργασία δεδομένων κειμένου είναι ένα δίκτυο Μακροπρόθεσμης Μνήμης (LSTM).. Τα δίκτυα LSTM είναι παρόμοια με τα RNN στη δομή, αλλά λόγω κάποιων διαφορών στην αρχιτεκτονική τους τείνουν να αποδίδουν καλύτερα από τα RNN. Αποφεύγουν ένα συγκεκριμένο πρόβλημα που εμφανίζεται συχνά όταν χρησιμοποιούνται RNN που ονομάζονται το πρόβλημα εκρηκτικής κλίσης.

Αυτά τα βαθιά νευρωνικά δίκτυα μπορεί να είναι είτε μονής κατεύθυνσης είτε αμφίδρομα. Τα αμφίδρομα δίκτυα είναι ικανά να λαμβάνουν υπόψη όχι μόνο τις λέξεις που προηγούνται της τρέχουσας λέξης, αλλά και τις λέξεις που έρχονται μετά από αυτήν. Αν και αυτό οδηγεί σε υψηλότερη ακρίβεια, είναι πιο ακριβό υπολογιστικά.

Περιπτώσεις χρήσης για επεξεργασία φυσικής γλώσσας (NLP)

Φωτογραφία: mohammed_hassan via Pixabay, Pixabay License (https://pixabay.com/illustrations/chatbot-chat-application-artificial-3589528/)

Επειδή η Επεξεργασία Φυσικής Γλώσσας περιλαμβάνει την ανάλυση και τον χειρισμό ανθρώπινων γλωσσών, έχει ένα απίστευτα ευρύ φάσμα εφαρμογών. Οι πιθανές εφαρμογές για το NLP περιλαμβάνουν chatbots, ψηφιακούς βοηθούς, ανάλυση συναισθήματος, οργάνωση εγγράφων, πρόσληψη ταλέντων και υγειονομική περίθαλψη.

Τα chatbot και οι ψηφιακοί βοηθοί όπως το Alexa της Amazon και το Google Assistant είναι παραδείγματα πλατφορμών αναγνώρισης και σύνθεσης φωνής που χρησιμοποιούν το NLP για να ερμηνεύουν και να ανταποκρίνονται σε φωνητικές εντολές. Αυτοί οι ψηφιακοί βοηθοί βοηθούν τους ανθρώπους με μια μεγάλη ποικιλία εργασιών, επιτρέποντάς τους να μεταφορτώσουν ορισμένες από τις γνωστικές τους εργασίες σε μια άλλη συσκευή και να απελευθερώσουν μέρος του εγκεφάλου τους για άλλα, πιο σημαντικά πράγματα. Αντί να αναζητούμε την καλύτερη διαδρομή προς την τράπεζα ένα πολυάσχολο πρωί, μπορούμε απλώς να ζητήσουμε από τον ψηφιακό βοηθό μας να το κάνει.

Ανάλυση συναισθημάτων είναι η χρήση τεχνικών NLP για τη μελέτη των αντιδράσεων και των συναισθημάτων των ανθρώπων σε ένα φαινόμενο, όπως μεταδίδονται από τη χρήση της γλώσσας. Η αποτύπωση του συναισθήματος μιας δήλωσης, όπως η ερμηνεία του εάν μια κριτική ενός προϊόντος είναι καλή ή κακή, μπορεί να παρέχει στις εταιρείες ουσιαστικές πληροφορίες σχετικά με τον τρόπο λήψης του προϊόντος τους.

Η αυτόματη οργάνωση εγγράφων κειμένου είναι μια άλλη εφαρμογή του NLP. Εταιρείες όπως η Google και η Yahoo χρησιμοποιούν αλγόριθμους NLP για την ταξινόμηση των εγγράφων email, τοποθετώντας τα στους κατάλληλους κάδους, όπως "social" ή "promotions". Χρησιμοποιούν επίσης αυτές τις τεχνικές για να ταυτοποίηση ανεπιθύμητων μηνυμάτων και αποτρέψτε το να φτάσει στα εισερχόμενά σας.

Ομάδες έχουν επίσης αναπτύξει τεχνικές NLP που χρησιμοποιούνται για τον εντοπισμό πιθανών προσλήψεων εργασίας, βρίσκοντάς τες με βάση τις σχετικές δεξιότητες. Οι διευθυντές προσλήψεων χρησιμοποιούν επίσης τεχνικές NLP για να τους βοηθήσουν να ταξινομήσουν τις λίστες των αιτούντων.

Οι τεχνικές NLP χρησιμοποιούνται επίσης για την ενίσχυση της υγειονομικής περίθαλψης. Το NLP μπορεί να χρησιμοποιηθεί για τη βελτίωση της ανίχνευσης ασθενειών. Τα αρχεία υγείας μπορούν να αναλυθούν και τα συμπτώματα να εξαχθούν με αλγόριθμους NLP, οι οποίοι στη συνέχεια μπορούν να χρησιμοποιηθούν για να προτείνουν πιθανές διαγνώσεις. Ένα παράδειγμα αυτού είναι η πλατφόρμα Comprehend Medical της Amazon, η οποία αναλύει αρχεία υγείας και εξάγει ασθένειες και θεραπείες. Οι εφαρμογές υγειονομικής περίθαλψης του NLP επεκτείνονται και στην ψυχική υγεία. Υπάρχουν εφαρμογές όπως το WoeBot, το οποίο μιλά στους χρήστες μέσω μιας ποικιλίας τεχνικών διαχείρισης άγχους που βασίζονται στη Γνωσιακή Συμπεριφορική Θεραπεία.

Blogger και προγραμματιστής με ειδικότητες στο Μηχανική μάθηση και Βαθιά μάθηση Θέματα. Ο Daniel ελπίζει να βοηθήσει άλλους να χρησιμοποιήσουν τη δύναμη της τεχνητής νοημοσύνης για κοινωνικό καλό.

Πρόσφατες δημοσιεύσεις