Connect with us

Τεχνητή νοημοσύνη 101

Τι είναι τα RNNs και LSTMs στη Βαθιά Μάθηση;

mm

Πολλοί από τους πιο εντυπωσιακούς προόδους στη φυσική επεξεργασία γλώσσας και τους chatbots AI οφείλονται στα Δικτυακά Νευρωνικά Δίκτυα (RNNs) και στα Δίκτυα Μικρής και Μακράς Μνήμης (LSTM). Τα RNNs και LSTMs είναι ειδικές αρχιτεκτονικές νευρωνικών δικτύων που μπορούν να επεξεργαστούν σειριακά δεδομένα, δεδομένα όπου η χρονολογική διάταξη έχει σημασία. Τα LSTMs είναι ουσιαστικά βελτιωμένες εκδοχές των RNNs, ικανές να ερμηνεύσουν μεγαλύτερες ακολουθίες δεδομένων. Ας δούμε πώς τα RNNs και LSTMs είναι δομημένα και πώς επιτρέπουν τη δημιουργία εξελιγμένων συστημάτων φυσικής επεξεργασίας γλώσσας.

Τι είναι τα Δικτυακά Νευρωνικά Δίκτυα Προώθησης;

Έτσι, πριν μιλήσουμε για το πώς λειτουργούν τα Δίκτυα Μικρής και Μακράς Μνήμης (LSTM) και τα Δικτυακά Νευρωνικά Δίκτυα Συγκλίνουσας (CNN), θα πρέπει να συζητήσουμε το σχήμα ενός νευρωνικού δικτύου γενικά.

Ένα νευρωνικό δίκτυο έχει ως στόχο να εξετάσει τα δεδομένα και να μάθει σχετικές προτύπες, ώστε αυτά τα προτύπες να μπορούν να εφαρμοστούν σε άλλα δεδομένα και νέα δεδομένα να ταξινομηθούν. Τα νευρωνικά δίκτυα χωρίζονται σε τρεις ενότητες: ένα επίπεδο εισόδου, ένα κρυφό επίπεδο (ή πολλά κρυφά επίπεδα) και ένα επίπεδο εξόδου.

Το επίπεδο εισόδου είναι αυτό που λαμβάνει τα δεδομένα στο νευρωνικό δίκτυο, ενώ τα κρυφά επίπεδα είναι αυτά που μαθαίνουν τα προτύπες στα δεδομένα. Τα κρυφά επίπεδα στο σύνολο είναι συνδεδεμένα με τα επίπεδα εισόδου και εξόδου από “βαρύτητες” και “πρεκαταρκτικά” που είναι απλώς υποθέσεις για το πώς τα σημεία δεδομένων σχετίζονται μεταξύ τους. Αυτές οι βαρύτητες điều chỉnhονται κατά τη διάρκεια της εκπαίδευσης. Όσο το δίκτυο εκπαιδεύεται, οι υποθέσεις του μοντέλου για τα δεδομένα εκπαίδευσης (οι τιμές εξόδου) συγκρίνονται με τις πραγματικές ετικέτες εκπαίδευσης. Κατά τη διάρκεια της εκπαίδευσης, το δίκτυο πρέπει (ελπίζουμε) να γίνει πιο ακριβές στην πρόβλεψη σχέσεων μεταξύ σημείων δεδομένων, ώστε να μπορεί να ταξινομήσει ακριβώς νέα σημεία δεδομένων. Τα βαθιά νευρωνικά δίκτυα είναι δίκτυα που έχουν περισσότερα επίπεδα στο μέσο/περισσότερα κρυφά επίπεδα. Όσο περισσότερα κρυφά επίπεδα και περισσότερα νευρωνικά κύτταρα έχει το μοντέλο, τόσο καλύτερα μπορεί να αναγνωρίσει προτύπες στα δεδομένα.

Τα κανονικά, δίκτυα προώθησης, όπως αυτά που περιέγραψα παραπάνω, ονομάζονται συχνά “πυκνά νευρωνικά δίκτυα”. Αυτά τα πυκνά νευρωνικά δίκτυα συνδυάζονται με διαφορετικές αρχιτεκτονικές δικτύων που ειδικεύονται στην ερμηνεία διαφορετικών τύπων δεδομένων.

Τι είναι τα RNNs (Δικτυακά Νευρωνικά Δίκτυα);

Τα Δικτυακά Νευρωνικά Δίκτυα λαμβάνουν την γενική αρχή των δικτύων προώθησης και τους επιτρέπουν να χειριστούν σειριακά δεδομένα δίνοντάς τους μια εσωτερική μνήμη. Το “Δικτυακό” μέρος του ονόματος RNN προέρχεται από το γεγονός ότι η είσοδος και η έξοδος形成 μια βρόχο. Μόλις η έξοδος του δικτύου παραχθεί, η έξοδος αντιγράφεται και επιστρέφεται στο δίκτυο ως είσοδος. Όταν λαμβάνεται μια απόφαση, όχι μόνο η τρέχουσα είσοδος και έξοδος αναλύονται, αλλά και η προηγούμενη είσοδος λαμβάνεται υπόψη. Για να το πούμε με άλλον τρόπο, αν η αρχική είσοδος για το δίκτυο είναι X και η έξοδος είναι H, και H και X1 (η επόμενη είσοδος στη σειρά δεδομένων) τροφοδοτούνται στο δίκτυο για την επόμενη φάση της μάθησης. Με αυτόν τον τρόπο, ο контекστς των δεδομένων (οι προηγούμενες εισόδους) διατηρείται κατά τη διάρκεια της εκπαίδευσης.

Το αποτέλεσμα αυτής της αρχιτεκτονικής είναι ότι τα RNNs είναι ικανά να χειριστούν σειριακά δεδομένα. Ωστόσο, τα RNNs πάσχουν από κάποια προβλήματα. Τα RNNs πάσχουν από το πρόβλημα της εξαφανιζόμενης και εκρηκτικής κλίσης.

Το μήκος των ακολουθιών που μπορεί να ερμηνεύσει ένα RNN είναι bastante περιορισμένο, ιδιαίτερα σε σύγκριση με τα LSTMs.

Τι είναι τα LSTMs (Δίκτυα Μικρής και Μακράς Μνήμης);

Τα Δίκτυα Μικρής και Μακράς Μνήμης μπορούν να θεωρηθούν επεκτάσεις των RNNs, εφαρμόζοντας еще μια φορά την концепτού της διατήρησης του контекστου των εισόδων. Ωστόσο, τα LSTMs έχουν τροποποιηθεί με几个 σημαντικούς τρόπους που τους επιτρέπουν να ερμηνεύσουν παλαιότερα δεδομένα με υπεροχήν μέθοδο. Οι αλλαγές που έγιναν στα LSTMs ασχολούνται με το πρόβλημα της εξαφανιζόμενης κλίσης και τους επιτρέπουν να λάβουν υπόψη πολύ μεγαλύτερες ακολουθίες εισόδου.

Τα μοντέλα LSTMs αποτελούνται από τρια διαφορετικά components, ή πύλες. Υπάρχει μια πύλη εισόδου, μια πύλη εξόδου και μια πύλη λήθης. Όπως και τα RNNs, τα LSTMs λαμβάνουν υπόψη τις εισόδους από το προηγούμενο βήμα όταν τροποποιούν τη μνήμη και τα βάρη εισόδου του μοντέλου. Η πύλη εισόδου λαμβάνει αποφάσεις για ποια τιμές είναι σημαντικές και πρέπει να επιτρέπονται να περάσουν από το μοντέλο. Eine sigmoid συνάρτηση χρησιμοποιείται στην πύλη εισόδου, η οποία λαμβάνει αποφάσεις για ποια τιμές να περάσουν από το αναδρομικό δίκτυο. Ο αριθμός 0 απορρίπτει την τιμή, ενώ ο 1 τη διατηρεί. Eine TanH συνάρτηση χρησιμοποιείται επίσης εδώ, η οποία αποφασίζει πόσο σημαντικές είναι οι τιμές εισόδου για το μοντέλο, κυμαίνονται από -1 έως 1.

Μετά τη λήψη υπόψη των τρεχουσών εισόδων και της κατάστασης μνήμης, η πύλη εξόδου αποφασίζει ποια τιμές να προωθήσει στο επόμενο βήμα. Στην πύλη εξόδου, οι τιμές αναλύονται και ανατίθενται μια σημασία που κυμαίνεται από -1 έως 1. Αυτό ρυθμίζει τα δεδομένα πριν αυτά προωθηθούν στην επόμενη χρονοβόρα υπολογισμό. Τέλος, η εργασία της πύλης λήθης είναι να απορρίψει τις πληροφορίες που το μοντέλο θεωρεί αχρήστης για να λάβει μια απόφαση για τη φύση των τιμών εισόδου. Η πύλη λήθης χρησιμοποιεί μια sigmoid συνάρτηση στις τιμές, εξόδου αριθμούς μεταξύ 0 (απορρίψτε αυτή) και 1 (διατηρήστε αυτή).

Ένα δίκτυο LSTMs αποτελείται από ειδικές στρώσεις LSTMs που μπορούν να ερμηνεύσουν σειριακά δεδομένα λέξεων και πυκνά συνδεδεμένα στρώματα όπως αυτά που περιγράφηκαν παραπάνω. Μόλις τα δεδομένα περάσουν από τις στρώσεις LSTMs, προχωρούν στα πυκνά συνδεδεμένα στρώματα.

Blogger και προγραμματιστής με ειδικότητες στα Machine Learning και Deep Learning θέματα. Ο Daniel ελπίζει να βοηθήσει τους άλλους να χρησιμοποιήσουν τη δύναμη του AI για κοινωνικό καλό.