Τεχνητή νοημοσύνη 101
Τι είναι τα RNNs και LSTMs στη Βαθιά Μάθηση;

Πολλοί από τους πιο εντυπωσιακούς προόδους στη φυσική επεξεργασία γλώσσας και τους chatbots του AI οφείλονται στα Δικτυακά Νευρωνικά Δίκτυα (RNNs) και στα δίκτυα Μικρής και Μακράς Μνήμης (LSTM). Τα RNNs και LSTMs είναι ειδικές αρχιτεκτονικές νευρωνικών δικτύων που μπορούν να επεξεργαστούν σειριακά δεδομένα, δεδομένα όπου η χρονολογική διάταξη έχει σημασία. Τα LSTMs είναι ουσιαστικά βελτιωμένες εκδόσεις των RNNs, ικανές να ερμηνεύσουν μεγαλύτερες ακολουθίες δεδομένων. Ας δούμε πώς τα RNNs και LSTMs είναι δομημένα και πώς επιτρέπουν τη δημιουργία πολύπλοκων συστημάτων φυσικής επεξεργασίας γλώσσας.
Τι είναι τα Δικτυακά Νευρωνικά Δίκτυα Προώθησης;
Έτσι, πριν μιλήσουμε για το πώς λειτουργούν τα Δίκτυα Μικρής και Μακράς Μνήμης (LSTM) και τα Δίκτυα Συμβολής (CNN), θα πρέπει να συζητήσουμε το σχήμα ενός νευρωνικού δικτύου γενικά.
Ένα νευρωνικό δίκτυο έχει ως στόχο να εξετάσει τα δεδομένα και να μάθει σχετικές προτύπους, ώστε αυτά τα προτύπους να μπορούν να εφαρμοστούν σε άλλα δεδομένα και νέα δεδομένα να ταξινομηθούν. Τα νευρωνικά δίκτυα χωρίζονται σε τρεις ενότητες: ένα επίπεδο εισόδου, ένα κρυφό επίπεδο (ή πολλαπλά κρυφά επιπέδη) και ένα επίπεδο εξόδου.
Το επίπεδο εισόδου είναι αυτό που λαμβάνει τα δεδομένα στο νευρωνικό δίκτυο, ενώ τα κρυφά επιπέδη είναι αυτά που μαθαίνουν τα προτύπους στα δεδομένα. Τα κρυφά επιπέδη στο σύνολο των δεδομένων συνδέονται με τα επιπέδη εισόδου και εξόδου μέσω “βαρών” και “παρακαμπτήρων” που είναι απλώς υποθέσεις για το πώς τα δεδομένα σχετίζονται μεταξύ τους. Αυτές οι βαρύνσεις προσαρμόζονται κατά τη διάρκεια της εκπαίδευσης. Όσο το δίκτυο εκπαιδεύεται, οι υποθέσεις του μοντέλου για τα δεδομένα εκπαίδευσης (οι τιμές εξόδου) συγκρίνονται με τις πραγματικές ετικέτες εκπαίδευσης. Κατά τη διάρκεια της εκπαίδευσης, το δίκτυο πρέπει (ελπίζουμε) να γίνει πιο ακριβές στην πρόβλεψη των σχέσεων μεταξύ των δεδομένων, ώστε να μπορεί να ταξινομήσει ακριβώς νέα δεδομένα. Τα βαθιά νευρωνικά δίκτυα είναι δίκτυα που έχουν περισσότερα επιπέδη στη μέση/περισσότερα κρυφά επιπέδη. Όσο περισσότερα κρυφά επιπέδη και περισσότερα νεύρα/κόμβοι έχει το μοντέλο, τόσο καλύτερα μπορεί να αναγνωρίσει προτύπους στα δεδομένα.
Τα κανονικά, δίκτυα προώθησης, όπως αυτά που περιέγραψα παραπάνω, ονομάζονται συχνά “πυκνά νευρωνικά δίκτυα”. Αυτά τα πυκνά νευρωνικά δίκτυα συνδυάζονται με διαφορετικές αρχιτεκτονικές δικτύων που ειδικεύονται στην ερμηνεία διαφορετικών τύπων δεδομένων.
Τι είναι τα RNNs (Δικτυακά Νευρωνικά Δίκτυα);

Τα Δικτυακά Νευρωνικά Δίκτυα λαμβάνουν την γενική αρχή των δικτύων προώθησης και τους επιτρέπουν να χειριστούν σειριακά δεδομένα δίνοντας στο μοντέλο μια εσωτερική μνήμη. Το “Δικτυακό” μέρος του ονόματος RNN προέρχεται από το γεγονός ότι η είσοδος και η έξοδος形成循环. Μόλις η έξοδος του δικτύου παραχθεί, η έξοδος αντιγράφεται και επιστρέφεται στο δίκτυο ως είσοδος. Όταν λαμβάνεται μια απόφαση, όχι μόνο η τρέχουσα είσοδος και έξοδος αναλύονται, αλλά και η προηγούμενη είσοδος λαμβάνεται υπόψη. Με άλλα λόγια, αν η αρχική είσοδος για το δίκτυο είναι X και η έξοδος είναι H, και H και X1 (η επόμενη είσοδος στη σειρά δεδομένων) τροφοδοτούνται στο δίκτυο για την επόμενη φάση της μάθησης. Με αυτόν τον τρόπο, ο контекst των δεδομένων (οι προηγούμενες εισόδους) διατηρείται κατά την εκπαίδευση του δικτύου.
Το αποτέλεσμα αυτής της αρχιτεκτονικής είναι ότι τα RNNs είναι ικανά να χειριστούν σειριακά δεδομένα. Ωστόσο, τα RNNs υποφέρουν από μερικά προβλήματα. Τα RNNs υποφέρουν από το πρόβλημα της εξαφανιζόμενης και της εκρηκτικής κλίσης.
Το μήκος των ακολουθιών που μπορεί να ερμηνεύσει ένα RNN είναι tương đối περιορισμένο, ιδιαίτερα σε σύγκριση με τα LSTMs.
Τι είναι τα LSTMs (Δίκτυα Μικρής και Μακράς Μνήμης);
Τα Δίκτυα Μικρής και Μακράς Μνήμης μπορούν να θεωρηθούν ως επεκτάσεις των RNNs, εφαρμόζοντας ξανά την έννοια της διατήρησης του контекστ των εισόδων. Ωστόσο, τα LSTMs έχουν τροποποιηθεί με vài σημαντικούς τρόπους που τους επιτρέπουν να ερμηνεύσουν τα προηγούμενα δεδομένα με υπεροχή μεθόδους. Οι τροποποιήσεις που έγιναν στα LSTMs ασχολούνται με το πρόβλημα της εξαφανιζόμενης κλίσης και τους επιτρέπουν να λάβουν υπόψη πολύ μεγαλύτερες ακολουθίες εισόδων.

Τα μοντέλα LSTMs αποτελούνται από τρια διαφορετικά συστατικά, ή πύλες. Υπάρχει μια πύλη εισόδου, μια πύλη εξόδου και μια πύλη λήθης. Όπως και τα RNNs, τα LSTMs λαμβάνουν υπόψη τις εισόδους από την προηγούμενη χρονική στιγμή κατά την τροποποίηση της μνήμης του μοντέλου και των βαρών εισόδου. Η πύλη εισόδου λαμβάνει αποφάσεις για ποια τιμές είναι σημαντικές και πρέπει να επιτρέπονται να περάσουν από το μοντέλο. Eine σιγμοειδής συνάρτηση χρησιμοποιείται στην πύλη εισόδου, η οποία λαμβάνει αποφάσεις για ποια τιμές να περάσουν από το αναδρομικό δίκτυο. Ο αριθμός 0 απορρίπτει την τιμή, ενώ ο 1 τη διατηρεί. Eine συνάρτηση TanH χρησιμοποιείται επίσης εδώ, η οποία αποφασίζει πόσο σημαντικές είναι οι τιμές εισόδου για το μοντέλο, με εύρος από -1 έως 1.
Μετά τη λήψη υπόψη των τρεχουσών εισόδων και της κατάστασης μνήμης, η πύλη εξόδου αποφασίζει ποια τιμές να μεταφέρει στην επόμενη χρονική στιγμή. Στην πύλη εξόδου, οι τιμές αναλύονται και ανατίθενται μια σημασία που κυμαίνεται από -1 έως 1. Αυτό ρυθμίζει τα δεδομένα πριν αυτά μεταφερθούν στην επόμενη χρονική στιγμή. Τέλος, η δουλειά της πύλης λήθης είναι να απορρίψει τις πληροφορίες που το μοντέλο θεωρεί άσχετες για να λάβει μια απόφαση για τη φύση των τιμών εισόδου. Η πύλη λήθης χρησιμοποιεί μια σιγμοειδής συνάρτηση στις τιμές, με έξοδο αριθμούς μεταξύ 0 (απορρίψτε αυτή) και 1 (διατηρήστε αυτή).
Ένα δίκτυο LSTMs αποτελείται από ειδικές στρώσεις LSTMs που μπορούν να ερμηνεύσουν σειριακά δεδομένα λέξεων και πυκνά συνδεδεμένα στρώματα όπως αυτά που περιγράφηκαν παραπάνω. Μόλις τα δεδομένα περάσουν από τις στρώσεις LSTMs, προχωρούν στις πυκνά συνδεδεμένες στρώσεις.








