Τεχνητή νοημοσύνη
Μοντέλα μεγάλων γλωσσών που βασίζονται σε αποκωδικοποιητή: Ένας πλήρης οδηγός
Μεγάλα γλωσσικά μοντέλα (LLM) έχουν φέρει επανάσταση στον τομέα της επεξεργασίας φυσικής γλώσσας (NLP) επιδεικνύοντας αξιοσημείωτες ικανότητες στη δημιουργία κειμένου που μοιάζει με άνθρωπο, απαντώντας σε ερωτήσεις και βοηθώντας σε ένα ευρύ φάσμα εργασιών που σχετίζονται με τη γλώσσα. Στον πυρήνα αυτών των ισχυρών μοντέλων βρίσκεται το αρχιτεκτονική μετασχηματιστή μόνο για αποκωδικοποιητή, μια παραλλαγή της αρχικής αρχιτεκτονικής μετασχηματιστή που προτείνεται στο πρωτόκολλο "Η προσοχή είναι το μόνο που χρειάζεστε” από τους Vaswani et al.
Σε αυτόν τον περιεκτικό οδηγό, θα εξερευνήσουμε την εσωτερική λειτουργία των LLM που βασίζονται σε αποκωδικοποιητές, εμβαθύνοντας στα θεμελιώδη δομικά στοιχεία, τις αρχιτεκτονικές καινοτομίες και τις λεπτομέρειες υλοποίησης που έχουν ωθήσει αυτά τα μοντέλα στην πρώτη γραμμή της έρευνας και των εφαρμογών NLP.
The Transformer Architecture: A Refresher
Πριν βουτήξουμε στις ιδιαιτερότητες των LLM που βασίζονται σε αποκωδικοποιητές, είναι απαραίτητο να επανεξετάσουμε την αρχιτεκτονική του μετασχηματιστή, τη βάση πάνω στην οποία χτίζονται αυτά τα μοντέλα. Ο μετασχηματιστής εισήγαγε μια νέα προσέγγιση στη μοντελοποίηση ακολουθιών, βασιζόμενος αποκλειστικά σε μηχανισμούς προσοχής για την καταγραφή εξαρτήσεων μεγάλης εμβέλειας στα δεδομένα, χωρίς την ανάγκη για επαναλαμβανόμενα ή συνελικτικά επίπεδα.
Η αρχική αρχιτεκτονική του μετασχηματιστή αποτελείται από δύο κύρια στοιχεία: έναν κωδικοποιητή και έναν αποκωδικοποιητή. Ο κωδικοποιητής επεξεργάζεται την ακολουθία εισόδου και δημιουργεί μια αναπαράσταση με βάση τα συμφραζόμενα, η οποία στη συνέχεια καταναλώνεται από τον αποκωδικοποιητή για την παραγωγή της ακολουθίας εξόδου. Αυτή η αρχιτεκτονική σχεδιάστηκε αρχικά για εργασίες μηχανικής μετάφρασης, όπου ο κωδικοποιητής επεξεργάζεται την πρόταση εισόδου στη γλώσσα πηγής και ο αποκωδικοποιητής δημιουργεί την αντίστοιχη πρόταση στη γλώσσα-στόχο.
Αυτοπροσοχή: Το κλειδί για την επιτυχία του Transformer
Στην καρδιά του μετασχηματιστής βρίσκεται ο μηχανισμός αυτοπροσοχής, μια ισχυρή τεχνική που επιτρέπει στο μοντέλο να ζυγίζει και να συγκεντρώνει πληροφορίες από διαφορετικές θέσεις στην ακολουθία εισαγωγής. Σε αντίθεση με τα παραδοσιακά μοντέλα ακολουθίας, τα οποία επεξεργάζονται τα διακριτικά εισόδου διαδοχικά, η αυτοπροσοχή επιτρέπει στο μοντέλο να καταγράφει εξαρτήσεις μεταξύ οποιουδήποτε ζεύγους διακριτικών, ανεξάρτητα από τη θέση τους στην ακολουθία.
Η λειτουργία αυτοπροσοχής μπορεί να χωριστεί σε τρία κύρια βήματα:
- Προβολές ερωτήματος, κλειδιού και τιμών: Η ακολουθία εισόδου προβάλλεται σε τρεις ξεχωριστές αναπαραστάσεις: ερωτήματα (Q), πλήκτρα (Κ), και αξιών (V). Αυτές οι προβολές λαμβάνονται πολλαπλασιάζοντας την είσοδο με πίνακες μαθημένου βάρους.
- Υπολογισμός βαθμολογίας προσοχής: Για κάθε θέση στην ακολουθία εισαγωγής, οι βαθμολογίες προσοχής υπολογίζονται λαμβάνοντας το γινόμενο κουκκίδων μεταξύ του αντίστοιχου διανύσματος ερωτήματος και όλων των διανυσμάτων κλειδιών. Αυτές οι βαθμολογίες αντιπροσωπεύουν τη συνάφεια κάθε θέσης με την τρέχουσα θέση που υποβάλλεται σε επεξεργασία.
- Σταθμισμένο άθροισμα αξιών: Οι βαθμολογίες προσοχής κανονικοποιούνται χρησιμοποιώντας μια συνάρτηση softmax και τα βάρη προσοχής που προκύπτουν χρησιμοποιούνται για τον υπολογισμό ενός σταθμισμένου αθροίσματος των διανυσμάτων τιμών, παράγοντας την αναπαράσταση εξόδου για την τρέχουσα θέση.
Η προσοχή πολλαπλών κεφαλιών, μια παραλλαγή του μηχανισμού αυτοπροσοχής, επιτρέπει στο μοντέλο να καταγράφει διαφορετικούς τύπους σχέσεων υπολογίζοντας τις βαθμολογίες προσοχής σε πολλαπλές «κεφαλέςΠαράλληλα, το καθένα έχει το δικό του σύνολο προβολών ερωτημάτων, κλειδιών και τιμών.
Αρχιτεκτονικές παραλλαγές και διαμορφώσεις
Ενώ οι βασικές αρχές των LLM που βασίζονται σε αποκωδικοποιητές παραμένουν συνεπείς, οι ερευνητές έχουν εξερευνήσει διάφορες αρχιτεκτονικές παραλλαγές και διαμορφώσεις για να βελτιώσουν την απόδοση, την αποδοτικότητα και τις δυνατότητες γενίκευσης. Σε αυτήν την ενότητα, θα εμβαθύνουμε στις διαφορετικές αρχιτεκτονικές επιλογές και τις επιπτώσεις τους.
Τύποι Αρχιτεκτονικής
Τα LLM που βασίζονται σε αποκωδικοποιητές μπορούν να ταξινομηθούν ευρέως σε τρεις κύριους τύπους: κωδικοποιητής-αποκωδικοποιητής, αιτιακός αποκωδικοποιητής και αποκωδικοποιητής προθέματος. Κάθε τύπος αρχιτεκτονικής παρουσιάζει ξεχωριστά μοτίβα προσοχής.
Αρχιτεκτονική Κωδικοποιητή-Αποκωδικοποιητή
Βασισμένη στο μοντέλο Vanilla Transformer, η αρχιτεκτονική κωδικοποιητή-αποκωδικοποιητή αποτελείται από δύο στοίβες: έναν κωδικοποιητή και έναν αποκωδικοποιητή. Ο κωδικοποιητής χρησιμοποιεί στοιβαγμένα επίπεδα αυτοπροσοχής πολλαπλών κεφαλών για να κωδικοποιήσει την ακολουθία εισόδου και να δημιουργήσει λανθάνουσες αναπαραστάσεις. Στη συνέχεια, ο αποκωδικοποιητής εκτελεί διασταυρούμενη προσοχή σε αυτές τις αναπαραστάσεις για να δημιουργήσει την ακολουθία στόχο. Ενώ είναι αποτελεσματικά σε διάφορες εργασίες NLP, λίγα LLMs, όπως π.χ Flan-T5, υιοθετήστε αυτήν την αρχιτεκτονική.
Αιτιατική Αρχιτεκτονική Αποκωδικοποιητή
Η αρχιτεκτονική του αιτιακού αποκωδικοποιητή ενσωματώνει μια μονόδρομη μάσκα προσοχής, που επιτρέπει σε κάθε διακριτικό εισόδου να παρακολουθεί μόνο τα προηγούμενα διακριτικά και τον εαυτό του. Και τα δύο διακριτικά εισόδου και εξόδου υποβάλλονται σε επεξεργασία στον ίδιο αποκωδικοποιητή. Αξιοσημείωτα μοντέλα όπως GPT-1, GPT-2 και GPT-3 είναι χτισμένα σε αυτήν την αρχιτεκτονική, με το GPT-3 να παρουσιάζει αξιοσημείωτες δυνατότητες εκμάθησης εντός του πλαισίου. Πολλά LLMs, συμπεριλαμβανομένων των OPT, BLOOM και Gopher, έχουν υιοθετήσει ευρέως αιτιακούς αποκωδικοποιητές.
Αρχιτεκτονική αποκωδικοποιητή προθέματος
Γνωστός και ως μη αιτιώδης αποκωδικοποιητής, η αρχιτεκτονική του αποκωδικοποιητή προθέματος τροποποιεί τον μηχανισμό κάλυψης των αιτιακών αποκωδικοποιητών για να επιτρέψει την αμφίδρομη προσοχή στα προθέματα και την προσοχή μονής κατεύθυνσης στα κουπόνια που δημιουργούνται. Όπως η αρχιτεκτονική κωδικοποιητή-αποκωδικοποιητή, οι αποκωδικοποιητές προθέματος μπορούν να κωδικοποιήσουν την αλληλουχία προθέματος αμφίδρομα και να προβλέψουν τα διακριτικά εξόδου αυτοπαλινδρομικά χρησιμοποιώντας κοινές παραμέτρους. Τα LLM που βασίζονται σε αποκωδικοποιητές προθέματος περιλαμβάνουν τα GLM130B και U-PaLM.
Και οι τρεις τύποι αρχιτεκτονικής μπορούν να επεκταθούν χρησιμοποιώντας το μείγμα εμπειρογνωμόνων (MoE) τεχνική κλιμάκωσης, η οποία ενεργοποιεί αραιά ένα υποσύνολο βαρών νευρωνικών δικτύων για κάθε είσοδο. Αυτή η προσέγγιση έχει εφαρμοστεί σε μοντέλα όπως το Switch Transformer και το GLaM, με την αύξηση του αριθμού των ειδικών ή του συνολικού μεγέθους παραμέτρων να δείχνει σημαντικές βελτιώσεις στην απόδοση.
Μετασχηματιστής μόνο για αποκωδικοποιητή: Αγκαλιάζοντας την αυτοπαλινδρομική φύση
Ενώ η αρχική αρχιτεκτονική του μετασχηματιστή σχεδιάστηκε για εργασίες αλληλουχίας σε ακολουθία, όπως η μηχανική μετάφραση, πολλές εργασίες NLP, όπως η μοντελοποίηση γλώσσας και η δημιουργία κειμένου, μπορούν να πλαισιωθούν ως προβλήματα αυτόματης παλινδρόμησης, όπου το μοντέλο δημιουργεί ένα διακριτικό τη φορά, υπό τον όρο μάρκες που δημιουργήθηκαν προηγουμένως.
Εισαγάγετε τον μετασχηματιστή μόνο για αποκωδικοποιητή, μια απλοποιημένη παραλλαγή της αρχιτεκτονικής του μετασχηματιστή που διατηρεί μόνο το στοιχείο του αποκωδικοποιητή. Αυτή η αρχιτεκτονική είναι ιδιαίτερα κατάλληλη για αυτοπαλινδρομικές εργασίες, καθώς δημιουργεί διακριτικά εξόδου ένα προς ένα, αξιοποιώντας τα κουπόνια που δημιουργήθηκαν προηγουμένως ως περιβάλλον εισόδου.
Η βασική διαφορά μεταξύ του μετασχηματιστή μόνο με αποκωδικοποιητή και του αρχικού αποκωδικοποιητή μετασχηματιστή έγκειται στον μηχανισμό αυτοπροσοχής. Στη ρύθμιση μόνο για αποκωδικοποιητή, η λειτουργία αυτοπροσοχής τροποποιείται για να αποτρέψει το μοντέλο να παρακολουθεί μελλοντικά διακριτικά, μια ιδιότητα γνωστή ως αιτιότητα. Αυτό επιτυγχάνεται μέσω μιας τεχνικής που ονομάζεται «μασκαρισμένη αυτοπροσοχή», όπου οι βαθμολογίες προσοχής που αντιστοιχούν σε μελλοντικές θέσεις ορίζονται σε αρνητικό άπειρο, καλύπτοντάς τις αποτελεσματικά κατά τη διάρκεια του βήματος κανονικοποίησης softmax.
Αρχιτεκτονικά στοιχεία LLM που βασίζονται σε αποκωδικοποιητή
Ενώ οι βασικές αρχές της αυτοπροσοχής και της συγκαλυμμένης αυτοπροσοχής παραμένουν οι ίδιες, τα σύγχρονα LLM που βασίζονται σε αποκωδικοποιητές έχουν εισαγάγει αρκετές αρχιτεκτονικές καινοτομίες για τη βελτίωση της απόδοσης, της αποτελεσματικότητας και των δυνατοτήτων γενίκευσης. Ας εξερευνήσουμε μερικά από τα βασικά στοιχεία και τεχνικές που χρησιμοποιούνται σε LLM τελευταίας τεχνολογίας.
Αναπαράσταση εισόδου
Πριν από την επεξεργασία της ακολουθίας εισόδου, τα LLM που βασίζονται σε αποκωδικοποιητή χρησιμοποιούν τεχνικές tokenization και ενσωμάτωσης για να μετατρέψουν το ακατέργαστο κείμενο σε μια αριθμητική αναπαράσταση κατάλληλη για το μοντέλο.
Τεκμηρίωση: Η διαδικασία δημιουργίας διακριτικών μετατρέπει το κείμενο εισαγωγής σε μια ακολουθία διακριτικών, που μπορεί να είναι λέξεις, υπολέξεις ή ακόμα και μεμονωμένοι χαρακτήρες, ανάλογα με τη στρατηγική δημιουργίας διακριτικών που χρησιμοποιείται. Οι δημοφιλείς τεχνικές δημιουργίας διακριτικών για LLM περιλαμβάνουν την κωδικοποίηση Byte-Pair (BPE), το SentencePiece και το WordPiece. Αυτές οι μέθοδοι στοχεύουν στην επίτευξη ισορροπίας μεταξύ του μεγέθους του λεξιλογίου και της ευαισθησίας της αναπαράστασης, επιτρέποντας στο μοντέλο να χειρίζεται αποτελεσματικά σπάνιες ή εκτός λεξιλογίου λέξεις.
Token Embeddings: Μετά τη δημιουργία διακριτικών, κάθε διακριτικό αντιστοιχίζεται σε μια πυκνή διανυσματική αναπαράσταση που ονομάζεται ενσωμάτωση διακριτικού. Αυτές οι ενσωματώσεις μαθαίνονται κατά τη διάρκεια της εκπαιδευτικής διαδικασίας και καταγράφουν σημασιολογικές και συντακτικές σχέσεις μεταξύ των διακριτικών.
Ενσωματώσεις θέσης: Τα μοντέλα μετασχηματιστών επεξεργάζονται ολόκληρη την ακολουθία εισόδου ταυτόχρονα, χωρίς την εγγενή έννοια των θέσεων διακριτικών που υπάρχουν σε επαναλαμβανόμενα μοντέλα. Για να ενσωματωθούν πληροφορίες θέσης, προστίθενται ενσωματώσεις θέσης στις ενσωματώσεις διακριτικών, επιτρέποντας στο μοντέλο να διακρίνει μεταξύ των διακριτικών με βάση τις θέσεις τους στην ακολουθία. Τα πρώτα LLM χρησιμοποιούσαν ενσωματώσεις σταθερής θέσης βασισμένες σε ημιτονοειδείς συναρτήσεις, ενώ τα πιο πρόσφατα μοντέλα έχουν εξερευνήσει ενσωματώσεις θέσης με δυνατότητα εκμάθησης ή εναλλακτικές τεχνικές κωδικοποίησης θέσης, όπως περιστροφικές ενσωματώσεις θέσης.
Μπλοκ προσοχής πολλαπλών κεφαλιών
Τα βασικά δομικά στοιχεία των LLM που βασίζονται σε αποκωδικοποιητές είναι στρώματα προσοχής πολλαπλών κεφαλών, τα οποία εκτελούν τη λειτουργία μάσκας αυτοπροσοχής που περιγράφηκε προηγουμένως. Αυτά τα επίπεδα στοιβάζονται πολλές φορές, με κάθε επίπεδο να παρακολουθεί την έξοδο του προηγούμενου επιπέδου, επιτρέποντας στο μοντέλο να καταγράφει όλο και πιο περίπλοκες εξαρτήσεις και αναπαραστάσεις.
Κεφαλές προσοχής: Κάθε επίπεδο προσοχής πολλαπλών κεφαλών αποτελείται από πολλαπλές "κεφαλές προσοχής", η καθεμία με το δικό της σύνολο προβολών ερωτημάτων, κλειδιών και τιμών. Αυτό επιτρέπει στο μοντέλο να παρακολουθεί διαφορετικές πτυχές της εισόδου ταυτόχρονα, καταγράφοντας διαφορετικές σχέσεις και μοτίβα.
Υπολειμματικές συνδέσεις και κανονικοποίηση στρώματος: Για να διευκολυνθεί η εκπαίδευση των δικτύων βαθιάς και να μετριαστεί το πρόβλημα της εξαφάνισης της κλίσης, τα LLM που βασίζονται σε αποκωδικοποιητές χρησιμοποιούν υπολειμματικές συνδέσεις και τεχνικές κανονικοποίησης στρώματος. Οι υπολειμματικές συνδέσεις προσθέτουν την είσοδο ενός στρώματος στην έξοδο του, επιτρέποντας στις κλίσεις να ρέουν πιο εύκολα κατά τη διάρκεια της οπίσθιας διάδοσης. Η κανονικοποίηση των επιπέδων βοηθά στη σταθεροποίηση των ενεργοποιήσεων και των κλίσεων, βελτιώνοντας περαιτέρω τη σταθερότητα και την απόδοση της προπόνησης.
Επίπεδα τροφοδοσίας
Εκτός από τα επίπεδα προσοχής πολλαπλών κεφαλών, τα LLM που βασίζονται σε αποκωδικοποιητές ενσωματώνουν στρώματα τροφοδοσίας προς τα εμπρός, τα οποία εφαρμόζουν ένα απλό νευρωνικό δίκτυο τροφοδοσίας προς τα εμπρός σε κάθε θέση της ακολουθίας. Αυτά τα επίπεδα εισάγουν μη γραμμικότητες και επιτρέπουν στο μοντέλο να μάθει πιο σύνθετες αναπαραστάσεις.
Λειτουργίες ενεργοποίησης: Η επιλογή της λειτουργίας ενεργοποίησης στα στρώματα προώθησης μπορεί να επηρεάσει σημαντικά την απόδοση του μοντέλου. Ενώ τα προηγούμενα LLM βασίζονταν στην ευρέως χρησιμοποιούμενη ενεργοποίηση ReLU, τα πιο πρόσφατα μοντέλα έχουν υιοθετήσει πιο εξελιγμένες λειτουργίες ενεργοποίησης όπως η γραμμική μονάδα σφάλματος Gaussian (GELU) ή η ενεργοποίηση SwiGLU, οι οποίες έχουν δείξει βελτιωμένη απόδοση.
Αραιή προσοχή και αποτελεσματικοί μετασχηματιστές
Ενώ ο μηχανισμός αυτοπροσοχής είναι ισχυρός, συνοδεύεται από τετραγωνική υπολογιστική πολυπλοκότητα σε σχέση με το μήκος της ακολουθίας, καθιστώντας τον υπολογιστικά ακριβό για μεγάλες ακολουθίες. Για να αντιμετωπιστεί αυτή η πρόκληση, έχουν προταθεί διάφορες τεχνικές για τη μείωση των απαιτήσεων υπολογισμού και μνήμης της αυτοπροσοχής, επιτρέποντας την αποτελεσματική επεξεργασία μεγαλύτερων ακολουθιών.
Αραιή προσοχή: Οι τεχνικές αραιής προσοχής, όπως αυτή που χρησιμοποιείται στο μοντέλο GPT-3, παρακολουθούν επιλεκτικά ένα υποσύνολο θέσεων στην ακολουθία εισόδου, αντί να υπολογίζουν τις βαθμολογίες προσοχής για όλες τις θέσεις. Αυτό μπορεί να μειώσει σημαντικά την υπολογιστική πολυπλοκότητα διατηρώντας παράλληλα λογική απόδοση.
Συρόμενο παράθυρο Προσοχή: Παρουσιάστηκε στο μοντέλο Mistral 7B, το συρόμενο παράθυρο προσοχής (SWA) είναι μια απλή αλλά αποτελεσματική τεχνική που περιορίζει το εύρος προσοχής κάθε διακριτικού σε ένα σταθερό μέγεθος παραθύρου. Αυτή η προσέγγιση αξιοποιεί την ικανότητα των στρωμάτων μετασχηματιστή να μεταδίδουν πληροφορίες σε πολλαπλά επίπεδα, αυξάνοντας αποτελεσματικά το εύρος προσοχής χωρίς την τετραγωνική πολυπλοκότητα της πλήρους αυτοπροσοχής.
Rolling Buffer Cache: Για περαιτέρω μείωση των απαιτήσεων μνήμης, ειδικά για μεγάλες ακολουθίες, το μοντέλο Mistral 7B χρησιμοποιεί μια κυλιόμενη προσωρινή μνήμη. Αυτή η τεχνική αποθηκεύει και επαναχρησιμοποιεί τα υπολογισμένα διανύσματα κλειδιού και τιμής για ένα σταθερό μέγεθος παραθύρου, αποφεύγοντας περιττούς υπολογισμούς και ελαχιστοποιώντας τη χρήση μνήμης.
Ομαδοποιημένο ερώτημα Προσοχή: Εισάγεται στο μοντέλο LLaMA 2, η ομαδοποιημένη προσοχή ερωτημάτων (GQA) είναι μια παραλλαγή του μηχανισμού προσοχής πολλαπλών ερωτημάτων που χωρίζει τις κεφαλές προσοχής σε ομάδες, με κάθε ομάδα να μοιράζεται ένα κοινό κλειδί και έναν πίνακα τιμών. Αυτή η προσέγγιση επιτυγχάνει μια ισορροπία μεταξύ της αποτελεσματικότητας της προσοχής πολλαπλών ερωτημάτων και της απόδοσης της τυπικής αυτοπροσοχής, παρέχοντας βελτιωμένους χρόνους συμπερασμάτων διατηρώντας παράλληλα αποτελέσματα υψηλής ποιότητας.