Τεχνητή νοημοσύνη
Μοντέλα Μεγάλης Γλώσσας Βασισμένα σε Αποκωδικοποιητή: Ένας Πλήρης Οδηγός
Μοντέλα Μεγάλης Γλώσσας (LLMs) έχουν επαναπροσδιορίσει το πεδίο της επεξεργασίας φυσικής γλώσσας (NLP) με την επίδειξη εξαιρετικών ικανοτήτων στη γεννήση ανθρώπινου τύπου κειμένου, απάντηση σε ερωτήσεις και βοήθεια σε eine ευρεία γκάμα εργασιών που σχετίζονται με τη γλώσσα. Στο κέντρο αυτών των ισχυρών μοντέλων βρίσκεται η αρχιτεκτονική αποκωδικοποιητή-μόνο μετασχηματιστή, μια παραλλαγή της αρχικής αρχιτεκτονικής μετασχηματιστή που προτάθηκε στο σεμινάριο “Η Προσοχή είναι Όλα Ότι Χρειάζεστε” από τους Vaswani et al.
Σε αυτόν τον綜οδικό οδηγό, θα εξερευνήσουμε τις εσωτερικές λειτουργίες των LLM που βασίζονται σε αποκωδικοποιητή, εμβαθύνοντας στα θεμελιώδη δομικά στοιχεία, τις αρχιτεκτονικές καινοτομίες και τις λεπτομέρειες υλοποίησης που έχουν ωθήσει αυτά τα μοντέλα στο επίκεντρο της έρευνας και των εφαρμογών NLP.
Η Αρχιτεκτονική Μετασχηματιστή: Μια Ανασκόπηση
Πριν να εμβαθύνουμε στις ιδιαιτερότητες των LLM που βασίζονται σε αποκωδικοποιητή, είναι απαραίτητο να επανεξετάσουμε την αρχιτεκτονική μετασχηματιστή, την οποία αποτελούν αυτά τα μοντέλα. Ο μετασχηματιστής εισήγαγε μια νέα προσέγγιση για μοντελοποίηση ακολουθιών, βασισμένη αποκλειστικά σε μηχανισμούς προσοχής για την καταγραφή μακροπρόθεσμων εξαρτήσεων στα δεδομένα, χωρίς την ανάγκη για αναδρομικές ή συναρτησιακές στρώσεις.
Η αρχική αρχιτεκτονική μετασχηματιστή αποτελείται από δύο κύρια συστατικά: einen κωδικοποιητή και einen αποκωδικοποιητή. Ο κωδικοποιητής επεξεργάζεται την είσοδο ακολουθία και παράγει μια περιεκτική αναπαράσταση, η οποία στη συνέχεια καταναλώνεται από τον αποκωδικοποιητή για να παράγει την έξοδο ακολουθία. Αυτή η αρχιτεκτονική αρχικά σχεδιάστηκε για εργασίες μετάφρασης μηχανής, όπου ο κωδικοποιητής επεξεργάζεται την είσοδο πρόταση στη πηγή γλώσσα και ο αποκωδικοποιητής παράγει την αντίστοιχη πρόταση στη γλώσσα προορισμού.
Αυτο-Προσοχή: Το Κλειδί για την Επιτυχία του Μετασχηματιστή
Στην καρδιά του μετασχηματιστή βρίσκεται ο μηχανισμός αυτο-προσοχής, μια ισχυρή τεχνική που επιτρέπει στο μοντέλο να ζυγίζει και να συναθροίζει πληροφορίες από διαφορετικές θέσεις στην είσοδο ακολουθία. Σε αντίθεση με τα παραδοσιακά μοντέλα ακολουθιών, τα οποία επεξεργάζονται τα εισαγόμενα σύμβολα σειριακά, η αυτο-προσοχή επιτρέπει στο μοντέλο να καταγράψει εξαρτήσεις μεταξύ οποιουδήποτε ζευγαριού συμβόλων, ανεξάρτητα από τη θέση τους στην ακολουθία.
Η λειτουργία αυτο-προσοχής μπορεί να χωριστεί σε τρία κύρια βήματα:
- Εκπροσωπώσεις Ερωτήσεων, Κλειδιών και Τιμών: Η είσοδος ακολουθία προβάλλεται σε τρεις ξεχωριστές αναπαραστάσεις: ερωτήσεις (Q), κλειδιά (K) και τιμές (V). Αυτές οι προβολές λαμβάνονται με το γινόμενο της εισόδου με μετεγγεγραμμένες μετρητές βαρών.
- Υπολογισμός Σκορ Προσοχής: Για κάθε θέση στην είσοδο ακολουθία, υπολογίζονται σκορ προσοχής λαμβάνοντας το γινόμενο_dot μεταξύ του αντίστοιχου διανύσματος ερωτήσεων και όλων των διανυσμάτων κλειδιών. Αυτά τα σκορ αντιπροσωπεύουν τη συσχέτιση κάθε θέσης με τη θέση που επεξεργάζεται.
- Σταθμισμένο Άθροισμα Τιμών: Τα σκορ προσοχής κανονικοποιούνται χρησιμοποιώντας μια συνάρτηση softmax, και τα αποτελεσματικά σταθμισμένα σκορ προσοχής χρησιμοποιούνται για να υπολογίσουν ένα σταθμισμένο άθροισμα των διανυσμάτων τιμών, παράγοντας την έξοδο αναπαράσταση για την τρέχουσα θέση.
Η πολυ-κεφαλή προσοχή, μια παραλλαγή του μηχανισμού αυτο-προσοχής, επιτρέπει στο μοντέλο να καταγράψει διαφορετικά είδη σχέσεων υπολογίζοντας σκορ προσοχής σε πολλαπλά “κέφη” παράλληλα, το καθένα με τη δική του σετ εκπροσωπήσεων ερωτήσεων, κλειδιών και τιμών.
Εργασίες και Ρυθμίσεις Αρχιτεκτονικής
Ενώ οι βασικές αρχές των LLM που βασίζονται σε αποκωδικοποιητή παραμένουν σταθερές, οι ερευνητές έχουν εξερευνήσει διάφορες παραλλαγές αρχιτεκτονικής και ρυθμίσεις για να βελτιώσουν την απόδοση, την αποδοτικότητα και τις ικανότητες γενίκευσης. Σε这一 ενότητα, θα εμβαθύνουμε στις διαφορετικές αρχιτεκτονικές επιλογές και τις επιπτώσεις τους.
Τύποι Αρχιτεκτονικής
Τα LLM που βασίζονται σε αποκωδικοποιητή μπορούν να ταξινομηθούν σε τρεις κύριους τύπους: κωδικοποιητής-αποκωδικοποιητής, αιτιολογικός αποκωδικοποιητής και προθεματικός αποκωδικοποιητής. Κάθε τύπος αρχιτεκτονικής παρουσιάζει διαφορετικά μοτίβα προσοχής.
Αρχιτεκτονική Κωδικοποιητή-Αποκωδικοποιητή
Βασισμένη στο μοντέλο Vanilla Transformer, η αρχιτεκτονική κωδικοποιητή-αποκωδικοποιητή αποτελείται από δύο στοίβες: έναν κωδικοποιητή και έναν αποκωδικοποιητή. Ο κωδικοποιητής χρησιμοποιεί στοιβάζοντες πολυ-κεφαλές αυτο-προσοχής στρώσεις για να κωδικοποιήσει την είσοδο ακολουθία και να παράγει λατινικές αναπαραστάσεις. Ο αποκωδικοποιητής στη συνέχεια thực hiện δια-προσοχή σε αυτές τις αναπαραστάσεις για να παράγει την ακολουθία προορισμού. Αν και αποτελεσματική σε διάφορες εργασίες NLP, λίγα LLM, όπως το Flan-T5, υιοθετούν αυτήν την αρχιτεκτονική.
Αρχιτεκτονική Αιτιολογικού Αποκωδικοποιητή
Η αρχιτεκτονική αιτιολογικού αποκωδικοποιητή ενσωματώνει μια μονοκατευθυντική μάσκα προσοχής, επιτρέποντας σε κάθε εισαγόμενο σύμβολο να προσεγγίσει μόνο τα προηγούμενα σύμβολα και τον εαυτό του. Τα σύμβολα εισόδου και εξόδου επεξεργάζονται μέσα στον ίδιο αποκωδικοποιητή. Ξεχωριστά μοντέλα όπως το GPT-1, GPT-2 και GPT-3 είναι κατασκευασμένα σε αυτήν την αρχιτεκτονική, με το GPT-3 να παρουσιάζει εξαιρετικές ικανότητες εκμάθησης σε контέκστ.
Αρχιτεκτονική Προθεματικού Αποκωδικοποιητή
Γνωστή και ως μη-αιτιολογική αποκωδικοποιητής, η αρχιτεκτονική προθεματικού αποκωδικοποιητή τροποποιεί τον μηχανισμό μάσκας των αιτιολογικών αποκωδικοποιητών για να επιτρέψει διμερή προσοχή πάνω από προθεματικά σύμβολα και μονοκατευθυντική προσοχή σε γεννημένα σύμβολα. Όπως και η αρχιτεκτονική κωδικοποιητή-αποκωδικοποιητή, οι προθεματικοί αποκωδικοποιητές μπορούν να κωδικοποιήσουν τη ακολουθία προθέματος διμερώς και να προβλέψουν σύμβολα εξόδου αυτο-ρεgressively χρησιμοποιώντας κοινά παραμέτρα. LLM που βασίζονται σε προθεματικούς αποκωδικοποιητές περιλαμβάνουν το GLM130B και το U-PaLM.
Όλοι οι τρεις τύποι αρχιτεκτονικής μπορούν να επεκταθούν χρησιμοποιώντας την τεχνική μείγμα-ειδικών (MoE), η οποία σπανίως ενεργοποιεί ένα υποσύνολο νευρωνικών δικτύων για κάθε είσοδο. Αυτή η προσέγγιση έχει υιοθετηθεί σε μοντέλα όπως το Switch Transformer και το GLaM, με αύξηση του αριθμού των ειδικών ή του συνολικού μεγέθους παραμέτρων που δείχνει σημαντικές βελτιώσεις απόδοσης.
Αποκωδικοποιητής-Μόνο Μετασχηματιστής: Εμπράκτως την Αυτο-Ρηξικέλευθη Φύση
Ενώ η αρχική αρχιτεκτονική μετασχηματιστή σχεδιάστηκε για εργασίες ακολουθίας-προς-ακολουθία όπως η μετάφραση μηχανής, πολλές εργασίες NLP, όπως η μοντελοποίηση γλώσσας και η γεννήση κειμένου, μπορούν να θεωρηθούν ως αυτο-ρηξικέλευθες προβλήματα, όπου το μοντέλο παράγει ένα σύμβολο κάθε φορά, υπό την προϋπόθεση των προηγουμένως γεννημένων συμβόλων.
Εισάγετε τον αποκωδικοποιητή-μόνο μετασχηματιστή, μια απλοποιημένη παραλλαγή της αρχιτεκτονικής μετασχηματιστή που διατηρεί μόνο το συστατικό αποκωδικοποιητή. Αυτή η αρχιτεκτονική είναι ιδιαίτερα κατάλληλη για αυτο-ρηξικέλευθες εργασίες, καθώς παράγει σύμβολα εξόδου ένα-ένα, εκμεταλλευόμενο τα προηγουμένως γεννημένα σύμβολα ως είσοδο контέκστ.
Η κεντρική διαφορά μεταξύ του αποκωδικοποιητή-μόνο μετασχηματιστή και του αρχικού αποκωδικοποιητή μετασχηματιστή βρίσκεται στον μηχανισμό αυτο-προσοχής. Στο περιβάλλον αποκωδικοποιητή-μόνο, η λειτουργία αυτο-προσοχής τροποποιείται για να αποτρέψει το μοντέλο από το να προσεγγίσει μελλοντικά σύμβολα, μια ιδιότητα γνωστή ως αιτιολογία. Αυτό επιτυγχάνεται μέσω μιας τεχνικής που ονομάζεται “μασκοποιημένη αυτο-προσοχή”, όπου τα σκορ προσοχής που αντιστοιχούν σε μελλοντικές θέσεις ορίζονται σε αρνητική αιωνιότητα, αποκρύπτοντας τα αποτελέσματά τους κατά τη διάρκεια του βήματος κανονικοποίησης softmax.
Συστατικά Αρχιτεκτονικής των LLM που Βασίζονται σε Αποκωδικοποιητή
Ενώ οι βασικές αρχές της αυτο-προσοχής και της μασκοποιημένης αυτο-προσοχής παραμένουν οι ίδιες, τα σύγχρονα LLM που βασίζονται σε αποκωδικοποιητή έχουν εισαγάγει διάφορες αρχιτεκτονικές καινοτομίες για να βελτιώσουν την απόδοση, την αποδοτικότητα και τις ικανότητες γενίκευσης. Ας εξερευνήσουμε κάποια από τα κεντρικά συστατικά και τις τεχνικές που χρησιμοποιούνται σε μοντέλα LLM της τελευταίας τεχνολογίας.
Επίδραση Εισόδου
Πριν από την επεξεργασία της εισόδου ακολουθίας, τα LLM που βασίζονται σε αποκωδικοποιητή χρησιμοποιούν τεχνικές τοκενοποίησης και ενσωμάτωσης για να μετατρέψουν το ακατέργαστο κείμενο σε μια αριθμητική αναπαράσταση που είναι κατάλληλη για το μοντέλο.
Τοκενοποίηση: Η διαδικασία τοκενοποίησης μετατρέπει την είσοδο σε μια ακολουθία συμβόλων, τα οποία μπορούν να είναι λέξεις, υπο-λέξεις ή ακόμη και μεμονωμένα γράμματα, ανάλογα με τη στρατηγική τοκενοποίησης που χρησιμοποιείται. Δημοφιλείς τεχνικές τοκενοποίησης για LLM περιλαμβάνουν το Byte-Pair Encoding (BPE), SentencePiece και WordPiece. Αυτές οι μεθόδοι στοχεύουν να ισορροπήσουν το μέγεθος του λεξικού και την ανάλυση αναπαράστασης, επιτρέποντας στο μοντέλο να χειριστεί σπάνια ή out-of-vocabulary λέξεις αποτελεσματικά.
Ενσωμάτωση Συμβόλων: Μετά την τοκενοποίηση, κάθε σύμβολο αντιστοιχεί σε μια πυκνή διανυσματική αναπαράσταση που ονομάζεται ενσωμάτωση συμβόλου. Αυτές οι ενσωματώσεις μαθαίνονται κατά τη διάρκεια της διαδικασίας εκπαίδευσης και καταγράφουν σημασιολογικές και συντακτικές σχέσεις μεταξύ συμβόλων.
Θέσης Ενσωμάτωση: Τα μοντέλα μετασχηματιστή επεξεργάζονται ολόκληρη την είσοδο ακολουθία ταυτόχρονα, λείπουν της εγγενής έννοιας της θέσης συμβόλων που υπάρχει στα αναδρομικά μοντέλα. Για να ενσωματωθούν πληροφορίες θέσης, οι θέσης ενσωματώσεις προστίθενται στις ενσωματώσεις συμβόλων, επιτρέποντας στο μοντέλο να διακρίνει μεταξύ συμβόλων με βάση τη θέση τους στην ακολουθία. Τα πρώιμα LLM χρησιμοποιούσαν σταθερές θέσης ενσωματώσεις με βάση συναρτήσεις ημιτόνου, ενώ πιο πρόσφατα μοντέλα έχουν εξερευνήσει μαθητές θέσης ενσωματώσεις ή εναλλακτικές μεθόδοι κωδικοποίησης θέσης όπως οι περιστροφικές θέσης ενσωματώσεις.
Μονάδες Προσοχής Πολυ-Κεφαλής
Τα βασικά δομικά στοιχεία των LLM που βασίζονται σε αποκωδικοποιητή είναι οι στρώσεις προσοχής πολυ-κεφαλής, οι οποίες thực hiện την λειτουργία μασκοποιημένης αυτο-προσοχής που περιγράφηκε νωρίτερα. Αυτές οι στρώσεις στοιβάζονται πολλαπλά, με κάθε στρώση να προσεγγίζει την έξοδο της προηγούμενης στρώσης, επιτρέποντας στο μοντέλο να καταγράψει ολοένα και πιο σύνθετες εξαρτήσεις και αναπαραστάσεις.
Κεφαλές Προσοχής: Κάθε στρώση προσοχής πολυ-κεφαλής αποτελείται από πολλαπλά “κέφη” προσοχής, το καθένα με τη δική του σετ εκπροσωπήσεων ερωτήσεων, κλειδιών και τιμών. Αυτό επιτρέπει στο μοντέλο να προσεγγίσει διαφορετικές πτυχές της εισόδου ταυτόχρονα, καταγράφοντας διάφορες σχέσεις και μοτίβα.
Συνδεσμοί Υπολοίπων και Κανονικοποίηση Στρώσεων: Για να διευκολύνουν την εκπαίδευση βαθιάς δικτύων και να μετριάσουν το πρόβλημα της εξαφάνισης των γрадиέντων, τα LLM που βασίζονται σε αποκωδικοποιητή χρησιμοποιούν συνδεσμούς υπολοίπων και τεχνικές κανονικοποίησης στρώσεων. Οι συνδεσμοί υπολοίπων προσθέτουν την είσοδο μιας στρώσης στην έξοδό της, επιτρέποντας στους γрадиέντες να ρέουν πιο εύκολα κατά τη διάρκεια της αντίστροφης伝播. Η κανονικοποίηση στρώσεων βοηθά να σταθεροποιήσει τις ενεργοποιήσεις και τους γрадиέντες, βελτιώνοντας περαιτέρω τη σταθερότητα εκπαίδευσης και την απόδοση.
Στρώσεις Προώθησης
Εκτός από τις στρώσεις προσοχής πολυ-κεφαλής, τα LLM που βασίζονται σε αποκωδικοποιητή ενσωματώνουν στρώσεις προώθησης, οι οποίες εφαρμόζουν ένα απλό δίκτυο προώθησης σε κάθε θέση της ακολουθίας. Αυτές οι στρώσεις εισάγουν μη-γραμμικότητες και επιτρέπουν στο μοντέλο να μάθει πιο σύνθετες αναπαραστάσεις.
Συναρτήσεις Ενεργοποίησης: Η επιλογή της συνάρτησης ενεργοποίησης στις στρώσεις προώθησης μπορεί να επηρεάσει σημαντικά την απόδοση του μοντέλου. Ενώ τα πρώιμα LLM βασίζονταν στη συνάρτηση ενεργοποίησης ReLU, πιο πρόσφατα μοντέλα έχουν υιοθετήσει πιο sophistιμένες συνάρτησεις ενεργοποίησης όπως η Gaussian Error Linear Unit (GELU) ή η SwiGLU ενεργοποίηση, οι οποίες έχουν δείξει βελτιωμένη απόδοση.
Σπάνια Προσοχή και Αποδοτικά Μοντέλα Μετασχηματιστή
Ενώ ο μηχανισμός προσοχής είναι ισχυρός, έρχεται με μια τετραγωνική υπολογιστική πολυπλοκότητα σχετικά με το μήκος της ακολουθίας, καθιστώντας το υπολογιστικά εκτοξευμένο για μεγάλες ακολουθίες. Για να αντιμετωπίσουν αυτήν την πρόκληση, έχουν προταθεί διάφορες τεχνικές για να μειώσουν τις υπολογιστικές και μνημονικές απαιτήσεις της προσοχής, επιτρέποντας την αποτελεσματική επεξεργασία μεγαλύτερων ακολουθιών.
Σπάνια Προσοχή: Τεχνικές σπάνιας προσοχής, όπως αυτή που χρησιμοποιείται στο μοντέλο GPT-3, επιλέγουν να προσεγγίσουν ένα υποσύνολο θέσεων στην είσοδο ακολουθία, αντί να υπολογίζουν σκορ προσοχής για όλες τις θέσεις. Αυτό μπορεί να μειώσει σημαντικά την υπολογιστική πολυπλοκότητα ενώ διατηρεί μια λογική απόδοση.
Σπάνια Προσοχή Παράθυρου
Εισαγωγή στο μοντέλο Mistral 7B, η σπάνια προσοχή παράθυρου (SWA) είναι μια απλή αλλά αποτελεσματική τεχνική που περιορίζει το βέλος προσοχής κάθε συμβόλου σε ένα σταθερό μέγεθος παράθυρου. Αυτή η προσέγγιση αξιοποιεί την ικανότητα των στρωμάτων μετασχηματιστή να μεταφέρουν πληροφορίες σε πολλαπλά στρώματα, αυξάνοντας αποτελεσματικά το βέλος προσοχής χωρίς την τετραγωνική πολυπλοκότητα της πλήρους προσοχής. Κάππα Cache Ρολόι: Για να μειώσουν περαιτέρω τις απαιτήσεις μνήμης, ιδίως για μεγάλες ακολουθίες, το μοντέλο Mistral 7B χρησιμοποιεί μια κάππα cache ρολόι. Αυτή η τεχνική αποθηκεύει και επαναχρησιμοποιεί τους υπολογισμένους διανύσματος κλειδιών και τιμών για ένα σταθερό μέγεθος παράθυρου, αποφεύγοντας περιττές υπολογίσεις και ελαχιστοποιώντας την Nutzung μνήμης. Ομαδοποιημένη Προσοχή Ερωτήσεων: Εισαγωγή στο μοντέλο LLaMA 2, η ομαδοποιημένη προσοχή ερωτήσεων (GQA) είναι μια παραλλαγή του μηχανισμού πολυ-ερώτησης που διαιρεί τις κεφαλές προσοχής σε ομάδες, με κάθε ομάδα να μοιράζεται ένα κοινό κλειδί και διανύσματα τιμών. Αυτή η προσέγγιση ισορροπεί την αποδοτικότητα της πολυ-ερώτησης προσοχής και την απόδοση της τυπικής προσοχής, παρέχοντας βελτιωμένα χρόνους συλλογής ενώ διατηρεί υψηλής ποιότητας αποτελέσματα.














