Τεχνητή νοημοσύνη
Decoder-Based Large Language Models: A Complete Guide
Large Language Models (LLMs) έχουν επαναπροσδιορίσει το πεδίο της επεξεργασίας φυσικής γλώσσας (NLP) με την επίδειξη αξιοσημείωτων ικανοτήτων στη γεννήση ανθρώπινου τύπου κειμένου, στην απάντηση ερωτημάτων και στη βοήθεια σε eine ευρεία γκάμα εργασιών που σχετίζονται με τη γλώσσα. Στο κέντρο αυτών των ισχυρών μοντέλων βρίσκεται η αρχιτεκτονική μεταφραστή μόνο με αποκωδικοποιητή, μια παραλλαγή της αρχικής αρχιτεκτονικής του μεταφραστή που προτάθηκε στο σεμινάριο “Attention is All You Need” από τους Vaswani et al.
Σε αυτό το綜합ικό οδηγό, θα εξετάσουμε τις εσωτερικές λειτουργίες των LLM με αποκωδικοποιητή, εμβαθύνοντας στα θεμελιώδη δομικά στοιχεία, τις αρχιτεκτονικές καινοτομίες και τις λεπτομέρειες υλοποίησης που έχουν ωθήσει αυτά τα μοντέλα στο επίκεντρο της έρευνας και των εφαρμογών της NLP.
Η Αρχιτεκτονική του Μεταφραστή: Μια Ανασκόπηση
Πριν εμβαθύσουμε στις λεπτομέρειες των LLM με αποκωδικοποιητή, είναι απαραίτητο να ξαναδούμε την αρχιτεκτονική του μεταφραστή, το θεμέλιο πάνω στο οποίο χτίζονται αυτά τα μοντέλα. Ο μεταφραστής εισήγαγε μια νέα προσέγγιση για την μοντελοποίηση ακολουθιών, βασισμένη αποκλειστικά σε μηχανισμούς προσοχής για την καταγραφή μακροπρόθεσμων εξαρτήσεων στα δεδομένα, χωρίς την ανάγκη για αναδρομικές ή κυματικές στρώσεις.
Η αρχική αρχιτεκτονική του μεταφραστή αποτελείται από δύο κύρια στοιχεία: έναν κωδικοποιητή και έναν αποκωδικοποιητή. Ο κωδικοποιητής επεξεργάζεται την είσοδο ακολουθία και δημιουργεί μια περιεκτική αναπαράσταση, η οποία στη συνέχεια καταναλώνεται από τον αποκωδικοποιητή για να παράγει την έξοδο ακολουθία. Αυτή η αρχιτεκτονική αρχικά σχεδιάστηκε για εργασίες μετάφρασης μηχανής, όπου ο κωδικοποιητής επεξεργάζεται την είσοδο πρόταση στη πηγή γλώσσα και ο αποκωδικοποιητής παράγει την αντίστοιχη πρόταση στη γλώσσα προορισμού.
Αυτοπροσοχή: Το Κλειδί για την Επιτυχία του Μεταφραστή
Στην καρδιά του μεταφραστή βρίσκεται ο μηχανισμός αυτοπροσοχής, μια ισχυρή τεχνική που επιτρέπει στο μοντέλο να ζυγίζει και να συναθροίζει πληροφορίες από διαφορετικές θέσεις στην είσοδο ακολουθία. Σε αντίθεση με τα παραδοσιακά μοντέλα ακολουθιών, τα οποία επεξεργάζονται τα εισαγόμενα σύμβολα σειριακά, η αυτοπροσοχή επιτρέπει στο μοντέλο να καταγράφει εξαρτήσεις μεταξύ οποιουδήποτε ζευγαριού συμβόλων, ανεξάρτητα από τη θέση τους στην ακολουθία.
Η αυτοπροσοχή μπορεί να χωριστεί σε τρία κύρια βήματα:
- Προβολές Ερωτήματος, Κλειδιού και Τιμής: Η είσοδος ακολουθία προβάλλεται σε τρεις ξεχωριστές αναπαραστάσεις: ερωτήματα (Q), κλειδιά (K) και τιμές (V). Αυτές οι προβολές λαμβάνονται με το πολλαπλασιασμό της εισόδου με μάθημα βάρη.
- Υπολογισμός Βαθμολογιών Προσοχής: Για κάθε θέση στην είσοδο ακολουθία, οι βαθμολογίες προσοχής υπολογίζονται με την λήψη του εσωτερικού γινομένου μεταξύ του αντίστοιχου διανύσματος ερωτήματος και όλων των διανυσμάτων κλειδιών. Αυτές οι βαθμολογίες αντιπροσωπεύουν τη σχετικότητα κάθε θέσης με την τρέχουσα θέση που επεξεργάζεται.
- Βαρυτομετρικός Σύνθετος των Τιμών: Οι βαθμολογίες προσοχής κανονικοποιούνται χρησιμοποιώντας μια συνάρτηση softmax, και τα αποτελούμενα βάρη προσοχής χρησιμοποιούνται για τον υπολογισμό ενός βαρυτομετρικού συνθέτου των διανυσμάτων τιμών, παράγοντας την έξοδο αναπαράσταση για την τρέχουσα θέση.
Η πολλαπλή αυτοπροσοχή, μια παραλλαγή του μηχανισμού αυτοπροσοχής, επιτρέπει στο μοντέλο να καταγράφει διαφορετικά είδη σχέσεων υπολογίζοντας βαθμολογίες προσοχής σε πολλαπλά “κεφάλια” παράλληλα, το καθένα με τη δική του προβολή ερωτήματος, κλειδιού και τιμής.
Παραλλαγές και Ρυθμίσεις Αρχιτεκτονικής
Ενώ οι βασικές αρχές των LLM με αποκωδικοποιητή παραμένουν σταθερές, οι ερευνητές έχουν εξερευνήσει διάφορες παραλλαγές αρχιτεκτονικής και ρυθμίσεις για τη βελτίωση της απόδοσης, της αποδοτικότητας και των ικανοτήτων γενίκευσης. Σε αυτή την ενότητα, θα εμβαθύσουμε στις διαφορετικές αρχιτεκτονικές επιλογές και τις επιπτώσεις τους.
Τύποι Αρχιτεκτονικής
Τα LLM με αποκωδικοποιητή μπορούν να ταξινομηθούν σε τρεις κύριους τύπους: κωδικοποιητής-αποκωδικοποιητής, αιτιολογικός αποκωδικοποιητής και προθεματικός αποκωδικοποιητής. Κάθε τύπος αρχιτεκτονικής παρουσιάζει διαφορετικά μοτίβα προσοχής.
Αρχιτεκτονική Κωδικοποιητή-Αποκωδικοποιητή
Βασισμένη στο μοντέλο Transformer, η αρχιτεκτονική κωδικοποιητή-αποκωδικοποιητή αποτελείται από δύο στοίβες: έναν κωδικοποιητή και έναν αποκωδικοποιητή. Ο κωδικοποιητής χρησιμοποιεί στοιβάζοντες πολλαπλούς μηχανισμούς αυτοπροσοχής για να κωδικοποιήσει την είσοδο ακολουθία και να παράγει 潛τικές αναπαραστάσεις. Ο αποκωδικοποιητής στη συνέχεια thựcεί δια-προσοχή σε αυτές τις αναπαραστάσεις για να παράγει την ακολουθία προορισμού. Αν και αποτελεσματική σε διάφορες εργασίες NLP, λίγα LLM, όπως το Flan-T5, υιοθετούν αυτή την αρχιτεκτονική.
Αρχιτεκτονική Αιτιολογικού Αποκωδικοποιητή
Η αρχιτεκτονική αιτιολογικού αποκωδικοποιητή ενσωματώνει μια μονοκατευθυντική μάσκα προσοχής, επιτρέποντας σε κάθε εισαγόμενο σύμβολο να προσεγγίσει μόνο τα προηγούμενα σύμβολα και τον εαυτό του. Τα εισαγόμενα και εξαγόμενα σύμβολα επεξεργάζονται μέσα στον ίδιο αποκωδικοποιητή. Ξεχωριστά μοντέλα όπως το GPT-1, GPT-2 και GPT-3 είναι κατασκευασμένα σε αυτή την αρχιτεκτονική, με το GPT-3 να παρουσιάζει αξιοσημείωτες ικανότητες μάθησης σε контέκστ.
Αρχιτεκτονική Προθεματικού Αποκωδικοποιητή
Γνωστή και ως μη αιτιολογική αποκωδικοποιητή, η αρχιτεκτονική προθεματικού αποκωδικοποιητή τροποποιεί τον μηχανισμό μάσκας των αιτιολογικών αποκωδικοποιητών για να ενεργοποιήσει διπλής κατεύθυνσης προσοχή πάνω από προθεματικά σύμβολα και μονοκατευθυντική προσοχή στα γεννημένα σύμβολα. Όπως και η αρχιτεκτονική κωδικοποιητή-αποκωδικοποιητή, οι προθεματικοί αποκωδικοποιητές μπορούν να κωδικοποιήσουν τη σειρά προθεμάτων διπλής κατεύθυνσης και να προβλέψουν εξαγόμενα σύμβολα αυτο-αναγωγικά χρησιμοποιώντας κοινά παραμέτρα.
Όλοι οι τρεις τύποι αρχιτεκτονικής μπορούν να επεκταθούν χρησιμοποιώντας την τεχνική μείγμα εμπειρογνωμόνων (MoE), η οποία σπανίως ενεργοποιεί ένα υποσύνολο των νευρωνικών δικτύων για κάθε είσοδο. Αυτή η προσέγγιση έχει εφαρμοστεί σε μοντέλα όπως το Switch Transformer και το GLaM, με αύξηση του αριθμού των εμπειρογνωμόνων ή του συνολικού μεγέθους παραμέτρων που δείχνει σημαντικές βελτιώσεις απόδοσης.
Αποκωδικοποιητής-Μόνο Μεταφραστής: Εμβάθυνση στην Αυτο-Αναγωγική Φύση
Ενώ η αρχική αρχιτεκτονική του μεταφραστή σχεδιάστηκε αρχικά για εργασίες ακολουθίας-προς-ακολουθία όπως η μετάφραση μηχανής, πολλές εργασίες NLP, όπως η μοντελοποίηση γλώσσας και η γεννήτηση κειμένου, μπορούν να θεωρηθούν ως αυτο-αναγωγικά προβλήματα, όπου το μοντέλο παράγει ένα σύμβολο κάθε φορά, υπό την προϋπόθεση των προηγουμένως παραγόμενων συμβόλων.
Εισάγουμε τον αποκωδικοποιητή-μόνο μεταφραστή, μια απλοποιημένη παραλλαγή της αρχιτεκτονικής του μεταφραστή που διατηρεί μόνο τον αποκωδικοποιητή. Αυτή η αρχιτεκτονική είναι ιδιαίτερα κατάλληλη για αυτο-αναγωγικές εργασίες, καθώς παράγει εξαγόμενα σύμβολα ένα-ένα, εκμεταλλευόμενο τα προηγουμένως παραγόμενα σύμβολα ως είσοδο контέκστ.
Αρχιτεκτονικά Στοιχεία των LLM με Αποκωδικοποιητή
Ενώ οι βασικές αρχές της αυτοπροσοχής και της μασκαρεμένης αυτοπροσοχής παραμένουν οι ίδιες, τα σύγχρονα LLM με αποκωδικοποιητή έχουν εισαγάγει διάφορες αρχιτεκτονικές καινοτομίες για τη βελτίωση της απόδοσης, της αποδοτικότητας και των ικανοτήτων γενίκευσης. Ας εξετάσουμε ορισμένα από τα βασικά στοιχεία και τεχνικές που χρησιμοποιούνται σε μοντέλα LLM της τελευταίας τεχνολογίας.
Εισαγωγική Αναπαράσταση
Πριν από την επεξεργασία της εισόδου ακολουθίας, τα LLM με αποκωδικοποιητή χρησιμοποιούν τεχνικές τοκενοποίησης και ενσωμάτωσης για να μετατρέψουν το сыρό κείμενο σε eine αριθμητική αναπαράσταση που είναι κατάλληλη για το μοντέλο.
Τοκενοποίηση: Η διαδικασία τοκενοποίησης μετατρέπει την είσοδο κείμενο σε μια ακολουθία συμβόλων, τα οποία μπορούν να είναι λέξεις, υπο-λέξεις ή ακόμη και 개별 χαρακτήρες, ανάλογα με τη στρατηγική τοκενοποίησης που χρησιμοποιείται. Δημοφιλείς τεχνικές τοκενοποίησης για LLM περιλαμβάνουν Byte-Pair Encoding (BPE), SentencePiece και WordPiece. Αυτές οι μεθόδους αποσκοπούν να ισορροπήσουν το μέγεθος του λεξικού και τη λεπτομέρεια της αναπαράστασης, επιτρέποντας στο μοντέλο να χειρίζεται αποτελεσματικά σπάνια ή out-of-lexicon λέξεις.
Ενσωμάτωση Συμβόλων: Μετά την τοκενοποίηση, κάθε σύμβολο αντιστοιχεί σε μια πυκνή διανυσματική αναπαράσταση που ονομάζεται ενσωμάτωση συμβόλων. Αυτές οι ενσωματώσεις μαθαίνονται κατά τη διάρκεια της διαδικασίας εκπαίδευσης και καταγράφουν σημασιολογικές και συντακτικές σχέσεις μεταξύ συμβόλων.
Θέσης Ενσωμάτωση: Οι μοντέλα μεταφραστή επεξεργάζονται ολόκληρη την είσοδο ακολουθία ταυτόχρονα, λείπουν της εγγενούς έννοιας της θέσης συμβόλων που υπάρχει στα αναδρομικά μοντέλα. Για να ενσωματωθεί η πληροφορία θέσης, οι θέσης ενσωματώσεις προστίθενται στις ενσωματώσεις συμβόλων, επιτρέποντας στο μοντέλο να διακρίνει μεταξύ συμβόλων με βάση τη θέση τους στην ακολουθία. Τα πρώιμα LLM χρησιμοποιούσαν σταθερές θέσης ενσωματώσεις με βάση ημιτονοειδείς συναρτήσεις, ενώ πιο πρόσφατα μοντέλα έχουν εξερευνήσει μαθητές θέσης ενσωματώσεις ή εναλλακτικές μεθόδους κωδικοποίησης θέσης όπως η περιστροφική θέσης ενσωμάτωση.
Μπλοκ Προσοχής Πολλαπλών Κεφαλών
Τα βασικά δομικά στοιχεία των LLM με αποκωδικοποιητή είναι τα στρώματα προσοχής πολλαπλών κεφαλών, τα οποία thựcεί την μασκαρεμένη αυτοπροσοχή. Αυτά τα στρώματα στοιβάζονται πολλαπλά, με κάθε στρώμα να προσεγγίζει την έξοδο του προηγουμένου στρώματος, επιτρέποντας στο μοντέλο να καταγράψει ολοένα και πιο σύνθετες εξαρτήσεις και αναπαραστάσεις.
Κεφάλια Προσοχής: Κάθε στρώμα προσοχής πολλαπλών κεφαλών αποτελείται από πολλαπλά “κεφάλια προσοχής”, το καθένα με τη δική του προβολή ερωτήματος, κλειδιού και τιμής. Αυτό επιτρέπει στο μοντέλο να προσεγγίσει διαφορετικά аспектς της εισόδου ταυτόχρονα, καταγράφοντας διάφορες σχέσεις και μοτίβα.
Συνδεσμοί Υπολοίπων και Κανονικοποίηση Στρώματος: Για να διευκολύνουν την εκπαίδευση βαθύς δικτύων και να μετριάσει το πρόβλημα της εξαφάνισης του γрадиέντα, τα LLM με αποκωδικοποιητή χρησιμοποιούν συνδεσμούς υπολοίπων και τεχνικές κανονικοποίησης στρώματος. Οι συνδεσμοί υπολοίπων προσθέτουν την είσοδο eines στρώματος στην έξοδό του, επιτρέποντας στους γрадиέντες να ρέουν πιο εύκολα κατά τη διαδικασία backpropagation. Η κανονικοποίηση στρώματος βοηθά να σταθεροποιήσει τις ενεργοποιήσεις και τους γрадиέντες, βελτιώνονταςさらに την σταθερότητα και την απόδοση της εκπαίδευσης.
Στρώματα Προώθησης
Εκτός από τα στρώματα προσοχής πολλαπλών κεφαλών, τα LLM με αποκωδικοποιητή ενσωματώνουν στρώματα προώθησης, τα οποία εφαρμόζουν ένα απλό νευρωνικό δίκτυο σε κάθε θέση της ακολουθίας. Αυτά τα στρώματα εισάγουν μη-γραμμικότητες και επιτρέπουν στο μοντέλο να μάθει πιο σύνθετες αναπαραστάσεις.
Συναρτήσεις Ενεργοποίησης: Η επιλογή της συνάρτησης ενεργοποίησης στα στρώματα προώθησης μπορεί να επηρεάσει σημαντικά την απόδοση του μοντέλου. Ενώ τα πρώιμα LLM βασίζονταν στη συνάρτηση ενεργοποίησης ReLU, πιο πρόσφατα μοντέλα έχουν υιοθετήσει πιο εξελιγμένες συνάρτησεις ενεργοποίησης όπως η Gaussian Error Linear Unit (GELU) ή η SwiGLU ενεργοποίηση, οι οποίες έχουν δείξει βελτιωμένη απόδοση.
Σπάνια Προσοχή και Αποδοτικοί Μεταφραστές
Ενώ ο μηχανισμός προσοχής είναι ισχυρός, έρχεται με eine τετραγωνική υπολογιστική πολυπλοκότητα σχετικά με το μήκος της ακολουθίας, καθιστώντας το υπολογιστικά δαπανηρό για μεγάλες ακολουθίες. Για να αντιμετωπίσουν αυτή την πρόκληση, έχουν προταθεί διάφορες τεχνικές για τη μείωση των υπολογιστικών και μνημονικών απαιτήσεων της προσοχής, επιτρέποντας την αποτελεσματική επεξεργασία μεγαλύτερων ακολουθιών.
Σπάνια Προσοχή: Τεχνικές σπάνιας προσοχής, όπως αυτή που χρησιμοποιείται στο μοντέλο GPT-3, προσεγγίζουν επιλεκτικά μια υποσύνολο θέσεων στην είσοδο ακολουθία, αντί να υπολογίζουν βαθμολογίες προσοχής για όλες τις θέσεις. Αυτό μπορεί να μειώσει σημαντικά την υπολογιστική πολυπλοκότητα ενώ διατηρεί μια λογική απόδοση.
Σπάνια Προσοχή Παράθυρου: Η σπάνια προσοχή παράθυρου (SWA), που εισαγωγή στο μοντέλο Mistral 7B, περιορίζει την εμβέλεια προσοχής κάθε συμβόλου σε ένα σταθερό μέγεθος παράθυρου. Αυτή η προσέγγιση αξιοποιεί την ικανότητα των στρώσεων μεταφραστή να μεταφέρουν πληροφορίες σε πολλαπλά στρώματα, αυξάνοντας αποτελεσματικά την εμβέλεια προσοχής χωρίς την τετραγωνική πολυπλοκότητα της πλήρους προσοχής.
Κάππα Cache: Για να μειώσουν περαιτέρω τις απαιτήσεις μνήμης, ιδίως για μεγάλες ακολουθίες, το μοντέλο Mistral 7B χρησιμοποιεί ένα κάππα cache. Αυτή η τεχνική αποθηκεύει και επαναχρησιμοποιεί τους υπολογισμένους διανύσματα κλειδιών και τιμών για ένα σταθερό μέγεθος παράθυρου, αποφεύγοντας τις επαναλαμβανόμενες υπολογισμοί και ελαχιστοποιώντας τη χρήση μνήμης.
Ομαδοποιημένη Προσοχή Ερωτήματος: Η ομαδοποιημένη προσοχή ερωτήματος (GQA), που εισαγωγή στο μοντέλο LLaMA 2, είναι μια παραλλαγή του μηχανισμού πολλαπλής προσοχής ερωτήματος που διαιρεί τα κεφάλια προσοχής σε ομάδες, με κάθε ομάδα να μοιράζεται ένα κοινό κλειδί και διανύσμα τιμής. Αυτή η προσέγγιση ισορροπεί την αποδοτικότητα της πολλαπλής προσοχής ερωτήματος και την απόδοση της τυπικής προσοχής, παρέχοντας βελτιωμένα χρόνους συλλογής ενώ διατηρεί υψηλής ποιότητας αποτελέσματα.














