Τεχνητή νοημοσύνη
GLM-130B: Ένα Ανοικτό Δίγλωσσο Προ-Εκπαιδευμένο Μοντέλο

Το πλαίσιο GLM-130B είναι ένα δίγλωσσο προ-εκπαιδευμένο μεγάλο μοντέλο γλώσσας με πάνω από 130 δισεκατομμύρια παραμέτρους, ικανό να παράγει έξοδο κειμένου και στα αγγλικά και στα κινέζικα. Το πλαίσιο GLM-130B είναι μια προσπάθεια να ανοίξει το μοντέλο γλώσσας σε κλίμακα πάνω από 100 δισεκατομμύρια παραμέτρους και να συζητήσει πώς τα πλαίσια τέτοιου μεγέθους μπορούν να προ-εκπαιδευτούν, επειδή目前, η εκπαίδευση ενός μοντέλου τέτοιου μεγέθους συχνά συνοδεύεται από προβλήματα όπως απόκλιση και πτώσεις απώλειας.
Σε αυτό το άρθρο, θα μιλήσουμε για το πλαίσιο GLM-130B, το οποίο προσπαθεί να αναπτύξει μια μέθοδο για την αποτελεσματική προ-εκπαίδευση μεγάλων μοντέλων γλώσσας με εκατοντάδες δισεκατομμύρια παραμέτρους. Θα πάρουμε μια πιο sâuτική ματιά στην αρχιτεκτονική και τη διαδικασία εκπαίδευσης του πλαισίου GLM-130B, καθώς και τις επιλογές σχεδιασμού που συμβάλλουν όχι μόνο στην αύξηση της αποδοτικότητας, αλλά και της σταθερότητας. Οι αρχικές πειραματικές δοκιμές που διεξήχθησαν για να δοκιμαστεί η λειτουργία του πλαισίου GLM-130B σε eine ευρεία ποικιλία αγγλικών βεντσών οδήγησαν το μοντέλο GLM-130B να ξεπεράσει το τρέχον μοντέλο GPT-3 από μια σημαντική απόσταση. Έτσι, ας ξεκινήσουμε και εξερευνήσουμε πώς το πλαίσιο GLM-130B προσφέρει τέτοιες συνεπείς, ακριβείς και σταθερές αποτελέσματα.
Εισαγωγή στο Πλαίσιο GLM-130B
Τα μεγάλα μοντέλα γλώσσας που μπορούν να λειτουργούν σε few-shot και zero-shot ρυθμίσεις, ιδιαίτερα αυτά με πάνω από 100 δισεκατομμύρια παραμέτρους, παρουσιάζουν ελκυστικές νόμους κλίμακας, από τα οποία το πλαίσιο GPT-3 είναι ένα από τα καλύτερα μοντέλα που προσφέρει σημαντικές βελτιώσεις απόδοσης σε σχέση με τον προκάτοχό του, το πλαίσιο BERT. Ωστόσο, παρά την δημοτικότητα του πλαισίου GPT-3 και τις ευρείες εφαρμογές του, η διαδικασία εκπαίδευσης και σε κάποιους τρόπους, το ίδιο το πλαίσιο GPT-3, δεν έχει sido διαφανές στο κοινό. Επιπλέον, η εμπειρική απαριθμηση όλων των πιθανών σχεδιασμών για την εκπαίδευση LLMs με πάνω από 100 δισεκατομμύρια παραμέτρους είναι υπολογιστικά μη ανεκτή, γεγονός που καθιστά ακόμη πιο κρίσιμο να αναπτυχθεί μια μέθοδος προ-εκπαίδευσης για μεγάλα πλαίσια LLM.
Το παραπάνω σημείο καθιστά την κοινή χρήση της λειτουργίας και της διαδικασίας εκπαίδευσης υψηλής ποιότητας μεγάλων πλαισίων LLM όπως το GPT-3, μια κρίσιμη αξία, και με τους ηθικούς προβληματισμούς να λαμβάνονται υπόψη, το πλαίσιο GLM-130B είναι μια προσπάθεια να προ-εκπαιδευτεί ένα ακριβές και ανοικτό LLM με πάνω από 100 δισεκατομμύρια παραμέτρους. Κατά τη διάρκεια της προσπάθειάς τους, η ομάδα ανάπτυξης του πλαισίου GLM-130B observed ότι η προ-εκπαίδευση ενός μεγάλου πλαισίου LLM συχνά συνοδεύεται από eine ευρεία ποικιλία τεχνικών και τεχνολογικών προβλημάτων σε σχέση με τη σταθερότητα προ-εκπαίδευσης, την αποδοτικότητα και τη σύγκλιση.
Για να seja πιο συγκεκριμένος, το GLM-130B είναι ένα bidirectional και δίγλωσσο πυκνό πλαίσιο που αποτελείται από πάνω από 130 δισεκατομμύρια παραμέτρους, προ-εκπαιδευμένο σε 400 δισεκατομμύρια tokens σε ένα cluster 96 NVIDIA DGX-A100 GPU nodes σε διάστημα σχεδόν δύο μηνών. Επιπλέον, αντί να επιλέξει την αρχιτεκτονική GPT-style, το πλαίσιο GLM-130B χρησιμοποιεί το GLM ή το Γενικό Μοντέλο Γλώσσας, ένα μοντέλο γλώσσας βασισμένο σε μετασχηματιστές που αποσκοπεί να εκμεταλλευτεί την αυτο-αναπαραγωγική γέμισμα κενών ως στόχο εκπαίδευσης, και το bidirectional attention πλεονέκτημα. Ο παρακάτω πίνακας συγκρίνει το πλαίσιο GLM-130B με άλλα μοντέλα με πάνω από 100 δισεκατομμύρια παραμέτρους, συμπεριλαμβανομένων GPT, BLOOM-176B και OPT-175B.

Οι αρχιτεκτονικές και οι τεχνικές έννοιες που εμπλέκονται στο πλαίσιο GLM-130B ξεπερνούν σχεδόν όλα τα μεγάλα πλαισια LLM, συμπεριλαμβανομένων GPT-3 και PaLM 540B με πάνω από 500 δισεκατομμύρια παραμέτρους, σε πολλές περιπτώσεις και σε eine ευρεία ποικιλία βεντσών. Ο παρακάτω πίνακας συγκρίνει την απόδοση του πλαισίου GLM-130B με μοντέλα με πάνω από 100 δισεκατομμύρια παραμέτρους, και όπως φαίνεται, το πλαίσιο GLM-130B έχει σημαντικά λιγότερη τοξικότητα και προκατάληψη από τα αντίστοιχα μοντέλα.

Τέλος, το GLM-130B έχει σχεδιαστεί για να επιτρέψει σε πολλούς développers να διεξάγουν μελέτες σε πλαισια με πάνω από 100 δισεκατομμύρια παραμέτρους, και υπάρχουν δύο τρόποι με τους οποίους το πλαίσιο GLM-130B επιτυγχάνει αυτό. Πρώτον, αντί να χρησιμοποιήσει πάνω από 175 δισεκατομμύρια παραμέτρους όπως BLOOM και OPT, το πλαίσιο GLM-130B χρησιμοποιεί 130 δισεκατομμύρια παραμέτρους, επειδή το μέγεθος του μοντέλου υποστηρίζει inference ακόμη και σε ένα seul A100 server. Δεύτερον, οι απαιτήσεις GPU για να τρέξει το πλαίσιο GLM-130B είναι λιγότερες σε σύγκριση με άλλα πλαισια LLM, και το πλαίσιο GLM-130B επιτυγχάνει αυτό με την κβάντωση του αρχικού πλαισίου σε INT4 ακρίβεια. Η κβάντωση INT4 που χρησιμοποιείται από το πλαίσιο GLM-130B βελτιώνει την απόδοση ενώ διατηρεί αμελητέα υποβάθμιση απόδοσης.
GLM-130B: Αρχιτεκτονική
Η επαγωγική προκατάληψη ενός μοντέλου μηχανικής μάθησης περιγράφεται από την αρχιτεκτονική του, και δεν είναι έκπληξη όταν οι développers δεν μπορούν να εξερευνήσουν διάφορους αρχιτεκτονικούς σχεδιασμούς για μεγάλα μοντέλα γλώσσας, λόγω της υπολογιστικής ανεκτικότητας και βιωσιμότητας. Με αυτά τα λεγόμενα, ας δούμε την αρχιτεκτονική του GLM-130B.
Τα μεγάλα πλαισια LLM όπως PaLM, GPT και άλλα έχουν πάνω από 100 δισεκατομμύρια παραμέτρους, και είναι κατασκευασμένα με την παραδοσιακή αρχιτεκτονική GPT-style για αυτο-αναπαραγωγική μοντελοποίηση γλώσσας. Από την άλλη πλευρά, το πλαίσιο GLM-130B εξερευνά την πιθανότητα χρήσης ενός bidirectional Γενικού Μοντέλου Γλώσσας ή GLM, ενός μοντέλου γλώσσας βασισμένου σε μετασχηματιστές που αποσκοπεί να εκμεταλλευτεί την αυτο-αναπαραγωγική γέμισμα κενών ως στόχο εκπαίδευσης, ως βάση. Σύντομα, για μια δεδομένη ακολουθία κειμένου, το πλαίσιο GLM δειγματοληψία των τμημάτων κειμένου που αντικαθίστανται με ένα seul mask token.
Η bidirectional προσοχή του Γενικού Μοντέλου Γλώσσας σε ακαθάριστες ή αμάσκαρες περιβάλλεται από το GLM-130B από την προσέγγιση GPT-style που χρησιμοποιεί μια μονο-κατεύθυνση. Επιπλέον, για να υποστηρίξει και την παραγωγή και την κατανόηση δεδομένων, το πλαίσιο GLM συνδυάζει δύο στρατηγικές διαφθοράς, каждая από τις οποίες υποδεικνύεται με ένα đặc biệt και μοναδικό mask token.
- [MASK] : [MASK] είναι μια στρατηγική διαφθοράς που χρησιμοποιεί σύντομες κενές σε προτάσεις, οι οποίες προσθέτουν μέχρι ένα ποσοστό της εισόδου.
- [gMASK] : [gMASK] είναι μια στρατηγική διαφθοράς που χρησιμοποιεί τυχαία μήκη κενών στο τέλος της πρότασης με τα prefix περιβάλλοντα.
Η προσέγγιση που ακολουθεί το πλαίσιο GLM είναι αυτή που επιτρέπει στο πλαίσιο να καταγράψει ένα σκορ ακρίβειας πάνω από 80% σε zero-shot LAMBADA μοντελοποίηση γλώσσας, και να ξεπεράσει cả τα PaLM 540B και GPT-3.

Κανονικοποίηση Στρώματος
Ένα από τα κύρια προβλήματα που αντιμετωπίζουν οι développpers όταν εκπαιδεύουν ένα LLM είναι η αστάθεια εκπαίδευσης, και η χρήση μιας κατάλληλης κανονικοποίησης στρώματος μπορεί να βοηθήσει στην εκπαίδευση των LLMs. Το πλαίσιο GLM-130B χρησιμοποιεί μια προσέγγιση Post-LN χάρη στην απόδοσή του σε καθήκοντα.
Τα Feedforward Neural Networks ή FFNs και η κωδικοποίηση θέσης είναι δύο προσεγγίσεις που υιοθετούνται από το πλαίσιο GLM-130B για να εισαγάγουν υψηλής ποιότητας απόδοση και σταθερότητα εκπαίδευσης. Ρύθμιση Προ-Εκπαίδευσης Οι στόχοι προ-εκπαίδευσης του πλαισίου GLM-130B δεν περιλαμβάνουν μόνο την πολυ-καθήκοντη μάθηση για ένα μικρό αριθμό tokens, αλλά και την αυτο-επιτηρούμενη GLM για αυτο-αναπαραγωγική γέμισμα κενών, με την προσδοκία ότι αυτή η προσέγγιση θα βοηθήσει το πλαίσιο GLM-130B σε καθήκοντα. Όπως đã αναφερθεί, το πλαίσιο GLM-130B χρησιμοποιεί δύο στρατηγικές διαφθοράς, τις [MASK] και [gMASK], και μια από αυτές τις στρατηγικές εφαρμόζεται ανεξάρτητα σε κάθε ατομική ακολουθία εκπαίδευσης, μια κάθε φορά. Για το γέμισμα κενών, η στρατηγική [MASK] масκαρει συνεχόμενες εκτάσεις σε 30% της ακολουθίας εκπαίδευσης, όπου τα μήκη των εκτάσεων προσθέτουν μέχρι 15% της εισόδου, και ακολουθεί μια Poisson κατανομή. Για το υπόλοιπο 70% της ακολουθίας, το prefix κάθε ακολουθίας διατηρείται ως περιβάλλον, και η στρατηγική [gMASK] βοηθά στο γέμισμα του υπόλοιπου, και το μήκος του γέμισματος δειγματοληψία χρησιμοποιώντας την Uniform κατανομή. Έχει υποδειχθεί ότι η ακολούθηση μιας πολυ-καθήκοντης μάθησης για την προ-εκπαίδευση των μοντέλων μπορεί να προσφέρει καλύτερα αποτελέσματα από την εκπαίδευση, για να βελτιώσει την μεταφορά καθηκόντων σε μια zero-shot ρύθμιση. Κατά συνέπεια, το πλαίσιο GLM-130B προτείνει να χρησιμοποιήσει μια σειρά από οδηγίες προ-εκπαίδευσης, συμπεριλαμβανομένης της γεννήτριας γλώσσας, της κατανόησης και της εξαγωγής πληροφοριών κατά την προ-εκπαίδευση. Σε σύγκριση με άλλες προσεγγίσεις για zero-shot μεταφορά καθηκόντων που χρησιμοποιούν πολυ-καθήκοντη εκπαίδευση, η προσέγγιση Πολυ-Καθήκοντη Προ-Εκπαίδευσης Οδηγιών που ακολουθεί το πλαίσιο GLM-130B αντιπροσωπεύει μόνο 5% των συνολικών tokens, και ορίζεται κατά την προ-εκπαίδευση για να αποτρέψει την καταστροφή άλλων ικανοτήτων του LLM. Υπάρχουν δύο de facto πρακτικές για την εκπαίδευση μεγάλων μοντέλων με δισεκατομμύρια παραμέτρους, η παράλληλη μοντελοποίηση και η παράλληλη δεδομένων. Σε μια προσπάθεια να ελαττώσει την’utilisation GPU, και να χειριστεί τις τεράστιες απαιτήσεις GPU, το πλαίσιο GLM-130B εφαρμόζει μια 3D παράλληλη στρατηγική που συνδυάζει την παράλληλη μοντελοποίηση με την παράλληλη δεδομένων. Η σταθερότητα εκπαίδευσης είναι ένας σημαντικός παράγοντας όταν καθορίζεται η ποιότητα ενός LLM, και η σταθερότητα επηρεάζεται σε μεγάλο βαθμό ανάλογα με τον αριθμό των tokens που περνάει. Επιπλέον, είναι ζωτικό να καθορίσει μια συμφωνία μεταξύ σταθερότητας και αποδοτικότητας σε σχέση με τις μορφές κινητής υποδιαστολής, λόγω των υπολογιστικών περιορισμών. Για παράδειγμα, οι μορφές κινητής υποδιαστολής χαμηλής ακρίβειας αυξάνουν την υπολογιστική αποδοτικότητα, αλλά συχνά οδηγούν σε κατάρρευση εκπαίδευσης, επειδή είναι ευάλωτες σε σφάλματα underflow και overflow. Σε μια προσπάθεια να αυξήσει την ακρίβεια εκπαίδευσης και να μειώσει την’utilisation μνήμης, το πλαίσιο GLM-130B ακολουθεί την κοινή πρακτική της χρήσης μικτής ακρίβειας, δηλαδή FP16 για την εμπρόσθια και οπίσθια διαδικασία, και FP32 για τις κύριες βαρύτητες και τις καταστάσεις του βελτιστοποιητή. Όπως και άλλα δημοφιλή πλαισια LLM, συμπεριλαμβανομένων BLOOM-176B και OPT-175B, η φάση εκπαίδευσης του πλαισίου GLM-130B χρησιμοποιώντας τη μικτή ακρίβεια αντιμετωπίζει συχνές πτώσεις απώλειας, και η συχνότητα αυτών των πτώσεων απώλειας τείνει να αυξάνεται καθώς το μοντέλο συνεχίζει να εκπαιδεύεται. Πρώτον, η κλίμακα της κύριας διακλάδωσης του μετασχηματιστή μπορεί να είναι τεράστια στα βαθύτερα στρώματα όταν χρησιμοποιείται Pre-LN, και στο πλαίσιο GLM-130B, αντιμετωπίζεται με την χρήση μιας DeepNorm βασισμένης Pre-LN, η οποία διασφαλίζει ότι η κλίμακα παραμένει ορισμένη σε όλες τις περιπτώσεις. Δεύτερον, καθώς το μοντέλο μεγαλώνει, οι βαθμοί προσοχής αυξάνονται σε ένα σημείο όπου ξεπερνούν το εύρος του FP16. Οι développpers που εργάστηκαν στο πλαίσιο GLM-130B ανίχνευσαν ότι η νόρμα του γрадиέντα μπορεί να ενεργεί ως ένας ενημερωτικός δείκτης για την κατάρρευση εκπαίδευσης, και μια κατάρρευση εκπαίδευσης συνήθως ακολουθεί μια πτώση στην νόρμα του γрадиέντα. Η αιτία για αυτές τις πτώσεις είναι οι ανώμαλοι γрадиέντες του στρώματος ενσωμάτωσης, και οι développpers observed ότι σε σύγκριση με την νόρμα του γрадиέντα των άλλων στρωμάτων, η νόρμα του γрадиέντα του στρώματος ενσωμάτωσης είναι μεγαλύτερη κατά πολλές τάξεις μεγέθους, και επίσης τείνει να μεταβάλλεται δραματικά κατά την πρώιμη εκπαίδευση του πλαισίου. Για να αξιολογήσει την απόδοση του GLM-130B για αγγλικές εργασίες, εφαρμόζει τις ίδιες ρυθμίσεις που ακολουθούν τα κοινά πλαισια LLM, συμπεριλαμβανομένων PaLM και GPT-3, και καθώς το GLM-130B είναι ένα δίγλωσσο πλαίσιο, αξιολογείται επίσης σε πολλές κινέζικες βεντσές. Η απόδοση του πλαισίου GLM-130B θα μετρηθεί σε πολλές βεντσές, συμπεριλαμβανομένων Μοντελοποίησης Γλώσσας, MMLU ή Μαζική Πολυ-Καθήκοντη Κατανόηση Γλώσσας, BIG-Bench ή Πέρα από το Παιχνίδι Benchmark, και CLUE ή Κινέζικη Κατανόηση Γλώσσας.Έτσι, ας ξεκινήσουμε. Η δοκιμή μοντελοποίησης γλώσσας στο πλαίσιο GLM-130B πραγματοποιείται σε δύο συνόλους δεδομένων: LAMBADA και Pile. Το συνόλου δεδομένων LAMBADA χρησιμοποιείται για να δοκιμαστεί η ικανότητα μοντελοποίησης της τελευταίας λέξης των LLMs, και το πλαίσιο GLM-130B επιτυγχάνει ένα σκορ ακρίβειας 80.2 σε μια δίγλωσση ρύθμιση, και σε αυτή τη διαδικασία, θέτει ένα νέο ρεκόρ σε σχέση με το συνόλου δεδομένων LAMBADA. Από την άλλη πλευρά, το Pile είναι ένα συνόλου δεδομένων που αποτελείται από μια σειρά από βεντσές για μοντέλα γλώσσας. Σε σύγκριση με τα GPT-3 και Jurassic-1, το πλαίσιο GLM-130B προσφέρει την καλύτερη απόδοση σε 18 κοινά συνόλους δεδομένων σε σχέση με τα σταθμισμένα BPBs. Τα αποτελέσματα δείχνουν την ισχυρή ικανότητα γλώσσας του πλαισίου GLM-130B, και τα αποτελέσματα περιλαμβάνονται στον παρακάτω πίνακα. MMLU ή Μαζική Πολυ-Καθήκοντη Κατανόηση Γλώσσας είναι μια ποικιλόμορφη βεντσή που αποτελείται από πάνω από 50 εργασίες πολλαπλής επιλογής που αφορούν την ανθρώπινη νοημοσύνη και γνώση, που κυμαίνονται από το επίπεδο γυμνασίου έως το επίπεδο εμπειρογνωμόνων, και κυκλοφορεί μετά την κλοπή του συνόλου δεδομένων Pile, και έτσι, χρησιμεύει ως ιδανική βεντσή για να αξιολογήσει την ικανότητα few-shot μάθησης ενός LLM. Όπως φαίνεται, σε μια few-shot ρύθμιση (5-shot), η απόδοση του πλαισίου GLM-130B προσεγγίζει την απόδοση του μοντέλου GPT-3 μετά από την προβολή περίπου 300B tokens. Η απόδοση συνεχίζει να αυξάνεται καθώς η εκπαίδευση προχωράει, και όταν η εκπαίδευση ολοκληρώνεται, το πλαίσιο επιτυγχάνει ένα σκορ ακρίβειας 44.8 μετά από την προβολή συνολικά 400B tokens. BIG-Bench ή Πέρα από το Παιχνίδι Benchmark απαιτητικές εργασίες δοκιμής την ικανότητα του μοντέλου σε γνώση, συλλογισμό και κοινή λογική. Όπως φαίνεται, σε μια zero-shot ρύθμιση, το πλαίσιο GLM-130B ξεπερνά cả τα PaLM 540B και GPT-3 175B, που μπορεί να οφείλεται στην MIP και την bidirectional προσοχή για να αυξήσει την απόδοση του GLM-130B σε απρόβλεπτες εργασίες σε zero-shot ρύθμιση. Επιπλέον, καθώς ο αριθμός των shots αυξάνεται, η απόδοση του πλαισίου GLM-130B επίσης αυξάνεται, ξεπερνώντας το GPT-3 σε μια συνεχή βάση. Η κινέζικη zero-shot απόδοση του GLM-130B αξιολογείται σε καθιερωμένες NLP βεντσές, συμπεριλαμβανομένων CLUE και FewCLUE, και συγκρίνεται με το 260B ERNIE Titan 3.0, το μεγαλύτερο υπάρχον κινέζικο μοντέλο γλώσσας. Όπως φαίνεται, το πλαίσιο GLM-130B συνεχώς ξεπερνά το 260B ERNIE Titan 3.0 σε 12 διαφορετικές εργασίες, και επιτυγχάνει περίπου 260% καλύτερη απόδοση από το ERNIE σε δύο εργασίες MRC. Σε αυτό το άρθρο, έχουμε μιλήσει για το GLM-130B, ένα δίγλωσσο προ-εκπαιδευμένο μεγάλο μοντέλο γλώσσας που αποσκοπεί στην προώθηση της έρευνας LLM. Η αρχιτεκτονική, η μηχανική και οι τεχνικές προσπάθειες αποσκοπούν να παρέχουν στην κοινότητα AI μια καλύτερη εικόνα για την αρχιτεκτονική των πλαισίων LLM, την αποδοτικότητα και τη σταθερότητα εκπαίδευσης, τους στόχους προ-εκπαίδευσης, και την προσιτή παρέμβαση.FFNs και Κωδικοποίηση Θέσης
Αυτο-Επιτηρούμενη Γέμισμα Κενών
Πολυ-Καθήκοντη Προ-Εκπαίδευση Οδηγιών
3D Παράλληλη Στρατηγική
GLM-130B: Σταθερότητα Εκπαίδευσης
Μικτή Ακρίβεια

Σύγκλιση-Στρώματος-Γραμμική-Κλίμακα ή ΕΣΓ

GLM-130B: Αποτελέσματα και Απόδοση
Μοντελοποίηση Γλώσσας

MMLU ή Μαζική Πολυ-Καθήκοντη Κατανόηση Γλώσσας

BIG-Bench ή Πέρα από το Παιχνίδι Benchmark

CLUE ή Κινέζικη Κατανόηση Γλώσσας

Συμπέρασμα












