Τεχνητή νοημοσύνη
GPT-3 : Few Shot Learning για το Μοντέλο Γλώσσας;

Τις τελευταίες années, η βιομηχανία AI και ML έχει μάρει μια μετεωρική άνοδο στην ανάπτυξη και εφαρμογή των συστημάτων NLP, καθώς οι ερευνητές έχουν能够 να εφαρμόσουν πρακτικές NLP με υψηλή ευελιξία και ανεξαρτησία από την εργασία για εργασίες μεταφοράς.
Αρχικά, ήταν οι μονοστρωματικές αναπαραστάσεις που χρησιμοποιούσαν διανυσματα λέξεων και στη συνέχεια τροφοδοτούσαν την αρχιτεκτονική της εργασίας. Στη συνέχεια, ήταν η αρχιτεκτονική RNN που χρησιμοποιούσε πολλαπλά στρώματα και контекουαλικό κατάσταση για να διαμορφώσει καλύτερες αναπαραστάσεις. Και πιο πρόσφατα, έχουμε τα μοντέλα γλώσσας μεταφοράς ή τα προ-εκπαιδευμένα αναδρομικά μοντέλα που έχουν αφαιρέσει完全 την ανάγκη για αρχιτεκτονικές εργασίας-ειδικές με την εξευρεση των δικτύων.
Τα μοντέλα γλώσσας μεταφοράς έχουν αποδειχθεί ένα σημαντικό σημείο στροφής στη βιομηχανία NLP, καθώς έχουν οδηγήσει σε τεράστια πρόοδο σε απαιτητικές εργασίες όπως η απάντηση σε ερωτήσεις, η ανάγνωση και κατανόηση κειμένων, η εντατική ανάπτυξη κειμένων και πολλά άλλα.
Ωστόσο, παρά τα πλεονεκτήματά τους, τα μοντέλα γλώσσας μεταφοράς έχουν ένα σημαντικό περιορισμό, καθώς απαιτούν ειδική εξευρεση ή ειδικό σύνολο δεδομένων για να επιτύχουν την επιθυμητή απόδοση σε μια εργασία. Επιπλέον, τα μοντέλα γλώσσας μεταφοράς απαιτούν από τους développers να εξευρεσουν τα σύνολα δεδομένων σε εκατοντάδες χιλιάδες παραδείγματα ειδικά για μια εργασία.
Είναι αυτονόητο ότι η αφαίρεση της ανάγκης για ειδικό σύνολο δεδομένων και ειδική εξευρεση θα ήταν πολύ επιθυμητή και επωφελής για τη βιομηχανία NLP για πολούς λόγους.
Προβλήματα με τα Υπάρχοντα Προ-Εκπαιδευμένα Μοντέλα Γλώσσας Μεταφοράς ή Αναδρομικά Μοντέλα
- Περιορισμός της Πρακτικής και Εφαρμογής
Πρώτα και πάνω από όλα, η ανάγκη για ένα μεγάλο σύνολο δεδομένων με ετικετούμενα δεδομένα για κάθε εργασία περιορίζει την εφαρμογή και την πρακτική των μοντέλων γλώσσας. Τα μοντέλα γλώσσας βρίσκουν εφαρμογές σε μια ευρεία ποικιλία εργασιών, από τη δημιουργία μιας σύντομης ιστορίας, στη διόρθωση γραμματικών λαθών, στη δημιουργία παραδειγμάτων για một έννοια. Σε ορισμένες περιπτώσεις, είναι μια απαιτητική εργασία να συλλέξουμε ένα μεγάλο εποπτευόμενο σύνολο δεδομένων, ιδιαίτερα όταν η διαδικασία πρέπει να επαναλαμβάνεται για κάθε ατομική εργασία.
- Εξαίρεση Σπυρικών Συσχετίσεων στα Δεδομένα Εκπαίδευσης
Περιορισμοί και στενότητα της κατανομής εκπαίδευσης, σε συνδυασμό με την εκφραστικότητα του μοντέλου, μπορεί να οδηγήσει σε μια θεμελιώδη αύξηση του потенτικού να εξαχθούν σπυρικές συσχετίσεις στα δεδομένα εκπαίδευσης. Το потенτικό να εξαχθούν τα δεδομένα εκπαίδευσης μπορεί να οδηγήσει σε προβλήματα κατά τη διάρκεια της εξευρεσης και της προ-εκπαίδευσης, καθώς τα μοντέλα γλώσσας μεταφοράς σχεδιάζονται για να απορροφήσουν eine μεγάλη ποσότητα πληροφοριών κατά τη διάρκεια της προ-εκπαίδευσης.
Επιπλέον, η εργασία σε προηγούμενα μοντέλα έχει δείξει ότι τα μεγάλα μοντέλα δεν οδηγούν πάντα σε καλύτερη απόδοση εκτός του συνόλου κάθε φορά. Επιπλέον, έχει δείξει ότι η γενίκευση που επιτυγχάνεται υπό τέτοιο παράδειγμα μπορεί να οδηγήσει σε κακή απόδοση, κυρίως επειδή το μοντέλο είναι υψηλά ειδικό για τα δεδομένα εκπαίδευσης και δεν μπορεί να εκτελεστεί καλά σε καταστάσεις πέρα από το πεδίο των δεδομένων εκπαίδευσης.
- Σύγκριση με την Ανθρώπινη Μάθηση
Τέλος, όταν συγκρίνουμε τα μοντέλα γλώσσας μεταφοράς με τους ανθρώπους, οι άνθρωποι δεν απαιτούν ένα μεγάλο σύνολο δεδομένων όταν πρόκειται για την μάθηση μιας πλειοψηφίας των γλωσσικών εργασιών. Συνήθως, μια σύντομη οδηγία σε μια φυσική γλώσσα ή ένα μικρό παράδειγμα της γλωσσικής εργασίας είναι επαρκές για έναν άνθρωπο να κατανοήσει και να εκτελέσει μια γλωσσική εργασία με ένα certo επίπεδο ανταγωνισμού.
Η ικανότητα των ανθρώπων να προσαρμόζονται έχει πολλά πρακτικά πλεονεκτήματα, καθώς τους επιτρέπει να αλλάζουν μεταξύ διαφορετικών συνόλων δεξιοτήτων ή να τα συνδυάζουν για να εκτελέσουν καλύτερα κατά τη διάρκεια ενός διαλόγου, κάτι που είναι πέρα από τις δυνατότητες των τρεχουσών συστημάτων NLP.
Αντιμετώπιση των Προβλημάτων με τη Meta-Μάθηση και το GPT-3
Μια πιθανή λύση στα παραπάνω προβλήματα είναι η χρήση της meta-μάθησης, ενός εννοήματος στη σύγχρονη ML που επιτρέπει σε ένα μοντέλο να αναπτύξει ένα μεγαλύτερο και ευρύτερο σύνολο δεξιοτήτων και ικανοτήτων αναγνώρισης προτύπων κατά τη διάρκεια της εκπαίδευσης, και στη συνέχεια χρησιμοποιεί αυτές τις μαθημένες ικανότητες κατά τη διάρκεια της εύρεσης για να προσαρμοστεί γρήγορα ή να αναγνωρίσει την απαιτούμενη εργασία.
Η meta-μάθηση εφαρμόζεται στην αρχιτεκτονική του μοντέλου γλώσσας μέσω μιας τεχνικής που ονομάζεται “μάθηση στο контекСТ” που χρησιμοποιεί την είσοδο κειμένου ενός προ-εκπαιδευμένου μοντέλου γλώσσας ως προδιαγραφή εργασίας. Κατά τη διάρκεια της διαδικασίας, το μοντέλο συνδέεται με μια φυσική γλώσσα οδηγία, και μπορεί ακόμη και να χρησιμοποιήσει quelques παραδείγματα, και το μοντέλο στη συνέχεια αναμένεται να ολοκληρώσει την υπόλοιπη εργασία προβλέποντας τα επόμενα βήματα.
Το μόνο σημαντικό πρόβλημα με τη meta-μάθηση είναι ότι, αν και έχει δείξει θετική δυνατότητα, είναι ακόμη κατώτερη από την προσέγγιση της εξευρεσης στην αρχιτεκτονική της φυσικής γλώσσας, και χρειάζεται περαιτέρω βελτίωση για να γίνει μια πρακτική μέθοδος για την αντιμετώπιση των γλωσσικών εργασιών.
Εκτός από τη meta-μάθηση, μια άλλη μέθοδος που κερδίζει δημοτικότητα είναι η αύξηση της ικανότητας των μοντέλων γλώσσας μεταφοράς. Τα τελευταία χρόνια, τα μοντέλα μεταφοράς έχουν μάρει μια σημαντική αύξηση στην ικανότητά τους με το μοντέλο RNSS18 με 100 εκατομμύρια παραμέτρους, το μοντέλο DCLT18 με 300 εκατομμύρια παραμέτρους, το μοντέλο RWC19 με 1,5 δισεκατομμύρια παραμέτρους, το μοντέλο SSP19 με 8 δισεκατομμύρια παραμέτρους, το μοντέλο RSR19 με 11 δισεκατομμύρια παραμέτρους, και το μοντέλο TUR20 με 17 δισεκατομμύρια παραμέτρους.
Η αύξηση της ικανότητας του μοντέλου ή η αύξηση των παραμέτρων έχει ιστορικά οδηγήσει σε βελτιώσεις στην σύνθεση κειμένου, και υπάρχει μια ένδειξη ότι η απώλεια log που συσχετίζεται με τις εργασίες μεταφοράς ακολουθεί μια ομαλή τάση βελτίωσης με την κλίμακα.
Αυτό μας οδηγεί στο μοντέλο GPT-3 που έχει πάνω από 175 δισεκατομμύρια παραμέτρους, και όταν κυκλοφόρησε, ήταν το μοντέλο γλώσσας μεταφοράς με την υψηλότερη ικανότητα. Ας μιλήσουμε τώρα για το μοντέλο GPT-3.
Εισαγωγή στο Μοντέλο GPT-3
Το GPT-3 είναι ένα αυτο-αγрессίβο μοντέλο γλώσσας με πάνω από 175 δισεκατομμύρια παραμέτρους που κυκλοφόρησε από την OpenAI το 2020. Το GPT-3 είναι επίσης ταξινομημένο ως ένα μεγάλο μοντέλο γλώσσας που, όπως και ο προκάτοχός του, το μοντέλο GPT-2, είναι ένα μοντέλο μεταφοράς που χρησιμοποιεί αρχιτεκτονική μεταφοράς για να γεννήσει κείμενο.
Το μοντέλο GPT-3 μετράει τις δικές του ικανότητες μάθησης контекСТ, και το μοντέλο GPT-3 αξιολογείται σε πάνω από δύο δωδεκάδες σύνολα δεδομένων NLP και πολλές νέες εργασίες. Για κάθε ατομική εργασία, το μοντέλο GPT-3 αξιολογείται υπό τρεις συνθήκες,
- Μάθηση με Λίγα Παραδείγματα ή Μάθηση στο ΚοντέκΣΤ: Στη μάθηση με λίγα παραδείγματα, το μοντέλο GPT-3 επιτρέπει όσες κατανομές μπορούν να ταιριάζουν καλά στο контекΣΤ του μοντέλου.
- Μάθηση με Ένα Παράδειγμα: Στη μάθηση με ένα παράδειγμα, το μοντέλο επιτρέπει μόνο ένα παράδειγμα.
- Μάθηση με Μηδέν Παραδείγματα: Στη μάθηση με μηδέν παραδείγματα, δεν υπάρχουν παραδείγματα, και υπάρχει μόνο μια οδηγία στη φυσική γλώσσα που τροφοδοτείται στο μοντέλο.

Γενικά, το μοντέλο GPT-3 επιτυγχάνει την επιθυμητή απόδοση σε μηδέν-παράδειγμα και ένα-παράδειγμα ρυθμίσεις, και στη ρύθμιση λίγων παραδειγμάτων, ξεπερνά τα μοντέλα μεταφοράς της υψηλότερης απόδοσης την περισσότερη φορά. Επιπλέον, το μοντέλο GPT-3 εκτελείται καλά σε εργασίες φυσικής γλώσσας που σχεδιάζονται για να ελέγξουν την εύρεση στη διάρκεια ή απαιτούν γρήγορη προσοχή όπως η χρήση νέων λέξεων μετά από μια πρόταση, ή η αναδιάταξη λέξεων, ή η εκτέλεση αριθμητικών εργασιών. Από την άλλη πλευρά, όταν λειτουργεί σε ρύθμιση λίγων παραδειγμάτων, το μοντέλο GPT-3 γεννάει συνθετικά άρθρα ειδήσεων που μοιάζουν με γραφή ανθρώπων όταν περνάει από ανθρώπινους αξιολογητές.

Μοντέλο GPT-3: Προσέγγιση
Το μοντέλο GPT-3 χρησιμοποιεί μια συμβατική προσέγγιση προ-εκπαίδευσης που αποτελείται από μοντέλο, δεδομένα και εκπαίδευση, και μοιάζει με τη διαδικασία προ-εκπαίδευσης που ακολουθείται από το μοντέλο RWC-19. Το μοντέλο GPT-3 αυξάνει το μέγεθος του μοντέλου, το μέγεθος του συνόλου δεδομένων, την ποικιλία του συνόλου δεδομένων, και αυξάνει τη διάρκεια της εκπαίδευσης.
Το μοντέλο χρησιμοποιεί επίσης μια προσέγγιση μάθησης στο контекΣΤ που μοιάζει με την προσέγγιση του μοντέλου RWC-19, αλλά ανακατεύει τα πράγματα κάπως με τη συστηματική εξέταση διαφορετικών ρυθμίσεων για την μάθηση προτύπων μέσα στο контекΣΤ του συνόλου δεδομένων.
Έτσι, ας αρχίσουμε εξετάζοντας αυτές τις ρυθμίσεις, και αξιολογώντας πώς το μοντέλο GPT-3 εκτελείται σε διαφορετικές ρυθμίσεις.
Εξεύρεση
Η εξεύρεση του μοντέλου έχει sido η συμβατική προσέγγιση στα μοντέλα γλώσσας μεταφοράς, και αυτή η προσέγγιση περιλαμβάνει την ενημέρωση των βαρών ενός προ-εκπαιδευμένου μοντέλου με την εκπαίδευση του μοντέλου σε ένα εποπτευόμενο σύνολο δεδομένων που είναι ειδικό για την επιθυμητή εργασία, και εκατοντάδες χιλιάδες ετικετούμενα παραδείγματα χρησιμοποιούνται κατά τη διάρκεια της διαδικασίας.
Η προσέγγιση της εξεύρεσης είναι ωφέλιμη επειδή επιστρέφει ισχυρή απόδοση σε πολλά βENCHMARK. Από την άλλη πλευρά, το κύριο περιορισμό της χρήσης της προσέγγισης της εξεύρεσης είναι ότι απαιτεί ένα νέο και μεγάλο σύνολο δεδομένων για κάθε ατομική εργασία, έχει το потенτικό να εκμεταλλευτεί σπυρικές ιδιότητες του συνόλου δεδομένων, μπορεί να οδηγήσει σε άδικη σύγκριση με την ανθρώπινη απόδοση, και κακή γενίκευση για εκτός-κατανομής.
Ο τρέχων σκοπός του μοντέλου GPT-3 δεν εφαρμόζει την προσέγγιση της εξεύρεσης λόγω της εργασίας-αγνώστου απόδοσης, αν και η εξεύρεση μπορεί να εφαρμοστεί στο μοντέλο GPT-3 στο μέλλον.
Λίγα Παραδείγματα
Λίγα Παραδείγματα είναι ένας όρος που αναφέρεται στη ρύθμιση όπου το μοντέλο GPT-3 δίνεται λίγα παραδείγματα της εργασίας κατά τη διάρκεια της εύρεσης ως συνθήκη, αλλά τα βάρη του μοντέλου δεν ενημερώνονται. Στη ρύθμιση λίγων παραδειγμάτων, το σύνολο δεδομένων συνήθως έχει ένα παράδειγμα με контекΣΤ και επιθυμητό ολοκλήρωση (για παράδειγμα, μια γαλλική πρόταση και η αγγλική μετάφρασή της). Η ρύθμιση λίγων παραδειγμάτων δίνει στο μοντέλο K παραδείγματα του контекΣΤ και ολοκλήρωσης, και στη συνέχεια παρέχει στο μοντέλο ένα τελικό контекΣΤ, και αναμένεται να παρέχει την ολοκλήρωση.
Το κύριο πλεονέκτημα της χρήσης της ρύθμισης λίγων παραδειγμάτων είναι ότι μειώνει σημαντικά την ανάγκη για εργασία-ειδικά δεδομένα, και επίσης μειώνει το потенτικό να μάθει μια στενή κατανομή από ένα μεγάλο σύνολο δεδομένων που εξευρεύεται στενά. Από την άλλη πλευρά, το κύριο μειονέκτημα της χρήσης της μάθησης με λίγα παραδείγματα είναι ότι τα αποτελέσματα που παρέχονται στη ρύθμιση λίγων παραδειγμάτων δεν είναι στο επίπεδο, και σημαντικά χειρότερα όταν συγκρίνονται με άλλα μοντέλα της υψηλότερης απόδοσης που εξευρεύονται.
Ένα Παράδειγμα
Στη ρύθμιση ενός παραδείγματος, το μοντέλο δίνεται μόνο ένα παράδειγμα, και το υπόλοιπο είναι παρόμοιο με τη ρύθμιση λίγων παραδειγμάτων. Ο λόγος για τον οποίο η ρύθμιση ενός παραδείγματος είναι σχετική στα μοντέλα γλώσσας μεταφοράς είναι ότι από όλες τις τρεις ρυθμίσεις, το ένα παράδειγμα είναι αυτό που μοιάζει περισσότερο με τον τρόπο με τον οποίο οι εργασίες επικοινωνούνται στους ανθρώπους. Είναι επειδή στις περισσότερες εργασίες, είναι συνήθως να δώσουμε ένα παράδειγμα της εργασίας, αλλιώς μπορεί να είναι δύσκολο να κατανοηθεί ο контекΣΤ της εργασίας.
Μηδέν Παραδείγματα
Στη ρύθμιση μηδέν παραδειγμάτων, δεν υπάρχουν παραδείγματα, και το μοντέλο δίνεται μια φυσική γλώσσα οδηγία που περιγράφει την εργασία. Η μέθοδος μηδέν παραδειγμάτων είναι αυτή που προσφέρει τη μέγιστη ευκολία, είναι robust, και επίσης αποφεύγει σπυρικές συσχετίσεις, αλλά είναι επίσης η πιο απαιτητική από όλες τις τρεις ρυθμίσεις. Είναι επειδή σε ορισμένες περιπτώσεις, είναι δύσκολο ακόμη και για τους ανθρώπους να κατανοήσουν τον контекΣΤ μιας εργασίας χωρίς να δουν πρώτα ένα παράδειγμα.
Παρά ταύτα, για ορισμένες εργασίες, η ρύθμιση μηδέν παραδειγμάτων είναι αυτή που μοιάζει περισσότερο με τον τρόπο με τον οποίο οι άνθρωποι εκτελούν φυσικές γλώσσες.

Η παραπάνω εικόνα συγκρίνει τη ρύθμιση λίγων παραδειγμάτων, τη ρύθμιση ενός παραδείγματος, και τη ρύθμιση μηδέν παραδειγμάτων όταν εκτελείται μια φυσική γλώσσα εργασία που αφορά τη μετάφραση μιας αγγλικής πρότασης σε γαλλική.
Μοντέλο GPT-3: Αρχιτεκτονική
Το μοντέλο GPT-3 χρησιμοποιεί την ίδια αρχιτεκτονική με αυτή που χρησιμοποιείται στο μοντέλο GPT-2, και περιλαμβάνει προ-κανονικοποίηση, τροποποιημένη αρχικοποίηση, και αναστρέψιμη τοκενίωση τεχνικές όπως χρησιμοποιήθηκαν στο μοντέλο GPT με την εξαίρεση της χρήσης μιας εναλλακτικής στρατηγικής για τοπικά μπαντ σπαρς προσοχής προτύπων, και εναλλακτικών πυκνών στρωμάτων στις μεταφόρτωσης στρώματα, παρόμοια με το Sparse Transformer.
Για να μελετήσουν την εξάρτηση της απόδοσης του μοντέλου από το μέγεθος του μοντέλου, οι développers έχουν εκπαιδεύσει 8 διαφορετικά μεγέθη μοντέλων που κυμαίνονται πάνω από τρεις διαφορετικές τάξεις μεγέθους από 125 εκατομμύρια σε πάνω από 175 δισεκατομμύρια παραμέτρους, το τελευταίο από τα οποία ονομάζεται μοντέλο GPT-3. Προηγούμενη εργασία σχετικά με τα μοντέλα LLM έχει δείξει ότι η κλίμακα της απώλειας επαλήθευσης με επαρκές ποσό εκπαίδευσης δεδομένων πρέπει να είναι μια περίπου ομαλή δύναμη ως συνάρτηση μεγέθους. Η εκπαίδευση μοντέλων διαφορετικών μεγεθών επιτρέπει στους développers να ελέγξουν την υπόθεση για cả τις εργασίες γλώσσας μεταφοράς και για την απώλεια επαλήθευσης.

Η παραπάνω εικόνα συγκρίνει το μέγεθος και την αρχιτεκτονική των 8 διαφορετικών μοντέλων που χρησιμοποιήθηκαν για την ανάπτυξη του μοντέλου GPT-3. Εδώ, n(params) ορίζει τον tổng αριθμό των εκπαιδεύσιμων προτύπων, n(layers) ορίζει τον tổng αριθμό στρωμάτων στο μοντέλο, d(model) ορίζει τον αριθμό μονάδων σε κάθε στρώμα του λαιμού, και d(head) ορίζει τις διαστάσεις κάθε προσοχής κεφαλής. Το παράθυρο контекΣΤ για κάθε μοντέλο είναι το ίδιο με 2048 tokens.
Επιπλέον, για να ελαχιστοποιηθεί η μεταφορά δεδομένων μεταξύ των κόμβων, το μοντέλο χωρίζεται σε GPUs κατά μήκος του βάθους και του πλάτους των διαστάσεων. Οι αρχιτεκτονικές παραμέτρους για κάθε μοντέλο έχουν επιλεγεί με βάση την υπολογιστική αποτελεσματικότητα και την ισορροπία φόρτου για να μεγιστοποιήσουν την ακρίβεια στη διάταξη των μοντέλων σε GPUs.
Σύνολα Δεδομένων Εκπαίδευσης
Τυπικά, τα μεγάλα μοντέλα γλώσσας χρησιμοποιούν σύνολα δεδομένων που έχουν επεκταθεί σημαντικά με τις πρόσφατες εξελίξεις, και αυτά οδηγούν στο σύνολο δεδομένων Common Crawl που αποτελείται από πάνω από ένα τρισεκατομμύριο διαφορετικά λόγια. Το μέγεθος του συνόλου δεδομένων είναι επαρκές για να εκπαιδεύσει το μοντέλο GPT-3 χωρίς να ενημερωθεί στην ίδια ακολουθία πολλές φορές. Ωστόσο, μελέτες και ανάλυση απόδοσης δείχνουν ότι ελαφρώς φιλτράρισμένες ή μη φιλτράρισμένες εκδόσεις του συνόλου δεδομένων Common Crawl έχουν χαμηλή ποιότητα σε σύγκριση με πιο καλλιεργημένα σύνολα δεδομένων.
Για να αντιμετωπίσουν το πρόβλημα της μέσης ποιότητας του συνόλου δεδομένων, οι développers έπραξαν 3 βήματα για να βελτιώσουν την ποιότητα του συνόλου δεδομένων.
- Οι développers κατέβασαν και φίλτράραν μια έκδοση του συνόλου δεδομένων Common Crawl με βάση einen περιορισμό παρόμοιο με υψηλής ποιότητας αναφοράς corpora.
- Οι développers εκτέλεσαν fuzzy duplication στο επίπεδο εγγράφου σε όλο το σύνολο δεδομένων σε μια προσπάθεια να διατηρήσουν την ακεραιότητα του συνόλου δεδομένων επαλήθευσης ως αποτελεσματική μέτρηση της υπερ-προσαρμογής, και επίσης να αποφευχθεί η επανάληψη.
- Οι développers πρόσθεσαν επίσης υψηλής ποιότητας αναφοράς corpora στο σύνολο δεδομένων εκπαίδευσης για να αυξήσουν την ποικιλία του συνόλου δεδομένων.
Η παρακάτω εικόνα δείχνει το τελικό ποσοστό ή μείγμα των συνόλων δεδομένων που χρησιμοποιήθηκαν για την εκπαίδευση του μοντέλου GPT-3. Το σύνολο δεδομένων Common Crawl αποτελούσε πάνω από 45 TB από απλό κείμενο πριν από το φίλτράρισμα που μειώθηκε σε 570 GB δεδομένων μετά το φίλτράρισμα, ένα περίπου ισοδύναμο με πάνω από 400 δισεκατομμύρια byte-pair κωδικοποιημένα tokens. Είναι αξιοσημείωτο ότι τα σύνολα δεδομένων που θεωρούνται υψηλότερης ποιότητας δείχνουν με μεγαλύτερη συχνότητα αντί να δείχνουν το σύνολο δεδομένων ανάλογα με το μέγεθός τους. Ως αποτέλεσμα, σύνολα δεδομένων όπως τα Books2 και Common Crawl δείχνουν λιγότερο από μία φορά κατά τη διάρκεια της εκπαίδευσης, ενώ τα άλλα σύνολα δεδομένων δείχνουν πολλές φορές. Αυτό επιτρέπει στο μοντέλο να αποδεχθεί μια μικρή ποσότητα υπερ-προσαρμογής σε αντάλλαγμα για την εκπαίδευση σε υψηλότερης ποιότητας δεδομένα.

Ένα σημαντικό πρόβλημα με τα μεγάλα μοντέλα γλώσσας που προ-εκπαιδεύονται σε ένα μεγάλο ποσό διαδικτυακού δεδομένου με την ικανότητα να θυμάται και να μάθει ένα μεγάλο ποσό περιεχομένου είναι η πιθανή μόλυνση των εργασιών μεταφοράς με την εμφάνιση των συνόλων δεδομένων ανάπτυξης ή δοκιμής κατά τη διάρκεια της προ-εκπαίδευσης. Για να μειώσουν αυτή τη πιθανή μόλυνση, οι développers αναζήτησαν για jede επικάλυψη με τα σύνολα δεδομένων ανάπτυξης και δοκιμής των βENCHMARK που μελετήθηκαν για το GPT-3, και προσπάθησαν να αφαιρέσουν αυτές τις επικαλύψεις.

Η παραπάνω εικόνα δείχνει τον tổng υπολογισμό που χρησιμοποιήθηκε κατά τη διάρκεια της εκπαίδευσης του μοντέλου GPT-3. Το μοντέλο χρησιμοποιεί τους νόμους κλίμακας για τα μοντέλα γλώσσας για να εκπαιδεύσει πολύ μεγαλύτερα μοντέλα σε λιγότερα tokens από το τυπικό. Ως αποτέλεσμα, και το GPT-3 και το μοντέλο RoBERTa-Large, που είναι 10 φορές μικρότερο από το GPT-3, πήραν σχεδόν 50 petaflops/ημέρα υπολογισμού κατά τη διάρκεια της προ-εκπαίδευσης.
Αξιολόγηση
Για τη μάθηση με λίγα παραδείγματα, το μοντέλο αξιολογεί κάθε παράδειγμα που υπάρχει στο σύνολο δεδομένων αξιολόγησης με την τυχαία επιλογή K παραδειγμάτων από το σύνολο δεδομένων εκπαίδευσης της εργασίας ως συνθήκη, και οριοθετείται από 1 ή 2 νέες γραμμές ανάλογα με την εργασία. Για τα Storycloze και LAMBADA, το μοντέλο επιλέγει παραδείγματα από το σύνολο δεδομένων ανάπτυξης και αξιολογεί στο σύνολο δεδομένων δοκιμής λόγω της μη διαθεσιμότητας ενός εποπτευόμενου συνόλου δεδομένων εκπαίδευσης. Για το Winograd, υπάρχει μόνο ένα σύνολο δεδομένων, και έτσι τα παραδείγματα επιλέγονται trực tiếp από αυτό.
K μπορεί να είναι οποιαδήποτε τιμή από 0 έως το μέγιστο ποσό που επιτρέπεται από το παράθυρο контекΣΤ του μοντέλου, το οποίο είναι next = 2048 για όλα τα μοντέλα, και συνήθως χωράει около 10 έως 100 παραδείγματα. Μεγαλύτερες τιμές του K συχνά οδηγούν σε καλύτερα αποτελέσματα, αλλά όχι πάντα, και αυτό είναι το λόγο για τον οποίο, όταν το μοντέλο έχει ένα σύνολο δεδομένων δοκιμής και ένα ξεχωριστό σύνολο δεδομένων ανάπτυξης, το μοντέλο πειραματίζεται με quelques τιμές του K στο σύνολο δεδομένων ανάπτυξης, και με βάση τα αποτελέσματα, τρέχει την καλύτερη τιμή στο σύνολο δεδομένων δοκιμής.
Επιπλέον, στις εργασίες που απαιτούν την επιλογή της σωστής ολοκλήρωσης από πολλές επιλογές, οι développers παρέχουν K παραδείγματα ολοκλήρωσης plus контекΣΤ, και ακολουθούν με την παροχή ενός παραδείγματος kontekΣΤ μόνο, και οι εργασίες αξιολογούνται με βάση την LM πιθανότητα κάθε ολοκλήρωσης. Για τις εργασίες που απαιτούν δυαδική ταξινόμηση, τα μοντέλα συχνά δίνουν επιλογές περισσότερο σεμαντικά, και με πιο σημαντικά ονόματα, και στη συνέχεια αντιμετωπίζουν την εργασία σαν πολλαπλή επιλογή, και μερικές φορές επίσης το σχήμα της εργασίας παρόμοιο με αυτό που κάνει το μοντέλο RSR & αρχιτεκτονική.
Για τις εργασίες που απαιτούν ελεύθερη ολοκλήρωση, το μοντέλο χρησιμοποιεί beam search με ταυτόσημες παραμέτρους όπως χρησιμοποιούνται στο RSR framework, με ένα beam μήκους 4, και μια ποινή 0,6. Το μοντέλο αξιολογείται χρησιμοποιώντας είτε το F1 ομοιότητα, ακριβή αντιστοιχία, ή BLEU, ανάλογα με το πρότυπο για το σύνολο δεδομένων.
Αποτελέσματα

Η παραπάνω εικόνα δείχνει τις καμπύλες εκπαίδευσης για τα 8 μοντέλα που χρησιμοποιήθηκαν στην αρχιτεκτονική του μοντέλου GPT-3, όπως περιγράφηκε στις προηγούμενες ενότητες. Παρόμοια με τα αποτελέσματα από το μοντέλο KMH, η απόδοση του μοντέλου GPT-3 ακολουθεί μια σωστή τάση όταν χρησιμοποιείται αποτελεσματικά ο υπολογισμός. Υπάρχει μια μικρή διαφορά από την τάση μόνο όταν η τάση επεκτείνεται με δύο περισσότερες τάξεις μεγέθους. Μπορεί να φανεί ότι οι βελτιώσεις στην απώλεια cross-entropy μπορεί να είναι αποτέλεσμα του μοντελισμού σπυρικών λεπτομερειών του συνόλου δεδομένων εκπαίδευσης. Ωστόσο, οι βελτιώσεις στην απώλεια cross-entropy οδηγούν σε συνεχείς κέρδη στην总 απόδοση σε eine ευρεία ποικιλία εργασιών NLP.
Πριν από την αξιολόγηση των 8 διαφορετικών μοντέλων σε eine ευρεία ποικιλία συνόλων δεδομένων, τα σύνολα δεδομένων ομαδοποιούνται σε 8 διαφορετικές κατηγορίες που αντιπροσωπεύουν παρόμοιες εργασίες. Αυτές οι κατηγορίες είναι
- Αξιολόγηση σε παραδοσιακές εργασίες μοντελισμού γλώσσας, και εργασίες που μοιάζουν με τον μοντελισμό γλώσσας, όπως εργασίες Cloze, ή εργασίες ολοκλήρωσης προτάσεων/παραγράφων.
- Αξιολόγηση σε “κλειστές-βιβλιοθήκης” εργασίες απάντησης σε ερωτήσεις.
- Αξιολόγηση της ικανότητας του μοντέλου να μεταφράζει μεταξύ γλωσσών (ειδικά σε μια-παράδειγμα και λίγα-παράδειγμα).
- Αξιολόγηση της απόδοσης του μοντέλου σε εργασίες Winograd Schema-όμοιες.
- Αξιολόγηση στο σύνολο δεδομένων που αφορά την κοινή λογική ή την απάντηση σε ερωτήσεις.
- Αξιολόγηση σε εργασίες ανάγνωσης και κατανόησης κειμένων.
- Αξιολόγηση στο σύνολο δεδομένων SuperGLUE.
- Εξέταση NLI.
Μοντελισμός Γλώσσας, Ολοκλήρωση και Εργασίες Cloze
Σε αυτήν την ενότητα, η απόδοση του μοντέλου GPT-3 αξιολογείται σε παραδοσιακές εργασίες μοντελισμού γλώσσας, καθώς και εργασίες που απαιτούν την πρόβλεψη μιας einzel λέξης ενδιαφέροντος, ή την ολοκλήρωση μιας πρότασης ή μιας παραγράφου, ή την ολοκλήρωση ενός κειμένου. Ας τις συζητήσουμε συνοπτικά.
Μοντελισμός Γλώσσας
Το μοντέλο GPT-3 υπολογίζει την απώλεια perplexity σε μηδέν-παράδειγμα στο σύνολο δεδομένων PTB ή το σύνολο δεδομένων Penn Tree Bank. Το μοντέλο παραλείπει τις εργασίες που σχετίζονται με το Wikipedia επειδή είναι ήδη περιλαμβανόμενο στο σύνολο δεδομένων εκπαίδευσης, και το σύνολο δεδομένων ενός δισεκατομμυρίου λέξεων παραλείπεται επειδή προκαλεί σημαντική τριβή του συνόλου δεδομένων που είναι ήδη στο σύνολο δεδομένων εκπαίδευσης. Ωστόσο, το σύνολο δεδομένων PTB αντιμετωπίζει αυτά τα ζητήματα επειδή μπορεί να προηγήθηκε της σύγχρονης διαδικτύου. Το μεγαλύτερο μοντέλο στην αρχιτεκτονική του μοντέλου GPT-3 επιτυγχάνει ένα νέο SOTA στο σύνολο δεδομένων PTB με μια αξιοσημείωτη διαφορά 15 πόντων, και επιτυγχάνει μια perplexity 20,50.
LAMBADA
Το σύνολο δεδομένων LAMBADA χρησιμοποιείται για να ελέγξει τον μοντελισμό του μοντέλου σε μακροχρόνιες εξαρτήσεις σε παραγράφους ή κείμενα. Αυτό σημαίνει ότι το μοντέλο ζητείται να προβλέψει την τελευταία λέξη μιας πρότασης μετά την ανάγνωση της παραγράφου για το контекΣΤ. Επιπλέον, η συνεχής κλίμακα των μοντέλων γλώσσας οδηγεί σε μειωμένα κέρδη στο βENCHMARK.

Το μοντέλο GPT-3 επιτυγχάνει 76% ακρίβεια στο LAMBADA, και έχει μια κέρδη πάνω από 8% πάνω από τα προηγούμενα καλύτερα μοντέλα. Επιπλέον, το LAMBADA δείχνει την ευελιξία της μάθησης με λίγα παραδείγματα, καθώς αντιμετωπίζει το πρόβλημα με έναν τρόπο που συμβαίνει κλασικά με το σύνολο δεδομένων. Η ολοκλήρωση μιας πρότασης στο LAMBADA είναι συνήθως η τελευταία λέξη της πρότασης, αλλά καθώς ένα μοντέλο γλώσσας δεν μπορεί να γνωρίζει αυτό, αναθέτει μια πιθανότητα όχι μόνο στην σωστή ολοκλήρωση, αλλά και σε άλλες συνέχειες στην παράγραφο.
Επιπλέον, όταν τα παραδείγματα που τροφοδοτούνται στο μοντέλο GPT-3 τροποποιούνται με κάποιον τρόπο, το μοντέλο επιστρέφει μια ακρίβεια πάνω από 86%, μια αύξηση πάνω από 18% πάνω από τα προηγούμενα μοντέλα. Επιπλέον, τα αποτελέσματα δείχνουν επίσης ότι η απόδοση του μοντέλου σε μια ρύθμιση λίγων παραδειγμάτων αυξάνει αναλογικά με την αύξηση του μεγέθους του μοντέλου. Αν και αυτή η στρατηγική μειώνει το μικρότερο μοντέλο στην αρχιτεκτονική του GPT-3 κατά 20%, αυξάνει την ακρίβεια του πρωταρχικού μοντέλου GPT-3 με 175 δισεκατομμύρια παραμέτρους κατά 10%.
Κλειστές-Βιβλιοθήκης Εργασίες Απάντησης σε Ερωτήσεις
Η κλειστή-βιβλιοθήκης απάντηση σε ερωτήσεις είναι μια προσπάθεια να μετρηθεί η ικανότητα του μοντέλου GPT-3 να απαντήσει σε ερωτήσεις με βάση την ευρεία γνώση. Επειδή τέτοιες ερωτήσεις συχνά έχουν ένα μεγάλο αριθμό πιθανών ερωτήσεων, η εργασία είναι συνήθως επιτυγχανόμενη με την χρήση ενός συστήματος ανάκτησης πληροφοριών που επιτρέπει στο μοντέλο να βρει σχετικά κείμενο σε συνδυασμό με το μοντέλο που μαθαίνει να γεννήσει μια απάντηση σε μια ερώτηση με βάση το ανακτημένο κείμενο.

Η παραπάνω εικόνα συγκρίνει τα αποτελέσματα για το μοντέλο GPT-3 σε σύγκριση με διαφορετικά μοντέλα, και τρέχει σε διαφορετικά σύνολα δεδομένων. Στο σύνολο δεδομένων TriviaQA, το μοντέλο επιτυγχάνει μια ακρίβεια 64,3% στη ρύθμιση μηδέν-παράδειγμα, ενώ επιτυγχάνει μια ακρίβεια 68%, και 71,2% στη ρύθμιση ενός-παράδειγμα και λίγων-παραδειγμάτων, αντίστοιχα.
Είναι φανερό ότι το μοντέλο GPT-3 στη ρύθμιση μηδέν-παράδειγμα ξεπερνά το μοντέλο T5-11B που εξευρεύεται με μια διαφορά πάνω από 14%.

Η παραπάνω εικόνα δείχνει ότι η απόδοση του μοντέλου GPT-3 αυξάνει ομαλά με την αύξηση του μεγέθους του μοντέλου. Η απόδοση δείχνει ότι τα μοντέλα γλώσσας συνεχίζουν να μαθαίνουν από το σύνολο δεδομένων καθώς η ικανότητά τους αυξάνει.
Τελικές Σκέψεις
Θα ήταν ασφαλές να πούμε ότι το GPT-3 ήταν μια επαναστατική φάση στη βιομηχανία LLM, καθώς το GPT-3 βοήθησε να ωθήσει τα όρια του τι μπορεί να κάνει ένα μοντέλο γλώσσας. Ήταν οι εξελίξεις και τα εμπόδια που ξεπεράστηκαν από το GPT-3 που άνοιξαν τον δρόμο για το πιο προηγμένο και ακριβές μεγάλο μοντέλο γλώσσας μέχρι σήμερα, το GPT-4.












