Τεχνητή νοημοσύνη
GPT-3: Few Shot Learning για Μοντέλα Γλώσσας;

Τις τελευταίες années, η βιομηχανία AI και ML έχει μειώσει μια μετεωρική άνοδο στην ανάπτυξη και εφαρμογή των συστημάτων NLP, καθώς οι ερευνητές έχουν能够 να εφαρμόσουν πρακτικές NLP με υψηλή ευελιξία και ανεξαρτησία για εργασίες μεταφοράς.
Αρχικά, ήταν οι αναπαραστάσεις ενός στρώματος που χρησιμοποιούσαν διανύσματα λέξεων και στη συνέχεια τροφοδοτούσαν την αρχιτεκτονική της εργασίας. Στη συνέχεια, ήταν η αρχιτεκτονική RNN που χρησιμοποιούσε αναπαραστάσεις πολλαπλών στρωμάτων και контекστοποιημένο κράτος για να σχηματίσει καλύτερες αναπαραστάσεις. Και πιο πρόσφατα, έχουμε τα μοντέλα μεταφοράς γλώσσας ή προ-εκπαιδευμένα αναδρομικά μοντέλα που έχουν αφαιρέσει完全 την ανάγκη για αρχιτεκτονικές εργασιών με την εκπαίδευση αυτών των δικτύων.
Τα μοντέλα μεταφοράς γλώσσας έχουν αποδειχθεί ένας σημαντικός σταθμός στη βιομηχανία NLP, καθώς έχουν οδηγήσει σε σημαντική πρόοδο σε απαιτητικές εργασίες όπως η απάντηση σε ερωτήσεις, η ανάγνωση κατανόησης ή μπλοκ κειμένου, η εντατική entailment και πολλά άλλα.
Ωστόσο, παρά τα πλεονεκτήματά τους, τα μοντέλα μεταφοράς γλώσσας έχουν einen σημαντικό περιορισμό, καθώς απαιτούν εργασιακή εκπαίδευση ή εργασιακό σύνολο δεδομένων για να επιτύχουν την επιθυμητή απόδοση σε μια εργασία. Επιπλέον, τα μοντέλα μεταφοράς γλώσσας απαιτούν επίσης από τους développers να εκπαιδεύσουν τα σύνολα δεδομένων σε εκατοντάδες χιλιάδες παραδείγματα που είναι συγκεκριμένα για μια εργασία.
Πηγαίνει χωρίς να λέει ότι η αφαίρεση της ανάγκης για εργασιακό σύνολο δεδομένων και εργασιακή εκπαίδευση θα ήταν πολύ επιθυμητή και ωφέλιμη για τη βιομηχανία NLP για πολλούς λόγους.
Προβλήματα με τα Υπάρχοντα Προ-Εκπαιδευμένα Μοντέλα Μεταφοράς Γλώσσας ή Αναδρομικά Μοντέλα
- Περιορισμός της Πρακτικότητας και της Εφαρμογής
Πρώτα και πάνω από όλα, η ανάγκη ενός μεγάλου συνόλου δεδομένων με ετικετούμενα δεδομένα για κάθε εργασία περιορίζει την εφαρμογή και την πρακτικότητα των μοντέλων γλώσσας. Τα μοντέλα γλώσσας βρίσκουν εφαρμογές σε eine ευρεία ποικιλία εργασιών που κυμαίνονται από τη δημιουργία μιας σύντομης ιστορίας, στη διόρθωση γραμματικών λαθών, στη δημιουργία παραδειγμάτων για μια έννοια. Σε ορισμένες περιπτώσεις, είναι μια απαιτητική εργασία να συλλέξουμε ένα μεγάλο εποπτευόμενο σύνολο δεδομένων με ετικετούμενα δεδομένα, ιδιαίτερα όταν η διαδικασία πρέπει να επαναληφθεί για κάθε εργασία.
- Εξαπάτηση των Σπυρίων Συσχετίσεων στα Δεδομένα Εκπαίδευσης
Οι περιορισμοί και η στενότητα της κατανομής εκπαίδευσης, σε συνδυασμό με την εκφραστικότητα του μοντέλου, μπορεί να οδηγήσουν σε μια θεμελιώδη αύξηση του потенταμικού να εξαπατήσουν τις σπυρίες συσχετίσεις στα δεδομένα εκπαίδευσης. Το потенταμικό να εξαπατήσουν τα δεδομένα εκπαίδευσης μπορεί να οδηγήσει σε προβλήματα κατά τη διάρκεια της εκπαίδευσης και της προ-εκπαίδευσης, καθώς τα μοντέλα μεταφοράς γλώσσας σχεδιάζονται για να απορροφήσουν eine μεγάλη ποσότητα πληροφοριών κατά τη διάρκεια της προ-εκπαίδευσης.
Επιπλέον, η εργασία σε προηγούμενα μοντέλα έχει δείξει ότι τα μεγάλα μοντέλα δεν οδηγούν πάντα σε καλύτερη απόδοση εκτός κατανομής κάθε φορά. Επιπλέον, έχει επίσης δείξει ότι η γενίκευση που επιτυγχάνεται υπό αυτό το παράδειγμα μπορεί να οδηγήσει σε κακή απόδοση, κυρίως επειδή το μοντέλο είναι πολύ συγκεκριμένο στα δεδομένα εκπαίδευσης και δεν μπορεί να εκτελεστεί καλά σε καταστάσεις πέρα από το πεδίο των δεδομένων εκπαίδευσης.
- Σύγκριση με την Ανθρώπινη Μάθηση
Τέλος, όταν συγκρίνουμε τα μοντέλα μεταφοράς γλώσσας με τους ανθρώπους, οι άνθρωποι δεν απαιτούν ένα μεγάλο σύνολο δεδομένων όταν πρόκειται για την εκμάθηση μιας πλειοψηφίας των γλωσσικών εργασιών. Συχνά, μια σύντομη οδηγία στην φυσική γλώσσα ενός ατόμου ή ένα μικρό παράδειγμα της γλωσσικής εργασίας είναι αρκετό για έναν άνθρωπο να κατανοήσει και να εκτελέσει μια γλωσσική εργασία με ένα certo επίπεδο ανταγωνισμού.
Η ικανότητα των ανθρώπων να προσαρμόζονται έχει πολλά πρακτικά πλεονεκτήματα, καθώς τους επιτρέπει είτε να εναλλάσσονται μεταξύ διαφορετικών συνόλων δεξιοτήτων είτε να τα συνδυάζουν για να εκτελέσουν καλύτερα κατά τη διάρκεια μιας διαλέκτου, κάτι που είναι πέρα από τις δυνατότητες των τρεχοντων συστημάτων NLP.
Αντιμετωπίζοντας τα Προβλήματα με τη Μετα-Μάθηση και το GPT-3
Μια πιθανή λύση στα παραπάνω προβλήματα είναι η χρήση της μετα-μάθησης, ενός εννοιολογικού μοντέλου στη σύγχρονη ML που επιτρέπει σε ένα μοντέλο να αναπτύξει ένα μεγαλύτερο και ευρύτερο σύνολο δεξιοτήτων και ικανοτήτων αναγνώρισης προτύπων κατά τη διάρκεια της εκπαίδευσης και στη συνέχεια χρησιμοποιεί αυτές τις αναπτυγμένες ικανότητες κατά τη διάρκεια της παρέμβασης για να προσαρμοστεί γρήγορα ή να αναγνωρίσει την απαιτούμενη εργασία.
Η μετα-μάθηση εφαρμόζεται στην αρχιτεκτονική του μοντέλου γλώσσας μέσω μιας τεχνικής που ονομάζεται “μάθηση στο контекστό” που χρησιμοποιεί την είσοδο κειμένου του προ-εκπαιδευμένου μοντέλου γλώσσας ως ορισμό εργασίας. Στη διαδικασία, το μοντέλο συνδύαζει μια φυσική γλώσσα οδηγία και μπορεί ακόμη και να χρησιμοποιήσει quelques παραδείγματα, και το μοντέλο αναμένεται να ολοκληρώσει την υπόλοιπη εργασία προβλέποντας τα επόμενα βήματα.
Το μόνο σημαντικό ζήτημα με τη μετα-μάθηση είναι ότι, αν και έχει δείξει θετική δυνατότητα, είναι ακόμη κατώτερη της προσέγγισης της εκπαίδευσης σε φυσική γλώσσα, και χρειάζεται περαιτέρω βελτίωση για να γίνει μια πρακτική μέθοδος για την υπέρβαση των γλωσσικών εργασιών.
Επιπλέον, στην μετα-μάθηση, μια άλλη μέθοδος που κερδίζει δημοτικότητα είναι η αύξηση της ικανότητας των μοντέλων μεταφοράς γλώσσας. Τα τελευταία χρόνια, τα μοντέλα μεταφοράς έχουν μειώσει μια σημαντική αύξηση στην ικανότητά τους με το μοντέλο RNSS18 με 100 εκατομμύρια παραμέτρους, το μοντέλο DCLT18 με 300 εκατομμύρια παραμέτρους, το μοντέλο RWC19 με 1,5 δισεκατομμύρια παραμέτρους, το μοντέλο SSP19 με 8 δισεκατομμύρια παραμέτρους, το μοντέλο RSR19 με 11 δισεκατομμύρια παραμέτρους, και το μοντέλο TUR20 με 17 δισεκατομμύρια παραμέτρους.
Η αύξηση της ικανότητας του μοντέλου ή η αύξηση των παραμέτρων έχει ιστορικά οδηγήσει σε βελτιώσεις στην σύνθεση κειμένου, και υπάρχει μια ένδειξη ότι η log loss, που συσχετίζεται με τις εργασίες κάτω από αυτή τη παράμετρο, ακολουθεί μια ομαλή τάση βελτίωσης με την κλίμακα.
Αυτό μας οδηγεί στο μοντέλο GPT-3 που έχει πάνω από 175 δισεκατομμύρια παραμέτρους, και όταν κυκλοφόρησε, ήταν το μοντέλο μεταφοράς γλώσσας με την υψηλότερη ικανότητα. Ας μιλήσουμε τώρα για το μοντέλο GPT-3.
Εισαγωγή στο Μοντέλο GPT-3
Το GPT-3 είναι ένα αυτο-αγрессίβο μοντέλο γλώσσας με πάνω από 175 δισεκατομμύρια παραμέτρους που κυκλοφόρησε από την OpenAI το 2020. Το GPT-3 είναι επίσης ταξινομημένο ως ένα μεγάλο μοντέλο γλώσσας που, όπως και ο προκάτοχός του, το μοντέλο GPT-2, είναι ένα μοντέλο μεταφοράς μόνο-εκκρεμούς που χρησιμοποιεί αρχιτεκτονική convolution-βασισμένη για τη δημιουργία κειμένου.
Το μοντέλο GPT-3 μετράει τις δικές του ικανότητες μάθησης контекστο, και το μοντέλο GPT-3 αξιολογείται σε πάνω από δύο δωδεκάδες συνόλων δεδομένων NLP και πολλές νέες εργασίες. Για κάθε εργασία, το μοντέλο GPT-3 αξιολογείται υπό τρεις συνθήκες,
- Μάθηση με Λίγα Παραδείγματα ή Μάθηση στο Κοντέκστ: Στη μάθηση με λίγα παραδείγματα, το μοντέλο GPT-3 επιτρέπει όσες κατανομές μπορούν να ταιριάζουν καλά στο παράθυρο контекστο του μοντέλου.
- Μάθηση με Ένα Παράδειγμα: Στη μάθηση με ένα παράδειγμα, το μοντέλο επιτρέπει μόνο ένα παράδειγμα.
- Μάθηση με Μηδέν Παραδείγματα: Στη μάθηση με μηδέν παραδείγματα, δεν υπάρχουν παραδείγματα, και υπάρχει μόνο μια οδηγία σε φυσική γλώσσα που τροφοδοτείται στο μοντέλο.

Γενικά, το μοντέλο GPT-3 επιτυγχάνει την επιθυμητή απόδοση σε ρυθμούς μηδέν και ένα παράδειγμα, και σε ρυθμούς λίγων παραδειγμάτων, ξεπερνά τα μοντέλα μεταφοράς κράτους-της-τέχνης πιο συχνά. Επιπλέον, το μοντέλο GPT-3 εκτελείται καλά σε εργασίες φυσικής γλώσσας που σχεδιάζονται για να ελέγχουν την απόδοση σε πραγματικό χρόνο, ή απαιτούν γρήγορη προσοχή όπως η χρήση νέων λέξεων μετά μιας πρότασης, ή η αναδιάταξη λέξεων, ή η εκτέλεση αριθμητικών εργασιών. Από την άλλη πλευρά, όταν λειτουργεί σε ρυθμούς λίγων παραδειγμάτων, το μοντέλο GPT-3 δημιουργεί συνθετικά άρθρα ειδήσεων που μοιάζουν με ανθρώπινη γραφή όταν περνούν από ανθρώπινους αξιολογητές.

Μοντέλο GPT-3: Προσέγγιση
Το μοντέλο GPT-3 χρησιμοποιεί μια συμβατική προσέγγιση προ-εκπαίδευσης που αποτελείται από μοντέλο, δεδομένα και εκπαίδευση, και μοιάζει με τη διαδικασία προ-εκπαίδευσης που ακολουθείται από το μοντέλο RWC-19. Το μοντέλο GPT-3 αυξάνει το μέγεθος του μοντέλου, το μέγεθος του συνόλου δεδομένων, την ποικιλία του συνόλου δεδομένων και αυξάνει τη διάρκεια της εκπαίδευσης.
Το μοντέλο χρησιμοποιεί επίσης μια προσέγγιση μάθησης στο контεκστό που μοιάζει με την προσέγγιση του μοντέλου RWC-19, αλλά αλλάζει κάποια πράγματα αναζητώντας συστηματικά διαφορετικές ρυθμίσεις για την μάθηση προτύπων στο контεκστό του συνόλου δεδομένων.
Άρα, ας αρχίσουμε να εξετάζουμε αυτές τις ρυθμίσεις και να αξιολογούμε πώς το μοντέλο GTP-3 εκτελείται σε διαφορετικές ρυθμίσεις.
Εκπαίδευση
Η εκπαίδευση του μοντέλου έχει sido η συμβατική προσέγγιση στα μοντέλα μεταφοράς γλώσσας, και αυτή η προσέγγιση περιλαμβάνει την ενημέρωση των βαρών ενός προ-εκπαιδευμένου μοντέλου με την εκπαίδευση του μοντέλου σε ένα εποπτευόμενο σύνολο δεδομένων που είναι συγκεκριμένο για την επιθυμητή εργασία, και χρησιμοποιούνται εκατομμύρια ετικετούμενα παραδείγματα κατά τη διάρκεια της διαδικασίας.
Η προσέγγιση της εκπαίδευσης είναι ωφέλιμη επειδή επιστρέφει ισχυρή απόδοση σε πολλά σημεία αναφοράς. Από την άλλη πλευρά, ο κύριος περιορισμός της χρήσης της προσέγγισης της εκπαίδευσης είναι ότι απαιτεί ένα νέο και μεγάλο σύνολο δεδομένων για κάθε εργασία, έχει το потенταμικό να εκμεταλλευτεί σπυρίες ιδιότητες του συνόλου δεδομένων εκπαίδευσης, μπορεί να οδηγήσει σε άδικη σύγκριση με την ανθρώπινη απόδοση, και κακή γενίκευση για εκτός-κατανομής.
Το τρέχον πεδίο του μοντέλου GPT-3 δεν εφαρμόζει την προσέγγιση της εκπαίδευσης λόγω της εργασιακής του απόδοσης, αν και η εκπαίδευση μπορεί να εφαρμοστεί στο μοντέλο GPT-3 στο μέλλον.
Λίγα Παραδείγματα
Λίγα Παραδείγματα είναι ένας όρος που αναφέρεται στη ρύθμιση όπου το μοντέλο GPT-3 δίνεται vài παραδείγματα της εργασίας κατά τη διάρκεια της παρέμβασης ως συνθήκη, αλλά τα βάρη του μοντέλου δεν ενημερώνονται. Σε ρυθμίσεις λίγων παραδειγμάτων, το σύνολο δεδομένων συνήθως έχει ένα παράδειγμα με контεκστό και επιθυμητή ολοκλήρωση (για παράδειγμα, μια γαλλική πρόταση και η αγγλική μετάφρασή της). Η ρύθμιση λίγων παραδειγμάτων δίνει στο μοντέλο K παραδείγματα контεκστο και ολοκλήρωσης, και στη συνέχεια παρέχει στο μοντέλο ένα τελικό контεκστό και αναμένεται να παρέχει την ολοκλήρωση.
Το κύριο πλεονέκτημα της χρήσης της ρύθμισης λίγων παραδειγμάτων είναι ότι μειώνει σημαντικά την ανάγκη για εργασιακά δεδομένα και μειώνει επίσης το потенταμικό να μάθει μια στενή κατανομή από ένα μεγάλο σύνολο δεδομένων που είναι ενημερωμένο στενά. Από την άλλη πλευρά, το κύριο μειονέκτημα της χρήσης μάθησης με λίγα παραδείγματα είναι ότι τα αποτελέσματα που παρέχονται στη ρύθμιση λίγων παραδειγμάτων δεν είναι του επιθυμητού επιπέδου και είναι σημαντικά χειρότερα όταν συγκρίνονται με άλλα μοντέλα κράτους-της-τέχνης που είναι ενημερωμένα.
Ένα Παράδειγμα
Στη ρύθμιση ενός παραδείγματος, το μοντέλο παρέχεται μόνο με ένα παράδειγμα, και το υπόλοιπο είναι παρόμοιο με τη ρύθμιση λίγων παραδειγμάτων. Ο λόγος για τον οποίο η ρύθμιση ενός παραδείγματος είναι σχετική σε μοντέλα μεταφοράς γλώσσας είναι ότι από όλες τις τρεις ρυθμίσεις, η ρύθμιση ενός παραδείγματος είναι αυτή που μοιάζει περισσότερο με τον τρόπο με τον οποίο οι εργασίες επικοινωνούνται στους ανθρώπους. Είναι επειδή στις περισσότερες εργασίες, είναι συνήθως να δώσουμε ένα παράδειγμα της εργασίας, αλλιώς μπορεί να είναι δύσκολο να κατανοήσουμε το контεκστό της εργασίας.
Μηδέν Παραδείγματα
Στη ρύθμιση μηδέν παραδειγμάτων, δεν υπάρχουν παραδείγματα, και το μοντέλο δίνεται μια οδηγία σε φυσική γλώσσα που περιγράφει την εργασία. Η μέθοδος μηδέν παραδειγμάτων είναι αυτή που προσφέρει τη μέγιστη ευκολία, είναι robust και επίσης αποφεύγει σπυρίες συσχετίσεις, αλλά είναι επίσης η πιο απαιτητική από τις τρεις ρυθμίσεις. Είναι επειδή σε ορισμένες περιπτώσεις, είναι δύσκολο ακόμη και για τους ανθρώπους να κατανοήσουν το контεκστό μιας εργασίας χωρίς να δουν πρώτα ένα παράδειγμα.
Παρά ταύτα, για ορισμένες εργασίες, η ρύθμιση μηδέν παραδειγμάτων είναι αυτή που μοιάζει περισσότερο με τον τρόπο με τον οποίο οι άνθρωποι εκτελούν φυσικές γλωσσικές εργασίες.

Η παραπάνω εικόνα συγκρίνει τη ρύθμιση λίγων παραδειγμάτων, τη ρύθμιση ενός παραδείγματος και τη ρύθμιση μηδέν παραδειγμάτων όταν εκτελείται μια φυσική γλωσσική εργασία λήψης μιας αγγλικής πρότασης και μετάφρασής της σε γαλλικά.
Μοντέλο GPT-3: Αρχιτεκτονική
Το μοντέλο GPT-3 χρησιμοποιεί την ίδια αρχιτεκτονική με αυτή που χρησιμοποιείται στο μοντέλο GPT-2, και περιλαμβάνει προ-κανονικοποίηση, τροποποιημένη αρχικοποίηση και αναστρέψιμη διαδικασία tokenization όπως χρησιμοποιούνται στο μοντέλο GPT με την εξαίρεση της χρήσης μιας εναλλακτικής στρατηγικής για τοπικά μπανδημένα σπαρτά attention patterns και εναλλασσόμενα πυκνά στρώματα στις μεταφόρτωσης στρώματα, παρόμοια με το Sparse Transformer.
Για να μελετήσουμε την εξάρτηση της απόδοσης του μοντέλου από το μέγεθος του μοντέλου, οι développers έχουν εκπαιδεύσει 8 διαφορετικά μεγέθη μοντέλων που κυμαίνονται σε τρεις διαφορετικές τάξεις μεγέθους από 125 εκατομμύρια σε πάνω από 175 δισεκατομμύρια παραμέτρους, το τελευταίο από τα οποία ονομάζεται μοντέλο GPT-3. Προηγούμενη εργασία σχετικά με τα μοντέλα LLM έχει δείξει ότι η κλίμακα της επαλήθευσης της απώλειας με επαρκές ποσό εκπαίδευσης πρέπει να είναι μια ομαλή δύναμη ως συνάρτηση του μεγέθους. Η εκπαίδευση μοντέλων διαφορετικών μεγεθών επιτρέπει στους développers να ελέγξουν την υπόθεση για cả τις εργασίες κάτω από και την επαλήθευση της απώλειας.

Η παραπάνω εικόνα συγκρίνει το μέγεθος και την αρχιτεκτονική των 8 διαφορετικών μοντέλων που χρησιμοποιούνται για την ανάπτυξη του GPT-3. Εδώ, n(params) ορίζει το συνολικό αριθμό των εκπαιδεύσιμων παραμέτρων, n(layers) ορίζει το συνολικό αριθμό των στρωμάτων στο μοντέλο, d(model) ορίζει τον αριθμό των μονάδων σε κάθε στρώμα του λαιμού, και d(head) ορίζει τις διαστάσεις κάθε attention head. Το παράθυρο контεκστο για κάθε μοντέλο είναι το ίδιο με 2048 tokens.
Επιπλέον, για να ελαχιστοποιήσουμε τη μεταφορά δεδομένων μεταξύ των κόμβων, το μοντέλο χωρίζεται σε GPUs κατά το βάθος και το πλάτος των διαστάσεων. Οι αρχιτεκτονικές παράμετροι για κάθε μοντέλο έχουν επιλεγεί με βάση την υπολογιστική αποτελεσματικότητα και την ισορροπία φόρτου για να μεγιστοποιήσουν την ακρίβεια στη διάταξη των μοντέλων σε GPUs.
Σύνολα Δεδομένων Εκπαίδευσης
Τυπικά, τα μεγάλα μοντέλα γλώσσας χρησιμοποιούν σύνολα δεδομένων που έχουν επεκταθεί σημαντικά με τις πρόσφατες εξελίξεις, και αυτά οδηγούν στο σύνολο δεδομένων Common Crawl που αποτελείται από πάνω από ένα τρισεκατομμύριο διαφορετικά λόγια. Το μέγεθος του συνόλου δεδομένων είναι επαρκές για να εκπαιδεύσει το μοντέλο GPT-3 χωρίς να ενημερωθεί στην ίδια ακολουθία πολλαπλές φορές. Ωστόσο, μελέτες και ανάλυση απόδοσης δείχνουν ότι ελαφρά φιλτράρισμα ή μη φιλτράρισμα του συνόλου δεδομένων Common Crawl έχει χαμηλή ποιότητα σε σύγκριση με πιο καλλιεργημένα σύνολα δεδομένων.
Για να αντιμετωπίσουμε το ζήτημα της μέσης ποιότητας του συνόλου δεδομένων, οι développers έλαβαν 3 βήματα για να αυξήσουν την ποιότητα του συνόλου δεδομένων.
- Οι développers κατέβασαν και φίλτράρισαν μια έκδοση του συνόλου δεδομένων Common Crawl με βάση μια περιοχή παρόμοια με υψηλής ποιότητας αναφορές.
- Οι développers εκτέλεσαν ασαφή διπλοποίηση στο επίπεδο του εγγράφου σε όλο το σύνολο δεδομένων σε μια προσπάθεια να διατηρήσουν την ακεραιότητα του συνόλου δεδομένων ελέγχου ως μια αποτελεσματική μέτρηση της υπερ-προσαρμογής και να αποτρέψουν την επανάληψη.
- Οι développers πρόσθεσαν επίσης υψηλής ποιότητας αναφορές στο σύνολο δεδομένων εκπαίδευσης για να αυξήσουν την ποικιλία του συνόλου δεδομένων.
Η παραπάνω εικόνα δείχνει την τελική αναλογία ή το μείγμα των συνόλων δεδομένων που χρησιμοποιούνται για την εκπαίδευση του μοντέλου GPT-3. Τα δεδομένα Common Crawl αποτελούσαν πάνω από 45 TB κειμένου πριν από το φίλτράρισμα, που μειώθηκαν σε 570 GB δεδομένων μετά το φίλτράρισμα, ένα περίπου ισοδύναμο με πάνω από 400 δισεκατομμύρια byte-pair encoded tokens. Είναι αξιοσημείωτο ότι τα σύνολα δεδομένων που θεωρούνται υψηλότερης ποιότητας δείχνουν πιο συχνά παρά το μέγεθος τους. Ως αποτέλεσμα, σύνολα δεδομένων όπως τα Books2 και Common Crawl δείχνουν λιγότερο από μία φορά κατά τη διάρκεια της εκπαίδευσης, ενώ τα άλλα σύνολα δεδομένων δείχνουν πολλαπλές φορές. Αυτό επιτρέπει στο μοντέλο να αποδεχθεί μια μικρή ποσότητα υπερ-προσαρμογής σε αντάλλαγμα για την εκπαίδευση σε υψηλότερης ποιότητας δεδομένα.

Ένα σημαντικό ζήτημα με τα μεγάλα μοντέλα γλώσσας που είναι προ-εκπαιδευμένα σε μεγάλα ποσά δεδομένων διαδικτύου με την ικανότητα να θυμόμαστε και να μάθουν ένα μεγάλο ποσό περιεχομένου είναι η πιθανότητα μόλυνσης των εργασιών κάτω από την επίδραση των συνόλων δεδομένων εκπαίδευσης. Για να μειώσουμε αυτή την πιθανότητα μόλυνσης, οι développers αναζήτησαν για jede επικάλυψη με τα σύνολα δεδομένων ελέγχου και ανάπτυξης των σημείων αναφοράς για το GPT-3 και προσπάθησαν να αφαιρέσουν αυτές τις επικαλύψεις.

Η παραπάνω εικόνα δείχνει το συνολικό υπολογισμό που χρησιμοποιήθηκε κατά τη διάρκεια της εκπαίδευσης του μοντέλου GPT-3. Το μοντέλο χρησιμοποιεί Νόμους Κλίμακας για Νευρωνικά Μοντέλα Γλώσσας για να εκπαιδεύσει πολύ μεγαλύτερα μοντέλα σε λιγότερα tokens από το τυπικό. Ως αποτέλεσμα, και το GPT-3 και το μοντέλο RoBERTa-Large, που είναι 10 φορές μικρότερο από το GPT-3, έλαβαν σχεδόν 50 petaflops/ημέρα υπολογισμού κατά τη διάρκεια της προ-εκπαίδευσης.
Αξιολόγηση
Για τη μάθηση με λίγα παραδείγματα, το μοντέλο αξιολογεί κάθε παράδειγμα στο σύνολο δεδομένων αξιολόγησης με την τυχαία Auswahl K παραδειγμάτων από το σύνολο δεδομένων της εργασίας ως συνθήκη και το οριοθετεί με 1 ή 2 νέες γραμμές ανάλογα με την εργασία. Για το Storycloze και το LAMBADA, το μοντέλο αναζητά παραδείγματα από το σύνολο δεδομένων ανάπτυξης και τα αξιολογεί στο σύνολο δεδομένων ελέγχου λόγω της απουσίας ενός εποπτευόμενου συνόλου δεδομένων. Για το Winograd, υπάρχει μόνο ένα σύνολο δεδομένων, και έτσι τα παραδείγματα αναζητούνται απευθείας από αυτό.
K μπορεί να είναι οποιαδήποτε τιμή που κυμαίνεται από 0 έως το μέγιστο που επιτρέπεται από το παράθυρο контεκστο του μοντέλου, που είναι n_ext = 2048 για όλα τα μοντέλα, και συνήθως χωράει 10 έως 100 παραδείγματα. Μεγαλύτερες τιμές του K συχνά οδηγούν σε καλύτερα αποτελέσματα, αλλά όχι πάντα, και αυτό είναι το λόγο για τον οποίο, όταν το μοντέλο έχει ένα σύνολο δεδομένων ελέγχου και ένα ξεχωριστό σύνολο δεδομένων ανάπτυξης, το μοντέλο πειραματίζεται με quelques τιμές του K στο σύνολο δεδομένων ανάπτυξης και, με βάση τα αποτελέσματα, τρέχει την καλύτερη τιμή στο σύνολο δεδομένων ελέγχου.
Επιπλέον, για τις εργασίες που απαιτούν την επιλογή της σωστής ολοκλήρωσης από πολλαπλές επιλογές, οι développers παρέχουν K παραδείγματα ολοκλήρωσης και контεκστο, και ακολουθούν με ένα παράδειγμα контεκστο μόνο, και οι εργασίες συγκρίνονται με βάση της πιθανοτήτας του μοντέλου LM της κάθε ολοκλήρωσης. Για τις εργασίες που απαιτούν δυαδική ταξινόμηση, τα μοντέλα συχνά δίνουν επιλογές με περισσότερη σημασία και με πιο σημαντικά ονόματα, και στη συνέχεια αντιμετωπίζουν την εργασία ως πολλαπλή επιλογή, και μερικές φορές επίσης την πλαίσιο σαν αυτή που κάνει το μοντέλο RSR και αρχιτεκτονική.
Για τις εργασίες που απαιτούν ελεύθερη ολοκλήρωση, το μοντέλο χρησιμοποιεί αναζήτηση με δέσμη με ταυτόσημους παραμέτρους όπως αυτά που χρησιμοποιούνται στο πλαίσιο RSR, με δέσμη μήκους 4 και ποινή 0,6. Το μοντέλο αξιολογείται χρησιμοποιώντας είτε το σκορ F1, είτε την ακριβή αντιστοιχία, είτε το BLEU, ανάλογα με το πρότυπο του συνόλου δεδομένων.
Αποτελέσματα

Η παραπάνω εικόνα δείχνει τις καμπύλες εκπαίδευσης για τα 8 μοντέλα που χρησιμοποιούνται στην αρχιτεκτονική του GPT-3, όπως περιγράφηκαν στις προηγούμενες ενότητες. Παρόμοια με τα αποτελέσματα από το μοντέλο KMH, η απόδοση του μοντέλου GPT-3 ακολουθεί έναν νόμο όταν χρησιμοποιείται η εκπαίδευση υπολογισμού αποτελεσματικά. Υπάρχει μια μικρή διαφορά από τον νόμο μόνο όταν η τάση επεκτείνεται με δύο ακόμη τάξεις μεγέθους. Μπορεί να φαίνεται ότι οι βελτιώσεις στην απώλεια cross-entropy είναι αποτέλεσμα της μοντελοποίησης σπυρίων λεπτομερειών του συνόλου δεδομένων εκπαίδευσης. Ωστόσο, οι βελτιώσεις στην απώλεια cross-entropy οδηγούν σε συνεχείς κέρδη στην tổngική απόδοση σε ένα ευρύ φάσμα διαφορετικών εργασιών NLP.
Πριν από την αξιολόγηση των 8 διαφορετικών μοντέλων σε ένα ευρύ φάσμα εκπαιδευτικών δεδομένων, τα σύνολα δεδομένων ομαδοποιούνται σε 8 διαφορετικές κατηγορίες που αντιπροσωπεύουν παρόμοιες εργασίες. Αυτές οι κατηγορίες είναι
- Αξιολόγηση σε παραδοσιακές εργασίες μοντελοποίησης γλώσσας και εργασίες που μοιάζουν με μοντελοποίηση γλώσσας, όπως εργασίες Cloze ή ολοκλήρωσης προτάσεων/παραγράφων.
- Αξιολόγηση σε εργασίες “κλειστής βιβλιοθήκης” απάντησης σε ερωτήσεις.
- Αξιολόγηση της ικανότητας του μοντέλου να μεταφράζει μεταξύ γλωσσών (ειδικά σε ρυθμούς ενός και λίγων παραδειγμάτων).
- Αξιολόγηση της απόδοσης του μοντέλου σε εργασίες Winograd Schema-like.
- Αξιολόγηση σε σύνολα δεδομένων που περιλαμβάνουν κοινή λογική ή απάντηση σε ερωτήσεις.
- Αξιολόγηση σε εργασίες ανάγνωσης κατανόησης.
- Αξιολόγηση στο σύνολο δεδομένων SuperGLUE.
- Εξερεύνηση NLI.
Μοντελοποίηση Γλώσσας, Ολοκλήρωση και Εργασίες Cloze
Σε αυτήν την ενότητα, η απόδοση του μοντέλου GPT-3 αξιολογείται σε παραδοσιακές εργασίες μοντελοποίησης γλώσσας, καθώς και σε εργασίες που απαιτούν την πρόβλεψη μιας einzel λέξης ενδιαφέροντος, ή την ολοκλήρωση μιας πρότασης ή μιας παραγράφου, ή την ολοκλήρωση ενός κομματιού κειμένου. Ας τις συζητήσουμε συνοπτικά.
Μοντελοποίηση Γλώσσας
Το μοντέλο GPT-3 υπολογίζει την απώλεια perplexity σε ρυθμούς μηδέν στο σύνολο δεδομένων PTB ή το σύνολο δεδομένων Penn Tree Bank. Το μοντέλο παραλείπει τις εργασίες που σχετίζονται με το Wikipedia επειδή είναι ήδη περιλαμβανόμενο στο σύνολο δεδομένων εκπαίδευσης του μοντέλου, και το σύνολο δεδομένων ενός δισεκατομμυρίου λέξεων επίσης παραλείπεται επειδή προκαλεί σημαντική τριβή του συνόλου δεδομένων στο σύνολο δεδομένων εκπαίδευσης. Ωστόσο, το σύνολο δεδομένων PTB αντιμετωπίζει αυτά τα ζητήματα επειδή μπορεί να προηγείται του σύγχρονου διαδικτύου. Το μεγαλύτερο μοντέλο στην αρχιτεκτονική του GPT-3 θέτει νέο SOTA στο σύνολο δεδομένων PTB με μια αξιοσημείωτη διαφορά 15 βαθμών, και επιτυγχάνει μια perplexity 20,50.
LAMBADA
Το σύνολο δεδομένων LAMBADA χρησιμοποιείται για να δοκιμάσει την μοντελοποίηση του μοντέλου σε μακροπρόθεσμες εξαρτήσεις σε παραγράφους ή κείμενο. Αυτό σημαίνει ότι το μοντέλο ζητείται να προβλέψει την τελευταία λέξη μιας πρότασης μετά την ανάγνωση της παραγράφου για το контεκστό. Επιπλέον, η συνεχής κλίμακα των μοντέλων γλώσσας οδηγεί σε μειωμένα κέρδη στο σύνολο δεδομένων.

Το μοντέλο GPT-3 επιτυγχάνει 76% ακρίβεια στο LAMBADA, και έχει μια κέρδη πάνω από 8% πάνω από τα προηγούμενα καλύτερα μοντέλα. Επιπλέον, το μοντέλο LAMBADA δείχνει την ευελιξία της μάθησης με λίγα παραδείγματα, καθώς αντιμετωπίζει το πρόβλημα με έναν κλασικό τρόπο με το σύνολο δεδομένων. Η ολοκλήρωση μιας πρότασης στο LAMBADA είναι συνήθως η τελευταία λέξη της πρότασης, αλλά καθώς ένα μοντέλο γλώσσας δεν μπορεί να γνωρίζει αυτό, αναθέτει μια πιθανότητα όχι μόνο στην σωστή ολοκλήρωση, αλλά και σε άλλες συνέχειες στην παράγραφο.
Επιπλέον, όταν τα παραδείγματα που τροφοδοτούνται στο μοντέλο GPT-3 τροποποιούνται με κάποιο τρόπο, το μοντέλο επιστρέφει μια ακρίβεια πάνω από 86%, μια αύξηση πάνω από 18% πάνω από τα προηγούμενα μοντέλα. Επιπλέον, τα αποτελέσματα επίσης δείχνουν ότι η απόδοση του μοντέλου σε ρυθμούς λίγων παραδειγμάτων αυξάνεται αναλογικά με την αύξηση του μεγέθους του μοντέλου. Αν και αυτή η στρατηγική μειώνει το μικρότερο μοντέλο στην αρχιτεκτονική του GPT-3 κατά 20%, αυξάνει την ακρίβεια του πρωταρχικού μοντέλου GPT-3 με 175 δισεκατομμύρια παραμέτρους κατά 10%.
Κλειστή Βιβλιοθήκη Απάντηση σε Ερωτήσεις
Η κλειστή βιβλιοθήκη απάντηση σε ερωτήσεις είναι μια προσπάθεια να μετρήσει την ικανότητα του μοντέλου GPT-3 να απαντάει σε ερωτήσεις με βάση ευρεία фактиκή γνώση. Επειδή τέτοιες ερωτήσεις συχνά έχουν ένα μεγάλο αριθμό πιθανών ερωτήσεων, η εργασία είναι συνήθως επιτυγχανόμενη με τη χρήση ενός συστήματος ανάκτησης πληροφοριών που επιτρέπει στο μοντέλο να βρει σχετικές πληροφορίες σε συνδυασμό με το μοντέλο που μαθαίνει να γεννήσει μια απάντηση σε μια ερώτηση που δίνεται η ανάκτηση κειμένου και η ερώτηση.

Η παραπάνω εικόνα συγκρίνει το αποτέλεσμα για το μοντέλο GPT-3 σε σύγκριση με διαφορετικά μοντέλα και τρέχοντας σε διαφορετικά σύνολα δεδομένων. Στο σύνολο δεδομένων TriviaQA, το μοντέλο επιτυγχάνει ένα σκορ ακρίβειας 64,3% σε ρυθμούς μηδέν, ενώ επιτυγχάνει ένα σκορ ακρίβειας 68% και 71,2% σε ρυθμούς ενός και λίγων παραδειγμάτων, αντίστοιχα.
Είναι φανερό ότι το μοντέλο GPT-3 σε ρυθμούς μηδέν υπερβαίνει το μοντέλο T5-11B που είναι ενημερωμένο με πάνω από 14%.

Η παραπάνω εικόνα δείχνει ότι η απόδοση του μοντέλου GPT-3 αυξάνεται ομαλά με την αύξηση του μεγέθους του μοντέλου. Η απόδοση δείχνει ότι τα μοντέλα γλώσσας συνεχίζουν να μαθαίνουν από το σύνολο δεδομένων καθώς η ικανότητά τους αυξάνεται.
Τελικές Σκέψεις
Θα ήταν ασφαλές να πούμε ότι το GPT-3 ήταν μια επαναστατική φάση στη βιομηχανία LLM, καθώς το GPT-3 βοήθησε στην προώθηση των ορίων του τι μπορεί να κάνει ένα μοντέλο γλώσσας. Ήταν οι εξελίξεις που έγιναν και τα εμπόδια που ξεπεράστηκαν από το GPT-3 που έδωσαν το δρόμο για το πιο προηγμένο και ακριβές μεγάλο μοντέλο γλώσσας μέχρι σήμερα, το GPT-4.












