στέλεχος GPT-3 : Λίγες εστίες εκμάθησης για γλωσσικό μοντέλο; - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

GPT-3 : Λίγες εστίες εκμάθησης για γλωσσικό μοντέλο;

mm

Δημοσιευμένα

 on

Τα τελευταία χρόνια, ο κλάδος της τεχνητής νοημοσύνης και της ML γνώρισε μια μετέωρη άνοδο στην ανάπτυξη και εφαρμογή των συστημάτων NLP, καθώς οι ερευνητές μπόρεσαν να εφαρμόσουν πρακτικές NLP με εξαιρετικά ευέλικτους και αγνωστικιστικούς τρόπους για τη μεταφορά εργασιών κατάντη. 

Αρχικά, ήταν οι αναπαραστάσεις ενός επιπέδου που χρησιμοποίησαν διανύσματα λέξεων και στη συνέχεια τροφοδοτήθηκαν στην αρχιτεκτονική της συγκεκριμένης εργασίας. Στη συνέχεια, ήταν η αρχιτεκτονική RNN που χρησιμοποίησε αναπαραστάσεις πολλαπλών επιπέδων & κατάσταση συμφραζομένων για να σχηματίσει καλύτερες αναπαραστάσεις. Και πιο πρόσφατα, έχουμε τα μοντέλα γλωσσών μεταφοράς ή τα προεκπαιδευμένα επαναλαμβανόμενα μοντέλα που έχουν αφαιρέσει εντελώς την ανάγκη για αρχιτεκτονικές ειδικές για εργασίες βελτιστοποιώντας αυτά τα δίκτυα. 

Τα μοντέλα γλώσσας μεταφοράς έχουν αποδειχθεί μια σημαντική καμπή στη βιομηχανία του NLP, καθώς έχουν οδηγήσει σε τεράστια πρόοδο σε απαιτητικές εργασίες όπως η απάντηση σε ερωτήσεις, οι κατανοήσεις ανάγνωσης ή τα τμήματα κειμένου, η συνεπαγωγή κειμένου και πολλά άλλα. 

Ωστόσο, παρά τα πλεονεκτήματά τους, τα μοντέλα γλώσσας μεταφοράς έχουν έναν σημαντικό περιορισμό, καθώς απαιτούν λεπτομέρεια συγκεκριμένης εργασίας ή συγκεκριμένο σύνολο δεδομένων για την επίτευξη της επιθυμητής απόδοσης σε μια εργασία. Επιπλέον, τα μοντέλα γλώσσας μεταφοράς απαιτούν επίσης από τους προγραμματιστές να προσαρμόσουν με ακρίβεια τα σύνολα δεδομένων σε εκατοντάδες χιλιάδες παραδείγματα ειδικά για μια συγκεκριμένη εργασία. 

Είναι αυτονόητο ότι η κατάργηση της απαίτησης για συγκεκριμένο σύνολο δεδομένων εργασίας και η λεπτομερής ρύθμιση για συγκεκριμένη εργασία θα είναι ιδιαίτερα επιθυμητή και επωφελής για τη βιομηχανία NLP για πολλούς λόγους. 

Ζητήματα με υπάρχοντα μοντέλα προεκπαιδευμένων γλωσσών μεταφοράς ή επαναλαμβανόμενα μοντέλα

  • Περιορισμός Πρακτικότητας & Εφαρμογής

Πρώτα και κύρια, η απαίτηση ενός μεγάλου συνόλου δεδομένων με δεδομένα με ετικέτα για κάθε εργασία περιορίζει τη δυνατότητα εφαρμογής και την πρακτικότητα των μοντέλων γλώσσας. Τα γλωσσικά μοντέλα βρίσκουν τις εφαρμογές τους σε μια μεγάλη ποικιλία εργασιών που κυμαίνονται από τη δημιουργία μιας σύντομης ιστορίας, τη διόρθωση γραμματικών λαθών έως τη δημιουργία παραδειγμάτων για μια έννοια. Κατά καιρούς, είναι δύσκολο να συλλέξετε ένα μεγάλο εποπτευόμενο σύνολο δεδομένων με δεδομένα με ετικέτα, ειδικά όταν η διαδικασία χρειάζεται να επαναληφθεί για κάθε μεμονωμένη εργασία. 

  • Αξιοποίηση ψευδών συσχετισμών στα δεδομένα εκπαίδευσης

Οι περιορισμοί και η στενότητα της κατανομής της εκπαίδευσης σε συνδυασμό με την εκφραστικότητα του μοντέλου μπορούν να οδηγήσουν σε θεμελιώδη αύξηση της δυνατότητας εκμετάλλευσης ψευδών συσχετισμών στα δεδομένα εκπαίδευσης. Η δυνατότητα εκμετάλλευσης των δεδομένων εκπαίδευσης μπορεί να οδηγήσει σε προβλήματα κατά τη διάρκεια του παραδείγματος λεπτομέρειας και προεκπαίδευσης, επειδή τα μοντέλα γλώσσας μεταφοράς έχουν σχεδιαστεί με τρόπο ώστε να απορροφούν μεγάλο όγκο πληροφοριών κατά την προ-προπόνηση. 

Επιπλέον, η εργασία σε προηγούμενα μοντέλα έχει δείξει ότι τα μεγάλα μοντέλα δεν οδηγούν σε καλύτερη διανομή κάθε φορά. Επιπλέον, έχει επίσης υποδειχθεί ότι η γενίκευση που επιτυγχάνεται με ένα τέτοιο παράδειγμα μπορεί να έχει ως αποτέλεσμα κακή απόδοση κυρίως επειδή το μοντέλο είναι ιδιαίτερα ειδικό για τα δεδομένα εκπαίδευσης και δεν μπορεί να αποδώσει καλά σε καταστάσεις πέρα ​​από το πεδίο των δεδομένων εκπαίδευσης. 

  • Σύγκριση με Ανθρώπινη Μάθηση

Τέλος, σε σύγκριση με τα μοντέλα γλώσσας μεταφοράς, οι άνθρωποι δεν χρειάζονται ένα μεγάλο σύνολο δεδομένων εκπαίδευσης όταν πρόκειται για την εκμάθηση της πλειοψηφίας των γλωσσικών εργασιών. Τις περισσότερες φορές, μια σύντομη οδηγία στη φυσική γλώσσα ενός ατόμου ή μια μικρή επίδειξη της γλωσσικής εργασίας είναι επαρκής ώστε ένας άνθρωπος να κατανοήσει και να εκτελέσει μια γλωσσική εργασία με ένα ορισμένο επίπεδο ανταγωνιστικότητας. 

Η ικανότητα του ανθρώπου να προσαρμόζεται έχει πολλά πρακτικά πλεονεκτήματα, καθώς του επιτρέπει είτε να εναλλάσσονται μεταξύ διαφορετικών συνόλων δεξιοτήτων είτε να τα αναμειγνύουν για καλύτερη απόδοση κατά τη διάρκεια μιας διαλέκτου, κάτι που είναι πέρα ​​από τις δυνατότητες των σημερινών συστημάτων NLP. 

Αντιμετώπιση προβλημάτων με το Meta Learning & το GPT-3

Μια πιθανή λύση στις παραπάνω προκλήσεις είναι η χρήση της μετα-μάθησης, μια έννοια στη σύγχρονη ML που επιτρέπει σε ένα μοντέλο να αναπτύξει ένα μεγαλύτερο και ευρύτερο σύνολο δεξιοτήτων και ικανότητας αναγνώρισης προτύπων κατά την εκπαίδευση και στη συνέχεια να χρησιμοποιεί αυτές τις μαθημένες ικανότητες κατά την παρέμβαση για να προσαρμοστεί γρήγορα ή αναγνωρίστε την απαιτούμενη εργασία. 

Το Meta Learning υλοποιείται στην αρχιτεκτονική μοντέλων γλώσσας μέσω μιας τεχνικής που ονομάζεται "μάθηση εντός πλαισίου" που χρησιμοποιεί την εισαγωγή κειμένου ενός προεκπαιδευμένου μοντέλου γλώσσας ως προδιαγραφή εργασίας. Στη διαδικασία, το μοντέλο ρυθμίζεται σε μια οδηγία φυσικής γλώσσας και μπορεί να χρησιμοποιήσει μερικές επιδείξεις και στη συνέχεια το μοντέλο αναμένεται να ολοκληρώσει την υπόλοιπη εργασία προβλέποντας τα επόμενα βήματα. 

Το μόνο σημαντικό πρόβλημα με το Meta Learning είναι ότι αν και έχει δείξει θετικές δυνατότητες, εξακολουθεί να είναι κατώτερο από την προσέγγιση τελειοποίησης στην αρχιτεκτονική φυσικής γλώσσας και χρειάζεται περαιτέρω βελτίωση προκειμένου να γίνει μια πρακτική μέθοδος για την υπέρβαση γλωσσικών εργασιών. 

Εκτός από τη μετα-εκμάθηση, μια άλλη μέθοδος που κερδίζει δημοτικότητα είναι η αύξηση της χωρητικότητας των μοντέλων γλώσσας μετασχηματιστή. Τα τελευταία χρόνια, τα μοντέλα μεταφοράς έχουν σημειώσει σημαντική αύξηση της χωρητικότητάς τους με το RNSS18 μοντέλο με 100 εκατομμύρια παραμέτρους, το DCLT18 μοντέλο με 300 εκατομμύρια παραμέτρους, το RWC19 μοντέλο με 1.5 δισεκατομμύρια παραμέτρους, το SSP19 μοντέλο με 8 δισεκατομμύρια παραμέτρους, το RSR19 μοντέλο με 11 δισεκατομμύρια παραμέτρους, και το TUR20 μοντέλο με 17 δισεκατομμύρια παραμέτρους. 

Η αύξηση της χωρητικότητας του μοντέλου ή η αύξηση των παραμέτρων οδήγησε ιστορικά σε βελτιώσεις στη σύνθεση κειμένου και υπήρξε ένδειξη ότι η απώλεια αρχείων καταγραφής, η οποία συσχετίζεται με εργασίες κατάντη, ακολουθεί επίσης μια ομαλή τάση βελτίωσης με την κλίμακα. 

Αυτό μας φέρνει στο μοντέλο GPT-3 που έχει πάνω από 175 δισεκατομμύρια παραμέτρους και όταν κυκλοφόρησε, ήταν το μοντέλο γλώσσας μεταφοράς με την υψηλότερη χωρητικότητα. Ας μιλήσουμε τώρα για το μοντέλο GPT-3. 

Εισαγωγή στο μοντέλο GPT-3

Το GPT-3 είναι ένα μοντέλο αυτοεπιθετικής γλώσσας με πάνω από 175 δισεκατομμύρια παραμέτρους που κυκλοφόρησε από την OpenAI το 2020. Το GPT-3 ταξινομείται επίσης ως μεγάλο γλωσσικό μοντέλο ότι ακριβώς όπως ο προκάτοχός του, το μοντέλο GPT-2 είναι ένα μοντέλο μετασχηματιστή βαθιάς μάθησης μόνο με αποκωδικοποιητή που χρησιμοποιεί αρχιτεκτονική βασισμένη σε συνέλιξη για τη δημιουργία δεδομένων κειμένου. 

Το μοντέλο GPT-3 μετρά τις δικές του ικανότητες μάθησης περιβάλλοντος και το μοντέλο GPT-3 αξιολογείται σε πάνω από δύο δωδεκάδες σύνολα δεδομένων NLP και πολλαπλές νέες εργασίες. Για κάθε μεμονωμένη εργασία, το μοντέλο GPT-3 αξιολογείται υπό τρεις συνθήκες:

  • Λίγες εκμάθηση πλάνων ή μάθηση εντός πλαισίου: Σε λίγες εκμάθηση πλάνων, το μοντέλο GPT-3 επιτρέπει τόσες διανομές που μπορούν να χωρέσουν καλά στο παράθυρο περιβάλλοντος του μοντέλου. 
  • One Shot Learning: Σε εκμάθηση με μία λήψη, το μοντέλο επιτρέπει μόνο μία επίδειξη. 
  • Μηδενική εκμάθηση βολής: Στην εκμάθηση μηδενικής λήψης, δεν υπάρχουν επιδείξεις και υπάρχει μόνο μια οδηγία στη φυσική γλώσσα που τροφοδοτείται στο μοντέλο. 

Σε γενικές γραμμές, το Μοντέλο GPT-3 επιτυγχάνει την επιθυμητή απόδοση σε ρυθμίσεις μηδενικής λήψης και μίας λήψης και στη ρύθμιση λίγων λήψεων, ξεπερνάει τις περισσότερες φορές τα σύγχρονα μοντέλα μεταφοράς. Επιπλέον, το μοντέλο GPT-3 αποδίδει καλά σε ρυθμίσεις one-shot και zero-shot σε εργασίες φυσικής γλώσσας που έχουν σχεδιαστεί για να δοκιμάζουν εν κινήσει συλλογισμό ή απαιτεί ταχεία προσοχή, όπως η χρήση πρωτότυπων λέξεων μετά από μια πρόταση ή η αποκωδικοποίηση λέξεων ή η εκτέλεση αριθμητικής επιχειρήσεις. Από την άλλη πλευρά, όταν λειτουργεί σε μια ρύθμιση λίγων λήψεων, το μοντέλο GPT-3 δημιουργεί συνθετικά άρθρα ειδήσεων που μοιάζουν με ανθρώπινη γραφή όταν περνούν από ανθρώπινους αξιολογητές. 

Μοντέλο GPT-3: Προσέγγιση

Το μοντέλο GPT-3 χρησιμοποιεί μια συμβατική προσέγγιση προεκπαίδευσης που περιλαμβάνει μοντέλο, δεδομένα και εκπαίδευση και μοιάζει με τη διαδικασία προεκπαίδευσης που ακολουθείται από το μοντέλο γλώσσας μεταφοράς RWC-19. Το μοντέλο GPT-3 κλιμακώνει το μέγεθος του μοντέλου, το μέγεθος δεδομένων, την ποικιλομορφία του συνόλου δεδομένων και αυξάνει τη διάρκεια της περιόδου εκπαίδευσης. 

Το μοντέλο χρησιμοποιεί επίσης μια προσέγγιση μάθησης εντός πλαισίου που μοιάζει για άλλη μια φορά με την προσέγγιση του μοντέλου RWC-19, αλλά τροποποιεί λίγο τα πράγματα εξερευνώντας συστηματικά διαφορετικές ρυθμίσεις για μοτίβα εκμάθησης στο πλαίσιο του συνόλου δεδομένων. 

Λοιπόν, ας ξεκινήσουμε εξερευνώντας αυτές τις ρυθμίσεις και αξιολογούμε πώς αποδίδει το μοντέλο GTP-3 σε διαφορετικές ρυθμίσεις. 

Fine Tuning

Η τελειοποίηση του μοντέλου ήταν η συμβατική προσέγγιση στη μεταφορά γλωσσικά μοντέλα, και αυτή η προσέγγιση περιλαμβάνει την ενημέρωση των βαρών ενός προεκπαιδευμένου μοντέλου εκπαιδεύοντας το μοντέλο σε ένα εποπτευόμενο σύνολο δεδομένων που είναι συγκεκριμένο για την επιθυμητή εργασία και εκατοντάδες χιλιάδες παραδείγματα με ετικέτα χρησιμοποιούνται κατά τη διάρκεια της διαδικασίας. 

Η προσέγγιση λεπτομέρειας είναι ευεργετική επειδή αποδίδει ισχυρές επιδόσεις σε πολλά σημεία αναφοράς. Από την άλλη πλευρά, ο κύριος περιορισμός της χρήσης της προσέγγισης μικρορύθμισης είναι ότι απαιτεί ένα νέο και μεγάλο σύνολο δεδομένων για κάθε μεμονωμένη εργασία, έχει τη δυνατότητα να εκμεταλλευτεί πλαστά χαρακτηριστικά του συνόλου δεδομένων εκπαίδευσης, μπορεί ενδεχομένως να οδηγήσει σε άδικη σύγκριση με την ανθρώπινη απόδοση , και κακή γενίκευση για εκτός διανομής. 

Το τρέχον πεδίο εφαρμογής του μοντέλου GPT-3 δεν εφαρμόζει την προσέγγιση μικρορύθμισης λόγω της αγνωστικιστικής του απόδοσης, αν και η λεπτομέρεια μπορεί να εφαρμοστεί στο μοντέλο GPT-3 στο μέλλον. 

Λίγοι πυροβολισμοί

Το Few Shot είναι ένας όρος που αναφέρεται στη ρύθμιση όπου στο μοντέλο GPT-3 δίνονται μερικές επιδείξεις της εργασίας κατά τη διάρκεια παρεμβολών ως προετοιμασία, αλλά τα βάρη του μοντέλου δεν ενημερώνονται. Στις λίγες ρυθμίσεις λήψης, το σύνολο δεδομένων έχει συνήθως ένα παράδειγμα με ένα πλαίσιο και μια επιθυμητή ολοκλήρωση (για παράδειγμα, μια γαλλική πρόταση και η αγγλική της μετάφραση). Η ρύθμιση των λίγων πλάνων δίνει στο μοντέλο K παραδείγματα περιβάλλοντος και ολοκλήρωσης, και στη συνέχεια παρέχει στο μοντέλο ένα τελικό πλαίσιο και αναμένει από το μοντέλο να παρέχει την ολοκλήρωση. 

Το κύριο πλεονέκτημα της χρήσης της ρύθμισης των λίγων λήψεων είναι ότι μειώνει σημαντικά την ανάγκη για δεδομένα για συγκεκριμένες εργασίες και επίσης μειώνει τη δυνατότητα εκμάθησης μιας στενής κατανομής από ένα μεγάλο σύνολο δεδομένων που είναι στενά ρυθμισμένο. Από την άλλη πλευρά, το σημαντικό μειονέκτημα της χρήσης λίγων λήψεων εκμάθησης είναι ότι τα αποτελέσματα που παραδίδονται στις λίγες ρυθμίσεις λήψεων δεν είναι ιδανικά και είναι πολύ φτωχά σε σύγκριση με άλλα μοντέλα τελευταίας τεχνολογίας που είναι τελειοποιημένα. 

One Shot

Στη ρύθμιση μίας λήψης, το μοντέλο παρέχεται μόνο με μία μόνο επίδειξη, και το υπόλοιπο είναι παρόμοιο με τις λίγες ρυθμίσεις λήψης. Ο λόγος για τον οποίο μια ρύθμιση λήψης είναι σχετική στα μοντέλα γλώσσας μεταφοράς είναι επειδή και από τις τρεις ρυθμίσεις, η μία λήψη είναι αυτή που μοιάζει με τον τρόπο με τον οποίο οι εργασίες μεταδίδονται καλύτερα στους ανθρώπους. Αυτό συμβαίνει επειδή στις περισσότερες από τις εργασίες, είναι σύνηθες να δίνουμε μία επίδειξη της εργασίας, διαφορετικά μπορεί να είναι δύσκολο να κατανοήσουμε το πλαίσιο της εργασίας. 

Μηδενική βολή

Στη ρύθμιση μηδενικής λήψης, δεν υπάρχουν επιδείξεις και δίνεται στο μοντέλο μια οδηγία φυσικής γλώσσας που περιγράφει την εργασία. Η μέθοδος μηδενικής λήψης είναι αυτή που προσφέρει μέγιστη άνεση, είναι στιβαρή και επίσης αποφεύγει τους ψευδείς συσχετισμούς, αλλά είναι επίσης η πιο απαιτητική από τις τρεις ρυθμίσεις. Αυτό συμβαίνει επειδή σε ορισμένες περιπτώσεις, είναι δύσκολο ακόμη και για εμάς τους ανθρώπους να καταλάβουμε το πλαίσιο μιας εργασίας χωρίς να δούμε πρώτα μια επίδειξη. 

Ανεξάρτητα, για ορισμένες εργασίες, η ρύθμιση μηδενικής λήψης είναι αυτή που μοιάζει με τον τρόπο με τον οποίο οι άνθρωποι εκτελούν εργασίες φυσικής γλώσσας πιο κοντά. 

Το παραπάνω σχήμα συγκρίνει τις λίγες λήψεις, τη μία βολή και τη ρύθμιση μηδενικής λήψης κατά την εκτέλεση μιας εργασίας φυσικής γλώσσας για τη λήψη μιας αγγλικής πρότασης και τη μετάφραση της στα γαλλικά. 

GPT-3: Αρχιτεκτονική Μοντέλων

Το μοντέλο GPT-3 χρησιμοποιεί την ίδια αρχιτεκτονική με αυτή που χρησιμοποιείται στο μοντέλο GPT-2 και περιλαμβάνει τεχνικές προ-κανονικοποίησης, τροποποιημένης αρχικοποίησης και αναστρέψιμης δημιουργίας διακριτικών όπως χρησιμοποιήθηκαν στο μοντέλο GPT, με εξαίρεση τη χρήση εναλλακτικού στρατηγική για τοπικά ζωνοποιημένα μοτίβα αραιής προσοχής και εναλλασσόμενα πυκνά στρώματα στα στρώματα του μετασχηματιστή, παρόμοια με το Sparse Transformer. 

Για να μελετήσουν την εξάρτηση της απόδοσης του μοντέλου από το μέγεθος του μοντέλου, οι προγραμματιστές έχουν εκπαιδεύσει 8 διαφορετικά μεγέθη μοντέλων που κυμαίνονται σε τρεις διαφορετικές τάξεις μεγέθους από 125 εκατομμύρια έως πάνω από 175 δισεκατομμύρια παραμέτρους, η τελευταία από τις οποίες ονομάζεται μοντέλο GPT-3 . Προηγούμενη εργασία που σχετίζεται με μοντέλα LLM έχει δείξει ότι η κλιμάκωση της απώλειας επικύρωσης με επαρκή ποσότητα δεδομένων εκπαίδευσης θα πρέπει να είναι ένας κατά προσέγγιση νόμος ομαλής ισχύος σε συνάρτηση με το μέγεθος. Τα μοντέλα εκπαίδευσης διαφορετικών μεγεθών επιτρέπουν στους προγραμματιστές να δοκιμάσουν την υπόθεση τόσο για τις μεταγενέστερες γλωσσικές εργασίες όσο και για την απώλεια επικύρωσης. 

Το παραπάνω σχήμα συγκρίνει το μέγεθος και την αρχιτεκτονική των 8 διαφορετικών μοντέλων που χρησιμοποιούνται για την ανάπτυξη του GPT-3. Εδώ, το n(params) ορίζει τον συνολικό αριθμό των εκπαιδεύσιμων μοτίβων, το n(layers) ορίζει τον συνολικό αριθμό των επιπέδων στο μοντέλο, το d(model) ορίζει τον αριθμό των μονάδων σε κάθε στρώμα του σημαδιού συμφόρησης και το d(head) ορίζει τις διαστάσεις κάθε κεφαλής προσοχής. Το παράθυρο περιβάλλοντος για κάθε μοντέλο είναι το ίδιο με 2048 διακριτικά. 

Επιπλέον, για να ελαχιστοποιηθεί η μεταφορά δεδομένων μεταξύ των κόμβων, το μοντέλο κατανέμεται στις GPU κατά μήκος και πλάτος των διαστάσεων. Οι αρχιτεκτονικές παράμετροι για κάθε μοντέλο έχουν επιλεγεί με βάση την υπολογιστική απόδοση και την εξισορρόπηση φορτίου για τη μεγιστοποίηση της ακρίβειας στη διάταξη των μοντέλων σε όλες τις GPU. 

Σύνολα δεδομένων εκπαίδευσης

Συνήθως, τα μεγάλα γλωσσικά μοντέλα χρησιμοποιούν σύνολα δεδομένων που έχουν επεκταθεί σημαντικά με τις πρόσφατες εξελίξεις και καταλήγουν στο σύνολο δεδομένων Common Crawl που αποτελείται από πάνω από ένα τρισεκατομμύριο διαφορετικές λέξεις. Το μέγεθος του συνόλου δεδομένων είναι επαρκές για την εκπαίδευση του μοντέλου GPT-3 χωρίς ενημέρωση στην ίδια ακολουθία πολλές φορές. Ωστόσο, οι μελέτες και η ανάλυση απόδοσης δείχνουν ότι οι ελαφρώς φιλτραρισμένες εκδόσεις ή οι μη φιλτραρισμένες εκδόσεις του συνόλου δεδομένων Common Crawl έχουν χαμηλή ποιότητα σε σύγκριση με πιο επιμελημένα δεδομένα. 

Για να αντιμετωπίσουν το ζήτημα της μέσης ποιότητας του συνόλου δεδομένων, οι προγραμματιστές έκαναν 3 βήματα για να ενισχύσουν την ποιότητα του συνόλου δεδομένων. 

  1. Οι προγραμματιστές κατέβασαν και φιλτραρίστηκαν μια έκδοση του συνόλου δεδομένων Common Crawl που βασίζεται σε ένα εύρος παρόμοιο με τα σώματα αναφοράς υψηλής ποιότητας. 
  2. Οι προγραμματιστές πραγματοποίησαν ασαφή αντιγραφή σε επίπεδο εγγράφου σε όλο το σύνολο δεδομένων σε μια προσπάθεια να διατηρήσουν την ακεραιότητα του συνόλου επικύρωσής τους ως αποτελεσματική μέτρηση της υπερπροσαρμογής και επίσης για να αποτρέψουν τον πλεονασμό. 
  3. Οι προγραμματιστές πρόσθεσαν επίσης σώματα αναφοράς υψηλής ποιότητας στα δεδομένα εκπαίδευσης για να αυξήσουν το σύνολο δεδομένων Common Crawl και να αυξήσουν περαιτέρω την ποικιλομορφία του συνόλου δεδομένων. 

Το παρακάτω σχήμα δείχνει την τελική αναλογία ή μείγμα των συνόλων δεδομένων που χρησιμοποιούνται για την εκπαίδευση του μοντέλου GPT-3. Τα δεδομένα Common Crawl αποτελούνταν από πάνω από 45 TB απλού κειμένου πριν από το φιλτράρισμα, το οποίο μειώθηκε σε 570 GB δεδομένων μετά το φιλτράρισμα, περίπου ισοδύναμο με πάνω από 400 δισεκατομμύρια κωδικοποιημένα διακριτικά ζευγών byte. Αξίζει να σημειωθεί ότι τα σύνολα δεδομένων στην εκπαίδευση που θεωρούνται ως υψηλότερης ποιότητας δειγματοληπτούνται με μεγαλύτερη συχνότητα αντί να δειγματοληπτείται η αναλογία δεδομένων ως προς το μέγεθός τους. Ως αποτέλεσμα, τα σύνολα δεδομένων όπως το Books2 & Common Crawl δειγματοληπτούνται λιγότερο από μία φορά κατά τη διάρκεια της εκπαίδευσης, ενώ τα άλλα σύνολα δεδομένων δειγματοληπτούνται πολλές φορές. Επιτρέπει στο μοντέλο να δέχεται μια μικρή ποσότητα υπερπροσαρμογής σε αντάλλαγμα για εκπαίδευση σε δεδομένα εκπαίδευσης υψηλότερης ποιότητας. 

Μια σημαντική ανησυχία για μεγάλα γλωσσικά μοντέλα που είναι προεκπαιδευμένα σε μεγάλο όγκο δεδομένων στο Διαδίκτυο με την ικανότητα απομνημόνευσης και εκμάθησης μεγάλου όγκου περιεχομένου είναι η πιθανή μόλυνση των καθηκόντων κατάντη με την προβολή της ανάπτυξής τους ή των δοκιμαστικών σετ κατά την εκπαιδευτική διαδικασία. Για τη μείωση αυτής της πιθανής μόλυνσης, οι προγραμματιστές αναζήτησαν τυχόν επικαλύψεις με τα σύνολα δοκιμής και ανάπτυξης των σημείων αναφοράς που μελετήθηκαν για το GPT-3 και προσπάθησαν να αφαιρέσουν αυτές τις επικαλύψεις. 

Η παραπάνω εικόνα δείχνει τον συνολικό υπολογισμό που χρησιμοποιήθηκε κατά την εκπαίδευση του μοντέλου GPT-3. Το μοντέλο χρησιμοποιεί νόμους κλιμάκωσης για μοντέλα νευρωνικών γλωσσών για να εκπαιδεύσει πολύ μεγαλύτερα μοντέλα σε λιγότερα διακριτικά από τα τυπικά. Ως αποτέλεσμα, τόσο το μοντέλο GPT-3 όσο και το μοντέλο RoBERTa-Large, που είναι 10 φορές μικρότερο από το μοντέλο GPT-3, χρειάστηκαν σχεδόν 50 petaflops/ημέρα υπολογισμού κατά τη διάρκεια της προεκπαιδευτικής διαδικασίας. 

Εκτίμηση

Για τις λίγες εκμάθηση βολής, το μοντέλο αξιολογεί κάθε παράδειγμα που υπάρχει στο σύνολο δεδομένων αξιολόγησης αντλώντας τυχαία K παραδείγματα από το σύνολο δεδομένων εκπαίδευσης αυτής της εργασίας ως προετοιμασία και το οριοθετεί κατά 1 ή 2 νέες γραμμές ανάλογα με την εργασία. Για το Storycloze και το LAMBADA, το μοντέλο αντλεί παραδείγματα προετοιμασίας από το σετ ανάπτυξης και το αξιολογεί στο σύνολο δοκιμών λόγω της μη διαθεσιμότητας ενός εποπτευόμενου σετ εκπαίδευσης. Για το Winograd, υπάρχει μόνο ένα σύνολο δεδομένων, και έτσι τα δείγματα προετοιμασίας αντλούνται απευθείας από αυτό. 

Το K μπορεί να είναι οποιαδήποτε τιμή που κυμαίνεται από 0 έως το μέγιστο ποσό που επιτρέπεται από το παράθυρο περιβάλλοντος του μοντέλου που είναι next = 2048 για όλα τα μοντέλα και ταιριάζει συνήθως σε περίπου 10 έως 100 παραδείγματα. Οι μεγαλύτερες τιμές του K οδηγούν συχνά σε καλύτερα αποτελέσματα, αλλά όχι πάντα, γι' αυτό, όταν το μοντέλο έχει ένα σύνολο δοκιμής και ένα ξεχωριστό σύνολο ανάπτυξης, το μοντέλο πειραματίζεται σε μερικές τιμές του K στο σύνολο ανάπτυξης και με βάση τα αποτελέσματα , εκτελεί την καλύτερη τιμή στο σετ δοκιμής. 

Επιπλέον, στις εργασίες που απαιτούν την επιλογή μιας σωστής ολοκλήρωσης από πολλαπλές επιλογές, οι προγραμματιστές παρέχουν K παραδείγματα διόρθωσης συν ολοκλήρωση περιβάλλοντος και το παρακολουθούν παρέχοντας ένα μόνο παράδειγμα περιβάλλοντος και στη συνέχεια οι εργασίες συγκρίνονται με βάση την πιθανότητα LM κάθε ολοκλήρωσης. Για εργασίες που απαιτούν δυαδική ταξινόμηση, τα μοντέλα συχνά δίνουν επιλογές πιο σημασιολογικά και με πιο ουσιαστικά ονόματα, και στη συνέχεια αντιμετωπίζουν την εργασία ως πολλαπλής επιλογής και μερικές φορές πλαισιώνουν την εργασία παρόμοια με αυτό που γίνεται από το μοντέλο και την αρχιτεκτονική RSR. 

Για τις εργασίες που απαιτούν ολοκλήρωση ελεύθερης μορφής, το μοντέλο χρησιμοποιεί αναζήτηση δέσμης με ίδιες παραμέτρους όπως χρησιμοποιείται στο πλαίσιο RSR, με δέσμη μήκους 4 και ποινή 0.6. Στη συνέχεια, το μοντέλο βαθμολογείται χρησιμοποιώντας είτε τη βαθμολογία ομοιότητας F1, την ακριβή αντιστοίχιση ή το BLEU, ανάλογα με το πρότυπο για το σύνολο δεδομένων. 

Αποτελέσματα

Το παραπάνω σχήμα δείχνει τις καμπύλες εκπαίδευσης για τα 8 μοντέλα που χρησιμοποιούνται στην αρχιτεκτονική του μοντέλου GPT-3, όπως περιγράφεται στις προηγούμενες ενότητες. Παρόμοια με τα αποτελέσματα από το μοντέλο γλώσσας KMH, η απόδοση του μοντέλου GPT-3 ακολουθεί έναν σωστό νόμο όταν χρησιμοποιείται αποτελεσματικά ο υπολογισμός εκπαίδευσης. Υπάρχει μια μικρή διαφορά από το νόμο μόνο όταν η τάση επεκταθεί κατά δύο ακόμη τάξεις μεγέθους. Οι άνθρωποι μπορεί να σκεφτούν ότι οι βελτιώσεις στην απώλεια διασταυρούμενης εντροπίας μπορεί να είναι αποτέλεσμα της μοντελοποίησης ψευδών λεπτομερειών του σώματος εκπαίδευσης. Ωστόσο, οι βελτιώσεις στην απώλεια διασταυρούμενης εντροπίας οδηγούν σε σταθερά κέρδη στη συνολική απόδοση σε ένα ευρύ φάσμα μιας ποικιλίας εργασιών NLP. 

Πριν από την αξιολόγηση των 8 διαφορετικών μοντέλων σε ένα ευρύ φάσμα δεδομένων εκπαίδευσης, τα σύνολα δεδομένων ομαδοποιούνται σε 8 διαφορετικές κατηγορίες που αντιπροσωπεύουν παρόμοιες εργασίες. Αυτές οι κατηγορίες είναι

  1. Αξιολόγηση εργασιών μοντελοποίησης παραδοσιακής γλώσσας και εργασίες που μοιάζουν με μοντελοποίηση γλώσσας, όπως εργασίες Cloze ή εργασίες ολοκλήρωσης προτάσεων/παραγράφων. 
  2. Αξιολόγηση εργασιών απάντησης ερωτήσεων «κλειστού βιβλίου». 
  3. Αξιολόγηση της ικανότητας του μοντέλου να μεταφράζει μεταξύ γλωσσών (ειδικά one-shot και few-shot)
  4. Αξιολόγηση της απόδοσης του μοντέλου σε εργασίες που μοιάζουν με το σχήμα Winograd. 
  5. Αξιολόγηση σε σύνολα δεδομένων που περιλαμβάνουν συλλογισμό κοινής λογικής ή απάντηση ερωτήσεων. 
  6. Αξιολόγηση εργασιών κατανόησης ανάγνωσης. 
  7. Αξιολόγηση στη σουίτα σημείων αναφοράς SuperGLUE. 
  8. Εξερεύνηση NLI. 

Εργασίες μοντελοποίησης, ολοκλήρωσης και κλεισίματος γλώσσας

Σε αυτήν την ενότητα, η απόδοση του μοντέλου GPT-3 αξιολογείται στις παραδοσιακές εργασίες μοντελοποίησης γλώσσας καθώς και σε εργασίες που απαιτούν την πρόβλεψη μιας λέξης ενδιαφέροντος ή τη συμπλήρωση μιας παραγράφου ή μιας πρότασης ή τη συμπλήρωση ενός κομματιού κειμένου. Ας τα συζητήσουμε εν συντομία. 

Μοντελοποίηση Γλωσσών

Το μοντέλο GPT-3 υπολογίζει την αμηχανία μηδενικής λήψης στο PTB ή στο σύνολο δεδομένων Penn Tree Bank. Το μοντέλο παραλείπει εργασίες που σχετίζονται με τη Wikipedia επειδή περιλαμβάνεται ήδη στα δεδομένα εκπαίδευσης του μοντέλου και το σημείο αναφοράς ενός δισεκατομμυρίου λέξεων παραλείπεται επίσης επειδή προκαλεί σημαντική τριβή του συνόλου δεδομένων που βρίσκεται εντός των δεδομένων εκπαίδευσης. Ωστόσο, το σύνολο δεδομένων PTB αντιμετωπίζει αυτά τα ζητήματα, επειδή μπορεί να προϋπάρχει του σύγχρονου Διαδικτύου. Το μεγαλύτερο μοντέλο στην αρχιτεκτονική του μοντέλου GPT-3 θέτει νέα SOTA στο σύνολο δεδομένων PTB με ένα αξιοσημείωτο περιθώριο 15 σημείων και επιτυγχάνει αμηχανία 20.50. 

ΛΑΜΠΑΔΑ

Το σύνολο δεδομένων LAMBADA χρησιμοποιείται για τη δοκιμή της μοντελοποίησης του μοντέλου σε εξαρτήσεις μεγάλης εμβέλειας σε παραγράφους ή κείμενα. Σημαίνει ότι το μοντέλο καλείται να προβλέψει την τελευταία λέξη μιας πρότασης αφού διαβάσει την παράγραφο για τα συμφραζόμενα. Επιπλέον, η συνεχής κλιμάκωση των μοντέλων γλώσσας αποφέρει μειωμένες αποδόσεις στο σημείο αναφοράς. 

Το μοντέλο GPT-3 επιτυγχάνει ακρίβεια 76% στο LAMBADA και έχει κέρδος πάνω από 8% σε σχέση με τα προηγούμενα καλύτερα μοντέλα. Επιπλέον, το μοντέλο LAMBADA καταδεικνύει την ευελιξία της μάθησης με λίγες λήψεις καθώς αντιμετώπισε το πρόβλημα με τρόπο που εμφανίζεται κλασικά με το σύνολο δεδομένων. Η συμπλήρωση μιας πρότασης στο LAMBADA είναι συνήθως η τελευταία λέξη της πρότασης, αλλά καθώς το γλωσσικό μοντέλο δεν μπορεί να το γνωρίζει αυτό, αποδίδει μια πιθανότητα όχι μόνο στη σωστή κατάληξη, αλλά και σε άλλες συνέχειες της παραγράφου. 

Επιπλέον, όταν τα παραδείγματα που τροφοδοτούνται στο μοντέλο GPT-3 τροποποιούνται με συγκεκριμένο τρόπο, το μοντέλο επιστρέφει ακρίβεια πάνω από 86%, μια αύξηση άνω του 18% σε σχέση με τα προηγούμενα μοντέλα. Επιπλέον, τα αποτελέσματα έδειξαν επίσης ότι η απόδοση του μοντέλου σε ρύθμιση λίγων λήψεων αυξάνεται αναλογικά με την αύξηση του μεγέθους του μοντέλου. Αν και αυτή η στρατηγική μειώνει το μικρότερο μοντέλο στην αρχιτεκτονική GPT-3 κατά 20%, ενισχύει την ακρίβεια του πρωτεύοντος μοντέλου GPT-3 με 175 δισεκατομμύρια παραμέτρους κατά 10%. 

Απάντηση σε κλειστό βιβλίο

Το Closed Book Question Answering είναι μια προσπάθεια μέτρησης της ικανότητας του μοντέλου GPT-3 να απαντά σε ερωτήσεις που βασίζονται σε ευρεία τεκμηριωμένη γνώση. Επειδή τέτοιες ερωτήσεις έχουν συχνά μεγάλο αριθμό πιθανών ερωτημάτων, η εργασία συνήθως επιτυγχάνεται χρησιμοποιώντας ένα σύστημα ανάκτησης πληροφοριών που επιτρέπει στο μοντέλο να βρει σχετικό κείμενο σε συνδυασμό με το μοντέλο που μαθαίνει να παράγει μια απάντηση σε μια απάντηση που δίνεται στο ανακτηθέν κείμενο και το ερώτημα. 

Η παραπάνω εικόνα συγκρίνει το αποτέλεσμα για το μοντέλο GPT-3 σε σύγκριση με διαφορετικά μοντέλα και που εκτελείται σε διαφορετικά σύνολα δεδομένων. Στο σύνολο δεδομένων TriviaQA, το μοντέλο επιτυγχάνει βαθμολογία ακρίβειας 64.3% στη ρύθμιση μηδενικής λήψης, ενώ επιτυγχάνει βαθμολογία ακρίβειας 68% και 71.2% σε ρυθμίσεις μίας λήψης και λίγων βολών αντίστοιχα. 

Μπορεί προφανώς να φανεί ότι το μοντέλο GPT-3 σε ρύθμιση μηδενικής λήψης ξεπερνά τις επιδόσεις του βελτιστοποιημένου μοντέλου T5-11B κατά περισσότερο από 14%. 

Το παραπάνω σχήμα δείχνει ότι η απόδοση του μοντέλου GPT-3 αυξάνεται ομαλά με την αύξηση του μεγέθους του μοντέλου. Η απόδοση υποδηλώνει ότι τα μοντέλα γλώσσας συνεχίζουν να μαθαίνουν από το σύνολο δεδομένων καθώς αυξάνεται η χωρητικότητά τους. 

Τελικές Σκέψεις

Θα ήταν ασφαλές να πούμε ότι το GPT-3 ήταν μια επαναστατική φάση στον κλάδο του LLM, καθώς το GPT-3 βοήθησε στην υπέρβαση των ορίων του τι μπορούσε να κάνει ένα γλωσσικό μοντέλο. Ήταν οι εξελίξεις που έγιναν και τα εμπόδια που ξεπεράστηκαν από το GPT-3 που άνοιξαν το δρόμο για το πιο προηγμένο και ακριβές μοντέλο μεγάλης γλώσσας μέχρι σήμερα, το GPT-4. 

«Μηχανικός στο επάγγελμα, συγγραφέας από καρδιάς». Ο Kunal είναι ένας τεχνικός συγγραφέας με βαθιά αγάπη και κατανόηση της τεχνητής νοημοσύνης και της ML, αφοσιωμένος στην απλοποίηση σύνθετων εννοιών σε αυτούς τους τομείς μέσω της συναρπαστικής και ενημερωτικής τεκμηρίωσής του.