Τεχνητή νοημοσύνη

Μπορείτε να δημιουργήσετε μεγάλα μοντέλα γλώσσας όπως το ChatGPT με μισό κόστος;

Δημοσιευμένα

12 μήνες πριν

11 Μαΐου 2023

Μεγάλα γλωσσικά μοντέλα (LLM) όπως το GPT-3 και το ChatGPT έχουν φέρει επανάσταση στην τεχνητή νοημοσύνη, προσφέροντας δυνατότητες κατανόησης φυσικής γλώσσας και δημιουργίας περιεχομένου. Αλλά η ανάπτυξή τους έχει υψηλό τίμημα που περιορίζει την προσβασιμότητα και την περαιτέρω έρευνα. Οι ερευνητές εκτιμούν ότι η εκπαίδευση του GPT-3 κοστίζει το OpenAI περίπου $ 5 εκατομμύρια. Ωστόσο, η Microsoft αναγνώρισε τις δυνατότητες και επένδυσε $ 1 δισ. σε 2019 και $ 10 δισ. το 2023 στο εγχείρημα GPT-3 και ChatGPT του OpenAI.

Τα LLM είναι μοντέλα μηχανικής μάθησης που εκπαιδεύονται σε εκτεταμένα δεδομένα κειμένου για εφαρμογές NLP. Βασίζονται στην αρχιτεκτονική του μετασχηματιστή και χρησιμοποιούν μηχανισμούς προσοχής για εργασίες NLP όπως η απάντηση σε ερωτήσεις, η μηχανική μετάφραση, η ανάλυση συναισθημάτων κ.λπ.

Τίθεται το ερώτημα: μπορεί να αυξηθεί η απόδοση αυτών των μεγάλων μοντέλων με ταυτόχρονη μείωση του υπολογιστικού κόστους και του χρόνου εκπαίδευσης;

Αρκετές προσεγγίσεις, όπως Προοδευτικά Νευρωνικά Δίκτυα, Μορφισμός Δικτύου, παραλληλισμός μοντέλου εντός στρώματος, κληρονομιά γνώσηςκ.λπ., έχουν αναπτυχθεί για τη μείωση του υπολογιστικού κόστους της εκπαίδευσης των νευρωνικών δικτύων. Η νουβέλα LiGO Η προσέγγιση (Χειριστής Γραμμικής Ανάπτυξης) που θα συζητήσουμε θέτει ένα νέο σημείο αναφοράς. Μειώνει στο μισό το υπολογιστικό κόστος της εκπαίδευσης LLM.

Πριν συζητήσουμε αυτήν την τεχνική, είναι απαραίτητη η εξέταση των παραγόντων που συμβάλλουν στην υψηλή τιμή κατασκευής LLM.

Κόστος κατασκευής μοντέλων μεγάλων γλωσσών

Τρεις κύριες δαπάνες για την ανάπτυξη LLM είναι οι εξής:

1. Υπολογιστικοί Πόροι

Η δημιουργία LLM απαιτεί τεράστιους υπολογιστικούς πόρους για εκπαίδευση σε μεγάλα σύνολα δεδομένων. Πρέπει να επεξεργαστούν δισεκατομμύρια παραμέτρους και να μάθουν πολύπλοκα μοτίβα από τεράστια δεδομένα κειμένου.

Επένδυση σε εξειδικευμένο υλικό όπως Μονάδες Επεξεργασίας Γραφικών (GPU) και οι Μονάδες Επεξεργασίας Τενσόρ (TPUs) απαιτούνται για την κατασκευή και την εκπαίδευση LLM για την επίτευξη κορυφαίας απόδοσης.

Για παράδειγμα, το GPT-3 εκπαιδεύτηκε σε α υπερυπολογιστής με 10000 GPU εταιρικής ποιότητας (H100 και A100) και 285,000 πυρήνες CPU.

2. Κατανάλωση Ενέργειας

Οι εντατικοί υπολογιστικοί πόροι που απαιτούνται για την κατασκευή LLM οδηγούν σε σημαντική κατανάλωση ενέργειας. Για παράδειγμα, η εκπαίδευση έλαβε 175 δισεκατομμύρια παραμέτρους GPT-3 14.8 ημέρες χρησιμοποιώντας 10,000 V100 GPU, που ισοδυναμούν με 3.55 εκατομμύρια ώρες GPU. Ένα τόσο υψηλό επίπεδο κατανάλωσης ενέργειας έχει επίσης σημαντικές περιβαλλοντικές επιπτώσεις.

3. Αποθήκευση & Διαχείριση Δεδομένων

Οι LLMs εκπαιδεύονται σε μεγάλα σύνολα δεδομένων. Για παράδειγμα, το GPT-3 εκπαιδεύτηκε σε ένα τεράστιο σύνολο κειμένων ημερομηνία, συμπεριλαμβανομένων των Common Crawl, WebText2, Books1, Books2 και Wikipedia, μεταξύ άλλων πηγών. Απαιτούνται σημαντικές επενδύσεις υποδομής για τη συλλογή, την επιμέλεια και την αποθήκευση αυτών των συνόλων δεδομένων.

Επίσης, απαιτείται αποθήκευση στο cloud για αποθήκευση δεδομένων και ανθρώπινη τεχνογνωσία για την προεπεξεργασία δεδομένων και τον έλεγχο της έκδοσης. Επιπλέον, η διασφάλιση ότι η στρατηγική δεδομένων σας συμμορφώνεται με κανονισμούς όπως ο GDPR αυξάνει επίσης το κόστος.

Τεχνική LiGO: Μειώστε στο μισό το κόστος κατασκευής μεγάλων μοντέλων γλώσσας

Το LiGO (Χειριστής Γραμμικής Ανάπτυξης) είναι μια νέα τεχνική που αναπτύχθηκε από ερευνητές στο MIT για τη μείωση του υπολογιστικού κόστους της εκπαίδευσης των LLMs κατά 50%. Η μέθοδος περιλαμβάνει την προετοιμασία των βαρών μεγαλύτερων μοντέλων από αυτά των μικρότερων προεκπαιδευμένων μοντέλων, επιτρέποντας την αποτελεσματική κλιμάκωση των νευρωνικών δικτύων.

Εικόνα από την εφημερίδα: Μαθαίνοντας να αναπτύσσετε προεκπαιδευμένα μοντέλα για αποτελεσματική εκπαίδευση μετασχηματιστών

Γιουν Κιμ, ο ανώτερος συγγραφέας της εργασίας, λέει:

«Υπολογίζεται ότι τα μοντέλα προπόνησης στην κλίμακα που υποτίθεται ότι θα τρέξουν το ChatGPT θα μπορούσαν να χρειαστούν εκατομμύρια δολάρια μόνο για μία μόνο διαδρομή προπόνησης. Μπορούμε να βελτιώσουμε την αποτελεσματικότητα αυτών των μεθόδων εκπαίδευσης, ώστε να μπορούμε να έχουμε καλά μοντέλα σε λιγότερο χρόνο και με λιγότερα χρήματα; Προτείνουμε να το κάνουμε αυτό αξιοποιώντας μικρότερα γλωσσικά μοντέλα που έχουν εκπαιδευτεί στο παρελθόν.»

Αυτή η μέθοδος διατηρεί τα οφέλη απόδοσης μεγαλύτερων μοντέλων με μειωμένο υπολογιστικό κόστος και μειωμένο χρόνο εκπαίδευσης σε σύγκριση με την εκπαίδευση ενός μεγάλου μοντέλου από την αρχή. Το LiGO χρησιμοποιεί έναν τελεστή γραμμικής ανάπτυξης που βασίζεται σε δεδομένα που συνδυάζει τελεστές βάθους και πλάτους για βέλτιστη απόδοση.

Η εργασία χρησιμοποίησε διάφορα σύνολα δεδομένων για τη διεξαγωγή πειραμάτων με βάση το κείμενο, συμπεριλαμβανομένου του σώματος της αγγλικής Wikipedia για την εκπαίδευση των μοντέλων BERT και RoBERTa και του συνόλου δεδομένων C4 για την εκπαίδευση του GPT2.

Ο πειραματισμός της τεχνικής LiGO περιελάμβανε ανάπτυξη BERT-Small σε BERT-Base, BERT-Base σε BERT-Large, RoBERTaSmall σε RoBERTa-Base, GPT2-Base σε GPT2-Medium και CaiT-XS σε CaiT-S.

Οι ερευνητές συνέκριναν την προσέγγισή τους με πολλές άλλες βασικές γραμμές, συμπεριλαμβανομένης της εκπαίδευσης από το μηδέν, της προοδευτικής εκπαίδευσης, του bert2BERT και του KI.

Η τεχνική LiGO προσέφερε εξοικονόμηση 44.7% σε FLOP (πράξεις κινητής υποδιαστολής ανά δευτερόλεπτο) και 40.7% εξοικονόμηση χρόνου σε τοίχο σε σύγκριση με την εκπαίδευση BERT-Base από την αρχή με την επαναχρησιμοποίηση του μοντέλου BERT-Small. Ο χειριστής ανάπτυξης LiGO ξεπερνά τα StackBERT, MSLT, bert2BERT και KI σε αποτελεσματική εκπαίδευση.

Οφέλη από τη χρήση μιας τεχνικής βελτιστοποίησης εκπαίδευσης όπως το LiGO

Το LiGO είναι μια αποτελεσματική μέθοδος εκπαίδευσης νευρωνικών δικτύων που έχει διάφορα οφέλη που αναφέρονται ως εξής:

1. Ταχύτερη προπόνηση

Όπως αναφέρθηκε προηγουμένως, η ταχύτερη προπόνηση είναι το κύριο πλεονέκτημα της τεχνικής LiGO. Εκπαιδεύει LLM στο μισό χρόνο, αυξάνοντας την παραγωγικότητα και μειώνοντας το κόστος.

2. Αποτελεσματικοί πόροι

Το LiGO είναι αποδοτικό ως προς τους πόρους, καθώς ελαχιστοποιεί τον χρόνο τοίχου και τα FLOP, οδηγώντας σε μια πιο οικονομική και φιλική προς το περιβάλλον προσέγγιση για την εκπαίδευση μεγάλων μοντέλων μετασχηματιστών.

3. Γενίκευση

Η τεχνική LiGO έχει βελτιώσει την απόδοση τόσο των μετασχηματιστών γλώσσας όσο και των μετασχηματιστών όρασης υποδηλώνοντας ότι είναι μια γενικεύσιμη τεχνική που μπορεί να εφαρμοστεί σε διάφορες εργασίες.

Η κατασκευή εμπορικών προϊόντων τεχνητής νοημοσύνης είναι μόνο μια πτυχή των συνολικών δαπανών που σχετίζονται με τα συστήματα τεχνητής νοημοσύνης. Ένα άλλο σημαντικό στοιχείο του κόστους προέρχεται από τις καθημερινές λειτουργίες. Για παράδειγμα, κοστίζει περίπου το OpenAI $700,000 κάθε μέρα για να απαντάτε σε ερωτήματα χρησιμοποιώντας το ChatGPT. Οι ερευνητές αναμένεται να συνεχίσουν να εξερευνούν προσεγγίσεις που κάνουν τα LLM οικονομικά αποδοτικά κατά τη διάρκεια της εκπαίδευσης και πιο προσιτά στο χρόνο εκτέλεσης.

Για περισσότερο περιεχόμενο που σχετίζεται με την τεχνητή νοημοσύνη, επισκεφθείτε ενω.αι.