Τεχνητή νοημοσύνη
The Rise of Mixture of Experts for Efficient Large Language Models

By
Aayush Mittal Μιτάλ
Στον κόσμο της επεξεργασίας φυσικής γλώσσας (NLP), η επιδίωξη δημιουργίας μεγαλύτερων και ικανότερων γλωσσικών μοντέλων υπήρξε η κινητήρια δύναμη πίσω από πολλές πρόσφατες εξελίξεις. Ωστόσο, καθώς αυτά τα μοντέλα μεγαλώνουν σε μέγεθος, οι υπολογιστικές απαιτήσεις για εκπαίδευση και εξαγωγή συμπερασμάτων γίνονται όλο και πιο απαιτητικές, ωθώντας τα όρια των διαθέσιμων πόρων υλικού.
Εισάγουμε το Mixture-of-Experts (MoE), μια τεχνική που υπόσχεται να μετριάσει αυτό το υπολογιστικό βάρος, επιτρέποντας παράλληλα την εκπαίδευση μεγαλύτερων και πιο ισχυρών γλωσσικών μοντέλων. Παρακάτω, θα συζητήσουμε το MoE, θα εξερευνήσουμε την προέλευσή του, την εσωτερική λειτουργία του και τις εφαρμογές του σε γλωσσικά μοντέλα που βασίζονται σε μετασχηματιστές.
The Origins of Mixture-of-Experts
Η έννοια του Mixture-of-Experts (MoE) μπορεί να εντοπιστεί στις αρχές της δεκαετίας του 1990, όταν οι ερευνητές διερεύνησαν την ιδέα του υπό όρους υπολογισμού, όπου τμήματα ενός νευρωνικού δικτύου ενεργοποιούνται επιλεκτικά με βάση τα δεδομένα εισόδου. Ένα από τα πρωτοποριακά έργα στον τομέα αυτό ήταν το «Προσαρμοστικό Μίγμα Τοπικών Εμπειρογνωμόνων» έγγραφο των Jacobs et al. το 1991, το οποίο πρότεινε ένα εποπτευόμενο πλαίσιο μάθησης για ένα σύνολο νευρωνικών δικτύων, το καθένα ειδικευμένο σε διαφορετική περιοχή του χώρου εισόδου.
Η βασική ιδέα πίσω από το MoE είναι να υπάρχουν πολλαπλά δίκτυα «ειδικών», καθένα από τα οποία είναι υπεύθυνο για την επεξεργασία ενός υποσυνόλου των δεδομένων εισόδου. Ένας μηχανισμός πύλης, συνήθως ένα ίδιο το νευρωνικό δίκτυο, καθορίζει ποιος εμπειρογνώμονας πρέπει να επεξεργαστεί μια δεδομένη είσοδο. Αυτή η προσέγγιση επιτρέπει στο μοντέλο να κατανέμει τους υπολογιστικούς του πόρους πιο αποτελεσματικά, ενεργοποιώντας μόνο τους σχετικούς ειδικούς για κάθε είσοδο, αντί να χρησιμοποιεί την πλήρη χωρητικότητα του μοντέλου για κάθε είσοδο.
Με τα χρόνια, διάφοροι ερευνητές διερεύνησαν και επέκτειναν την ιδέα του υπό όρους υπολογισμού, οδηγώντας σε εξελίξεις όπως ιεραρχικά MoEs, προσεγγίσεις χαμηλής κατάταξης για υπολογισμούς υπό όρους και τεχνικές για την εκτίμηση των κλίσεων μέσω στοχαστικών νευρώνων και συναρτήσεων ενεργοποίησης σκληρού κατωφλίου.
Mixture-of-Expers in Transformers
Ενώ η ιδέα του MoE υπάρχει εδώ και δεκαετίες, η εφαρμογή του σε μοντέλα γλώσσας που βασίζονται σε μετασχηματιστές είναι σχετικά πρόσφατη. Οι μετασχηματιστές, οι οποίοι έχουν γίνει το de facto πρότυπο για γλωσσικά μοντέλα τελευταίας τεχνολογίας, αποτελούνται από πολλαπλά επίπεδα, το καθένα από τα οποία περιέχει έναν μηχανισμό αυτοπροσοχής και ένα νευρωνικό δίκτυο τροφοδοσίας προς τα εμπρός (FFN).
Η βασική καινοτομία στην εφαρμογή του MoE στους μετασχηματιστές είναι η αντικατάσταση των πυκνών στρωμάτων FFN με αραιά στρώματα MoE, το καθένα από τα οποία αποτελείται από πολλαπλούς ειδικούς FFN και έναν μηχανισμό πύλης. Ο μηχανισμός πύλης καθορίζει ποιοι εμπειρογνώμονες θα πρέπει να επεξεργάζονται κάθε διακριτικό εισόδου, επιτρέποντας στο μοντέλο να ενεργοποιεί επιλεκτικά μόνο ένα υποσύνολο ειδικών για μια δεδομένη ακολουθία εισόδου.
Ένα από τα πρώτα έργα που κατέδειξαν τις δυνατότητες του MoE στους μετασχηματιστές ήταν το έγγραφο «Εξωφρενικά μεγάλα νευρωνικά δίκτυα: The Sparsely-Gated Mixture-of-Experts Layer» των Shazeer et al. το 2017. Αυτή η εργασία εισήγαγε την έννοια ενός στρώματος MoE με αραιά πύλη, το οποίο χρησιμοποιούσε έναν μηχανισμό πύλης που πρόσθεσε αραιότητα και θόρυβο στη διαδικασία επιλογής ειδικών, διασφαλίζοντας ότι μόνο ένα υποσύνολο ειδικών ενεργοποιήθηκε για κάθε είσοδο.
Έκτοτε, αρκετές άλλες εργασίες έχουν προωθήσει περαιτέρω την εφαρμογή του MoE στους μετασχηματιστές, αντιμετωπίζοντας προκλήσεις όπως η αστάθεια εκπαίδευσης, η εξισορρόπηση φορτίου και η αποτελεσματική εξαγωγή συμπερασμάτων. Αξιοσημείωτα παραδείγματα περιλαμβάνουν το Διακόπτης μετασχηματιστή (Fedus et al., 2021), ST-MoE (Zoph et al., 2022) και GLAM (Du et al., 2022).
Πλεονεκτήματα του Mixture-of-Experts για γλωσσικά μοντέλα
Το πρωταρχικό όφελος από τη χρήση του MoE σε γλωσσικά μοντέλα είναι η δυνατότητα κλιμάκωσης του μεγέθους του μοντέλου, διατηρώντας παράλληλα ένα σχετικά σταθερό υπολογιστικό κόστος κατά την εξαγωγή συμπερασμάτων. Ενεργοποιώντας επιλεκτικά μόνο ένα υποσύνολο ειδικών για κάθε διακριτικό εισόδου, τα μοντέλα MoE μπορούν να επιτύχουν την εκφραστική ισχύ πολύ μεγαλύτερων μοντέλων πυκνότητας ενώ απαιτούν σημαντικά λιγότερους υπολογισμούς.
Για παράδειγμα, εξετάστε ένα μοντέλο γλώσσας με ένα πυκνό στρώμα FFN 7 δισεκατομμυρίων παραμέτρων. Εάν αντικαταστήσουμε αυτό το επίπεδο με ένα επίπεδο MoE που αποτελείται από οκτώ ειδικούς, ο καθένας με 7 δισεκατομμύρια παραμέτρους, ο συνολικός αριθμός των παραμέτρων αυξάνεται στα 56 δισεκατομμύρια. Ωστόσο, κατά τη διάρκεια της εξαγωγής συμπερασμάτων, εάν ενεργοποιήσουμε μόνο δύο ειδικούς ανά διακριτικό, το υπολογιστικό κόστος ισοδυναμεί με ένα πυκνό μοντέλο 14 δισεκατομμυρίων παραμέτρων, καθώς υπολογίζει δύο πολλαπλασιασμούς μήτρας παραμέτρων 7 δισεκατομμυρίων.
Αυτή η υπολογιστική αποτελεσματικότητα κατά την εξαγωγή συμπερασμάτων είναι ιδιαίτερα πολύτιμη σε σενάρια ανάπτυξης όπου οι πόροι είναι περιορισμένοι, όπως κινητές συσκευές ή περιβάλλοντα υπολογιστών αιχμής. Επιπλέον, οι μειωμένες υπολογιστικές απαιτήσεις κατά τη διάρκεια της εκπαίδευσης μπορούν να οδηγήσουν σε σημαντική εξοικονόμηση ενέργειας και χαμηλότερο αποτύπωμα άνθρακα, ευθυγραμμίζοντας με την αυξανόμενη έμφαση στις βιώσιμες πρακτικές τεχνητής νοημοσύνης.
Προκλήσεις και προβληματισμοί
Ενώ τα μοντέλα MoE προσφέρουν επιτακτικά πλεονεκτήματα, η υιοθέτηση και η ανάπτυξή τους συνοδεύεται επίσης από πολλές προκλήσεις και ζητήματα:
- Προπονητική αστάθεια: Τα μοντέλα MoE είναι γνωστό ότι είναι πιο επιρρεπή σε προπονητικές αστάθειες σε σύγκριση με τα πυκνά αντίστοιχά τους. Αυτό το ζήτημα προκύπτει από την αραιή και υπό όρους φύση των ενεργοποιήσεων των ειδικών, η οποία μπορεί να οδηγήσει σε προκλήσεις στη διάδοση και τη σύγκλιση κλίσης. Τεχνικές όπως ο δρομολογητής z-loss (Zoph et al., 2022) έχουν προταθεί για να μετριαστούν αυτές οι αστάθειες, αλλά απαιτείται περαιτέρω έρευνα.
- Λεπτομερής ρύθμιση και υπερπροσαρμογή: Τα μοντέλα MoE τείνουν να υπερπροσαρμόζονται πιο εύκολα κατά τη λεπτομέρεια, ειδικά όταν η κατάντη εργασία έχει σχετικά μικρό σύνολο δεδομένων. Αυτή η συμπεριφορά αποδίδεται στην αυξημένη χωρητικότητα και τη σπανιότητα των μοντέλων MOE, που μπορεί να οδηγήσει σε υπερεξειδίκευση στα δεδομένα εκπαίδευσης. Απαιτούνται προσεκτικές στρατηγικές τακτοποίησης και λεπτομέρειας για τον μετριασμό αυτού του ζητήματος.
- Απαιτήσεις μνήμης: Ενώ τα μοντέλα MoE μπορούν να μειώσουν το υπολογιστικό κόστος κατά την εξαγωγή συμπερασμάτων, συχνά έχουν υψηλότερες απαιτήσεις μνήμης σε σύγκριση με πυκνά μοντέλα παρόμοιου μεγέθους. Αυτό συμβαίνει επειδή όλα τα βάρη ειδικών πρέπει να φορτωθούν στη μνήμη, παρόλο που ενεργοποιείται μόνο ένα υποσύνολο για κάθε είσοδο. Οι περιορισμοί μνήμης μπορούν να περιορίσουν την επεκτασιμότητα των μοντέλων MoE σε συσκευές με περιορισμούς πόρων.
- Εξισορρόπηση φορτίου: Για να επιτευχθεί η βέλτιστη υπολογιστική απόδοση, είναι ζωτικής σημασίας να εξισορροπηθεί το φορτίο μεταξύ των ειδικών, διασφαλίζοντας ότι κανένας ειδικός δεν υπερφορτώνεται ενώ άλλοι παραμένουν ανεπαρκείς. Αυτή η εξισορρόπηση φορτίου επιτυγχάνεται συνήθως μέσω βοηθητικών απωλειών κατά τη διάρκεια της εκπαίδευσης και προσεκτικής ρύθμισης του παράγοντα χωρητικότητας, ο οποίος καθορίζει τον μέγιστο αριθμό κουπονιών που μπορούν να εκχωρηθούν σε κάθε ειδικό.
- Επιβάρυνση Επικοινωνίας: Σε κατανεμημένα σενάρια εκπαίδευσης και συμπερασμάτων, τα μοντέλα MoE μπορούν να εισάγουν πρόσθετο κόστος επικοινωνίας λόγω της ανάγκης ανταλλαγής πληροφοριών ενεργοποίησης και διαβάθμισης μεταξύ ειδικών που κατοικούν σε διαφορετικές συσκευές ή επιταχυντές. Οι αποτελεσματικές στρατηγικές επικοινωνίας και ο σχεδιασμός μοντέλων με γνώση του υλικού είναι απαραίτητες για τον μετριασμό αυτού του γενικού κόστους.
Παρά αυτές τις προκλήσεις, τα πιθανά οφέλη των μοντέλων του Υπουργείου Υγείας για τη διευκόλυνση μεγαλύτερων και ικανότερων γλωσσικών μοντέλων έχουν ωθήσει σημαντικές ερευνητικές προσπάθειες για την αντιμετώπιση και τον μετριασμό αυτών των ζητημάτων.
Παράδειγμα: Mixtral 8x7B και GLaM
Για να δείξουμε την πρακτική εφαρμογή του MoE σε γλωσσικά μοντέλα, ας εξετάσουμε δύο αξιοσημείωτα παραδείγματα: το Mixtral 8x7B και το GLaM.
Το Mixtral 8x7B είναι μια παραλλαγή MoE του Μοντέλο γλώσσας Mistral, που αναπτύχθηκε από την Anthropic. Αποτελείται από οκτώ ειδικούς, ο καθένας με 7 δισεκατομμύρια παραμέτρους, με αποτέλεσμα συνολικά 56 δισεκατομμύρια παραμέτρους. Ωστόσο, κατά τη διάρκεια της εξαγωγής συμπερασμάτων, μόνο δύο ειδικοί ενεργοποιούνται ανά διακριτικό, μειώνοντας ουσιαστικά το υπολογιστικό κόστος σε αυτό ενός μοντέλου πυκνότητας παραμέτρων 14 δισεκατομμυρίων.
Το Mixtral 8x7B έχει επιδείξει εντυπωσιακή απόδοση, ξεπερνώντας το μοντέλο Llama των 70 δισεκατομμυρίων παραμέτρων, ενώ προσφέρει πολύ ταχύτερους χρόνους συμπερασμάτων. Μια έκδοση του Mixtral 8x7B που έχει συντονιστεί με οδηγίες, που ονομάζεται Mixtral-8x7B-Instruct-v0.1, έχει επίσης κυκλοφορήσει, ενισχύοντας περαιτέρω τις δυνατότητές του στην παρακολούθηση των οδηγιών φυσικής γλώσσας.
Ένα άλλο αξιοσημείωτο παράδειγμα είναι το GLaM (Google Language Model), ένα μοντέλο MoE μεγάλης κλίμακας που αναπτύχθηκε από την Google. Το GLaM χρησιμοποιεί μια αρχιτεκτονική μετασχηματιστή μόνο για αποκωδικοποιητή και εκπαιδεύτηκε σε ένα τεράστιο σύνολο δεδομένων διακριτικών 1.6 τρισεκατομμυρίων. Το μοντέλο επιτυγχάνει εντυπωσιακές επιδόσεις σε αξιολογήσεις λίγων και μίας βολής, ταιριάζοντας με την ποιότητα του GPT-3 ενώ χρησιμοποιεί μόνο το ένα τρίτο της ενέργειας που απαιτείται για την εκπαίδευση του GPT-3.
Η επιτυχία του GLaM μπορεί να αποδοθεί στην αποτελεσματική αρχιτεκτονική MoE, η οποία επέτρεψε την εκπαίδευση ενός μοντέλου με έναν τεράστιο αριθμό παραμέτρων διατηρώντας παράλληλα λογικές υπολογιστικές απαιτήσεις. Το μοντέλο κατέδειξε επίσης τη δυνατότητα των μοντέλων MoE να είναι πιο ενεργειακά αποδοτικά και περιβαλλοντικά βιώσιμα σε σύγκριση με τα αντίστοιχα πυκνά μοντέλα.
Η Αρχιτεκτονική Grok-1
Γκροκ-1 είναι ένα μοντέλο MoE που βασίζεται σε μετασχηματιστή με μοναδική αρχιτεκτονική σχεδιασμένη για μεγιστοποίηση της αποδοτικότητας και της απόδοσης. Ας εμβαθύνουμε στις βασικές προδιαγραφές:
- Παράμετροι: Με 314 δισεκατομμύρια παραμέτρους, το Grok-1 είναι το μεγαλύτερο ανοιχτό LLM μέχρι σήμερα. Ωστόσο, χάρη στην αρχιτεκτονική MoE, μόνο το 25% των βαρών (περίπου 86 δισεκατομμύρια παράμετροι) είναι ενεργά ανά πάσα στιγμή, ενισχύοντας τις δυνατότητες επεξεργασίας.
- Αρχιτεκτονική: Το Grok-1 χρησιμοποιεί μια αρχιτεκτονική Mixture-of-8-Experts, με κάθε διακριτικό να επεξεργάζεται από δύο ειδικούς κατά τη διάρκεια της εξαγωγής συμπερασμάτων.
- Επίπεδα: Το μοντέλο αποτελείται από 64 στρώματα μετασχηματιστή, το καθένα από τα οποία ενσωματώνει προσοχή πολλαπλών κεφαλών και πυκνά μπλοκ.
- Τεκμηρίωση: Το Grok-1 χρησιμοποιεί ένα SentencePiece tokenizer με μέγεθος λεξιλογίου 131,072 tokens.
- Ενσωματώσεις και κωδικοποίηση θέσης: Το μοντέλο διαθέτει ενσωματώσεις 6,144 διαστάσεων και χρησιμοποιεί περιστροφικές ενσωματώσεις θέσης, επιτρέποντας μια πιο δυναμική ερμηνεία δεδομένων σε σύγκριση με τις παραδοσιακές κωδικοποιήσεις σταθερής θέσης.
- Προσοχή: Το Grok-1 χρησιμοποιεί 48 κεφαλές προσοχής για ερωτήματα και 8 κεφαλές προσοχής για κλειδιά και τιμές, το καθένα με μέγεθος 128.
- Μήκος περιβάλλοντος: Το μοντέλο μπορεί να επεξεργαστεί ακολουθίες μήκους έως 8,192 tokens, χρησιμοποιώντας την ακρίβεια bfloat16 για αποτελεσματικούς υπολογισμούς.
Στοιχεία απόδοσης και υλοποίησης
Το Grok-1 έχει επιδείξει εντυπωσιακές επιδόσεις, ξεπερνώντας τα LLaMa 2 70B και Mixtral 8x7B με βαθμολογία MMLU 73%, επιδεικνύοντας την αποτελεσματικότητα και την ακρίβειά του σε διάφορες δοκιμές.
Ωστόσο, είναι σημαντικό να σημειωθεί ότι το Grok-1 απαιτεί σημαντικούς πόρους GPU λόγω του μεγάλου μεγέθους του. Η τρέχουσα υλοποίηση στην έκδοση ανοιχτού κώδικα επικεντρώνεται στην επικύρωση της ορθότητας του μοντέλου και χρησιμοποιεί μια αναποτελεσματική υλοποίηση επιπέδου MoE για να αποφευχθεί η ανάγκη για προσαρμοσμένους πυρήνες.
Παρόλα αυτά, το μοντέλο υποστηρίζει την ενεργοποίηση κοινής χρήσης και την κβαντοποίηση 8-bit, τα οποία μπορούν να βελτιστοποιήσουν την απόδοση και να μειώσουν τις απαιτήσεις μνήμης.
Σε μια αξιόλογη κίνηση, Η xAI κυκλοφόρησε το Grok-1 υπό την άδεια Apache 2.0, καθιστώντας τα βάρη και την αρχιτεκτονική του προσβάσιμα στην παγκόσμια κοινότητα για χρήση και συνεισφορές.
Η έκδοση ανοιχτού κώδικα περιλαμβάνει ένα παράδειγμα αποθήκης κώδικα JAX που δείχνει πώς να φορτώσετε και να εκτελέσετε το μοντέλο Grok-1. Οι χρήστες μπορούν να κατεβάσουν τα βάρη των σημείων ελέγχου χρησιμοποιώντας έναν πελάτη torrent ή απευθείας μέσω του HuggingFace Hub, διευκολύνοντας την εύκολη πρόσβαση σε αυτό το πρωτοποριακό μοντέλο.
The Future of Mixture of Experts in Language Models
Καθώς η ζήτηση για μεγαλύτερα και πιο ικανά γλωσσικά μοντέλα συνεχίζει να αυξάνεται, η υιοθέτηση των τεχνικών MoE αναμένεται να αποκτήσει περαιτέρω ώθηση. Οι συνεχιζόμενες ερευνητικές προσπάθειες επικεντρώνονται στην αντιμετώπιση των υπολοίπων προκλήσεων, όπως η βελτίωση της σταθερότητας της προπόνησης, ο μετριασμός της υπερβολικής προσαρμογής κατά τη λεπτομέρεια και η βελτιστοποίηση των απαιτήσεων μνήμης και επικοινωνίας.
Μια πολλά υποσχόμενη κατεύθυνση είναι η εξερεύνηση των ιεραρχικών αρχιτεκτονικών του MoE, όπου κάθε ειδικός αποτελείται από πολλούς υπο-ειδικούς. Αυτή η προσέγγιση θα μπορούσε ενδεχομένως να επιτρέψει ακόμη μεγαλύτερη επεκτασιμότητα και υπολογιστική απόδοση, διατηρώντας παράλληλα την εκφραστική ισχύ μεγάλων μοντέλων.
Επιπλέον, η ανάπτυξη συστημάτων υλικού και λογισμικού βελτιστοποιημένων για μοντέλα MoE είναι ένας ενεργός τομέας έρευνας. Οι εξειδικευμένοι επιταχυντές και τα κατανεμημένα πλαίσια εκπαίδευσης που έχουν σχεδιαστεί για να χειρίζονται αποτελεσματικά τα αραιά και υπό όρους υπολογιστικά μοτίβα των μοντέλων MoE θα μπορούσαν να βελτιώσουν περαιτέρω την απόδοση και την επεκτασιμότητα τους.
Επιπλέον, η ενσωμάτωση των τεχνικών MoE με άλλες προόδους στη μοντελοποίηση γλώσσας, όπως μηχανισμοί αραιής προσοχής, αποτελεσματικές στρατηγικές δημιουργίας διακριτικών και πολυτροπικές αναπαραστάσεις, θα μπορούσε να οδηγήσει σε ακόμη πιο ισχυρά και ευέλικτα γλωσσικά μοντέλα ικανά να αντιμετωπίσουν ένα ευρύ φάσμα εργασιών.
Συμπέρασμα
Η τεχνική Mixture-of-Experts έχει αναδειχθεί ως ένα ισχυρό εργαλείο στην αναζήτηση μεγαλύτερων και ικανότερων γλωσσικών μοντέλων. Ενεργοποιώντας επιλεκτικά ειδικούς με βάση τα δεδομένα εισόδου, τα μοντέλα MoE προσφέρουν μια πολλά υποσχόμενη λύση στις υπολογιστικές προκλήσεις που σχετίζονται με την κλιμάκωση των πυκνών μοντέλων. Ενώ εξακολουθούν να υπάρχουν προκλήσεις που πρέπει να ξεπεραστούν, όπως η αστάθεια εκπαίδευσης, η υπερπροσαρμογή και οι απαιτήσεις μνήμης, τα πιθανά οφέλη των μοντέλων MoE όσον αφορά την υπολογιστική απόδοση, την επεκτασιμότητα και την περιβαλλοντική βιωσιμότητα τα καθιστούν συναρπαστικό τομέα έρευνας και ανάπτυξης.
Καθώς ο τομέας της επεξεργασίας φυσικής γλώσσας συνεχίζει να ωθεί τα όρια του δυνατού, η υιοθέτηση των τεχνικών MoE είναι πιθανό να διαδραματίσει κρίσιμο ρόλο στην ενεργοποίηση της επόμενης γενιάς γλωσσικών μοντέλων. Συνδυάζοντας το MoE με άλλες εξελίξεις στην αρχιτεκτονική μοντέλων, τις τεχνικές εκπαίδευσης και τη βελτιστοποίηση υλικού, μπορούμε να προσβλέπουμε σε ακόμη πιο ισχυρά και ευέλικτα μοντέλα γλώσσας που μπορούν πραγματικά να κατανοήσουν και να επικοινωνήσουν με τους ανθρώπους με φυσικό και απρόσκοπτο τρόπο.
Έχω περάσει τα τελευταία πέντε χρόνια βυθίζοντας τον εαυτό μου στον συναρπαστικό κόσμο της Μηχανικής Μάθησης και της Βαθιάς Μάθησης. Το πάθος και η εξειδίκευσή μου με οδήγησαν να συνεισφέρω σε περισσότερα από 50 διαφορετικά έργα μηχανικής λογισμικού, με ιδιαίτερη έμφαση στην AI/ML. Η συνεχής περιέργειά μου με έχει τραβήξει επίσης προς την Επεξεργασία Φυσικής Γλώσσας, έναν τομέα που ανυπομονώ να εξερευνήσω περαιτέρω.
Μπορεί να σου αρέσει
-
Το τέλος της εποχής της κλιμάκωσης: Γιατί οι αλγοριθμικές ανακαλύψεις έχουν μεγαλύτερη σημασία από το μέγεθος του μοντέλου
-
Προετοιμασία για διαφήμιση σε μοντέλα μεγάλης γλώσσας
-
Τα γλωσσικά μοντέλα αλλάζουν τις απαντήσεις τους ανάλογα με τον τρόπο που μιλάτε
-
Τα εξατομικευμένα γλωσσικά μοντέλα είναι εύκολο να κατασκευαστούν – και πιο δύσκολο να εντοπιστούν
-
Το μέλλον της διαφήμισης μετά από ένα πραξικόπημα στην κυκλοφορία μέσω τεχνητής νοημοσύνης
-
Πώς να κάνετε το ChatGPT να μιλάει κανονικά