Τεχνητή νοημοσύνη
Mistral AI’s Latest Mixture of Experts (MoE) 8x7B Model

η οποία είναι μια εταιρεία ανοικτού κώδικα με έδρα το Παρίσι, έχει προκαλέσει τους κανόνες με την κυκλοφορία του τελευταίου μεγάλου μοντέλου γλώσσας (LLM), MoE 8x7B, μέσω eines απλού σύνδεσμου torrent. Αυτό αντιπαραβάλλεται με την παραδοσιακή προσέγγιση της Google με την κυκλοφορία του Gemini, προκαλώντας συζητήσεις και ενθουσιασμό στην κοινότητα του AI. Η προσέγγιση της Mistral AI στις κυκλοφορίες έχει πάντα ήταν μη συμβατική. Συχνά παραλείποντας τις συνήθεις συνοδούς εγγράφων, blog ή δημοσιευμάτων, η στρατηγική της έχει ήταν μοναδικά αποτελεσματική στην κατοχή της προσοχής της κοινότητας του AI. Πρόσφατα, η εταιρεία πέτυχε ένα αξιοσημείωτο $2 δισεκατομμύρια αξιολόγηση μετά από μια γύρα χρηματοδότησης που ηγήθηκε η Andreessen Horowitz. Αυτή η γύρα χρηματοδότησης ήταν ιστορική, θέτοντας ένα ρεκόρ με μια $118 εκατομμύρια σπόρος γύρα, η μεγαλύτερη στην ευρωπαϊκή ιστορία. Πέρα από τις επιτυχίες της χρηματοδότησης, η ενεργή συμμετοχή της Mistral AI στις συζητήσεις γύρω από τον νόμο AI της ΕΕ, υποστηρίζοντας τη μείωση της ρύθμισης στον ανοικτό κώδικα AI. Γιατί το MoE 8x7B προκαλεί προσοχή Περιγραφόμενο ως “μια κλιμακωμένη GPT-4”, το Mixtral 8x7B χρησιμοποιεί ένα πλαίσιο Mixture of Experts (MoE) με οκτώ εμπειρογνώμονες. Κάθε εμπειρογνώμονας έχει 111B παραμέτρους, σε συνδυασμό με 55B κοινές παραμέτρους προσοχής, για να δώσει συνολικά 166B παραμέτρους ανά μοντέλο. Αυτή η επιλογή σχεδιασμού είναι σημαντική καθώς επιτρέπει μόνο δύο εμπειρογνώμονες να συμμετέχουν στη συλλογή κάθε token, υπογραμμίζοντας μια μετατόπιση προς πιο αποτελεσματική και εστιασμένη επεξεργασία AI. Ένα από τα κύρια χαρακτηριστικά του Mixtral είναι η ικανότητά του να διαχειρίζεται một εκτεταμένο контέκστ 32.000 token, παρέχοντας άφθονη εμβέλεια για την αντιμετώπιση σύνθετων εργασιών. Οι πολυγλωσσικές ικανότητες του μοντέλου περιλαμβάνουν ισχυρή υποστήριξη για τα αγγλικά, γαλλικά, ιταλικά, γερμανικά και ισπανικά, εξυπηρετώντας μια παγκόσμια κοινότητα αναπτυξιακών. Η προ-εκπαίδευση του Mixtral περιλαμβάνει δεδομένα από το ανοιχτό Web, με μια ταυτόχρονη εκπαίδευση για τους εμπειρογνώμονες και τους διακομιστές. Αυτή η μέθοδος εξασφαλίζει ότι το μοντέλο δεν είναι μόνο τεράστιο στο χώρο παραμέτρων του, αλλά και λεπτομερώς调τισμένο στις νюανς των τεράστιων δεδομένων που έχει εκτεθεί.

Mixtral 8x7B επιτυγχάνει ένα εντυπωσιακό σκορ
Το Mixtral 8x7B ξεπερνά το LLaMA 2 70B και αντιπαραβάλλεται με το GPT-3.5, ιδιαίτερα αξιοσημείωτο στη εργασία MBPP με ποσοστό επιτυχίας 60,7%, σημαντικά υψηλότερο από τους ομολόγους του. Ακόμη και στη ριγωτή MT-Bench που προορίζεται για μοντέλα που ακολουθούν οδηγίες, το Mixtral 8x7B επιτυγχάνει ένα εντυπωσιακό σκορ, σχεδόν ισάξιο με το GPT-3.5 Κατανοώντας το Πλαίσιο Mixture of Experts (MoE) Το μοντέλο Mixture of Experts (MoE), ενώ κερδίζει πρόσφατα προσοχή λόγω της ενσωμάτωσής του σε μοντέλα γλώσσας υψηλής απόδοσης όπως το MoE 8x7B της Mistral AI, έχει τις ρίζες του σε θεμελιώδεις έννοιες που χρονολογούνται αρκετά χρόνια. Ας ξαναδούμε τις αρχές αυτής της ιδέας μέσω σεμιναλικών ερευνητικών εργασιών. Η Έννοια του MoE Το Mixture of Experts (MoE) αντιπροσωπεύει μια παραλλαγή στη δομή των νευρωνικών δικτύων. Αντιθέτως με τα παραδοσιακά μοντέλα που χρησιμοποιούν ένα ενιαίο, ομοιογενές δίκτυο για την επεξεργασία όλων των τύπων δεδομένων, το MoE υιοθετεί μια πιο εξειδικευμένη και modulaire προσέγγιση. Συνίσταται από πολλαπλούς ‘εμπειρογνώμονες’ δικτύους, κάθε ένας από τους οποίους σχεδιάζεται για να χειρίζεται συγκεκριμένους τύπους δεδομένων ή εργασίες, υπό την εποπτεία ενός ‘δικτύου πυλών’ που δυναμικά κατευθύνει τα δεδομένα εισόδου στον πιο κατάλληλο εμπειρογνώμονα.

Ένα στρώμα Mixture of Experts (MoE) ενσωματωμένο σε ένα αναδρομικό μοντέλο γλώσσας (Πηγή)
Η παραπάνω εικόνα παρουσιάζει μια υψηλή προβολή ενός στρώματος MoE ενσωματωμένου σε ένα μοντέλο γλώσσας. Στην ουσία του, το στρώμα MoE αποτελείται από πολλαπλά feed-forward υπο-δικτύωση, που ονομάζονται ‘εμπειρογνώμονες’, κάθε ένας από τους οποίους έχει τη δυνατότητα να εξειδικεύεται στην επεξεργασία διαφορετικών аспектών των δεδομένων. Ένα δίκτυο πυλών, που υπογραμμίζεται στο διάγραμμα, καθορίζει ποιο συνδυασμό αυτών των εμπειρογνώμονων ενεργοποιείται για μια δεδομένη είσοδο. Αυτή η συνθήκη ενεργοποίησης επιτρέπει στο δίκτυο να αυξήσει σημαντικά την ικανότητά του χωρίς μια αντίστοιχη αύξηση της ζήτησης υπολογισμού. Λειτουργία του Στρώματος MoE Σε πρακτική εφαρμογή, το δίκτυο πυλών αξιολογεί την είσοδο (που ονομάζεται G(x) στο διάγραμμα) και επιλέγει ένα σπάνιο σύνολο εμπειρογνώμονων για την επεξεργασία της. Αυτή η επιλογή ρυθμίζεται από τις εξόδους του δικτύου πυλών, αποτελεσματικά καθορίζοντας τη ‘ψηφοφορία’ ή τη συμβολή κάθε εμπειρογνώμονα στην τελική έξοδο. Για παράδειγμα, όπως φαίνεται στο διάγραμμα, μόνο δύο εμπειρογνώμονες μπορεί να επιλεγούν για τον υπολογισμό της έξοδου για κάθε συγκεκριμένη είσοδο token, καθιστώντας τη διαδικασία αποτελεσματική με την εστίαση των υπολογιστικών πόρων όπου είναι πιο απαραίτητοι.

Transformer Encoder με Στρώματα MoE (Πηγή)
Η δεύτερη εικόνα πάνω αντιπαραβάλλει έναν παραδοσιακό κωδικοποιητή Transformer με έναν που αυξάνεται με στρώματα MoE. Η αρχιτεκτονική Transformer, ευρέως γνωστή για την αποτελεσματικότητά της σε εργασίες που σχετίζονται με τη γλώσσα, παραδοσιακά αποτελείται από στρώματα αυτο-προσοχής και feed-forward που στοιβάζονται σε σειρά. Η εισαγωγή των στρωμάτων MoE αντικαθιστά κάποια από αυτά τα στρώματα feed-forward, επιτρέποντας στο μοντέλο να κλιμακωθεί σε σχέση με την ικανότητά του πιο αποτελεσματικά. Στο αυξημένο μοντέλο, τα στρώματα MoE είναι sharded σε πολλαπλά συσκευές,展示νοντας μια μοντέλο-παράλληλη προσέγγιση. Αυτή η sharding είναι κρίσιμη όταν κλιμακώνεται σε πολύ μεγάλες μοντέλα, καθώς επιτρέπει τη διανομή του υπολογιστικού φορτίου και των απαιτήσεων μνήμης σε ένα cluster συσκευών, όπως GPU ή TPU. Αυτή η sharding είναι απαραίτητη για την εκπαίδευση και την ανάπτυξη μοντέλων με δισεκατομμύρια παραμέτρους αποτελεσματικά, όπως φαίνεται στην εκπαίδευση μοντέλων με εκατοντάδες δισεκατομμύρια έως πάνω από ένα τρισεκατομμύριο παραμέτρους σε μεγάλης κλίμακας cluster υπολογισμού. Η Σπάνια Προσέγγιση MoE με Εργασία Οδηγιών στο LLM Το έγγραφο με τίτλο “Σπάνια Mixture-of-Experts (MoE) για τη Μεγάλης Κλίμακας Μοντελοποίηση Γλώσσας” συζητά μια καινοτόμο προσέγγιση για τη βελτίωση των Μεγάλων Μοντέλων Γλώσσας (LLM) με την ενσωμάτωση της αρχιτεκτονικής Mixture of Experts με τεχνικές οδηγιών. Υπογραμμίζει μια κοινή πρόκληση όπου τα μοντέλα MoE υποπερφόρμουν σε σύγκριση με πυκνά μοντέλα ίδιας υπολογιστικής ικανότητας όταν ρυθμίζονται για συγκεκριμένες εργασίες λόγω διακρυμμένων διαφορών μεταξύ γενικής προ-εκπαίδευσης και εργασίας-συγκεκριμένης ρύθμισης. Η οδηγία ρύθμισης είναι μια μεθοδολογία εκπαίδευσης όπου τα μοντέλα βελτιώνονται για να ακολουθούν φυσικές οδηγίες γλώσσας, αποτελεσματικά ενισχύοντας την απόδοσή τους. Το έγγραφο προτείνει ότι τα μοντέλα MoE παρουσιάζουν μια αξιοσημείωτη βελτίωση όταν συνδυάζονται με οδηγία ρύθμισης, περισσότερο από τους πυκνούς ομολόγους τους. Αυτή η τεχνική ευθυγραμμίζει τις προ-εκπαιδευμένες αναπαραστάσεις του μοντέλου για να ακολουθήσει οδηγίες πιο αποτελεσματικά, οδηγώντας σε σημαντικές βελτιώσεις απόδοσης. Οι ερευνητές διεξήγαγαν μελέτες σε τρεις πειραματικές διατάξεις, αποκαλύπτοντας ότι τα μοντέλα MoE αρχικά υποπερφόρμουν στη直接η εργασία-συγκεκριμένη ρύθμισή. Ωστόσο, όταν εφαρμόζεται η οδηγία ρύθμισης, τα μοντέλα MoE ξεχωρίζουν, ιδιαίτερα όταν συμπληρώνονται με εργασία-συγκεκριμένη ρύθμισή. Αυτό υποδηλώνει ότι η οδηγία ρύθμισης είναι ένα κρίσιμο βήμα για τα μοντέλα MoE για να ξεπεράσουν τα πυκνά μοντέλα στις εργασίες.
Επίσης, εισάγει το FLAN-MOE32B, ένα μοντέλο που αποδεικνύει την επιτυχημένη εφαρμογή αυτών των εννοιών. Ιδιαίτερα, ξεπερνά το FLAN-PALM62B, ένα πυκνό μοντέλο, στις εργασίες αναφοράς ενώ χρησιμοποιεί μόνο το ένα τρίτο των υπολογιστικών πόρων. Αυτό δείχνει το δυναμικό για σπάνια μοντέλα MoE που συνδυάζονται με οδηγία ρύθμισης για να θέσουν новые πρότυπα για την αποτελεσματικότητα και απόδοση των LLM. Εφαρμογή του Mixture of Experts σε Πραγματικές Σενάρια Η πολυμορφία των μοντέλων MoE τα κάνει ιδανικά για eine σειρά από εφαρμογές:
- Επεξεργασία Φυσικής Γλώσσας (NLP): Τα μοντέλα MoE μπορούν να χειριστούν τις νύξεις και τις复잡ότητες της ανθρώπινης γλώσσας πιο αποτελεσματικά, καθιστώντας τα ιδανικά για προηγμένες εργασίες NLP.
- Επεξεργασία Εικόνας και Βίντεο: Σε εργασίες που απαιτούν υψηλή ανάλυση επεξεργασίας, το MoE μπορεί να χειριστεί διαφορετικούς аспектούς εικόνων ή βίντεο, βελτιώνοντας και την ποιότητα και την ταχύτητα επεξεργασίας.
- Προσαρμόσιμες Λύσεις AI: Οι επιχειρήσεις και οι ερευνητές μπορούν να προσαρμόσουν τα μοντέλα MoE σε συγκεκριμένες εργασίες, οδηγώντας σε πιο στοχευμένες και αποτελεσματικές λύσεις AI.
Προκλήσεις και Συμμετοχές
Ενώ τα μοντέλα MoE προσφέρουν πολλά πλεονεκτήματα, επίσης παρουσιάζουν μοναδικές προκλήσεις:
- Συμπλέξη στην Εκπαίδευση και Ρύθμισή: Η κατανεμημένη φύση των μοντέλων MoE μπορεί να complikate την διαδικασία εκπαίδευσης, απαιτώντας προσεκτική ισορροπία και ρύθμισή των εμπειρογνώμονων και του δικτύου πυλών.
- Διαχείριση Πόρων: Η αποτελεσματική διαχείριση των υπολογιστικών πόρων σε πολλαπλούς εμπειρογνώμονες είναι κρίσιμη για την μεγιστοποίηση των πλεονεκτημάτων των μοντέλων MoE.
Η ενσωμάτωση των στρωμάτων MoE στα νευρωνικά δίκτυα, ιδιαίτερα στον τομέα των μοντέλων γλώσσας, προσφέρει einen δρόμο προς την κλιμάκωση των μοντέλων σε μεγέθη που προηγουμένως ήταν ακατόρθωτα λόγω υπολογιστικών περιορισμών. Η συνθήκη υπολογισμού που ενεργοποιείται από τα στρώματα MoE επιτρέπει μια πιο αποτελεσματική διανομή των υπολογιστικών πόρων, καθιστώντας δυνατή την εκπαίδευση μεγαλύτερων, πιο ικανοποιητικών μοντέλων. Όσο συνεχίζουμε να απαιτούμε περισσότερα από τα συστήματα AI μας, αρχιτεκτονικές όπως το MoE-εξοπλισμένο Transformer είναι πιθανό να γίνουν το πρότυπο για την αντιμετώπιση σύνθετων, μεγάλης κλίμακας εργασιών σε διάφορους τομείς.













