Τεχνητή νοημοσύνη

MoRA: Υψηλής Βαθμίδας Ενημέρωση για PEFT

mm

Λόγω της ισχυρής απόδοσης και της ευρείας εφαρμοσιμότητας σε σύγκριση με άλλες μεθόδους, το LoRA ή χαμηλής βαθμίδας προσαρμογή είναι μια από τις πιο δημοφιλείς μεθόδους PEFT ή παραμετρικής αποτελεσματικής μερικής ενημέρωσης για την ενημέρωση ενός μεγάλου γλωσσικού μοντέλου. Το πλαίσιο LoRA χρησιμοποιεί δύο χαμηλής βαθμίδας πίνακες για να αποσυνθέσει και να προσεγγίσει τις ενημερωμένες βαρύτητες στο FFT ή πλήρη μερική ενημέρωση, και το πλαίσιο LoRA τροποποιεί αυτές τις παραμετρικές παραμέτρους ανάλογα με την προσαρμογή του βαθμού των πινάκων. Το κύριο πλεονέκτημα της εφαρμογής της διαδικασίας είναι ότι διευκολύνει το πλαίσιο LoRA να συνδυάσει αυτούς τους πίνακες χωρίς καθυστέρηση στην ενημέρωση μετά την ενημέρωση. Επιπλέον, αν και τα πρόσφατα μεγάλα γλωσσικά μοντέλα παρέχουν αξιοσημείωτη απόδοση σε εργασίες μάθησης σε контέκστ, ορισμένες περιπτώσεις vẫn απαιτούν ενημέρωση και μπορούν να κατηγοριοποιηθούν ευρέως σε τρεις τύπους. Ο πρώτος τύπος, ενημέρωση οδηγιών, αποσκοπεί στην ευθυγράμμιση των LLMs με τις τελικές εργασίες και τις προτιμήσεις του χρήστη χωρίς να αυξήσει τις γνώσεις και τις ικανότητες των LLMs, μια προσέγγιση που απλοποιεί τη διαδικασία αντιμετώπισης των διαφορετικών εργασιών και των σύνθετων οδηγιών. Ο δεύτερος τύπος περιλαμβάνει σύνθετες εργασίες συλλογισμού όπως η επίλυση μαθηματικών προβλημάτων. Τέλος, ο τρίτος τύπος είναι η συνεχής προ-εκπαίδευση, μια προσέγγιση που επιχειρεί να βελτιώσει τις γενικές ικανότητες των μεγάλων γλωσσικών μοντέλων.

Σε αυτό το άρθρο, θα μιλήσουμε για το αν η χαμηλής βαθμίδας ενημέρωση επηρεάζει την απόδοση του πλαισίου LoRA, όπως έχει παρατηρηθεί ότι η μηχανισμός ενημέρωσης χαμηλής βαθμίδας μπορεί να εμποδίσει την ικανότητα του μεγάλου γλωσσικού μοντέλου να μάθει και να θυμηθεί νέες γνώσεις. Βασισμένοι στο ίδιο, σε αυτό το άρθρο θα μιλήσουμε για το MoRA, μια νέα μέθοδος που επιτυγχάνει υψηλής βαθμίδας ενημέρωση διατηρώντας τον ίδιο αριθμό παραμετρικών παραμέτρων, χρησιμοποιώντας einen τετραγωνικό πίνακα. Για να επιτύχουμε αυτό, το πλαίσιο MoRA μειώνει την είσοδο διάσταση και αυξάνει την έξοδο διάσταση για τον τετραγωνικό πίνακα εισάγοντας τους αντίστοιχους μη-παραμετρικούς χειριστές. Επιπλέον, αυτοί οι χειριστές διασφαλίζουν ότι το βάρος μπορεί να συνδυαστεί πίσω στα LLMs, το οποίο κάνει το πλαίσιο MoRA deployable όπως το LoRA.

Αυτό το άρθρο στοχεύει να καλύψει το πλαίσιο MoRA σε βάθος, και εξετάζουμε τον μηχανισμό, τη μεθοδολογία, την αρχιτεκτονική του πλαισίου μαζί με τη σύγκριση με τα state-of-the-art πλαισιά. Έτσι, ας ξεκινήσουμε.

MoRA: Υψηλής Βαθμίδας Ενημέρωση για PEFT

Όσο μεγαλώνει το μέγεθος και οι ικανότητες των γλωσσικών μοντέλων, η PEFT ή παραμετρική αποτελεσματική μερική ενημέρωση εξελίσσεται σε μια από τις πιο δημοφιλείς και αποτελεσματικές μεθόδους για να προσαρμόσουν τα LLMs σε συγκεκριμένες εργασίες. Σε σύγκριση με το FFT ή πλήρη μερική ενημέρωση, που ενημερώνει όλες τις παραμέτρους, η PEFT τροποποιεί μόνο ένα τμήμα των συνολικών παραμέτρων, καθώς σε ορισμένες εργασίες μπορεί να επιτύχει παρόμοια απόδοση με το FFT ενημερώνοντας λιγότερο από 1% των συνολικών παραμέτρων, μειώνοντας σημαντικά τις απαιτήσεις μνήμης για τον βελτιστοποιητή, ενώ διευκολύνει την αποθήκευση και την ανάπτυξη των μοντέλων. Επιπλέον, μεταξύ όλων των υφιστάμενων μεθόδων PEFT, το LoRA είναι η πιο δημοφιλής σήμερα, ειδικά για τα LLMs. Ένας από τους κύριους λόγους για τους οποίους οι μέθοδοι LoRA παρέχουν καλύτερη απόδοση σε σύγκριση με τις μεθόδους PEFT όπως οι προσαρμογείς ή η ενημέρωση προώθησης είναι ότι το LoRA χρησιμοποιεί χαμηλής βαθμίδας πίνακες για να ενημερώσει τις παραμέτρους, με το πλαίσιο να έχει τον έλεγχο να συνδυάσει αυτούς τους πίνακες με τις αρχικές παραμέτρους του μοντέλου, χωρίς να αυξήσει τις υπολογιστικές απαιτήσεις κατά την ενημέρωση. Αν και υπάρχουν πολλές μέθοδοι που επιχειρούν να βελτιώσουν το LoRA για τα μεγάλα γλωσσικά μοντέλα, η πλειοψηφία αυτών των μοντέλων βασίζεται στο GLUE για να επικυρώσουν την αποτελεσματικότητά τους, είτε απαιτώντας λίγες παραμετρικές παραμέτρους, είτε επιτυγχάνοντας καλύτερη απόδοση.

Επιπλέον, πειράματα που διεξήχθησαν στο LoRA σε ένα ευρύ φάσμα εργασιών, συμπεριλαμβανομένης της συνεχούς προ-εκπαίδευσης, του μαθηματικού συλλογισμού και της ενημέρωσης οδηγιών, δείχνουν ότι mặc dù τα μοντέλα LoRA-based παρέχουν παρόμοια απόδοση σε αυτές τις εργασίες και επιτύχουν απόδοση σε εργασίες ενημέρωσης οδηγιών συγκρίσιμη με τις μεθόδους FFT-based. Ωστόσο, τα μοντέλα LoRA-based δεν μπορούσαν να αναπαραγάγουν την απόδοση σε εργασίες συνεχούς προ-εκπαίδευσης και μαθηματικού συλλογισμού. Μια πιθανή εξήγηση για την έλλειψη απόδοσης μπορεί να είναι η εξάρτηση του LoRA από τις ενημερώσεις χαμηλής βαθμίδας,既然 η χαμηλής βαθμίδας ενημέρωση πίνακα μπορεί να δυσκολευτεί να εκτιμήσει τις πλήρεις ενημερώσεις σε FFT, ειδικά σε εργασίες που απαιτούν τη μνήμη domaine-ειδικών γνώσεων όπως η συνεχής προ-εκπαίδευση. Καθώς ο βαθμός του χαμηλής βαθμίδας ενημέρωσης πίνακα είναι μικρότερος από τον πλήρη βαθμό, περιορίζει την ικανότητα να αποθηκεύσει νέες πληροφορίες χρησιμοποιώντας μερική ενημέρωση. Βασισμένοι σε αυτές τις παρατηρήσεις, το MoRA επιχειρεί να μεγιστοποιήσει τον βαθμό στην χαμηλής βαθμίδας ενημέρωσης πίνακα διατηρώντας τον ίδιο αριθμό παραμετρικών παραμέτρων, χρησιμοποιώντας einen τετραγωνικό πίνακα. Η ακόλουθη εικόνα συγκρίνει το πλαίσιο MoRA με το LoRA υπό τον ίδιο αριθμό παραμετρικών παραμέτρων.

Στην παραπάνω εικόνα, (α) αντιπροσωπεύει το LoRA, και (β) αντιπροσωπεύει το MoRA. W είναι το παγωμένο βάρος από το μοντέλο, M είναι ο εκπαιδεύσιμος πίνακας στο MoRA, A και B είναι εκπαιδεύσιμοι χαμηλής βαθμίδας πίνακες στο LoRA, και r αντιπροσωπεύει τον βαθμό στο LoRA και MoRA. Όπως μπορεί να παρατηρηθεί, το πλαίσιο MoRA παρουσιάζει μεγαλύτερη ικανότητα από τα μοντέλα LoRA-based με μεγάλο βαθμό. Επιπλέον, το πλαίσιο MoRA αναπτύσσει αντίστοιχους μη-παραμετρικούς χειριστές για να μειώσει την είσοδο διάσταση και να αυξήσει την έξοδο διάσταση για τον εκπαιδεύσιμο πίνακα M. Επιπλέον, το πλαίσιο MoRA παρέχει την ευελιξία να χρησιμοποιήσει einen χαμηλής βαθμίδας ενημέρωσης πίνακα για να αντικαταστήσει τον εκπαιδεύσιμο πίνακα M και τους χειριστές, διασφαλίζοντας ότι η μέθοδος MoRA μπορεί να συνδυαστεί πίσω στο μεγάλο γλωσσικό μοντέλο όπως το LoRA. Η ακόλουθη πίνακας συγκρίνει την απόδοση του FFT, LoRA, LoRA variants και της μεθόδου μας σε εργασίες ενημέρωσης οδηγιών, μαθηματικού συλλογισμού και συνεχούς προ-εκπαίδευσης.

MoRA : Μεθοδολογία και Αρχιτεκτονική

Η Επίδραση της Χαμηλής Βαθμίδας Ενημέρωσης

Η βασική αρχή των μοντέλων LoRA-based είναι να εκτιμήσουν τις πλήρεις ενημερώσεις σε FFT χρησιμοποιώντας χαμηλής βαθμίδας ενημερώσεις. Παραδοσιακά, για einen δεδομένο προ-εκπαιδευμένο πίνακα παραμέτρων, το LoRA χρησιμοποιεί δύο χαμηλής βαθμίδας πίνακες για να υπολογίσει την ενημέρωση του βάρους. Για να διασφαλίσει ότι οι ενημερώσεις του βάρους είναι 0 όταν αρχίζει η εκπαίδευση, το LoRA αρχικοποιεί einen από τους χαμηλής βαθμίδας πίνακες με μια κανονική κατανομή ενώ ο άλλος με 0. Η συνολική ενημέρωση του βάρους στο LoRA παρουσιάζει χαμηλή βαθμίδα σε σύγκριση με την πλήρη μερική ενημέρωση σε FFT, αν και η χαμηλής βαθμίδας ενημέρωση στο LoRA παρέχει απόδοση παρόμοια με την πλήρη ενημέρωση σε συγκεκριμένες εργασίες, συμπεριλαμβανομένης της ενημέρωσης οδηγιών και της ταξινόμησης κειμένου. Ωστόσο, η απόδοση του πλαισίου LoRA αρχίζει να χειροτερεύει για εργασίες όπως η συνεχής προ-εκπαίδευση και ο σύνθετος συλλογισμός. Βασισμένοι σε αυτές τις παρατηρήσεις, το MoRA προτείνει ότι είναι ευκολότερο να αξιοποιήσουμε τις ικανότητες και τις αρχικές γνώσεις των LLMs για να λύσουμε εργασίες χρησιμοποιώντας χαμηλής βαθμίδας ενημερώσεις, αλλά το μοντέλο δυσκολεύεται να εκτελέσει εργασίες που απαιτούν την ενίσχυση των ικανοτήτων και των γνώσεων του μεγάλου γλωσσικού μοντέλου.

Μεθοδολογία

Αν και τα LLMs με μάθηση σε контέκστ είναι μια σημαντική βελτίωση σε σύγκριση με τις προηγούμενες προσεγγίσεις, υπάρχουν ακόμη περιπτώσεις που βασίζονται στην ενημέρωση, οι οποίες μπορούν να κατηγοριοποιηθούν ευρέως σε τρεις κατηγορίες. Υπάρχουν LLMs που ενημερώνονται για οδηγίες, ευθυγραμμίζοντας με τις εργασίες και τις προτιμήσεις του χρήστη, χωρίς να αυξήσουν σημαντικά τις γνώσεις και τις ικανότητες των LLMs, μια προσέγγιση που απλοποιεί τη διαδικασία αντιμετώπισης των διαφορετικών εργασιών και των σύνθετων οδηγιών. Một άλλος τύπος αφορά σύνθετες εργασίες συλλογισμού, όπως η επίλυση μαθηματικών προβλημάτων. Τέλος, ο τρίτος τύπος είναι η συνεχής προ-εκπαίδευση, μια προσέγγιση που επιχειρεί να βελτιώσει τις γενικές ικανότητες των μεγάλων γλωσσικών μοντέλων.

Ωστόσο, η πλειοψηφία των παραλλαγών του LoRA χρησιμοποιεί σχεδόν αποκλειστικά την ενημέρωση οδηγιών GLUE ή την ταξινόμηση κειμένου για να αξιολογήσει την αποτελεσματικότητά τους στο контέκστ των LLMs. Καθώς η ενημέρωση για την ενημέρωση οδηγιών απαιτεί τις λιγότερες πόρους σε σύγκριση με άλλες εργασίες, μπορεί να μην αντιπροσωπεύει σωστή σύγκριση μεταξύ των παραλλαγών LoRA. Η προσθήκη εργασιών συλλογισμού για να αξιολογήσουν καλύτερα τις μεθόδους τους έχει γίνει μια κοινή πρακτική σε πιο πρόσφατες εργασίες. Ωστόσο, γενικά χρησιμοποιούμε μικρές εκπαιδευτικές συνόλους (ακόμη και σε 1M παραδείγματα, που είναι khá μεγάλο). Τα LLMs δυσκολεύονται να μάθουν σωστό συλλογισμό από παραδείγματα αυτού του μεγέθους. Για παράδειγμα, ορισμένες προσεγγίσεις χρησιμοποιούν το GSM8K με μόνο 7.5K εκπαιδευτικές περιόδους. Ωστόσο, αυτά τα νούμερα είναι μικρότερα από τη μέθοδο SOTA που εκπαιδεύτηκε σε 395K δείγματα και κάνουν δύσκολο να κρίνουμε την ικανότητα αυτών των μεθόδων να μάθουν τη δύναμη του NLP.

Βασισμένοι στις παρατηρήσεις από την επίδραση της χαμηλής βαθμίδας ενημέρωσης, το πλαίσιο MoRA προτείνει μια νέα μέθοδο για να μετριάσει τις αρνητικές επιπτώσεις της χαμηλής βαθμίδας ενημέρωσης. Η βασική αρχή του πλαισίου MoRA είναι να χρησιμοποιήσει τις ίδιες παραμετρικές παραμέτρους στο μέγιστο δυνατό βαθμό για να επιτύχει υψηλότερο βαθμό στην χαμηλής βαθμίδας ενημέρωσης πίνακα. Μετά την παραμετροποίηση των προ-εκπαιδευμένων βαρών, το LoRA χρησιμοποιεί δύο χαμηλής βαθμίδας πίνακες A και B με συνολικές παραμετρικές παραμέτρους για τον βαθμό r. Ωστόσο, για τον ίδιο αριθμό παραμετρικών παραμέτρων, ένας τετραγωνικός πίνακας μπορεί να επιτύχει τον υψηλότερο βαθμό, και το πλαίσιο MoRA επιτυγχάνει αυτό μειώνοντας την είσοδο διάσταση και αυξάνοντας την έξοδο διάσταση για τον εκπαιδεύσιμο τετραγωνικό πίνακα. Επιπλέον, αυτοί οι δύο χειριστές πρέπει να είναι μη-παραμετρικοί και να αναμένονται να εκτελεστούν σε γραμμικό χρόνο ανάλογα με τη διάσταση.

MoRA: Πειράματα και Αποτελέσματα

Για να αξιολογήσει την απόδοσή του, το πλαίσιο MoRA αξιολογείται σε ένα ευρύ φάσμα εργασιών για να κατανοήσει την επίδραση της υψηλής βαθμίδας ενημέρωσης σε τρεις εργασίες: memorizing UUID ζευγάρια, ενημέρωση εργασιών και προ-εκπαίδευση.

Memorizing UUID Ζευγάρια

Για να δείξουμε τις βελτιώσεις στην απόδοση, το πλαίσιο MoRA συγκρίνεται με το FFT και το LoRA σε εργασίες memorizing UUID ζευγάρια. Η εκπαιδευτική απώλεια από το πείραμα αντανακλώνεται στην ακόλουθη εικόνα.

Αξίζει να σημειωθεί ότι για τον ίδιο αριθμό παραμετρικών παραμέτρων, το πλαίσιο MoRA είναι σε θέση να ξεπεράσει τα υπάρχοντα μοντέλα LoRA, υποδεικνύοντας ότι επωφελήθηκε από την υψηλής βαθμίδας ενημέρωσης στρατηγική. Η αναφορά ακριβούς εκπαίδευσης σε διαφορετικά βήματα εκπαίδευσης συνοψίζεται στον ακόλουθο πίνακα.

Όπως μπορεί να παρατηρηθεί, σε σύγκριση με το LoRA, το πλαίσιο MoRA χρειάζεται λιγότερα βήματα εκπαίδευσης για να memorize τα UUID ζευγάρια.

Ενημέρωση Εργασιών

Για να αξιολογήσει την απόδοσή του σε εργασίες ενημέρωσης, το πλαίσιο MoRA αξιολογείται σε τρεις εργασίες ενημέρωσης: ενημέρωση οδηγιών, μαθηματικός συλλογισμός και συνεχής προ-εκπαίδευση, σχεδιασμένες για μεγάλα γλωσσικά μοντέλα, μαζί με ένα υψηλής ποιότητας αντίστοιχο σύνολο δεδομένων για cả το MoRA και LoRA. Τα αποτελέσματα των εργασιών ενημέρωσης παρουσιάζονται στον ακόλουθο πίνακα.

Όπως μπορεί να παρατηρηθεί, σε εργασίες μαθηματικού συλλογισμού και ενημέρωσης οδηγιών, και τα μοντέλα LoRA και MoRA παρέχουν παρόμοια απόδοση. Ωστόσο, το μοντέλο MoRA ξεπερνά το LoRA σε εργασίες συνεχούς προ-εκπαίδευσης και για τα δύο βιοϊατρικά και οικονομικά πεδία, επωφελούμενο από την υψηλής βαθμίδας ενημέρωσης προσέγγιση για να memorize νέες γνώσεις. Επιπλέον, είναι σημαντικό να κατανοήσουμε ότι οι τρεις εργασίες είναι διαφορετικές μεταξύ τους με διαφορετικές απαιτήσεις και διαφορετικές ικανότητες ενημέρωσης.

Προ-Εκπαίδευση

Για να αξιολογήσει την επίδραση της υψηλής βαθμίδας ενημέρωσης στην συνολική απόδοση, ο μετασχηματιστής στο πλαίσιο MoRA εκπαιδεύεται από την αρχή στο σύνολο δεδομένων C4, και η απόδοση συγκρίνεται με τα μοντέλα LoRA και ReLoRA. Η απώλεια προ-εκπαίδευσης μαζί με την αντίστοιχη πολυπλοκότητα στο σύνολο δεδομένων C4 παρουσιάζονται στις ακόλουθες εικόνες.

Όπως μπορεί να παρατηρηθεί, το μοντέλο MoRA παρέχει καλύτερη απόδοση σε εργασίες προ-εκπαίδευσης σε σύγκριση με τα μοντέλα LoRA και ReLoRA με τον ίδιο αριθμό παραμετρικών παραμέτρων.

Επιπλέον, για να δείξουμε την επίδραση της υψηλής βαθμίδας ενημέρωσης στον βαθμό της χαμηλής βαθμίδας ενημέρωσης πίνακα, το πλαίσιο MoRA αναλύει το φάσμα των ιδιοτιμών για τον εκπαιδευμένο χαμηλής βαθμίδας ενημέρωσης πίνακα, προ-εκπαιδεύοντας το μοντέλο 250M, και τα αποτελέσματα περιέχονται στην ακόλουθη εικόνα.

Τελικές Σκέψεις

Σε αυτό το άρθρο, μιλήσαμε για το αν η χαμηλής βαθμίδας ενημέρωση επηρεάζει την απόδοση του πλαισίου LoRA, όπως έχει παρατηρηθεί ότι η μηχανισμός ενημέρωσης χαμηλής βαθμίδας μπορεί να εμποδίσει την ικανότητα του μεγάλου γλωσσικού μοντέλου να μάθει και να θυμηθεί νέες γνώσεις. Βασισμένοι στο ίδιο, σε αυτό το άρθρο θα μιλήσουμε για το MoRA, μια νέα μέθοδος που επιτυγχάνει υψηλής βαθμίδας ενημέρωση διατηρώντας τον ίδιο αριθμό παραμετρικών παραμέτρων, χρησιμοποιώντας einen τετραγωνικό πίνακα. Για να επιτύχουμε αυτό, το πλαίσιο MoRA μειώνει την είσοδο διάσταση και αυξάνει την έξοδο διάσταση για τον τετραγωνικό πίνακα εισάγοντας τους αντίστοιχους μη-παραμετρικούς χειριστές. Επιπλέον, αυτοί οι χειριστές διασφαλίζουν ότι το βάρος μπορεί να συνδυαστεί πίσω στα LLMs, το οποίο κάνει το πλαίσιο MoRA deployable όπως το LoRA.

Ένας μηχανικός επάγγελμα, ένας συγγραφέας με την καρδιά. Ο Kunal είναι ένας τεχνικός συγγραφέας με einen βαθύ έρωτα και κατανόηση του AI και ML, αφιερωμένος στο να απλοποιεί σύνθετες έννοιες σε αυτά τα πεδία μέσω των ελκυστικών και ενημερωτικών εγγράφων του.