Τεχνητή νοημοσύνη

The Future of Serverless Inference for Large Language Models

Δημοσιευμένα Ιανουάριος 26, 2024

Aayush Mittal Μιτάλ

Οι πρόσφατες εξελίξεις στα μεγάλα γλωσσικά μοντέλα (LLM) όπως το GPT-4, το PaLM έχουν οδηγήσει σε μετασχηματιστικές ικανότητες σε εργασίες φυσικής γλώσσας. Τα LLM ενσωματώνονται σε διάφορες εφαρμογές όπως chatbots, μηχανές αναζήτησης και βοηθούς προγραμματισμού. Ωστόσο, η εξυπηρέτηση των LLMs σε κλίμακα παραμένει πρόκληση λόγω των σημαντικών απαιτήσεων GPU και μνήμης.

Οι προσεγγίσεις για να ξεπεραστεί αυτό εμπίπτουν γενικά σε δύο κύριες κατηγορίες:

Τεχνικές συμπίεσης μοντέλου

Αυτές οι τεχνικές στοχεύουν στη μείωση του μεγέθους του μοντέλου διατηρώντας παράλληλα την ακρίβεια. Οι κοινές προσεγγίσεις περιλαμβάνουν:

Κλάδεμα – Αφαίρεση περιττών ή λιγότερο σημαντικών παραμέτρων από το μοντέλο. Αυτό δημιουργεί ένα αραιό μοντέλο με λιγότερες παραμέτρους.
Κβαντισμός – Χρησιμοποιώντας αριθμούς μικρότερης ακρίβειας όπως int8 ή bfloat16 για την αναπαράσταση βαρών αντί για fp32 ή fp16. Αυτό μειώνει το αποτύπωμα μνήμης.
Απόσταξη γνώσης – Εκπαίδευση ενός μικρότερου μοντέλου «μαθητή» ώστε να μιμείται ένα μεγάλο μοντέλο «δασκάλου». Το μικρότερο μοντέλο χρησιμοποιείται στη συνέχεια για συμπέρασμα.

Επιλεκτική Εκτέλεση

Αντί για συμπιεσμένα μοντέλα, αυτές οι τεχνικές εκτελούν επιλεκτικά μόνο τμήματα του μοντέλου ανά συμπέρασμα:

Αραιές ενεργοποιήσεις – Παράβλεψη υπολογισμού σε μηδενικές ενεργοποιήσεις.
Υπολογισμός υπό όρους – Εκτέλεση μόνο συγκεκριμένων επιπέδων που εξαρτώνται από την είσοδο.

Στη συμπληρωματική πλευρά με την πλευρά του αρχιτέκτονα λογισμικού. για να καταστεί δυνατή η ταχύτερη ανάπτυξη των LLM, οι ερευνητές έχουν προτείνει συστήματα συμπερασμάτων χωρίς διακομιστή. Στις αρχιτεκτονικές χωρίς διακομιστή, τα LLM φιλοξενούνται σε κοινόχρηστα συμπλέγματα GPU και κατανέμονται δυναμικά με βάση τη ζήτηση. Αυτό επιτρέπει την αποτελεσματική χρήση των GPU και μειώνει το κόστος για τους προγραμματιστές. Οι εξέχουσες υλοποιήσεις περιλαμβάνουν το Amazon SageMaker, το Microsoft Azure ML και επιλογές ανοιχτού κώδικα όπως το KServe.

Παρά την υπόσχεση για LLM χωρίς διακομιστή, τα υπάρχοντα συστήματα παρουσιάζουν υψηλά έξοδα καθυστέρησης που υποβαθμίζουν την εμπειρία χρήστη σε διαδραστικές εφαρμογές:

Ακριβές λήψεις σημείων ελέγχου: Τα LLM έχουν μεγάλα αποτυπώματα μνήμης, συχνά σε μέγεθος από gigabyte έως terabyte. Η λήψη σημείων ελέγχου από απομακρυσμένο χώρο αποθήκευσης είναι χρονοβόρα και διαρκεί πάνω από 20 δευτερόλεπτα ακόμη και με βελτιστοποιημένα δίκτυα.
Αναποτελεσματική φόρτωση σημείου ελέγχου: Ακόμη και με τοπικό χώρο αποθήκευσης SSD, η φόρτωση των σημείων ελέγχου στη μνήμη GPU διαρκεί δεκάδες δευτερόλεπτα λόγω παραγόντων όπως η αποσειροποίηση τανυστών και η κατανομή. Αυτό προσθέτει σημαντικές καθυστερήσεις πέρα από τον χρόνο εκκίνησης του κοντέινερ.

Για την αντιμετώπιση αυτών των ζητημάτων, οι ερευνητές στο MIT CSAIL πρότειναν ServerlessLLM, ένα καινοτόμο σύστημα που επιτυγχάνει συμπέρασμα χωρίς διακομιστή χαμηλής καθυστέρησης για LLM. Το ServerlessLLM ενισχύει την τοπικότητα εκμεταλλευόμενη την άφθονη αλλά υποχρησιμοποίητη χωρητικότητα και το εύρος ζώνης στον χώρο αποθήκευσης διακομιστή πολλαπλών επιπέδων για την ανάπτυξη LLM.

Επισκόπηση συστημάτων συμπερασμάτων χωρίς διακομιστή LLM

Βασικές καινοτομίες στο ServerlessLLM Το ServerlessLLM ενσωματώνει πολλά νέα σχέδια για τη μείωση του χρόνου φόρτωσης του LLM σε περιβάλλοντα χωρίς διακομιστή:

Γρήγορη φόρτωση σημείων ελέγχου

Μορφή βελτιστοποιημένης φόρτωσης σημείου ελέγχου που επιτρέπει γρήγορη διαδοχική ανάγνωση και αποτελεσματική διευθυνσιοδότηση τανυστή στη μνήμη.
Διοχέτευση φόρτωσης σημείων ελέγχου πολλαπλών επιπέδων που μεγιστοποιεί τη χρήση εύρους ζώνης σε δίκτυο, SSD, DRAM και μνήμη GPU μέσω τεχνικών όπως η άμεση I/O, η μεταφορά καρφιτσωμένης μνήμης και ο παραλληλισμός.

Ζωντανή μετανάστευση για συμπεράσματα βάσει τοποθεσίας

Μετεγκατάσταση βασισμένη σε διακριτικά που μεταδίδει μόνο βασικά διακριτικά προτροπής μέσω του δικτύου, αποφεύγοντας την αργή μεταφορά στιγμιότυπου.
Μετανάστευση δύο φάσεων που επιτρέπει την αδιάλειπτη εξαγωγή συμπερασμάτων με ασύγχρονο επανυπολογισμό των καταστάσεων της κρυφής μνήμης στον διακομιστή προορισμού πριν από τη μεταφορά των τελικών διακριτικών.

Εκχώρηση διακομιστή με βελτιστοποιημένη καθυστέρηση

Ακριβή μοντέλα για την εκτίμηση των χρόνων φόρτωσης σημείων ελέγχου από κάθε επίπεδο και των χρόνων μετεγκατάστασης για έναν διακομιστή.
Προγραμματιστής με επίγνωση της τοποθεσίας που επιλέγει διακομιστές ελαχιστοποιώντας την αναμενόμενη καθυστέρηση εκκίνησης χρησιμοποιώντας τα παραπάνω μοντέλα.

Αυτές οι βελτιστοποιήσεις επιτρέπουν στο ServerlessLLM να μειώνει τους χρόνους φόρτωσης του LLM κατά 4-8 φορές και τους χρόνους εκκίνησης από άκρο σε άκρο πάνω από 25 φορές σε σύγκριση με υπάρχοντα συστήματα όπως τα PyTorch, TensorFlow και KServe.

Ας εμβαθύνουμε περισσότερο στο πώς το ServerlessLLM επιτυγχάνει αυτά τα σημαντικά οφέλη στην απόδοση.

Επιτάχυνση φόρτωσης σημείου ελέγχου

Το πρώτο σημαντικό πρόβλημα που αντιμετωπίζει ο ServerlessLLM είναι η υψηλή καθυστέρηση φόρτωσης σημείων ελέγχου LLM από την αποθήκευση στη μνήμη GPU.

Για να ενεργοποιηθεί η γρήγορη φόρτωση σημείων ελέγχου, ο ServerlessLLM εισάγει:

Φόρτωση-βελτιστοποιημένη μορφή σημείου ελέγχου

Τα τυπικά σημεία ελέγχου που χρησιμοποιούνται από πλαίσια όπως το PyTorch έχουν σχεδιαστεί για εκπαίδευση μοντέλων και εντοπισμό σφαλμάτων. Αλλά για συμπέρασμα χωρίς διακομιστή, τα σημεία ελέγχου είναι μόνο για ανάγνωση και προσπελάζονται επανειλημμένα.

Για βελτιστοποίηση για χρήση τόσο εντατικής ανάγνωσης, ο ServerlessLLM μετατρέπει τα σημεία ελέγχου σε μια μορφή με δύο βασικές ιδιότητες:

Διαδοχική ανάγνωση βασισμένη σε κομμάτια: Οι τανυστές ομαδοποιούνται σε δυαδικά αρχεία ανά GPU, διευκολύνοντας μεγάλες διαδοχικές αναγνώσεις.
Αποτελεσματική διευθυνσιοδότηση τανυστών: Ένα ευρετήριο αντιστοιχίζει τα ονόματα των τανυστών σε μετατοπίσεις μνήμης, επιτρέποντας την άμεση αποκατάσταση στη μνήμη χωρίς αποσειροποίηση.

Αγωγός φόρτωσης σημείων ελέγχου πολλαπλών επιπέδων

Το ServerlessLLM αξιοποιεί την κλιμακωτή αρχιτεκτονική των διακομιστών GPU, με μέσα αποθήκευσης όπως SSD και δικτύωση που συνδέονται με GPU μέσω PCIe, NVMe κ.λπ.

Το σύστημα ενσωματώνει έναν αγωγό πολλαπλών σταδίων για τη μεγιστοποίηση της χρήσης εύρους ζώνης σε όλα τα επίπεδα:

Τα κομμάτια δεδομένων στη μνήμη κατανέμονται χρησιμοποιώντας καρφιτσωμένη μνήμη για γρήγορη μεταφορά GPU.
Το Direct I/O χρησιμοποιείται για αποτελεσματικές αναγνώσεις SSD χωρίς επιβάρυνση προσωρινής αποθήκευσης.
Πολλαπλά νήματα διαβάζουν διαφορετικά κομμάτια αποθήκευσης παράλληλα.
Ο συντονισμός μεταξύ των σταδίων πραγματοποιείται μέσω ασύγχρονων ουρών εργασιών.

Μαζί, αυτό επιτρέπει τον κορεσμό της χωρητικότητας εύρους ζώνης ακόμη και των πιο γρήγορων επιπέδων όπως το NVMe RAID. Τα πειράματα αποκαλύπτουν ότι το ServerlessLLM επιτυγχάνει 6-8 φορές ταχύτερη φόρτωση από το PyTorch/TensorFlow, μειώνοντας τους χρόνους εκκίνησης για μεγάλα LLM από πάνω από ένα λεπτό σε λιγότερο από 10 δευτερόλεπτα.

Συμπεράσματα LLM με γνώμονα την τοποθεσία μέσω ζωντανής μετεγκατάστασης

Με την ταχεία φόρτωση, το ServerlessLLM αντιμετωπίζει μια νέα πρόκληση – πώς να αξιοποιήσετε τα προφορτωμένα σημεία ελέγχου για την τοποθεσία χωρίς να διακόπτετε τα συνεχή συμπεράσματα σε απασχολημένους διακομιστές;

Το ServerlessLLM εισάγει μια νέα τεχνική - ζωντανή μετεγκατάσταση συμπερασμάτων LLM σε διακομιστές GPU. Αυτό επιτρέπει την απρόσκοπτη μεταφορά της εκτέλεσης σε διακομιστές με διαθέσιμα τοπικά σημεία ελέγχου.

Βασικοί παράγοντες ενεργοποίησης της ζωντανής μετανάστευσης LLM:

Μετανάστευση που βασίζεται σε διακριτικά

Αντί να στιγμιότυπο ολόκληρης της κατάστασης του μοντέλου, το ServerlessLLM μετεγκαθιστά μόνο τα ελάχιστα διακριτικά προτροπής μέσω του δικτύου. Αυτό μεταφέρει τάξεις μεγέθους λιγότερα δεδομένα από τα στιγμιότυπα.

Μετανάστευση δύο φάσεων

Ο διακομιστής προορισμού προϋπολογίζει ασύγχρονα τις καταστάσεις της προσωρινής μνήμης από τα διακριτικά προτροπής. Μόλις είναι έτοιμος, ο διακομιστής πηγής μεταφέρει τα τελικά διακριτικά πριν απελευθερώσει πόρους. Αυτό αποτρέπει τη διακοπή συμπερασμάτων.

Τα πειράματα αποκαλύπτουν ότι η μετανάστευση που βασίζεται σε διακριτικά μειώνει τους χρόνους μετάβασης από δεκάδες δευτερόλεπτα σε λιγότερο από ένα δευτερόλεπτο, ακόμη και για μεγάλες ακολουθίες. Η ζωντανή μετανάστευση είναι ζωτικής σημασίας για την αποφυγή καθυστερήσεων στην ουρά κατά την επίτευξη κατανομής βάσει τοποθεσίας.

Προγραμματισμός μοντέλου βελτιστοποιημένου χρόνου

Για την ελαχιστοποίηση του λανθάνοντος χρόνου από άκρο σε άκρο, το ServerlessLLM βελτιώνει τον προγραμματιστή για να βελτιστοποιήσει την επιλογή διακομιστή λαμβάνοντας υπόψη την τοποθεσία. Αυτό περιλαμβάνει:

Λεπτόκοκκος εκτιμητής χρόνου φόρτωσης

Τα μοντέλα προβλέπουν χρόνους φόρτωσης από το δίκτυο, τις κρυφές μνήμες SSD και τη μνήμη για κάθε διακομιστή χρησιμοποιώντας μετρήσεις όπως καθυστερήσεις ουράς, μεγέθη μοντέλων και μετρημένο εύρος ζώνης.

Ακριβής πρόβλεψη χρόνου μετανάστευσης

Ο προγραμματιστής εκτιμά τους χρόνους μετεγκατάστασης για διακομιστές χρησιμοποιώντας τον αριθμό των κουπονιών προτροπής και εξόδου. Παρακολουθεί την πρόοδο των συμπερασμάτων ασύγχρονα για να αποφευχθεί η επιβάρυνση.

Κατανομή με επίγνωση της τοποθεσίας

Για κάθε αίτημα συμπερασμάτων, ο προγραμματιστής αξιολογεί τους εκτιμώμενους χρόνους φόρτωσης και μετεγκατάστασης στους διακομιστές. Επιλέγει τον διακομιστή ελαχιστοποιώντας την αναμενόμενη καθυστέρηση εκκίνησης.

Ο χρονοπρογραμματιστής διατηρεί επίσης ουρές εργασιών διακομιστή και αξιοποιεί ένα εξαιρετικά σταθερό χώρο αποθήκευσης για ανοχή σφαλμάτων. Μαζί, αυτές οι καινοτομίες μειώνουν τα γενικά έξοδα προγραμματισμού ενώ μεγιστοποιούν τα οφέλη της τοποθεσίας.

Αξιολόγηση της απόδοσης ServerlessLLM

Ολοκληρωμένα πειράματα συγκρίνουν την αποτελεσματικότητα του ServerlessLLM από άκρο σε άκρο σε σχέση με υπάρχοντα συστήματα που χρησιμοποιούν μοντέλα πραγματικού κόσμου όπως το OPT-175B και φόρτους εργασίας που έχουν διαμορφωθεί σύμφωνα με τα ίχνη Azure.

Βασικά αποτελέσματα:

Μικροδείκτες αναφοράς: Το ServerlessLLM επιταχύνει τη φόρτωση του σημείου ελέγχου κατά 3.6-8.2X μέσω PyTorch/TensorFlow. Διαποτίζει πλήρως το εύρος ζώνης αποθήκευσης, ακόμη και για το NVMe RAID αιχμής.
Χρονοδρομολόγηση: Το ServerlessLLM μειώνει τον λανθάνοντα χρόνο κατανομής κατά 4-12 φορές σε σύγκριση με τον τυχαίο προγραμματισμό, τονίζοντας τα οφέλη της επίγνωσης της τοποθεσίας. Η ζωντανή μετεγκατάσταση αποτρέπει τις καθυστερήσεις στην ουρά.
Σερβίρισμα από άκρο σε άκρο: Για μεγάλα μοντέλα όπως το OPT-30B, το ServerlessLLM βελτιώνει τον λανθάνοντα χρόνο κατά 99ο εκατοστημόριο κατά 28-200Χ σε συστήματα όπως το KServe και το Ray Serve. Ενισχύει επίσης την αποδοτικότητα των πόρων.

Αυτά τα σημαντικά κέρδη καταδεικνύουν την ικανότητα του ServerlessLLM να ξεπερνά τα σημεία συμφόρησης σε υπάρχουσες υλοποιήσεις χωρίς διακομιστή και να απελευθερώνει τη δύναμη των LLM για διαδραστικές υπηρεσίες.

Οι βελτιστοποιήσεις που εισάγονται στο ServerlessLLM, όπως η φόρτωση πολλαπλών επιπέδων, η ζωντανή μετεγκατάσταση και ο προγραμματισμός που βασίζεται στην καθυστέρηση, μπορούν να βοηθήσουν στον σχεδιασμό μελλοντικών αρχιτεκτονικών χωρίς διακομιστή. Η ικανότητα του συστήματος να μειώνει τους χρόνους φόρτωσης και εκκίνησης ξεμπλοκάρει την κλιμακωτή ανάπτυξη μεγάλων γλωσσικών μοντέλων για πρακτικές εφαρμογές.

Κοιτάζοντας Μπροστά: Συνεχείς Προκλήσεις

Ενώ ένα σημαντικό άλμα προς τα εμπρός, το ServerlessLLM αντιπροσωπεύει μόνο το πρώτο βήμα στη βελτιστοποίηση των συμπερασμάτων χωρίς διακομιστή για τεράστια LLM. Πολλά ανοιχτά προβλήματα παραμένουν, όπως:

Πρόβλεψη ζήτησης μοντέλου σε πραγματικό χρόνο για καθοδήγηση της παροχής και της προφόρτωσης
Τοποθέτηση έξυπνων σημείων ελέγχου σε διακομιστές για μεγιστοποίηση των επισκέψεων στην προσωρινή μνήμη
Αποτελεσματική κλιμάκωση αλγορίθμων προγραμματισμού για το χειρισμό μεγαλύτερων συστάδων
Διασφάλιση δικαιοσύνης στην κατανομή πόρων μεταξύ μοντέλων και προγραμματιστών
Γενίκευση καινοτομιών όπως η ζωντανή μετεγκατάσταση σε άλλους φόρτους εργασίας χωρίς διακομιστή

Η αντιμετώπιση αυτών των περιοχών μπορεί να βοηθήσει στην αξιοποίηση της υπόσχεσης των LLM χωρίς διακομιστή και να κάνει τις δυνατότητές τους ακόμη πιο προσιτές. Πέρα από τις βελτιστοποιήσεις σε επίπεδο συστήματος, η μείωση του τρομερού αποτυπώματος άνθρακα και των πιθανών βλαβών των μεγάλων μοντέλων παραμένει επίσης επείγουσα προτεραιότητα.

Το ServerlessLLM αποδεικνύει ότι υπάρχει τεράστιος χώρος για καινοτομία στις αρχιτεκτονικές χωρίς διακομιστές επόμενης γενιάς για φόρτους εργασίας AI. Καθώς τα LLM συνεχίζουν να αυξάνονται σε μέγεθος και δημοτικότητα, λύσεις όπως το ServerlessLLM που ξεκλειδώνουν την κλιμάκωσή τους θα αποκτήσουν ακόμη μεγαλύτερη επίδραση. Η συμβολή των συστημάτων και της έρευνας μηχανικής μάθησης μπορεί να εισαγάγει νέα παραδείγματα στην εξυπηρέτηση, την κοινή χρήση και την κλιμάκωση μοντέλων τεχνητής νοημοσύνης με ασφάλεια και βιώσιμη ανάπτυξη.

Σχετικά θέματα:chatbots Συμπέρασμα LLM ServerlessLLM

Επόμενο

Evaluating Large Language Models: A Technical Guide

Μην χάσετε

Αναλύοντας την Έκθεση Τεχνικών Τάσεων O'Reilly 2024

Aayush Mittal

Έχω περάσει τα τελευταία πέντε χρόνια βυθίζοντας τον εαυτό μου στον συναρπαστικό κόσμο της Μηχανικής Μάθησης και της Βαθιάς Μάθησης. Το πάθος και η εξειδίκευσή μου με οδήγησαν να συνεισφέρω σε περισσότερα από 50 διαφορετικά έργα μηχανικής λογισμικού, με ιδιαίτερη έμφαση στην AI/ML. Η συνεχής περιέργειά μου με έχει τραβήξει επίσης προς την Επεξεργασία Φυσικής Γλώσσας, έναν τομέα που ανυπομονώ να εξερευνήσω περαιτέρω.