Τεχνητή νοημοσύνη

Όλα όσα πρέπει να ξέρετε για το Llama 3 | Το πιο ισχυρό μοντέλο ανοιχτού κώδικα ακόμα | Έννοιες χρήσης

Ενημερώθηκε on Απρίλιος 24, 2024

Meta Llama 3 ανοιχτού κώδικα LLM OUTPERFORM GPT 4

Το Meta κυκλοφόρησε πρόσφατα Λάμα 3, την επόμενη γενιά του υπερσύγχρονου μοντέλου ανοιχτού κώδικα μεγάλης γλώσσας (LLM). Χτίζοντας στα θεμέλια που έθεσε ο προκάτοχός του, το Llama 3 στοχεύει να ενισχύσει τις δυνατότητες που τοποθέτησαν το Llama 2 ως σημαντικό ανταγωνιστή ανοιχτού κώδικα του ChatGPT, όπως περιγράφεται στην ολοκληρωμένη ανασκόπηση στο άρθρο Llama 2: A Deep Dive into the Open-Source Challenger στο ChatGPT.

Σε αυτό το άρθρο θα συζητήσουμε τις βασικές έννοιες πίσω από το Llama 3, θα εξερευνήσουμε την καινοτόμο αρχιτεκτονική και τη διαδικασία εκπαίδευσής του και θα παρέχουμε πρακτική καθοδήγηση σχετικά με τον τρόπο πρόσβασης, χρήσης και ανάπτυξης αυτού του πρωτοποριακού μοντέλου υπεύθυνα. Είτε είστε ερευνητής, προγραμματιστής ή λάτρης της τεχνητής νοημοσύνης, αυτή η ανάρτηση θα σας εξοπλίσει με τις γνώσεις και τους πόρους που απαιτούνται για να αξιοποιήσετε τη δύναμη του Llama 3 για τα έργα και τις εφαρμογές σας.

Η Εξέλιξη του Λάμα: Από το Λάμα 2 στο Λάμα 3

Ο διευθύνων σύμβουλος της Meta, Mark Zuckerberg, ανακοίνωσε το ντεμπούτο του Llama 3, του τελευταίου μοντέλου AI που αναπτύχθηκε από τη Meta AI. Αυτό το υπερσύγχρονο μοντέλο, πλέον ανοιχτού κώδικα, πρόκειται να βελτιώσει τα διάφορα προϊόντα της Meta, συμπεριλαμβανομένων των Messenger και Instagram. Ο Zuckerberg τόνισε ότι το Llama 3 τοποθετεί το Meta AI ως το πιο προηγμένο δωρεάν διαθέσιμος βοηθός AI.

Πριν μιλήσουμε για τις ιδιαιτερότητες του Llama 3, ας επανεξετάσουμε εν συντομία τον προκάτοχό του, το Llama 2. Το Llama 2022, που παρουσιάστηκε το 2, ήταν ένα σημαντικό ορόσημο στο τοπίο του ανοιχτού κώδικα LLM, προσφέροντας ένα ισχυρό και αποτελεσματικό μοντέλο που θα μπορούσε να χρησιμοποιηθεί σε καταναλωτικό υλικό .

Ωστόσο, ενώ το Llama 2 ήταν ένα αξιοσημείωτο επίτευγμα, είχε τους περιορισμούς του. Οι χρήστες ανέφεραν προβλήματα με ψευδείς αρνήσεις (το μοντέλο αρνείται να απαντήσει σε καλοήθεις προτροπές), περιορισμένη εξυπηρετικότητα και περιθώρια βελτίωσης σε τομείς όπως η συλλογιστική και η δημιουργία κώδικα.

Εισαγάγετε το Llama 3: Η απάντηση του Meta σε αυτές τις προκλήσεις και τα σχόλια της κοινότητας. Με το Llama 3, η Meta έχει βάλει σκοπό να δημιουργήσει τα καλύτερα μοντέλα ανοιχτού κώδικα που να ανταποκρίνονται στα κορυφαία ιδιόκτητα μοντέλα που είναι διαθέσιμα σήμερα, δίνοντας παράλληλα προτεραιότητα σε υπεύθυνες πρακτικές ανάπτυξης και ανάπτυξης.

Λάμα 3: Αρχιτεκτονική και Εκπαίδευση

Μία από τις βασικές καινοτομίες στο Llama 3 είναι το tokenizer του, το οποίο διαθέτει ένα σημαντικά διευρυμένο λεξιλόγιο 128,256 μάρκες (από 32,000 στο Llama 2). Αυτό το μεγαλύτερο λεξιλόγιο επιτρέπει την πιο αποτελεσματική κωδικοποίηση κειμένου, τόσο για εισαγωγή όσο και για έξοδο, οδηγώντας ενδεχομένως σε ισχυρότερη πολυγλωσσία και γενικές βελτιώσεις στην απόδοση.

Το Llama 3 ενσωματώνει επίσης Ομαδοποιημένο ερώτημα Προσοχή (GQA), μια αποτελεσματική τεχνική αναπαράστασης που ενισχύει την επεκτασιμότητα και βοηθά το μοντέλο να χειρίζεται πιο αποτελεσματικά μεγαλύτερα περιβάλλοντα. ο 8B η έκδοση του Llama 3 χρησιμοποιεί το GQA, ενώ και τα δύο 8B και 70B Τα μοντέλα μπορούν να επεξεργαστούν ακολουθίες έως 8,192 μάρκες.

Δεδομένα εκπαίδευσης και κλιμάκωση

Τα δεδομένα εκπαίδευσης που χρησιμοποιούνται για το Llama 3 είναι καθοριστικός παράγοντας για τη βελτιωμένη απόδοσή του. Η Meta επιμελήθηκε ένα τεράστιο σύνολο δεδομένων από over 15 τρισεκατομμύρια διακριτικά από δημόσια διαθέσιμες διαδικτυακές πηγές, επτά φορές μεγαλύτερα από το σύνολο δεδομένων που χρησιμοποιείται για το Llama 2. Αυτό το σύνολο δεδομένων περιλαμβάνει επίσης ένα σημαντικό μέρος (πάνω από 5%) μη αγγλικών δεδομένων υψηλής ποιότητας, που καλύπτουν περισσότερα από Γλώσσες 30, σε προετοιμασία για μελλοντικές πολύγλωσσες εφαρμογές.

Για να διασφαλίσει την ποιότητα των δεδομένων, η Meta χρησιμοποίησε προηγμένες τεχνικές φιλτραρίσματος, συμπεριλαμβανομένων ευρετικών φίλτρων, φίλτρων NSFW, σημασιολογικής αποδιπλοποίησης και ταξινομητών κειμένου που έχουν εκπαιδευτεί στο Llama 2 για την πρόβλεψη της ποιότητας δεδομένων. Η ομάδα διεξήγαγε επίσης εκτεταμένα πειράματα για να προσδιορίσει τον βέλτιστο συνδυασμό πηγών δεδομένων για προεκπαίδευση, διασφαλίζοντας ότι το Llama 3 αποδίδει καλά σε ένα ευρύ φάσμα περιπτώσεων χρήσης, συμπεριλαμβανομένων των trivia, του STEM, της κωδικοποίησης και της ιστορικής γνώσης.

Η κλιμάκωση της προεκπαίδευσης ήταν μια άλλη κρίσιμη πτυχή της ανάπτυξης του Llama 3. Η Meta ανέπτυξε νόμους κλιμάκωσης που τους επέτρεψαν να προβλέψουν την απόδοση των μεγαλύτερων μοντέλων της σε βασικές εργασίες, όπως η δημιουργία κώδικα, πριν τα εκπαιδεύσουν πραγματικά. Αυτό ενημέρωσε τις αποφάσεις σχετικά με το μείγμα δεδομένων και την κατανομή υπολογισμού, οδηγώντας τελικά σε πιο αποτελεσματική και αποτελεσματική εκπαίδευση.

Τα μεγαλύτερα μοντέλα του Llama 3 εκπαιδεύτηκαν σε δύο ειδικά κατασκευασμένα συμπλέγματα GPU 24,000, αξιοποιώντας έναν συνδυασμό τεχνικών παραλληλοποίησης δεδομένων, παραλληλοποίησης μοντέλων και παραλληλοποίησης αγωγών. Η προηγμένη στοίβα εκπαίδευσης της Meta αυτοματοποιούσε την ανίχνευση, το χειρισμό και τη συντήρηση σφαλμάτων, μεγιστοποιώντας το χρόνο λειτουργίας της GPU και αυξάνοντας την απόδοση της εκπαίδευσης κατά περίπου τρεις φορές σε σύγκριση με το Llama 2.

Οδηγίες Βελτιστοποίηση και Απόδοση

Για να ξεκλειδώσει το πλήρες δυναμικό του Llama 3 για εφαρμογές συνομιλίας και διαλόγου, η Meta καινοτόμησε την προσέγγισή της για την τελειοποίηση των οδηγιών. Η μέθοδος του συνδυάζεται εποπτευόμενη μικρορύθμιση (SFT), δειγματοληψία απόρριψης, βελτιστοποίηση εγγύς πολιτικής (PPO), και βελτιστοποίηση άμεσης προτίμησης (DPO).

Η ποιότητα των προτροπών που χρησιμοποιούνται στο SFT και οι ταξινομήσεις προτιμήσεων που χρησιμοποιούνται στα PPO και DPO έπαιξαν καθοριστικό ρόλο στην απόδοση των ευθυγραμμισμένων μοντέλων. Η ομάδα της Meta επιμελήθηκε προσεκτικά αυτά τα δεδομένα και πραγματοποίησε πολλαπλούς γύρους διασφάλισης ποιότητας σε σχολιασμούς που παρέχονται από ανθρώπους σχολιαστές.

Η εκπαίδευση σχετικά με τις ταξινομήσεις προτιμήσεων μέσω PPO και DPO βελτίωσε επίσης σημαντικά την απόδοση του Llama 3 στις εργασίες συλλογιστικής και κωδικοποίησης. Ο Meta διαπίστωσε ότι ακόμη και όταν ένα μοντέλο δυσκολεύεται να απαντήσει άμεσα σε μια συλλογιστική ερώτηση, μπορεί να παράγει το σωστό ίχνος συλλογισμού. Η εκπαίδευση στις κατατάξεις προτιμήσεων επέτρεψε στο μοντέλο να μάθει πώς να επιλέγει τη σωστή απάντηση από αυτά τα ίχνη.

Τα αποτελέσματα μιλούν από μόνα τους: Το Llama 3 ξεπερνά πολλά διαθέσιμα μοντέλα συνομιλίας ανοιχτού κώδικα σε κοινά σημεία αναφοράς του κλάδου, καθιερώνοντας νέες επιδόσεις αιχμής για LLM στις κλίμακες παραμέτρων 8B και 70B.

Θέματα Υπεύθυνης Ανάπτυξης και Ασφάλειας

Ενώ επιδίωκε κορυφαίες επιδόσεις, η Meta έδωσε επίσης προτεραιότητα σε υπεύθυνες πρακτικές ανάπτυξης και ανάπτυξης για το Llama 3. Η εταιρεία υιοθέτησε μια προσέγγιση σε επίπεδο συστήματος, οραματιζόμενος τα μοντέλα Llama 3 ως μέρος ενός ευρύτερου οικοσυστήματος που βάζει τους προγραμματιστές στη θέση του οδηγού, επιτρέποντάς τους να σχεδιάζουν και προσαρμόστε τα μοντέλα για τις συγκεκριμένες περιπτώσεις χρήσης και τις απαιτήσεις ασφαλείας τους.

Η Meta διεξήγαγε εκτεταμένες ασκήσεις red-teaming, πραγματοποίησε αντιτιθέμενες αξιολογήσεις και εφάρμοσε τεχνικές μετριασμού της ασφάλειας για να μειώσει τους υπολειπόμενους κινδύνους στα μοντέλα της που έχουν συντονιστεί με οδηγίες. Ωστόσο, η εταιρεία αναγνωρίζει ότι οι υπολειπόμενοι κίνδυνοι πιθανότατα θα παραμείνουν και συνιστά στους προγραμματιστές να αξιολογήσουν αυτούς τους κινδύνους στο πλαίσιο των συγκεκριμένων περιπτώσεων χρήσης τους.

Για να υποστηρίξει την υπεύθυνη ανάπτυξη, η Meta ενημέρωσε τον Οδηγό Υπεύθυνης Χρήσης, παρέχοντας έναν ολοκληρωμένο πόρο στους προγραμματιστές για την εφαρμογή βέλτιστων πρακτικών ασφάλειας σε επίπεδο μοντέλου και συστήματος για τις εφαρμογές τους. Ο οδηγός καλύπτει θέματα όπως η εποπτεία περιεχομένου, η αξιολόγηση κινδύνου και η χρήση εργαλείων ασφαλείας όπως το Llama Guard 2 και το Code Shield.

Το Llama Guard 2, που βασίζεται στην ταξινόμηση MLCommons, έχει σχεδιαστεί για να ταξινομεί τις εισόδους (προτροπές) και τις απαντήσεις LLM, εντοπίζοντας περιεχόμενο που μπορεί να θεωρηθεί μη ασφαλές ή επιβλαβές. Το CyberSecEval 2 επεκτείνεται σε σχέση με τον προκάτοχό του προσθέτοντας μέτρα για την αποφυγή κατάχρησης του διερμηνέα κώδικα του μοντέλου, επιθετικών δυνατοτήτων κυβερνοασφάλειας και ευαισθησίας σε επιθέσεις έγχυσης.

Το Code Shield, μια νέα εισαγωγή με το Llama 3, προσθέτει φιλτράρισμα σε χρόνο συμπερασμάτων του ανασφαλούς κώδικα που παράγεται από LLM, μετριάζοντας τους κινδύνους που σχετίζονται με ανασφαλείς προτάσεις κώδικα, κατάχρηση διερμηνέα κώδικα και ασφαλή εκτέλεση εντολών.

Πρόσβαση και χρήση του Llama 3

Μετά την κυκλοφορία του Llama 3 της Meta AI, αρκετά εργαλεία ανοιχτού κώδικα έχουν γίνει διαθέσιμα για τοπική ανάπτυξη σε διάφορα λειτουργικά συστήματα, συμπεριλαμβανομένων των Mac, Windows και Linux. Αυτή η ενότητα περιγράφει τρία αξιοσημείωτα εργαλεία: το Ollama, το Open WebUI και το LM Studio, το καθένα από τα οποία προσφέρει μοναδικές δυνατότητες για την αξιοποίηση των δυνατοτήτων του Llama 3 σε προσωπικές συσκευές.

Ολάμα: Διαθέσιμο για Mac, Linux και Windows, Ολάμα απλοποιεί τη λειτουργία του Llama 3 και άλλων μεγάλων μοντέλων γλώσσας σε προσωπικούς υπολογιστές, ακόμη και σε αυτούς με λιγότερο ισχυρό υλικό. Περιλαμβάνει έναν διαχειριστή πακέτων για εύκολη διαχείριση μοντέλων και υποστηρίζει εντολές σε πλατφόρμες για λήψη και εκτέλεση μοντέλων.

Ανοίξτε το WebUI με το Docker: Αυτό το εργαλείο παρέχει ένα φιλικό προς το χρήστη, Λιμενεργάτης-Βασισμένη διεπαφή συμβατή με Mac, Linux και Windows. Ενσωματώνεται απρόσκοπτα με μοντέλα από το μητρώο Ollama, επιτρέποντας στους χρήστες να αναπτύσσουν και να αλληλεπιδρούν με μοντέλα όπως το Llama 3 μέσα σε μια τοπική διεπαφή ιστού.

LM Studio: Στόχευση χρηστών σε Mac, Linux και Windows, LM Studio υποστηρίζει μια σειρά μοντέλων και βασίζεται στο έργο llama.cpp. Παρέχει μια διεπαφή συνομιλίας και διευκολύνει την άμεση αλληλεπίδραση με διάφορα μοντέλα, συμπεριλαμβανομένου του μοντέλου Llama 3 8B Instruct.

Αυτά τα εργαλεία διασφαλίζουν ότι οι χρήστες μπορούν να χρησιμοποιούν αποτελεσματικά το Llama 3 στις προσωπικές τους συσκευές, καλύπτοντας μια σειρά από τεχνικές δεξιότητες και απαιτήσεις. Κάθε πλατφόρμα προσφέρει βήμα προς βήμα διαδικασίες για τη ρύθμιση και την αλληλεπίδραση μοντέλων, καθιστώντας την προηγμένη τεχνητή νοημοσύνη πιο προσιτή σε προγραμματιστές και λάτρεις.

Ανάπτυξη του Llama 3 σε κλίμακα

Εκτός από την παροχή άμεσης πρόσβασης στα βάρη των μοντέλων, η Meta έχει συνεργαστεί με διάφορους παρόχους cloud, υπηρεσίες API μοντέλων και πλατφόρμες υλικού για να επιτρέψει την απρόσκοπτη ανάπτυξη του Llama 3 σε κλίμακα.

Ένα από τα βασικά πλεονεκτήματα του Llama 3 είναι η βελτιωμένη απόδοση του token, χάρη στο νέο tokenizer. Τα σημεία αναφοράς δείχνουν ότι το Llama 3 απαιτεί μέχρι 15% λιγότερα κουπόνια σε σύγκριση με το Llama 2, με αποτέλεσμα ταχύτερα και πιο οικονομικά συμπεράσματα.

Η ενσωμάτωση του Grouped Query Attention (GQA) στην έκδοση 8B του Llama 3 συμβάλλει στη διατήρηση της αποτελεσματικότητας των συμπερασμάτων στο ίδιο επίπεδο με την έκδοση 7B του Llama 2, παρά την αύξηση του αριθμού παραμέτρων.

Για να απλοποιήσει τη διαδικασία ανάπτυξης, η Meta παρείχε το αποθετήριο Llama Recipes, το οποίο περιέχει κώδικα ανοιχτού κώδικα και παραδείγματα για τελειοποίηση, ανάπτυξη, αξιολόγηση μοντέλου και πολλά άλλα. Αυτό το αποθετήριο χρησιμεύει ως πολύτιμος πόρος για προγραμματιστές που θέλουν να αξιοποιήσουν τις δυνατότητες του Llama 3 στις εφαρμογές τους.

Για όσους ενδιαφέρονται να εξερευνήσουν την απόδοση του Llama 3, η Meta έχει ενσωματώσει τα πιο πρόσφατα μοντέλα της στο Meta AI, έναν κορυφαίο βοηθό τεχνητής νοημοσύνης που έχει κατασκευαστεί με την τεχνολογία Llama 3. Οι χρήστες μπορούν να αλληλεπιδράσουν με το Meta AI μέσω διαφόρων Meta εφαρμογών, όπως το Facebook, το Instagram, το WhatsApp, το Messenger και τον ιστό, για να κάνουν πράγματα, να μάθουν, να δημιουργήσουν και να συνδεθούν με τα πράγματα που τους ενδιαφέρουν.

Τι ακολουθεί για το Llama 3;

Ενώ τα μοντέλα 8B και 70B σηματοδοτούν την αρχή της κυκλοφορίας του Llama 3, η Meta έχει φιλόδοξα σχέδια για το μέλλον αυτού του πρωτοποριακού LLM.

Τους επόμενους μήνες, μπορούμε να αναμένουμε να εισαχθούν νέες δυνατότητες, όπως η πολυτροπικότητα (η ικανότητα επεξεργασίας και δημιουργίας διαφορετικών τρόπων δεδομένων, όπως εικόνες και βίντεο), η πολυγλωσσία (υποστηρίζει πολλές γλώσσες) και πολύ μεγαλύτερα παράθυρα περιβάλλοντος για βελτιωμένη απόδοση σε εργασίες που απαιτούν εκτεταμένο πλαίσιο.

Επιπλέον, η Meta σχεδιάζει να κυκλοφορήσει μεγαλύτερα μεγέθη μοντέλων, συμπεριλαμβανομένων μοντέλων με πάνω από 400 δισεκατομμύρια παραμέτρους, τα οποία επί του παρόντος εκπαιδεύονται και παρουσιάζουν υποσχόμενες τάσεις όσον αφορά τις επιδόσεις και τις δυνατότητες.

Για να προχωρήσει περαιτέρω το πεδίο, η Meta θα δημοσιεύσει επίσης μια λεπτομερή ερευνητική εργασία για το Llama 3, μοιράζοντας τα ευρήματα και τις γνώσεις του με την ευρύτερη κοινότητα AI.

Ως μια κρυφή προεπισκόπηση του τι πρόκειται να ακολουθήσει, η Meta μοιράστηκε μερικά πρώιμα στιγμιότυπα της απόδοσης του μεγαλύτερου μοντέλου LLM σε διάφορα σημεία αναφοράς. Ενώ αυτά τα αποτελέσματα βασίζονται σε ένα πρώιμο σημείο ελέγχου και υπόκεινται σε αλλαγές, παρέχουν μια συναρπαστική ματιά στις μελλοντικές δυνατότητες του Llama 3.

Συμπέρασμα

Το Llama 3 αντιπροσωπεύει ένα σημαντικό ορόσημο στην εξέλιξη των μοντέλων μεγάλων γλωσσών ανοιχτού κώδικα, υπερβαίνοντας τα όρια της απόδοσης, των δυνατοτήτων και των υπεύθυνων πρακτικών ανάπτυξης. Με την καινοτόμο αρχιτεκτονική, το τεράστιο σύνολο δεδομένων εκπαίδευσης και τις σύγχρονες τεχνικές τελειοποίησης, το Llama 3 καθιερώνει νέα προηγμένα σημεία αναφοράς για LLM στις κλίμακες παραμέτρων 8B και 70B.

Ωστόσο, το Llama 3 είναι κάτι περισσότερο από ένα ισχυρό μοντέλο γλώσσας. είναι απόδειξη της δέσμευσης της Meta για την προώθηση ενός ανοιχτού και υπεύθυνου οικοσυστήματος AI. Παρέχοντας ολοκληρωμένους πόρους, εργαλεία ασφαλείας και βέλτιστες πρακτικές, το Meta εξουσιοδοτεί τους προγραμματιστές να εκμεταλλευτούν πλήρως τις δυνατότητες του Llama 3, διασφαλίζοντας ταυτόχρονα υπεύθυνη ανάπτυξη προσαρμοσμένη στις συγκεκριμένες περιπτώσεις χρήσης και στο κοινό τους.

Καθώς το ταξίδι του Llama 3 συνεχίζεται, με νέες δυνατότητες, μεγέθη μοντέλων και ερευνητικά ευρήματα στον ορίζοντα, η κοινότητα της τεχνητής νοημοσύνης περιμένει με ανυπομονησία τις καινοτόμες εφαρμογές και τις ανακαλύψεις που αναμφίβολα θα προκύψουν από αυτό το πρωτοποριακό LLM.

Είτε είστε ερευνητής που ξεπερνά τα όρια της επεξεργασίας φυσικής γλώσσας, είτε προγραμματιστής που δημιουργεί την επόμενη γενιά έξυπνων εφαρμογών ή λάτρης της τεχνητής νοημοσύνης που είναι περίεργος για τις τελευταίες εξελίξεις, το Llama 3 υπόσχεται να είναι ένα ισχυρό εργαλείο στο οπλοστάσιό σας, ανοίγοντας νέες πόρτες και ξεκλειδώνοντας έναν κόσμο δυνατοτήτων.

Σχετικά θέματα:Είδος μικρής καμήλας λάμα 2 Λάμα 3 LLM LLMs μετα

Επόμενο

Η Microsoft αποκαλύπτει το Phi-3: Ισχυρά μοντέλα ανοιχτής τεχνητής νοημοσύνης που προσφέρουν κορυφαίες επιδόσεις σε μικρά μεγέθη

Μην χάσετε

FrugalGPT: Μια αλλαγή παραδείγματος στη βελτιστοποίηση κόστους για μοντέλα μεγάλων γλωσσών

Aayush Mittal

Έχω περάσει τα τελευταία πέντε χρόνια βυθίζοντας τον εαυτό μου στον συναρπαστικό κόσμο της Μηχανικής Μάθησης και της Βαθιάς Μάθησης. Το πάθος και η εξειδίκευσή μου με οδήγησαν να συνεισφέρω σε περισσότερα από 50 διαφορετικά έργα μηχανικής λογισμικού, με ιδιαίτερη έμφαση στην AI/ML. Η συνεχής περιέργειά μου με έχει τραβήξει επίσης προς την Επεξεργασία Φυσικής Γλώσσας, έναν τομέα που ανυπομονώ να εξερευνήσω περαιτέρω.