Connect with us

Μέσα στη Microsoft’s Phi-3 Mini: Ένα Ελαφρύ Μοντέλο AI που Ξεπερνά το Βάρος του

Τεχνητή νοημοσύνη

Μέσα στη Microsoft’s Phi-3 Mini: Ένα Ελαφρύ Μοντέλο AI που Ξεπερνά το Βάρος του

mm
Phi-3 : A Highly Capable Language Model Locally on Your Phone
Η Microsoft έχει πρόσφατα παρουσιάσει το τελευταίο ελαφρύ μοντέλο γλώσσας που ονομάζεται Phi-3 Mini, ξεκινώντας μια τριάδα συμπαγών μοντέλων AI που σχεδιάστηκαν για να παρέχουν-state-of-the-art απόδοση ενώ είναι αρκετά μικρά για να τρέχουν αποτελεσματικά σε συσκευές με περιορισμένες υπολογιστικές πηγές. Με μόλις 3,8 δισεκατομμύρια παραμέτρους, το Phi-3 Mini είναι ένα κλάσμα του μεγέθους των γιγάντων του AI όπως το GPT-4,然而 promíσε να ταιριάζει τις ικανότητές τους σε πολλές βασικές περιοχές.
Η ανάπτυξη του Phi-3 Mini αντιπροσωπεύει ένα σημαντικό ορόσημο στην προσπάθεια να δημοκρατικοποιηθούν οι προηγμένες ικανότητες του AI, καθιστώντας τες προσβάσιμες σε ένα ευρύτερο φάσμα υλικού. Η μικρή της αποτύπωση της επιτρέπει να αναπτυχθεί τοπικά σε smartphones, tablets και άλλες συσκευές edge, υπερβαίνοντας τις καθυστερήσεις και τις ανησυχίες ιδιωτικού απορρήτου που συνδέονται με τα μοντέλα dựaμένα στο cloud. Αυτό ανοίγει νέες δυνατότητες για έξυπνες εμπειρίες σε συσκευές σε διάφορους τομείς, από εικονικούς βοηθούς και συνομιλίες AI έως βοηθούς κωδικοποίησης και εργασίες κατανόησης γλώσσας.
4-bit quantized phi-3-mini running natively on an iPhone
4-bit quantized phi-3-mini running natively on an iPhone

Κάτω από την Καλύπτρα: Αρχιτεκτονική και Εκπαίδευση

Στην καρδιά του, το Phi-3 Mini είναι ένα μοντέλο αποκωδικοποιητή μετασχηματιστή που βασίζεται σε μια παρόμοια αρχιτεκτονική με το ανοιχτό μοντέλο Llama-2. Διαθέτει 32 στρώματα, 3072 κρυφές διαστάσεις και 32 κεφαλές προσοχής, με μια προεπιλεγμένη μήκος контекστού 4.000 token. Η Microsoft έχει επίσης εισαγάγει μια εκδοχή μεγάλου контекστού που ονομάζεται Phi-3 Mini-128K, η οποία επεκτείνει το μήκος контекστού σε ένα εντυπωσιακό 128.000 token χρησιμοποιώντας τεχνικές όπως το LongRope.
Τι ξεχωρίζει το Phi-3 Mini, ωστόσο, είναι η μεθοδολογία εκπαίδευσής του. Αντί να βασίζεται αποκλειστικά στη βία των τεράστιων συνόλων δεδομένων και υπολογιστικής δύναμης, η Microsoft έχει επικεντρωθεί στην επιμέλεια ενός υψηλής ποιότητας, πυκνού συνόλου δεδομένων εκπαίδευσης. Αυτά τα δεδομένα αποτελούνται από βαριά φιλτραρισμένα δεδομένα ιστού, καθώς και συνθετικά δεδομένα που παράγονται από μεγαλύτερα μοντέλα γλώσσας.
Η διαδικασία εκπαίδευσης ακολουθεί μια διφασική προσέγγιση. Στην πρώτη φάση, το μοντέλο εκτίθεται σε eine ποικιλία πηγών ιστού που στοχεύουν στην διδασκαλία του γενικού γνώσεων και κατανόησης γλώσσας. Η δεύτερη φάση συνδυάζει ακόμη περισσότερα φιλτραρισμένα δεδομένα ιστού με συνθετικά δεδομένα που σχεδιάστηκαν για να μεταφέρουν.logical reasoning ικανότητες και εξειδίκευση σε συγκεκριμένους τομείς.
Η Microsoft αναφέρεται σε αυτήν την προσέγγιση ως “idata optimal regime”, μια απόκλιση από το παραδοσιακό “compute optimal regime” ή “over-training regime” που χρησιμοποιείται από πολλά μεγάλα μοντέλα γλώσσας. Ο στόχος είναι να ρυθμίσει τα δεδομένα εκπαίδευσης για να ταιριάζουν με το μέγεθος του μοντέλου, παρέχοντας το σωστό επίπεδο γνώσεων και ικανοτήτων λογικής ενώ αφήνει αρκετή ικανότητα για άλλες ικανότητες.

Quality of new Phi-3 models, as measured by performance on the Massive Multitask Language Understanding (MMLU) benchmark
Quality of new Phi-3 models, as measured by performance on the Massive Multitask Language Understanding (MMLU) benchmark

Αυτή η προσεγγιστική προσέγγιση έχει αποδώσει, καθώς το Phi-3 Mini επιτυγχάνει εξαιρετική απόδοση σε eine ευρεία γκάμα ακαδημαϊκών benchmarκ, συχνά ισάξιο ή υπερβαίνοντας πολύ μεγαλύτερα μοντέλα. Για παράδειγμα, σημειώνει 69% στο MMLU benchmark για πολυ-εργασίες μάθησης και κατανόησης, και 8.38 στο MT-bench για μαθηματική λογική – αποτελέσματα που είναι στο ίδιο επίπεδο με μοντέλα όπως το Mixtral 8x7B και το GPT-3.5.

Ασφάλεια και Ρομποτική

Παράλληλα με την εντυπωσιακή του απόδοση, η Microsoft έχει τοποθετήσει einen ισχυρό έμφαση στην ασφάλεια και την ρομποτική στην ανάπτυξη του Phi-3 Mini. Το μοντέλο έχει υποβληθεί σε μια αυστηρή διαδικασία εκπαίδευσης μετά την ολοκλήρωση, που περιλαμβάνει επιβλεπόμενη εκπαίδευση (SFT) και άμεση βελτιστοποίηση προτίμησης (DPO).
Η φάση SFT αξιοποιεί highly επιμελημένα δεδομένα σε διάφορους τομείς, συμπεριλαμβανομένων μαθηματικών, κωδικοποίησης, λογικής, συνομιλίας, ταυτότητας μοντέλου και ασφάλειας. Αυτό βοηθά να ενισχύσει τις ικανότητες του μοντέλου σε αυτές τις περιοχές ενώ του δίνει einen ισχυρό χαρακτήρα ταυτότητας και ηθικής συμπεριφοράς.
Η φάση DPO, από την άλλη πλευρά, επικεντρώνεται στο να οδηγήσει το μοντέλο μακριά από ανεπιθύμητες συμπεριφορές χρησιμοποιώντας απορριφθέντα απαντήματα ως αρνητικά παραδείγματα. Αυτή η διαδικασία καλύπτει δεδομένα σε μορφή συνομιλίας, εργασίες λογικής και προσπάθειες υπεύθυνου AI (RAI), διασφαλίζοντας ότι το Phi-3 Mini συμμορφώνεται με τις αρχές της Microsoft για ηθικό και αξιόπιστο AI.
Για να ενισχύσει περαιτέρω το προφίλ ασφάλειας, το Phi-3 Mini έχει υποβληθεί σε εκτεταμένα red-teaming και αυτόματη δοκιμή σε δεκάδες κατηγορίες RAI. Eine ανεξάρτητη ομάδα red team στη Microsoft εξέτασε επανειλημμένα το μοντέλο, αναγνωρίζοντας περιοχές για βελτίωση, οι οποίες στη συνέχεια διορθώθηκαν μέσω επιπλέον επιμελημένων συνόλων δεδομένων και επανεκπαίδευσης.
Αυτή η πολυπρόσωπη προσέγγιση έχει μειώσει σημαντικά την εμφάνιση επικίνδυνων απαντήσεων, ανακρίβειας και προκαταλήψεων, όπως φαίνεται από τις εσωτερικές RAI benchmarκ της Microsoft. Για παράδειγμα, το μοντέλο παρουσιάζει χαμηλά ποσοστά για επικίνδυνο περιεχόμενο (0,75%) και περίληψη (10%), καθώς και ένα χαμηλό ποσοστό αδικαιολόγητου (0,603), υποδεικνύοντας ότι οι απαντήσεις του είναι στενά συνδεδεμένες με το δοθέν контекスト.

Εφαρμογές και Περιπτώσεις Χρήσης

Με την εντυπωσιακή του απόδοση και ρομποτική ασφάλεια, το Phi-3 Mini είναι κατάλληλο για eine ευρεία γκάμα εφαρμογών, ιδιαίτερα σε περιβάλλοντα με περιορισμένες πηγές και σε σενάρια που επηρεάζονται από καθυστερήσεις.
Μια από τις πιο ενθουσιαστικές προοπτικές είναι η ανάπτυξη εικονικών βοηθών και συνομιλίας AI直接 σε κινητές συσκευές. Τρέχοντας τοπικά, αυτοί οι βοηθοί μπορούν να παρέχουν άμεσες απαντήσεις χωρίς την ανάγκη για σύνδεση δικτύου, ενώ επίσης διασφαλίζουν ότι ευαίσθητα δεδομένα παραμένουν στη συσκευή, αντιμετωπίζοντας ανησυχίες ιδιωτικού απορρήτου.
Οι ισχυρές ικανότητες λογικής του Phi-3 Mini το καθιστούν également einen πολύτιμο πόρο για βοήθεια κωδικοποίησης και μαθηματικών προβλημάτων. Οι dévelopπεροι και οι μαθητές μπορούν να επωφεληθούν από την ολοκλήρωση κώδικα, ανίχνευση σφαλμάτων και εξηγήσεις στη συσκευή, διευκολύνοντας τις διαδικασίες ανάπτυξης και μάθησης.
Πέρα από αυτές τις εφαρμογές, η πολυμορφία του μοντέλου ανοίγει ευκαιρίες σε περιοχές όπως κατανόηση γλώσσας, περίληψη κειμένου και απάντηση σε ερωτήσεις. Η μικρή του αποτύπωση και η αποτελεσματικότητά του το καθιστούν einen ελκυστικό выбор για ενσωμάτωση ικανοτήτων AI σε eine ευρεία γκάμα συσκευών και συστημάτων, από έξυπνες οικιακές συσκευές έως βιομηχανική αυτοματοποίηση.

Ματιά στο Μέλλον: Phi-3 Small και Phi-3 Medium

Ενώ το Phi-3 Mini είναι ένα εξαιρετικό επίτευγμα με τις δικές του ικανότητες, η Microsoft έχει ακόμη μεγαλύτερα σχέδια για την οικογένεια Phi-3. Η εταιρεία έχει ήδη προεπισκοπήσει δύο μεγαλύτερα μοντέλα, το Phi-3 Small (7 δισεκατομμύρια παραμέτρους) και το Phi-3 Medium (14 δισεκατομμύρια παραμέτρους), τα οποία αναμένεται να推 τις grenzen της απόδοσης για συμπαγή μοντέλα γλώσσας.
Το Phi-3 Small, για παράδειγμα, αξιοποιεί einen πιο προηγμένο tokenizer (tiktoken) και einen μηχανισμό προσοχής ομάδων ερωτημάτων, μαζί με einen καινούριο στρώμα προσοχής blocksparse, για να βελτιστοποιήσει την αποτύπωση μνήμης ενώ διατηρεί την απόδοση ανάκτησης контекστού. Επίσης, ενσωματώνει ένα επιπλέον 10% πολυγλωσσικών δεδομένων, ενισχύοντας τις ικανότητές του σε κατανόηση και γεννήτρια γλώσσας σε πολλές γλώσσες.
Το Phi-3 Medium, από την άλλη πλευρά, αντιπροσωπεύει einen σημαντικό βήμα στην κλίμακα, με 40 στρώματα, 40 κεφαλές προσοχής και eine διάσταση ενσωμάτωσης 5.120. Αν και η Microsoft σημειώνει ότι κάποια benchmarκอาจ απαιτούν περαιτέρω βελτίωση του μείγματος δεδομένων εκπαίδευσης για να εκμεταλλευτούν πλήρως αυτήν την αυξημένη ικανότητα, τα αρχικά αποτελέσματα είναι υποσχόμενα, με σημαντικές βελτιώσεις σε σχέση με το Phi-3 Small σε εργασίες όπως το MMLU, το TriviaQA και το HumanEval.

Περιορισμοί και Μελλοντικές Κατευθύνσεις

Παρά τις εντυπωσιακές του ικανότητες, το Phi-3 Mini, όπως και όλα τα μοντέλα γλώσσας, δεν είναι χωρίς περιορισμούς. Ένας από τους πιο αξιοσημείωτους ασθένειες είναι η σχετικά περιορισμένη ικανότητά του για αποθήκευση фактиτικών γνώσεων, όπως φαίνεται από την χαμηλότερη απόδοσή του σε benchmarκ όπως το TriviaQA.
Ωστόσο, η Microsoft πιστεύει ότι αυτός ο περιορισμός μπορεί να μειωθεί με την ενίσχυση του μοντέλου με ικανότητες αναζήτησης, επιτρέποντας του να ανακτήσει και να λογικεύσει σχετικές πληροφορίες κατ’ απαίτηση. Αυτή η προσέγγιση αποδεικνύεται στο Hugging Face Chat-UI, όπου το Phi-3 Mini μπορεί να αξιοποιήσει την αναζήτηση για να βελτιστοποιήσει τις απαντήσεις του.
Μια άλλη περιοχή για βελτίωση είναι οι πολυγλωσσικές ικανότητες του μοντέλου. Αν και το Phi-3 Small έχει κάνει αρχικές βήματα με την ενσωμάτωση επιπλέον πολυγλωσσικών δεδομένων, περαιτέρω εργασία είναι απαραίτητη για να ξεκλειδώσει πλήρως το δυναμικό αυτών των συμπαγών μοντέλων για διαγλωσσικές εφαρμογές.
Κοιτάζοντας στο μέλλον, η Microsoft είναι δεσμευμένη να συνεχίσει να προωθεί την οικογένεια μοντέλων Phi, αντιμετωπίζοντας τους περιορισμούς τους και επεκτείνοντας τις ικανότητές τους. Αυτό μπορεί να περιλαμβάνει περαιτέρω βελτιώσεις στα δεδομένα εκπαίδευσης και τη μεθοδολογία, καθώς και την εξέταση νέων αρχιτεκτονικών και τεχνικών που είναι ειδικά σχεδιασμένες για συμπαγή, υψηλής απόδοσης μοντέλα γλώσσας.

Συμπέρασμα

Το Phi-3 Mini της Microsoft αντιπροσωπεύει einen σημαντικό βήμα στην δημοκρατικοποίηση των προηγμένων ικανοτήτων του AI. Παρέχοντας state-of-the-art απόδοση σε eine συμπαγή, αποτελεσματική συσκευασία, ανοίγει νέες δυνατότητες για έξυπνες εμπειρίες σε συσκευές σε eine ευρεία γκάμα εφαρμογών.
Η καινοτόμος προσέγγιση εκπαίδευσης του μοντέλου, η οποία τίθεται στον προigramισμό υψηλής ποιότητας, πυκνού συνόλου δεδομένων εκπαίδευσης над την καθαρή υπολογιστική δύναμη, έχει αποδείξει einen παιχνίδι-αλλάγματος, ermögνοντας στο Phi-3 Mini να ξεπεράσει το βάρος του.
Συνδυασμένο με τα ρομποτικά μέτρα ασφάλειας και τις συνεχείς προσπάθειες ανάπτυξης, η οικογένεια μοντέλων Phi είναι σε θέση να παίξει einen κρίσιμο ρόλο στη διαμόρφωση του μέλλοντος των έξυπνων συστημάτων, καθιστώντας το AI πιο προσβάσιμο, αποτελεσματικό και αξιόπιστο από ποτέ.
Καθώς η βιομηχανία τεχνολογίας συνεχίζει να推 τις grenzen του τι είναι δυνατό με το AI, η δέσμευση της Microsoft σε ελαφριά, υψηλής απόδοσης μοντέλα όπως το Phi-3 Mini αντιπροσωπεύει einen αναζωογονητική απόκλιση από την παραδοσιακή σοφία του “μεγαλύτερου είναι καλύτερο”. Αποδεικνύοντας ότι το μέγεθος δεν είναι όλα, το Phi-3 Mini έχει το δυναμικό να εμπνεύσει eine νέα κυματική καινοτομίας που επικεντρώνεται στην μεγιστοποίηση της αξίας και του αντικτύπου του AI μέσω έξυπνης επιμέλειας δεδομένων, σοφής αρχιτεκτονικής μοντέλου και υπεύθυνων πρακτικών ανάπτυξης.

Έχω περάσει τα τελευταία πέντε χρόνια βυθισμένος στον fascinující κόσμο της Μηχανικής Μάθησης και της Βαθιάς Μάθησης. Η αγάπη και η εξειδίκευσή μου έχουν οδηγήσει στην συμβολή μου σε πάνω από 50 διαφορετικά projects μηχανικής λογισμικού, με ιδιαίτερη έμφαση στο AI/ML. Η συνεχής περιέργεια μου έχει επίσης τραβήξει την προσοχή μου προς την Επεξεργασία Φυσικής Γλώσσας, ένα πεδίο που είμαι πρόθυμος να εξερευνήσω περαιτέρω.