Τεχνητή νοημοσύνη
Το Tülu 3 της Allen AI έγινε ο απροσδόκητος ανταγωνιστής του DeepSeek

Οι τίτλοι συνεχίζουν να έρχονται. Τα μοντέλα του DeepSeek έχουν προκαλέσει προκλήσεις, έχουν θέσει νέα πρότυπα και έχουν κάνει πολύ θόρυβο. Nhưng κάτι ενδιαφέρον μόλις συνέβη στην σκηνή της έρευνας AI που επίσης αξίζει την προσοχή σας.
Allen AI κυκλοφόρησε ήσυχα το νέο Tülu 3 οικογένεια μοντέλων, και η έκδοση 405B παραμέτρων δεν ανταγωνίζεται μόνο το DeepSeek – το ισοπεδώνει ή το ξεπερνά σε βασικά βENCHMARK.
Ας το τοποθετήσουμε σε προοπτική.
Το μοντέλο 405B Tülu 3 αντιμετωπίζει κορυφαίους επιτελεστές όπως DeepSeek V3 σε eine σειρά από εργασίες. Βλέπουμε συγκρίσιμη ή ανώτερη απόδοση σε περιοχές όπως μαθηματικά προβλήματα, προκλήσεις κωδικοποίησης και ακριβής παρακολούθηση οδηγιών. Και το κάνουν με μια完全 ανοιχτή προσέγγιση.
Έχουν κυκλοφορήσει την πλήρη διαδικασία εκπαίδευσης, τον κώδικα και ακόμη και τη νέα μέθοδο ενισχυμένης μάθησης με ελέγξιμες ανταμοιβές (RLVR) που έκανε αυτό δυνατό.
Αναπτύξεις όπως αυτές τις τελευταίες εβδομάδες αλλάζουν πραγματικά τον τρόπο με τον οποίο συμβαίνει η ανάπτυξη AI υψηλού επιπέδου. Όταν ένα πλήρως ανοιχτό μοντέλο μπορεί να ισοπεδώσει τα καλύτερα κλειστά μοντέλα εκεί έξω, ανοίγουν δυνατότητες που προηγουμένως ήταν κλειδωμένες πίσω από ιδιωτικά εταιρικά τοίχους.
Ο Τεχνικός Αγώνας
Τι έκανε το Tülu 3 να ξεχωρίσει; Κατά τη διάρκεια μιας μοναδικής τετραβάθμιας διαδικασίας εκπαίδευσης που ξεπερνά τις παραδοσιακές προσεγγίσεις.
Ας δούμε πώς η Allen AI κατασκεύασε αυτό το μοντέλο:
Στάδιο 1: Στρατηγική Επιλογή Δεδομένων
Η ομάδα ήξερε ότι η ποιότητα του μοντέλου ξεκινά με την ποιότητα των δεδομένων. Συνδύασαν καθιερωμένα σύνολα δεδομένων όπως WildChat και Open Assistant με εξειδικευμένα γεννημένα περιεχόμενα. Αλλά εδώ είναι η κλειδί εικόνα: δεν συναγρόνισαν μόνο δεδομένα – δημιούργησαν στοχευμένα σύνολα δεδομένων για συγκεκριμένες δεξιότητες όπως μαθηματική σκέψη και ικανότητα κωδικοποίησης.
Στάδιο 2: Κτίσιμο Καλύτερων Απαντήσεων
Στο δεύτερο στάδιο, η Allen AI εστιάστηκε στο να διδάξει το μοντέλο τους συγκεκριμένες δεξιότητες. Δημιούργησαν διαφορετικά σύνολα δεδομένων – κάποια για μαθηματικά, άλλα για κωδικοποίηση και περισσότερα για γενικές εργασίες. Με τον επαναλαμβανόμενο έλεγχο αυτών των συνδυασμών, μπορούσαν να δουν ακριβώς όπου το μοντέλο ξεχώριζε και όπου χρειαζόταν δουλειά. Αυτή η επαναλαμβανόμενη διαδικασία αποκάλυψε το πραγματικό δυναμικό του Tülu 3 σε κάθε περιοχή.
Στάδιο 3: Μάθηση από Συγκρίσεις
Εδώ η Allen AI έγινε δημιουργική. Κατασκεύασαν ένα σύστημα που μπορούσε να συγκρίνει άμεσα τις απαντήσεις του Tülu 3 με άλλους κορυφαίους μοντέλους. Αλλά cũng λύσαν ένα επίμονο πρόβλημα στην AI – την τάση των μοντέλων να γράφουν μακρές απαντήσεις μόνο για το λόγο του μήκους. Η προσέγγισή τους, χρησιμοποιώντας length-normalized Direct Preference Optimization (DPO), σήμαινε ότι το μοντέλο έμαθε να αξιολογεί την ποιότητα πάνω από την ποσότητα. Το αποτέλεσμα; Απαντήσεις που είναι και ακριβείς και σκοπιμές.
Όταν τα μοντέλα AI μαθαίνουν από προτιμήσεις (ποια απάντηση είναι καλύτερη, Α ή Β;), έχουν την τάση να αναπτύσσουν μια εύκολα αντιλαμβανόμενη προκατάληψη: αρχίζουν να σκέφτονται ότι οι μακρύτερες απαντήσεις είναι πάντα καλύτερες. Είναι σαν να προσπαθούν να κερδίσουν λέγοντας περισσότερα παρά λέγοντας τα πράγματα καλά.
Η length-normalized DPO διορθώνει αυτό, điều chỉnhοντας τον τρόπο με τον οποίο το μοντέλο μαθαίνει από προτιμήσεις. Αντί να κοιτάζει μόνο ποια απάντηση προτιμήθηκε, λαμβάνει υπόψη το μήκος κάθε απάντησης. Σκεφτείτε το ως κρίση απαντήσεων με βάση την ποιότητα ανά λέξη, όχι μόνο την συνολική επίδραση.
Γιατί αυτό έχει σημασία; Γιατί βοηθά το Tülu 3 να μάθει να είναι ακριβές και αποτελεσματικό. Αντί να γεμίζει απαντήσεις με επιπλέον λέξεις για να φαίνεται πιο ολοκληρωμένο, μαθαίνει να παρέχει αξία σε όποιο μήκος είναι πραγματικά απαραίτητο.
Αυτό μπορεί να φαίνεται σαν μια μικρή λεπτομέρεια, αλλά είναι κρίσιμο για την κατασκευή AI που επικοινωνεί φυσικά. Οι καλύτεροι ανθρώπινοι εμπειρογνώμονες γνωρίζουν πότε να είναι συντομότεροι και πότε να επεκτείνουν – και αυτό είναι ακριβώς αυτό που η length-normalized DPO βοηθά το μοντέλο να διδάξει.
Στάδιο 4: Η καινοτομία του RLVR
Αυτή είναι η τεχνική επέκταση που αξίζει προσοχής. Το RLVR αντικαθιστά υποκειμενικά μοντέλα ανταμοιβών με συγκεκριμένα ελέγξιμα αποτελέσματα.
Τα περισσότερα μοντέλα AI μαθαίνουν μέσω ενός σύνθετου συστήματος μοντέλων ανταμοιβών – ουσιαστικά εκπαιδευμένες εκτιμήσεις για το τι κάνει μια καλή απάντηση. Αλλά η Allen AI πήρε einen διαφορετικό δρόμο με το RLVR.
Σκεφτείτε πώς εκπαιδεύουμε τώρα τα μοντέλα AI. Συνήθως χρειαζόμαστε άλλα μοντέλα AI (που ονομάζονται μοντέλα ανταμοιβών) για να κρίνουμε αν μια απάντηση είναι καλή ή όχι. Είναι υποκειμενικό, σύνθετο και συχνά ασυνεπές. Ορισμένες απαντήσεις μπορεί να φαίνονται καλές αλλά να περιέχουν λεπτές λάθη που διαφεύγουν.
Το RLVR αναστρέφει αυτήν την προσέγγιση. Αντί να βασίζονται σε υποκειμενικές κρίσεις, χρησιμοποιούν συγκεκριμένα, ελέγξιμα αποτελέσματα. Όταν το μοντέλο προσπαθεί να λύσει ένα μαθηματικό πρόβλημα, δεν υπάρχει γκρίζα ζώνη – η απάντηση είναι είτε σωστή είτε λάθος. Όταν γράφει κώδικα, ο κώδικας είτε εκτελείται σωστά είτε όχι.
Εδώ είναι που γίνεται ενδιαφέρον:
- Το μοντέλο λαμβάνει άμεση, δυαδική ανατροφοδότηση: 10 πόντους για σωστές απαντήσεις, 0 για λάθος
- Δεν υπάρχει χώρος για μερική πίστωση ή ασαφή αξιολόγηση
- Η μάθηση γίνεται εστιασμένη και ακριβής
- Το μοντέλο μαθαίνει να προτιμά την ακρίβεια πάνω από πιθανές αλλά λανθασμένες απαντήσεις

RLVR Training (Allen AI)
Τα αποτελέσματα; Το Tülu 3 έδειξε σημαντικές βελτιώσεις σε εργασίες όπου η ορθότητα έχει σημασία. Η απόδοσή του σε μαθηματική σκέψη (GSM8K βENCHMARK) και προκλήσεις κωδικοποίησης αυξήθηκε σημαντικά. Ακόμη και η ακολουθία οδηγιών του έγινε πιο ακριβής γιατί το μοντέλο έμαθε να αξιολογεί την συγκεκριμένη ακρίβεια πάνω από τις προσεγγιστικές απαντήσεις.
Τι κάνει αυτό ιδιαίτερα ενδιαφέρον είναι το πώς αλλάζει το παιχνίδι για το ανοιχτό πηγή AI. Προηγούμενες προσεγγίσεις συχνά αγωνίζονταν να ισοπεδώσουν την ακρίβεια των κλειστών μοντέλων σε τεχνικές εργασίες. Το RLVR δείχνει ότι με την σωστή προσέγγιση εκπαίδευσης, τα ανοιχτά μοντέλα μπορούν να επιτύχουν το ίδιο επίπεδο αξιοπιστίας.
Μια Ματιά στα Νούμερα
Η έκδοση 405B παραμέτρων του Tülu 3 ανταγωνίζεται άμεσα τα κορυφαία μοντέλα στο πεδίο. Ας εξετάσουμε όπου ξεχωρίζει και τι σημαίνει αυτό για το ανοιχτό πηγή AI.
Μαθηματικά
Το Tülu 3 ξεχωρίζει στα σύνθετα μαθηματικά. Στα βENCHMARK όπως GSM8K και MATH, ισοπεδώνει την απόδοση του DeepSeek. Το μοντέλο χειρίζεται προβλήματα πολλαπλών βημάτων και δείχνει ισχυρές μαθηματικές ικανότητες σκέψης.
Κώδικας
Τα αποτελέσματα κωδικοποίησης αποδεικνύονται εξίσου εντυπωσιακά. Χάρη στην εκπαίδευση RLVR, το Tülu 3 γράφει κώδικα που λύνει προβλήματα αποτελεσματικά. Η δύναμή του έγκειται στην κατανόηση οδηγιών κωδικοποίησης και την παραγωγή λειτουργικών λύσεων.
Ακριβής Παρακολούθηση Οδηγιών
Η ικανότητα του μοντέλου να ακολουθεί οδηγίες ξεχωρίζει ως μια βασική δύναμή του. Ενώ πολλά μοντέλα προσεγγίζουν ή γενικεύουν οδηγίες, το Tülu 3 δείχνει αξιοσημείωτη ακρίβεια στην εκτέλεση ακριβώς того που ζητείται.
Ανοίγοντας το Μαύρο Κουτί της Ανάπτυξης AI
Η Allen AI κυκλοφόρησε ένα शकτικό μοντέλο και την πλήρη διαδικασία ανάπτυξής του.
Κάθε аспект της διαδικασίας εκπαίδευσης είναι τεκμηριωμένος και προσβάσιμος. Από την τετραβάθμια προσέγγιση μέχρι τις μεθόδους προετοιμασίας δεδομένων και την εφαρμογή του RLVR – όλη η διαδικασία βρίσκεται ανοιχτή για μελέτη και αναπαραγωγή. Αυτή η διαφάνεια θέτει einen νέο πρότυπο στην ανάπτυξη AI υψηλής απόδοσης.
Οι développers λαμβάνουν πλήρεις πόρους:
- Πλήρεις διαδικασίες εκπαίδευσης
- Εργαλεία επεξεργασίας δεδομένων
- Πλαίσια αξιολόγησης
- Προδιαγραφές εφαρμογής
Αυτό επιτρέπει στις ομάδες να:
- Τροποποιήσουν τις διαδικασίες εκπαίδευσης
- Προσαρμόσουν μεθόδους για συγκεκριμένες ανάγκες
- Χτίσουν πάνω σε αποδεδειγμένες προσεγγίσεις
- Δημιουργήσουν εξειδικευμένες εφαρμογές
Αυτή η ανοιχτή προσέγγιση επιταχύνει την καινοτομία σε όλο το πεδίο. Οι ερευνητές μπορούν να χτίσουν πάνω σε επικυρωμένες μεθόδους, ενώ οι développers μπορούν να επικεντρωθούν στις βελτιώσεις αντί να ξεκινούν από το μηδέν.
Η Άνοδος της Ανοιχτής Πηγής Αρετής
Η επιτυχία του Tülu 3 είναι ένα μεγάλο γεγονός για την ανάπτυξη ανοιχτής πηγής AI. Όταν τα ανοιχτά μοντέλα ισοπεδώνουν ή ξεπερνούν τα ιδιωτικά εναλλακτικά, αυτό αλλάζει ουσιαστικά την βιομηχανία. Οι ερευνητικές ομάδες σε όλο τον κόσμο κερδίζουν πρόσβαση σε αποδεδειγμένες μεθόδους, επιταχύνοντας την εργασία τους και γεννώντας νέες καινοτομίες. Τα ιδιωτικά εργαστήρια AI θα πρέπει να προσαρμοστούν – είτε αυξάνοντας τη διαφάνεια είτε ωθώντας τα τεχνικά όρια ακόμη πιο μακριά.
Κοιτάζοντας μπροστά, οι επαναστάσεις του Tülu 3 στις ελέγξιμες ανταμοιβές και την πολυβάθμια εκπαίδευση δείχνουν τι έρχεται. Οι ομάδες μπορούν να χτίσουν πάνω σε αυτές τις βάσεις, потенτικά ωθώντας την απόδοση ακόμη υψηλότερα. Ο κώδικας υπάρχει, οι μέθοδοι είναι τεκμηριωμένες, και μια νέα κυμαία ανάπτυξης AI έχει ξεκινήσει. Για τους développers και ερευνητές, η ευκαιρία να πειραματιστούν και να βελτιώσουν αυτές τις μεθόδους σηματοδοτεί την αρχή ενός ενθουσιώδους κεφαλαίου στην ανάπτυξη AI.
Συχνές Ερωτήσεις (FAQ) για το Tülu 3
Τι είναι το Tülu 3 και ποίες είναι οι βασικές του λειτουργίες;
Το Tülu 3 είναι μια οικογένεια ανοιχτών LLMs που αναπτύχθηκε από την Allen AI, βασισμένη στην αρχιτεκτονική Llama 3.1. Είναι διαθέσιμο σε διάφορους μεγέθους (8B, 70B, και 405B παραμέτρων). Το Tülu 3 σχεδιάστηκε για βελτιωμένη απόδοση σε διάφορες εργασίες, συμπεριλαμβανομένων γνώσεων, σκέψης, μαθηματικών, κωδικοποίησης, παρακολούθησης οδηγιών και ασφάλειας.
Τι είναι η διαδικασία εκπαίδευσης για το Tülu 3 και ποια δεδομένα χρησιμοποιούνται;
Η εκπαίδευση του Tülu 3 περιλαμβάνειหลาย κρίσιμες φάσεις. Πρώτα, η ομάδα επιλέγει μια ποικιλία από προτροπές από δημόσια σύνολα δεδομένων και συνθετικά δεδομένα που στοχεύουν σε συγκεκριμένες δεξιότητες, διασφαλίζοντας ότι τα δεδομένα είναι απαλλαγμένα από ρύποι. Δεύτερον, πραγματοποιείται επιτηρούμενη εξευγενισμός (SFT) σε ένα μείγμα δεδομένων που ακολουθούν οδηγίες, μαθηματικών και κωδικοποίησης. Τρίτον, χρησιμοποιείται η άμεση προτίμηση βελτίωσης (DPO) με δεδομένα προτίμησης που παράγονται μέσω ανθρώπινης και LLM ανατροφοδότησης. Τέλος, χρησιμοποιείται η ενισχυμένη μάθηση με ελέγξιμες ανταμοιβές (RLVR) για εργασίες με μετρήσιμη ορθότητα. Το Tülu 3 χρησιμοποιεί επιμελημένα σύνολα δεδομένων για κάθε φάση, συμπεριλαμβανομένων προσωπικών οδηγιών, μαθηματικών και κωδικοποίησης δεδομένων.
Πώς αντιμετωπίζει το Tülu 3 την ασφάλεια και ποια μετρικά χρησιμοποιούνται για την αξιολόγησή της;
Η ασφάλεια είναι ένα βασικό συστατικό της ανάπτυξης του Tülu 3, που αντιμετωπίζεται καθ’ όλη τη διάρκεια της διαδικασίας εκπαίδευσης. Χρησιμοποιείται ένα σύνολο δεδομένων που σχετίζεται με την ασφάλεια κατά τη διάρκεια της SFT, το οποίο βρίσκεται ότι είναι σε μεγάλο βαθμό ορθογώνιο με άλλα δεδομένα που σχετίζονται με εργασίες.
Τι είναι το RLVR;
Το RLVR είναι μια τεχνική όπου το μοντέλο εκπαιδεύεται να βελτιστοποιήσει έναν ελέγξιμο στόχο, όπως η ορθότητα μιας απάντησης. Αυτό διαφέρει από την παραδοσιακή RLHF που χρησιμοποιεί ένα μοντέλο ανταμοιβής.













