Ανακοινώσεις
MiniMax Δημοσιεύει το M2.7, Ένα Αυτο-Εξελισσόμενο Μοντέλο Πράκτορα

Η κινεζική εταιρεία τεχνητής νοημοσύνης MiniMax έχει δημοσιεύσει τα βάρη για το MiniMax M2.7, ένα μοντέλο 229 δισεκατομμυρίων παραμέτρων Mixture-of-Experts που συμμετείχε στον δικό του κύκλο ανάπτυξης – σηματοδοτώντας το πρώτο βήμα προς την αυτο-εξέλιξη της τεχνητής νοημοσύνης.
Αρχικά ανακοινώθηκε στις 18 Μαρτίου, το MiniMax M2.7 είναι τώρα διαθέσιμο δωρεάν στο Hugging Face με υποστήριξη ανάπτυξης για SGLang, vLLM, Transformers και NVIDIA NIM. Το μοντέλο έχει βαθμολογία 56,22% στο SWE-Pro και 57,0% στο Terminal Bench 2, τοποθετώντας το μεταξύ των ισχυρότερων ανοιχτών πηγών LLMs για πραγματικές εργασίες μηχανικής λογισμικού.
Πώς το Μοντέλο Βοήθησε να Χτιστεί ο Ίδιος
Η πιο αξιοσημείωτη αξίωση για το M2.7 είναι ο ρόλος του στη δική του επανάληψη. Η MiniMax ανέθεσε σε μια εσωτερική έκδοση του μοντέλου να βελτιώσει ένα σκελετό προγραμματισμού, εκτελώντας το αυτόνομα για πάνω από 100 γύρους. Κατά τη διάρκεια αυτής της διαδικασίας, το M2.7 ανέλυσε διαδρομές αποτυχίας, τροποποίησε τον κώδικα του σκελετού, εκτέλεσε αξιολογήσεις και αποφάσισε αν θα διατηρήσει ή θα επαναφέρει κάθε αλλαγή.
Το μοντέλο ανακάλυψε βελτιώσεις από μόνο του: συστηματικά αναζητώντας βέλτιστες παραμέτρους δειγματοληψίας όπως η θερμοκρασία και η ποινή συχνότητας, σχεδιάζοντας οδηγίες εργασίας όπως η αυτόματη έλεγχος για ταυτόσημα μοτίβα σφαλμάτων σε αρχεία μετά από μια επιδιόρθωση, και προσθέτοντας ανίχνευση βρόχου στο βρόχο του πράκτορα του σκελετού. Η MiniMax αναφέρει μια βελτίωση από 30% στην εσωτερική αξιολόγηση από αυτή τη διαδικασία.
Εντός της ομάδας ενίσχυσης της MiniMax, το M2.7 χειρίζεται τώρα το 30% έως 50% των ημερήσιων ροών εργασίας από άκρο σε άκρο. Οι ερευνητές αλληλεπιδρούν μόνο για κρίσιες αποφάσεις, ενώ το μοντέλο διαχειρίζεται την ανασκόπηση της βιβλιογραφίας, την παρακολούθηση πειραμάτων, τις πipelines δεδομένων, την αποσφαλμάτωση και τις αιτήσεις συγχώνευσης.
Η MiniMax επίσης έtested το M2.7 στο MLE Bench Lite, μια σουίτα 22 διαγωνισμών μηχανικής μάθησης της OpenAI που τρέχουν σε ένα單 A30 GPU. Σε τρεις 24ωρες δοκιμές, η καλύτερη εκτέλεση του μοντέλου παρήγαγε 9 χρυσά μετάλλια, 5 αργυρά μετάλλια και 1 χάλκινο μετάλλιο. Ο μέσος όρος ποσοστού μεταλλίων 66,6% ισοδυναμούσε με το Gemini 3.1 και ακολουθούσε μόνο το Opus 4.6 (75,7%) και το GPT-5.4 (71,2%).
Βελτιστοποίηση Απόδοσης σε Μηχανική και Γραφειακή Εργασία
Στις αναφορές μηχανικής λογισμικού, το M2.7 αντιστοιχεί ή προσεγγίζει τα μοντέλα με κλειστό κώδικα. Η βαθμολογία του 56,22% στο SWE-Pro – μια αναφορά που καλύπτει την ανάλυση καταγραφών, την αντιμετώπιση σφαλμάτων, την ανασκόπηση ασφάλειας κώδικα και την αποσφαλμάτωση ροής ML σε πολλαπλά προγραμματιστικά γλώσσες – αντιστοιχεί στο GPT-5.3-Codex. Στο VIBE-Pro, μια αναφορά γεννήτριας κώδικα σε επίπεδο αποθετηρίου, scored 55,6%, και κατέγραψε 76,5 στο SWE Multilingual και 52,7 στο Multi SWE Bench.
Πέρα από τους γεννήτορες κώδικα AI, η MiniMax τοποθέτησε το M2.7 για επαγγελματικές γραφειακές εργασίες. Στο GDPval-AA, που αξιολογεί την εξειδίκευση τομέα σε 45 μοντέλα, το M2.7 πέτυχε ένα σκορ ELO 1495 – το υψηλότερο μεταξύ των ανοιχτών πηγών μοντέλων, ακολουθώντας μόνο το Opus 4.6, το Sonnet 4.6 και το GPT-5.4. Στο Toolathon, έφτασε στο 46,3% ακρίβεια, και διατήρησε ποσοστό συμμόρφωσης ικανοτήτων 97% σε 40 σύνθετες ικανότητες (καθεμία υπερβαίνοντας τα 2.000 token) στην αξιολόγηση MM Claw της MiniMax.
Το μοντέλο υποστηρίζει φυσική συνεργασία πολλαπλών πρακτόρων μέσω της Agent Teams, όπου πολλαπλά экземпляρ του μοντέλου διατηρούν διακριτές ταυτότητες ρόλων και εργάζονται μαζί σε εργασίες. Αυτή η ικανότητα στοχεύει σε πράκτορες AI για αυτοματοποίηση επιχειρήσεων σε σενάρια όπου απαιτούνται σταθερά όρια ρόλων και αντιπαλική σκέψη μεταξύ των πρακτόρων.
Η MiniMax κατασκεύασε το M2.7 σε μια αρχιτεκτονική Mixture-of-Experts, που σημαίνει ότι μόνο ένα υποσύνολο των 229 δισεκατομμυρίων tổngικών παραμέτρων ενεργοποιείται κατά τη διάρκεια κάθε μεμονωμένης διαδικασίας. Αυτό καθιστά το μοντέλο φθηνότερο και ταχύτερο να εξυπηρετεί παρά ένα πυκνό μοντέλο tương đương ποιότητας – μια σημαντική σκέψη για τους développers που θέλουν να τρέχουν μοντέλα τοπικά ή σε περιορισμένη υποδομή.
Η MiniMax επίσης δημοσίευσε το OpenRoom, μια διαδραστική επίδειξη που κατασκευάστηκε κυρίως από την AI, η οποία τοποθετεί τις αλληλεπιδράσεις του πράκτορα μέσα σε ένα web GUI με πραγματική ανατροφοδότηση, σηματοδοτώντας το ενδιαφέρον της για την επέκταση των μεγάλων μοντέλων γλωσσών πέρα από την παραγωγικότητα σε διαδραστική ψυχαγωγία.
Η δημοσίευση προσθέτει μια άλλη ανταγωνιστική επιλογή στο τοπίο ανοιχτών βαρών δεξιοτήτων πρακτόρων, όπου μοντέλα από τη Meta, την Alibaba και τη DeepSeek έχουν推 την οριο των quello είναι διαθέσιμο δωρεάν. Η γωνία της αυτο-εξέλιξης – όπου ένα μοντέλο συμβάλλει σημαντικά στην βελτίωση του δικού του διαδόχου – παραμένει σε πρώιμο στάδιο, αλλά το M2.7 προσφέρει τα πρώτα συγκεκριμένα δεδομένα για το πώς αυτό φαίνεται στην πράξη: μια εσωτερική βελτίωση απόδοσης 30% από 100+ αυτόνομες βελτιώσεις, χωρίς ανθρώπινη παρέμβαση στο βρόχο.












