Connect with us

Annonces

MiniMax publie en open source M2.7, un modèle d’agent auto-évoluant

mm

La société chinoise de l’IA MiniMax a publié les poids pour MiniMax M2.7, un modèle Mixture-of-Experts de 229 milliards de paramètres qui a participé à son propre cycle de développement – marquant ce que l’entreprise appelle le premier pas vers l’auto-évolution de l’IA.

Initialement annoncé le 18 mars, MiniMax M2.7 est maintenant disponible gratuitement sur Hugging Face avec une prise en charge du déploiement pour SGLang, vLLM, Transformers et NVIDIA NIM. Le modèle obtient un score de 56,22 % sur SWE-Pro et de 57,0 % sur Terminal Bench 2, le plaçant parmi les plus forts modèles LLM open source pour les tâches d’ingénierie logicielle du monde réel.

Comment le modèle a contribué à sa propre construction

La revendication la plus notable concernant M2.7 est son rôle dans sa propre itération. MiniMax a chargé une version interne du modèle d’optimiser un squelette de programmation, en le faisant fonctionner de manière autonome pendant plus de 100 cycles. Au cours de ce processus, M2.7 a analysé les trajectoires d’échec, modifié le code du squelette, exécuté des évaluations et décidé s’il devait conserver ou rétablir chaque modification.

Le modèle a découvert des optimisations par lui-même : recherche systématique de paramètres d’échantillonnage optimaux comme la température et la pénalité de fréquence, conception de lignes directrices de workflow telles que la vérification automatique de modèles de bogues identiques dans les fichiers après une correction, et ajout d’une détection de boucle à la boucle d’agent du squelette. MiniMax signale une amélioration des performances de 30 % sur les ensembles d’évaluation internes à partir de ce processus autonome.

Au sein de l’équipe d’apprentissage par renforcement de MiniMax, M2.7 gère désormais 30 % à 50 % des flux de travail quotidiens de bout en bout. Les chercheurs n’interviennent que pour les décisions critiques, tandis que le modèle gère la revue de la littérature, le suivi des expériences, les pipelines de données, le débogage et les demandes de fusion.

MiniMax a également testé M2.7 sur MLE Bench Lite, la suite de 22 concours d’apprentissage automatique d’OpenAI qui s’exécutent sur une seule GPU A30. Au cours de trois essais de 24 heures, la meilleure course du modèle a produit 9 médailles d’or, 5 médailles d’argent et 1 médaille de bronze. Le taux de médaille moyen de 66,6 % a égalé celui de Gemini 3.1 et n’a été devancé que par Opus 4.6 (75,7 %) et GPT-5.4 (71,2 %).

Performances de référence dans l’ingénierie et le travail de bureau

Sur les références de l’ingénierie logicielle, M2.7 correspond ou approche les modèles à code fermé de pointe. Son score de 56,22 % sur SWE-Pro – une référence couvrant l’analyse des journaux, le débogage des bogues, la revue de sécurité du code et le débogage du workflow ML sur plusieurs langages de programmation – correspond à GPT-5.3-Codex. Sur VIBE-Pro, une référence de génération de code au niveau du référentiel, il a obtenu un score de 55,6 %, et il a enregistré 76,5 sur SWE Multilingual et 52,7 sur Multi SWE Bench.

Au-delà des générateurs de code AI, MiniMax a positionné M2.7 pour les tâches professionnelles de bureau. Sur GDPval-AA, qui évalue l’expertise de domaine sur 45 modèles, M2.7 a atteint un score ELO de 1495 – le plus élevé parmi les modèles open source, derrière seulement Opus 4.6, Sonnet 4.6 et GPT-5.4. Sur Toolathon, il a atteint 46,3 % de précision, et il a maintenu un taux de conformité des compétences de 97 % sur 40 compétences complexes (chacune dépassant 2 000 jetons) dans l’évaluation MM Claw de MiniMax.

Le modèle prend en charge la collaboration multi-agent native via ce que MiniMax appelle les équipes d’agents, où plusieurs instances de modèle maintiennent des identités de rôle distinctes et travaillent ensemble sur les tâches. Cette fonctionnalité cible les scénarios d’automatisation des entreprises avec des agents IA où des limites de rôle stables et une prise de décision adverse entre les agents sont nécessaires.

MiniMax a construit M2.7 sur une architecture Mixture-of-Experts, ce qui signifie que seul un sous-ensemble de ses 229 milliards de paramètres totaux est activé lors de chaque passage d’inférence. Cela rend le modèle moins coûteux et plus rapide à servir qu’un modèle dense de qualité de sortie comparable – une considération importante pour les développeurs qui souhaitent exécuter des modèles localement ou sur une infrastructure limitée.

MiniMax a également publié en open source OpenRoom, une démo interactive construite principalement par l’IA qui place les interactions d’agent à l’intérieur d’une interface graphique web avec une rétroaction visuelle en temps réel, signalant son intérêt pour étendre les grands modèles de langage au-delà de la productivité vers le divertissement interactif.

La publication ajoute une option concurrentielle supplémentaire au paysage des compétences d’agent open source, où les modèles de Meta, Alibaba et DeepSeek ont repoussé les limites de ce qui est disponible gratuitement. L’angle d’auto-évolution – où un modèle contribue de manière significative à l’amélioration de son propre successeur – reste à un stade précoce, mais M2.7 offre les premiers points de données concrets sur ce à quoi cela ressemble dans la pratique : un gain de 30 % sur les références internes à partir de 100 cycles d’optimisation autonomes, sans intervention humaine dans la boucle.

Alex McFarland est un journaliste et écrivain en intelligence artificielle qui explore les derniers développements en intelligence artificielle. Il a collaboré avec de nombreuses startups et publications en intelligence artificielle dans le monde entier.