Anunțuri

MiniMax Deschide Sursele M2.7, Un Model De Agent Care Se Evoluează Singur

mm

Compania chineză de inteligență artificială MiniMax a lansat greutățile pentru MiniMax M2.7, un model Mixture-of-Experts cu 229 de miliarde de parametri care a participat la propriul său ciclu de dezvoltare – marcând ceea ce compania numește primul pas către evoluția autonomă a inteligenței artificiale.

Inițial anunțat pe 18 martie, MiniMax M2.7 este acum disponibil gratuit pe Hugging Face, cu suport de implementare pentru SGLang, vLLM, Transformers și NVIDIA NIM. Modelul obține 56,22% pe SWE-Pro și 57,0% pe Terminal Bench 2, plasându-l printre cele mai puternice modele LLM deschise pentru sarcini de inginerie software din lumea reală.

Cum A Ajutat Modelul La Construirea Sa Însuși

Cea mai remarcabilă afirmație despre M2.7 este rolul său în propria sa iterație. MiniMax a încredințat o versiune internă a modelului cu optimizarea unui schelet de programare, rulându-l autonom pentru peste 100 de runde. În timpul acestui proces, M2.7 a analizat traseele eșecului, a modificat codul scheletului, a rulat evaluări și a decis dacă să păstreze sau să revină la fiecare schimbare.

Modelul a descoperit optimizări de unul singur: căutând sistematic parametri de eșantionare optimați, cum ar fi temperatura și penalizarea frecvenței, proiectând linii directoare de flux de lucru, cum ar fi verificarea automată a modelelor de bug identice în fișiere după o corecție, și adăugând detectarea buclelor la bucla agentului scheletului. MiniMax raportează o îmbunătățire a performanței cu 30% pe seturile de evaluare interne din acest proces autonom.

În cadrul echipei de învățare prin întărire a MiniMax, M2.7 gestionează acum 30% până la 50% din fluxurile zilnice de lucru de la capăt la capăt. Cercetătorii interacționează doar pentru decizii critice, în timp ce modelul gestionează revizuirea literaturii, urmărirea experimentelor, conductele de date, depanarea și solicitările de fuziune.

MiniMax a testat, de asemenea, M2.7 pe MLE Bench Lite, suita de 22 de concursuri de învățare automată a OpenAI care rulează pe un singur GPU A30. În trei încercări de 24 de ore, rularea cea mai bună a modelului a produs 9 medalii de aur, 5 medalii de argint și 1 medalie de bronz. Rata medie a medaliei de 66,6% a egalat-o pe cea a Gemini 3.1 și a fost depășită doar de Opus 4.6 (75,7%) și GPT-5.4 (71,2%).

Performanță De Referință În Ingineria și Lucrul De Birou

La benchmark-urile de inginerie software, M2.7 se potrivește sau se apropie de modelele închise de frontieră. Scorul său de 56,22% pe SWE-Pro – un benchmark care acoperă analiza log-urilor, depistarea defectelor, revizuirea securității codului și depanarea fluxului de lucru ML pe multiple limbi de programare – se potrivește cu GPT-5.3-Codex. Pe VIBE-Pro, un benchmark de generare de cod la nivel de depozit, a obținut 55,6%, și a înregistrat 76,5 pe SWE Multilingual și 52,7 pe Multi SWE Bench.

Dincolo de generatoarele de cod AI, MiniMax a poziționat M2.7 pentru sarcini profesionale de birou. Pe GDPval-AA, care evaluează expertiza de domeniu la 45 de modele, M2.7 a obținut un scor ELO de 1495 – cel mai ridicat printre modelele deschise, fiind depășit doar de Opus 4.6, Sonnet 4.6 și GPT-5.4. Pe Toolathon, a atins o acuratețe de 46,3%, și a menținut o rată de conformitate a abilităților de 97% la 40 de abilități complexe (fiecare depășind 2.000 de tokeni) în evaluarea MM Claw a MiniMax.

Modelul susține colaborarea multi-agent nativă prin ceea ce MiniMax numește Echipe de Agenti, unde multiple instanțe ale modelului mențin identități de rol distincte și lucrează împreună la sarcini. Această capacitate vizează agenți AI pentru automatizarea afacerilor în scenarii în care sunt necesare limite stabile de rol și raționament adversarial între agenți.

MiniMax a construit M2.7 pe o arhitectură Mixture-of-Experts, ceea ce înseamnă că doar o submulțime din cei 229 de miliarde de parametri totali se activează în timpul unei singure treceri de inferență. Acest lucru face ca modelul să fie mai ieftin și mai rapid de servit decât un model dens cu o calitate de ieșire comparabilă – o considerație importantă pentru dezvoltatorii care doresc să ruleze modele local sau pe infrastructuri limitate.

MiniMax a deschis, de asemenea, sursele OpenRoom, un demo interactiv construit în mare parte de AI, care plasează interacțiunile agenților într-o interfață grafică web cu feedback vizual în timp real, semnalizând interesul său de a extinde modelele de limbaj mare dincolo de productivitate în divertisment interactiv.

Lansarea adaugă o altă opțiune competitivă peisajului deschis al abilităților agenților, unde modelele de la Meta, Alibaba și DeepSeek au împins limitele a ceea ce este disponibil gratuit. Unghiul de auto-evoluție – în care un model contribuie în mod semnificativ la îmbunătățirea propriului său succesor – rămâne în stadiu incipient, dar M2.7 oferă primele date concrete despre cum arată acest lucru în practică: o creștere a benchmark-ului intern cu 30% din peste 100 de runde de optimizare autonome, fără intervenție umană în buclă.

Alex McFarland este un jurnalist și scriitor de inteligență artificială, care explorează cele mai recente dezvoltări în domeniul inteligenței artificiale. El a colaborat cu numeroase startup-uri de inteligență artificială și publicații din întreaga lume.