Meddelanden
MiniMax släpper M2.7 som öppen källkod, en självutvecklande agentmodell

Kinesiska AI-företaget MiniMax har släppt viktorna för MiniMax M2.7, en 229-miljardersparametrar Mixture-of-Experts-modell som deltog i sin egen utvecklingscykel – vilket markerar vad företaget kallar det första steget mot autonom AI-självutveckling.
Ursprungligen tillkännagiven den 18 mars, är MiniMax M2.7 nu fritt tillgänglig på Hugging Face med distributionsstöd för SGLang, vLLM, Transformers och NVIDIA NIM. Modellen uppnår 56,22 % på SWE-Pro och 57,0 % på Terminal Bench 2, vilket placerar den bland de starkaste öppen källkods-LLM för verkliga mjukvaruutvecklingsuppgifter.
Hur modellen hjälpte till att bygga sig själv
Den mest anmärkningsvärda påståendet om M2.7 är dess roll i sin egen iteration. MiniMax gav en intern version av modellen i uppgift att optimera ett programmeringsställ, som kördes autonomt i över 100 omgångar. Under den processen analyserade M2.7 feltrafik, modifierade ställkoden, körde utvärderingar och beslutade om att behålla eller återställa varje ändring.
Modellen upptäckte optimiseringar på egen hand: systematiskt sökande efter optimala sampelparametrar som temperatur och frekvensstraff, design av arbetsflödesriktlinjer som automatiskt kontroll av identiska felsökningsmönster mellan filer efter en korrigering, och tillägg av loopsökning till ställets agentloop. MiniMax rapporterar en 30 % prestandaförbättring på interna utvärderingssatser från denna autonoma process.
Inom MiniMax reinforcement learning-team hanterar M2.7 nu 30 % till 50 % av dagliga arbetsflöden slutpunkt-till-slutpunkt. Forskare interagerar endast för kritiska beslut, medan modellen hanterar litteraturöversikt, experimentsspårning, data pipelines, felsökning och sammanfogning.
MiniMax testade också M2.7 på MLE Bench Lite, OpenAIs svit av 22 maskinlärningskonkurrens som körs på en enda A30 GPU. Under tre 24-timmarsförsök producerade modellens bästa körning 9 guldmedaljer, 5 silvermedaljer och 1 bronsmedalj. Den genomsnittliga medaljfrekvensen på 66,6 % var densamma som Gemini 3.1 och endast överträffad av Opus 4.6 (75,7 %) och GPT-5.4 (71,2 %).
Benchmarkprestanda över ingenjörs- och kontorsarbete
På mjukvaruutvecklingsbenchmark uppnår M2.7 lika bra eller bättre resultat än frontlinjens stängda modeller. Dess 56,22 % på SWE-Pro – en benchmark som täcker logganalys, felsökning, kodrevision och ML-arbetsflödesfelsökning över flera programmeringsspråk – matchar GPT-5.3-Codex. På VIBE-Pro, en repo-nivå kodgenereringsbenchmark, uppnådde den 55,6 %, och den registrerade 76,5 på SWE Multilingual och 52,7 på Multi SWE Bench.
Förutom AI-kodgeneratorer positionerade MiniMax M2.7 för professionella kontorsuppgifter. På GDPval-AA, som utvärderar domänexpertis över 45 modeller, uppnådde M2.7 en ELO-poäng på 1495 – den högsta bland öppen källkodsmodeller, endast överträffad av Opus 4.6, Sonnet 4.6 och GPT-5.4. På Toolathon nådde den 46,3 % noggrannhet, och den upprätthöll en 97 % färdighetskompatibilitetsfrekvens över 40 komplexa färdigheter (var och en överstigande 2 000 token) i MiniMax MM Claw-utvärdering.
Modellen stöder nativt multiagent-samarbete genom vad MiniMax kallar Agent Teams, där flera modellinstanser upprätthåller distinkta rollidentiteter och arbetar tillsammans på uppgifter. Denna funktion riktar sig till AI-agenter för affärsautomatisering scenarier där stabila rollgränser och antagonistiskt resonemang mellan agenter krävs.
MiniMax byggde M2.7 på en Mixture-of-Experts-arkitektur, vilket innebär att endast en delmängd av dess 229 miljarder totala parametrar aktiveras under en enda inferenspass. Detta gör modellen billigare och snabbare att serva än en tät modell med jämförbar utmatningskvalitet – en viktig övervägning för utvecklare som vill köra modeller lokalt eller på begränsad infrastruktur.
MiniMax släppte också OpenRoom, en interaktiv demo byggd till stor del av AI som placerar agentinteraktioner inuti ett webbgränssnitt med realtidsvisuell återkoppling, vilket signalerar dess intresse för att utöka stora språkmodeller bortom produktivitet till interaktiv underhållning.
Släppet lägger till ett annat konkurrenskraftigt alternativ till det öppna vikts- agentfärdighets landskapet, där modeller från Meta, Alibaba och DeepSeek har pressat gränserna för vad som är fritt tillgängligt. Självutvecklingsaspekten – där en modell meningsfullt bidrar till att förbättra sin egen efterträdare – förblir tidig, men M2.7 erbjuder de första konkreta datapunkterna på vad det ser ut i praktiken: en 30 % intern benchmarkförbättring från 100+ autonoma optimeringsrundor, utan mänskligt ingripande i loopen.












