Kunngjøringer
MiniMax åpner kildekoden for M2.7, en selv-utviklende agentmodell

Det kinesiske AI-selskapet MiniMax har gjort vektene tilgjengelige for MiniMax M2.7, en 229-milliard-parametere Mixture-of-Experts-modell som deltok i sin egen utviklingscyklus – noe som markerer det som selskapet kaller det første skrittet mot autonom AI-selvutvikling.
Opprinnelig annonsert den 18. mars, er MiniMax M2.7 nå fritt tilgjengelig på Hugging Face med støtte for SGLang, vLLM, Transformers og NVIDIA NIM. Modellen scorer 56,22 % på SWE-Pro og 57,0 % på Terminal Bench 2, og plasserer seg blant de sterkeste åpne kildekodemodeller for virkelige programvareutviklingsoppgaver.
Hvordan modellen hjalp til å bygge seg selv
Det mest merkbare kravet om M2.7 er dens rolle i sin egen iterasjon. MiniMax ga en intern versjon av modellen i oppdrag å optimere et programmeringsstativ, kjørte den autonomt i over 100 runder. Under denne prosessen analyserte M2.7 feilbaner, modifiserte stativkoden, kjørte evalueringer og bestemte om å beholde eller reversere hver endring.
Modellen oppdaget optimaliseringer på egen hånd: systematisk søke etter optimale samplingparametere som temperatur og frekvensstraff, designe arbeidsflytguidelines som automatisk sjekke for identiske feilmønster over filer etter en fiksering, og legge til løkkeavdekning til stativets agentløkke. MiniMax rapporterer en 30 % ytelsesforbedring på interne evalueringssett fra denne autonome prosessen.
Innen MiniMax’ forsterkingslæringsteam håndterer M2.7 nå 30 % til 50 % av daglige arbeidsflyter fra ende til ende. Forskere interagerer bare for kritiske beslutninger, mens modellen håndterer litteraturgjennomgang, eksperimentsporings-, datapipelines-, feilsøking og sammenføringsforespørsler.
MiniMax testet også M2.7 på MLE Bench Lite, OpenAIs samling av 22 maskinlæringskonkurranser som kjører på en enkelt A30-GPU. Over tre 24-timers forsøk produserte modellens beste løp 9 gullmedaljer, 5 sølvmedaljer og 1 bronsemedalje. Den gjennomsnittlige medaljesatsen på 66,6 % var like med Gemini 3.1 og kun overgikk av Opus 4.6 (75,7 %) og GPT-5.4 (71,2 %).
Benchmark-ytelse over ingeniør- og kontorarbeid
På programvareutviklingsbenchmarks matcher eller nærmer M2.7 grenseværendeksempler. Dens 56,22 % på SWE-Pro – en benchmark som dekker logganalyse, feilsøking, kode sikkerhetsgjennomgang og ML-arbeidsflytfeilsøking over flere programmeringsspråk – matcher GPT-5.3-Codex. På VIBE-Pro, en repo-nivå kodegenereringsbenchmark, scoret den 55,6 %, og den registrerte 76,5 på SWE Multilingual og 52,7 på Multi SWE Bench.
Forbi AI-kodegenereringer, posisjonerte MiniMax M2.7 for profesjonelle kontoroppgaver. På GDPval-AA, som vurderer domeneekspertise over 45 modeller, oppnådde M2.7 en ELO-score på 1495 – den høyeste blant åpne kildekodemodeller, kun overgikk av Opus 4.6, Sonnet 4.6 og GPT-5.4. På Toolathon nådde den 46,3 % nøyaktighet, og den opprettholdt en 97 % ferdighetskompatibilitetsrate over 40 komplekse ferdigheter (hver over 2 000 token) i MiniMax’ MM Claw-evaluering.
Modellen støtter nativt multi-agent-samarbeid gjennom det MiniMax kaller Agent Teams, hvor flere modellinstanser opprettholder distinkte rolleidentiteter og arbeider sammen på oppgaver. Denne funksjonen retter seg mot AI-agenter for bedriftsautomatisering-scenarier hvor stabile rollegrenser og motstridende resonnering mellom agenter er nødvendig.
MiniMax bygde M2.7 på en Mixture-of-Experts-arkitektur, noe som betyr at bare en undergruppe av dens 229 milliarder totale parametere aktiveres under en enkelt inferenspassering. Dette gjør modellen billigere og raskere å betjene enn en tett modell av sammenlignbar utgangskvalitet – et viktig aspekt for utviklere som ønsker å kjøre modeller lokalt eller på begrensede infrastrukturer.
MiniMax åpnet også kildekoden for OpenRoom, en interaktiv demo bygget mest av AI som plasserer agentinteraksjoner innenfor en web-GUI med sanntidsvisuell tilbakemelding, og signaliserer sin interesse i å utvide store språkmodeller beyond produktivitet til interaktiv underholdning.
Utgivelsen legger til et konkurranseutsatt alternativ til det åpne vektlandskapet for agentferdigheter, hvor modeller fra Meta, Alibaba og DeepSeek har presset grensene for hva som er fritt tilgjengelig. Den selv-utviklende vinkelen – hvor en modell meningsfullt bidrar til å forbedre sin egen etterfølger – er fortsatt i tidlige stadier, men M2.7 tilbyr de første konkrete datapunktene på hva det ser ut i praksis: en 30 % intern benchmark-forbedring fra 100+ autonome optimeringsrunder, uten menneskelig inngripen i løkken.












