Ilmoitukset

MiniMax julkaisee M2.7:n, itsekehittyvän agenttimallin

mm

Kiinalainen tekoälyyritys MiniMax on julkaissut MiniMax M2.7:n painot, 229-miljardin parametrin Mixture-of-Experts-mallin, joka osallistui omaan kehityskiertoon – mikä on yhtiön mukaan ensimmäinen askel kohti autonomista tekoälykehyttymistä.

Alun perin julkaistu 18. maaliskuuta, MiniMax M2.7 on nyt vapaasti saatavilla Hugging Facessa, ja se tukee SGLangia, vLLM:ää, Transformersia ja NVIDIA NIM:iä. Malli saa 56,22 %:n SWE-Prossa ja 57,0 %:n Terminal Bench 2:ssa, mikä tekee siitä yhden vahvimmista avoinna olevista LLM-malleista todellisten ohjelmistokehitystehtävien osalta.

Miten malli auttoi itseään rakentamaan

M2.7:n merkittävin väite on sen rooli omassa iteroinnissa. MiniMax antoi sisäisen version mallista optimoida ohjelmistokehys, ja se suoritettiin autonomisesti yli 100 kierroksen ajan. Prosessin aikana M2.7 analysoi epäonnistumisen polkuja, muutti kehyskoodia, suoritti arvioita ja päätti, pitäisikö jokaisen muutoksen säilyttää vai palauttaa.

Malli keksi itse optimoinnit: systemaattisesti etsimällä optimaalisia näyteparametreja, kuten lämpötilaa ja taajuuspainoa, suunnittelemalla työprosessin ohjeita, kuten automaattista tarkistusta samanlaisille virheille tiedostojen välillä korjauksen jälkeen, ja lisäämällä silmukkien havaitsemisen kehyksen agenttisilmukkaan. MiniMax ilmoittaa 30 %:n suorituskyvyn parantumisen sisäisissä arviointijoukoissa tästä autonomisesta prosessista.

MiniMaxin vahvistusoppimisen tiimissä M2.7 hoitaa nyt 30-50 %:a päivittäisistä työprosesseista loppuun asti. Tutkijat osallistuvat vain kriittisiin päätöksiin, kun taas malli hallinnoi kirjallisuuskatsausta, kokeiden seurantaa, datakanavia, virheenkorjausta ja yhdistämispyyntöjä.

MiniMax testasi myös M2.7:ää MLE Bench Lite:ssa, OpenAI:n 22 koneoppimiskilpailun sarjassa, joka suoritetaan yhdellä A30-grafiikkaprosessorilla. Kolmen 24-tunnin kokeen aikana mallin paras suoritus tuotti 9 kultamitalia, 5 hopeamitalia ja 1 pronssimitalin. Keskimääräinen mitalin saantiprosentti 66,6 % oli sama kuin Gemini 3.1:llä ja seuraavaksi parhaat olivat Opus 4.6 (75,7 %) ja GPT-5.4 (71,2 %).

Suorituskyky vertailu insinööri- ja toimistotyössä

Ohjelmistokehityksen vertailuissa M2.7 vastaa tai lähestyy suljettujen mallien rajoja. Sen 56,22 %:n tulos SWE-Prossa – joka kattaa lokianalyysin, virheenkorjausongelmat, koodin turvallisuuden tarkastuksen ja koneoppimisen virheenkorjaus työprosessin useilla ohjelmointikielillä – vastaa GPT-5.3-Codexia. VIBE-Prossa, repo-tason koodin generointivertailussa, se sai 55,6 %:n, ja se sai 76,5 %:n SWE Multilingualissa ja 52,7 %:n Multi SWE Benchissä.

Ohjelmistokehityksen ulkopuolella MiniMax asetti M2.7:ää ammattimaisiin toimistotehtäviin. GDPval-AA:ssa, joka arvioi toimialatietämyksen 45 mallin osalta, M2.7 saavutti ELO-lukeman 1495 – korkeimman avoimien mallien joukossa, seuraavaksi parhaat olivat Opus 4.6, Sonnet 4.6 ja GPT-5.4. Toolathonissa se saavutti 46,3 %:n tarkin ja ylläpiti 97 %:n taitotason 40 monimutkaisessa taidossa (jokainen ylittää 2 000 merkkiä) MiniMaxin MM Claw -arvioinnissa.

Malli tukee luonnollista moniagenttityöskentelyä, mitä MiniMax kutsuu Agent Teamsiksi, joissa useat mallin instanssit ylläpitävät erillisiä roolien identiteettejä ja työskentelevät yhdessä tehtävien parissa. Tämä kyky kohdistuu liiketoimintaa automatisoivien tekoälyagenttien skenaarioihin, joissa vaaditaan vakaat roolirajat ja vastakkaiset syytökset agenttien välillä.

MiniMax rakensi M2.7:n Mixture-of-Experts-arkkitehtuurilla, mikä tarkoittaa, että vain osa sen 229 miljardista kokonaistunnuksesta aktivoituu yksittäisessä päätöksenteon kierroksessa. Tämä tekee mallista halvemman ja nopeamman palvelun verrattuna tiheään malliin, jolla on verrattavissa oleva tuotteen laatu – tärkeä huomio kehittäjille, jotka haluavat suorittaa malleja paikallisesti tai rajoitetulla infrastruktuurilla.

MiniMax julkaisi myös OpenRoomin, interaktiivisen demon, joka on rakennettu pääosin tekoälyllä ja sijoittaa agenttien vuorovaikutukset web-liittymään, jossa on reaaliaikainen visuaalinen palautteen anto, mikä osoittaa sen kiinnostuksen laajentaa suuria kielen malleja tuottavuuden lisäksi interaktiiviseen viihteeseen.

Julkaisu lisää yhden kilpailukykyisen vaihtoehdon avoimiin painoihin agenttien taitojen maisemaan, jossa Meta, Alibaba ja DeepSeek ovat työntäneet rajoja siitä, mitä on vapaasti saatavilla. Itsekehittyvän kulman – jossa malli merkittävästi osallistuu parantamaan omaa seuraajaa – on edelleen varhaisessa vaiheessa, mutta M2.7 tarjoaa ensimmäiset konkreettiset todisteet siitä, miltä se näyttää käytännössä: 30 %:n sisäisen vertailun parantuminen 100+ autonomisesta optimointikierroksesta, ilman ihmisen väliintuloa silmukassa.

Alex McFarland on AI-toimittaja ja kirjailija, joka tutkii viimeisimpiä kehityksiä tekoälyssä. Hän on tehnyt yhteistyötä useiden AI-startup-yritysten ja julkaisujen kanssa maailmanlaajuisesti.