Connect with us

Ilmoitukset

MiniMax julkaisee avoimen lähdekoodin M2.7:n, itsekehittyvän agenttimallin

mm

Kiinalainen tekoälyyritys MiniMax on julkaissut painotiedot MiniMax M2.7:lle, 229-miljardin parametrin Mixture-of-Experts-mallille, joka osallistui oman kehityskiertonsa – mikä on yrityksen mukaan ensimmäinen askel kohti autonomista tekoälykehitystä.

Alun perin julkaistu 18. maaliskuuta, MiniMax M2.7 on nyt vapaasti saatavilla Hugging Facen kautta, ja siinä on tuki SGLangille, vLLM:lle, Transformersille ja NVIDIA NIM:lle. Malli saa 56,22 %:n tuloksen SWE-Prossa ja 57,0 %:n Terminal Bench 2:ssa, mikä tekee siitä yhden vahvimmista avoimen lähdekoodin LLM-malleista todellisten ohjelmistokehitystehtävien osalta.

Miten malli auttoi rakentamaan itsensä

M2.7:n merkittävin väite on sen rooli omassa iteroinnissa. MiniMax antoi sisäisen version mallista optimoida ohjelmistokehysrakennetta, ja se toimi autonomisesti yli 100 kierroksen ajan. Prosessin aikana M2.7 analysoi epäonnistumisreittejä, muokkasi kehyskoodia, suoritti arviointeja ja päätti, pitäisikö jokaisen muutoksen säilyttää tai palauttaa.

Malli löysi itse optimoinnit: systemaattisesti etsimällä optimaalisia näytteenottoparametreja, kuten lämpötilaa ja taajuuspainoa, suunnittelemalla työvälineohjeita, kuten automaattista tarkistusta samanlaisista virhekuville tiedostojen välillä korjauksen jälkeen, ja lisäämällä silmukkien havaitsemisen kehysagentin silmukkaan. MiniMax raportoi 30 %:n suorituskyvyn parantumisen sisäisissä arviointijoukoissa tästä autonomisesta prosessista.

MiniMaxin vahvistusoppimisen tiimissä M2.7 hoitaa nyt 30-50 %:a päivittäisistä työvirroista loppuun asti. Tutkijat osallistuvat vain kriittisiin päätöksiin, kun taas malli hallinnoi kirjallisuuskatsausta, kokeiden seuraamista, datan putkistoa, virheenjäljitystä ja yhdistämispyyntöjä.

MiniMax testasi myös M2.7:ää MLE Bench Lite:lla, OpenAI:n 22 koneoppimiskilpailun sarjassa, joka suoritetaan yhdellä A30-GPU:lla. Kolmen 24-tunnin kokeen aikana mallin paras suoritus tuotti 9 kultamitalia, 5 hopeamitalia ja 1 pronssimitalin. Keskimääräinen mitalin saantiprosentti 66,6 % oli tasapuolinen Gemini 3.1:n kanssa ja seurasi vain Opus 4.6:ta (75,7 %) ja GPT-5.4:ää (71,2 %).

Suorituskyky vertailu insinööri- ja toimistotyössä

Ohjelmistokehitysbenchmarkkeissa M2.7 vastaa tai lähestyy rajoja suljettujen mallien kanssa. Sen 56,22 %:n tulos SWE-Prossa – benchmark, joka kattaa lokianalyysin, virheenjäljityksen, koodin turvallisuuden tarkastelun ja ML-työvirran virheenjäljityksen useilla ohjelmointikielillä – vastaa GPT-5.3-Codexia. VIBE-Prossa, repo-tason koodigeneraattoribenchmarkissa, se sai 55,6 %:n tuloksen, ja se rekisteröi 76,5 SWE Multilingualissa ja 52,7 Multi SWE Benchissä.

Unite.AI:n AI-koodigeneraattoreiden lisäksi MiniMax asetti M2.7:n ammattimaiseen toimistotyöhön. GDPval-AA:ssa, joka arvioi toimialakohtaista asiantuntemusta 45 mallin osalta, M2.7 saavutti ELO-lukeman 1495 – korkeimman avoimen lähdekoodin malleista, seuraten vain Opus 4.6:ta, Sonnet 4.6:ta ja GPT-5.4:ää. Toolathonissa se saavutti 46,3 %:n tuloksen, ja se ylläpiti 97 %:n taitotason 40 monimutkaisessa taidossa (jokainen ylittää 2 000 merkkiä) MiniMaxin MM Claw -arvioinnissa.

Malli tukee luonnollista monen agentin yhteistyötä, mitä MiniMax kutsuu Agent Teamsiksi, jossa useat mallin instanssit ylläpitävät erillisiä roolien identiteettejä ja työskentelevät yhdessä tehtävien parissa. Tämä kyky kohdistuu liiketoimintaa automatisoivien tekoälyagenttien skenaarioihin, joissa vaaditaan vakaita roolirajoja ja vastakkaisia päätöksiä agenttien välillä.

MiniMax rakensi M2.7:n Mixture-of-Experts-arkkitehtuurilla, mikä tarkoittaa, että vain osa sen 229 miljardista parametrista aktivoituu kunkin yksittäisen inference-ohituksen aikana. Tämä tekee mallista halvemman ja nopeamman palvelua kuin tiivis malli, joka on vertailukelpoinen laadun osalta – tärkeä huomio kehittäjille, jotka haluavat suorittaa malleja paikallisesti tai rajoitetulla infrastruktuurilla.

MiniMax julkaisi myös OpenRoomin, interaktiivisen demon, joka on rakennettu pääosin tekoälyllä, ja jossa agenttien vuorovaikutus on sisällä web-GUI:ssa, jossa on reaaliaikainen visuaalinen palaute, mikä osoittaa sen kiinnostuksen laajentaa suuria kielimalleja tuottavuuden lisäksi interaktiiviseen viihteeseen.

Julkaisu lisää kilpailukykyisen vaihtoehdon avoimen painon agenttien taitojen maisemaan, jossa Meta, Alibaba ja DeepSeek ovat työntäneet rajoja siitä, mitä on vapaasti saatavilla. Itsekehittyvän kulman – jossa malli merkittävästi osallistuu parantamaan omaa seuraajaa – on edelleen alkuvaiheessa, mutta M2.7 tarjoaa ensimmäiset konkreettiset tiedot siitä, miltä se näyttää käytännössä: 30 %:n sisäisen benchmarkin parantuminen 100+ autonomisesta optimointikierroksesta, ilman ihmisen väliintuloa silmukassa.

Alex McFarland on AI-toimittaja ja kirjailija, joka tutkii viimeisimpiä kehityksiä tekoälyssä. Hän on tehnyt yhteistyötä useiden AI-startup-yritysten ja julkaisujen kanssa maailmanlaajuisesti.