Connect with us

Oznámení

MiniMax zpřístupňuje M2.7, samořeživující se model agenta

mm

Čínská společnost pro umělou inteligenci MiniMax uvolnila váhy pro MiniMax M2.7, 229miliardový parametr model Mixture-of-Experts, který se účastnil svého vlastního vývojového cyklu – což podle společnosti představuje první krok směrem k autonomnímu samořeživování AI.

Původně ohlášeno 18. března, MiniMax M2.7 je nyní volně dostupný na Hugging Face s podporou nasazení pro SGLang, vLLM, Transformers a NVIDIA NIM. Model dosahuje 56,22 % na SWE-Pro a 57,0 % na Terminal Bench 2, čímž se řadí mezi nejsilnější open-source LLMs pro reálné úkoly softwarového inženýrství.

Jak model pomáhal budovat sám sebe

Nejpozoruhodnějším tvrzením o M2.7 je jeho role ve vlastní iteraci. MiniMax pověřil interní verzi modelu optimalizací programovacího skeletu, který běžel autonomně po dobu více než 100 kol. Během tohoto procesu M2.7 analyzoval trajektorie selhání, modifikoval scaffold kód, spouštěl hodnocení a rozhodoval, zda zachovat nebo vrátit každou změnu.

Model objevil optimalizace sám: systematicky hledal optimální parametry vzorkování, jako je teplota a frekvenční penalizace, navrhoval pracovní postupy, jako je automatická kontrola identických vzorců chyb v souborech po opravě, a přidával detekci smyčky do smyčky agenta. MiniMax hlásí 30% zlepšení výkonu na interních vyhodnocovacích sadách z tohoto autonomního procesu.

V rámci týmu pro učení s posilováním MiniMax M2.7 nyní zpracovává 30 % až 50 % denních pracovních postupů koncových uživatelů. Výzkumní pracovníci interagují pouze u kritických rozhodnutí, zatímco model spravuje literární přehled, sledování experimentů, datové potrubí, ladění a požadavky na slučování.

MiniMax také otestoval M2.7 na MLE Bench Lite, sadu 22 soutěží strojového učení OpenAI, které běží na jediném A30 GPU. Během tří 24hodinových pokusů nejlepší běh modelu produkoval 9 zlatých medailí, 5 stříbrných medailí a 1 bronzovou medaili. Průměrná medailová míra 66,6 % se rovnala Gemini 3.1 a zaostávala pouze za Opus 4.6 (75,7 %) a GPT-5.4 (71,2 %).

Výkon benchmarků napříč inženýrstvím a kancelářskou prací

Na softwarových inženýrských benchmarcích M2.7 odpovídá nebo se blíží uzavřeným modelům na hranici. Jeho 56,22 % na SWE-Pro – benchmarcích pokrývajících analýzu protokolů, odstraňování chyb, kontrolu zabezpečení kódu a ladění pracovních postupů ML napříč několika programovacími jazyky – odpovídá GPT-5.3-Codex. Na VIBE-Pro, repozitářovém benchmaroku generování kódu, dosáhl 55,6 %, a na SWE Multilingual a Multi SWE Bench dosáhl 76,5 a 52,7.

Mimo generátory AI kódu MiniMax umístil M2.7 pro profesionální úkoly v kanceláři. Na GDPval-AA, který hodnotí odborné znalosti napříč 45 modely, M2.7 dosáhl ELO skóre 1495 – nejvyššího mezi open-source modely, zaostávajícího pouze za Opus 4.6, Sonnet 4.6 a GPT-5.4. Na Toolathon dosáhl 46,3% přesnosti a udržel 97% míru shody dovedností napříč 40 složitými dovednostmi (každá přesahující 2 000 tokenů) v MiniMaxově hodnocení MM Claw.

Model podporuje nativní spolupráci více agentů prostřednictvím toho, co MiniMax nazývá Agent Teams, kde více instancí modelu udržuje odlišné role identity a pracuje společně na úkolech. Tato schopnost cílí na AI agenty pro automatizaci podnikání scénáře, kde jsou vyžadovány stabilní hranice rolí a adversativní uvažování mezi agenty.

MiniMax postavil M2.7 na architektuře Mixture-of-Experts, což znamená, že pouze podmnožina jeho 229 miliard celkových parametrů se aktivuje během jediného inferenčního přechodu. To činí model levnějším a rychlejším pro službu než hustý model srovnatelné kvality výstupu – důležitou consideraci pro vývojáře, kteří chtějí spustit modely místně nebo na omezené infrastruktuře.

MiniMax také zpřístupnil OpenRoom, interaktivní demo postavené převážně umělou inteligencí, které umisťuje interakce agentů do webového GUI s reálným vizuálním反eedbackem, signalizujícím jeho zájem o rozšíření velkých jazykových modelů za hranice produktivity do interaktivního zábavy.

Tento release přidává další konkurenční možnost do krajiny open-weight agent skills, kde modely od Meta, Alibaba a DeepSeek tlačí hranice toho, co je volně dostupné. Úhel samořeživování – kde model významně přispívá ke zlepšení svého vlastního nástupce – zůstává ranou fází, ale M2.7 nabízí první konkrétní údaje o tom, jak to vypadá v praxi: 30% vnitřní benchmarkový zisk z 100+ autonomních optimalizačních kol, bez lidského zásahu v smyčce.

Alex McFarland je AI novinář a spisovatel, který zkoumá nejnovější vývoj v oblasti umělé inteligence. Spolupracoval s mnoha AI startupy a publikacemi po celém světě.