Ogłoszenia
MiniMax Udostępnia Kod Źródłowy M2.7, Samoewoluującego Modelu Agentowego

Chińska firma AI MiniMax opublikowała wagi dla MiniMax M2.7, 229-miliardowego modelu Mixture-of-Experts, który uczestniczył w swoim własnym cyklu rozwojowym – co firma nazywa pierwszym krokiem w kierunku autonomicznej ewolucji AI.
Początkowo ogłoszono 18 marca, MiniMax M2.7 jest teraz dostępny bezpłatnie na Hugging Face z obsługą wdrożenia dla SGLang, vLLM, Transformers i NVIDIA NIM. Model uzyskał wynik 56,22% w teście SWE-Pro i 57,0% w teście Terminal Bench 2, co plasuje go wśród najsilniejszych modeli LLM o otwartym kodzie źródłowym do zadań inżynierii oprogramowania w świecie rzeczywistym.
Jak Model Pomógł Zbudować Siebie
Najbardziej godny uwagi fakt dotyczący M2.7 jest jego rola w własnej iteracji. MiniMax powierzył wewnętrznej wersji modelu optymalizację szkieletu programistycznego, uruchamiając go autonomicznie przez ponad 100 rund. Podczas tego procesu M2.7 analizował trajektorie niepowodzeń, modyfikował kod szkieletu, uruchamiał oceny i decydował, czy zachować czy cofnąć każdą zmianę.
Model odkrył optymalizacje samodzielnie: systematycznie wyszukiwał optymalnych parametrów próbkowania, takich jak temperatura i kara częstotliwości, projektował wytyczne dotyczące przepływu pracy, takie jak automatyczne sprawdzanie identycznych wzorców błędów w plikach po naprawie, oraz dodawał wykrywanie pętli do szkieletu agenta. MiniMax zgłasza 30% poprawę wydajności wewnętrznych zestawów oceny z tego autonomicznego procesu.
W ramach zespołu uczenia wzmacniania MiniMax, M2.7 obecnie obsługuje 30% do 50% codziennych przepływów pracy od końca do końca. Badacze interweniują tylko w przypadku krytycznych decyzji, podczas gdy model zarządza przeglądem literatury, śledzeniem eksperymentów, potokami danych, debugowaniem i wnioskami o połączenie.
MiniMax również przetestował M2.7 na MLE Bench Lite, pakiecie 22 konkursów machine learning OpenAI, które działają na jednej A30 GPU. Przez trzy 24-godzinne próby, najlepszy wynik modelu wyprodukował 9 medali złotych, 5 medali srebrnych i 1 medal brązowy. Średni wskaźnik medalu 66,6% związał się z Gemini 3.1 i wyprzedził tylko Opus 4.6 (75,7%) i GPT-5.4 (71,2%).
Wydajność Porównawcza Przez Inżynierię i Pracę Biurową
W benchmarkach inżynierii oprogramowania, M2.7 równa się lub zbliża się do zamkniętych modeli granicznych. Jego wynik 56,22% w SWE-Pro – benchmarku obejmującym analizę logów, rozwiązywanie błędów, przegląd bezpieczeństwa kodu i debugowanie przepływu pracy ML w wielu językach programowania – równa się GPT-5.3-Codex. Na VIBE-Pro, repozytorium poziomu generacji kodu, uzyskał wynik 55,6%, a na SWE Multilingual i Multi SWE Bench uzyskał odpowiednio 76,5 i 52,7.
Poza generatorami kodu AI, MiniMax ustawił M2.7 dla profesjonalnych zadań biurowych. Na GDPval-AA, który ocenia ekspertyzę domenową w 45 modelach, M2.7 osiągnął wynik ELO 1495 – najwyższy wśród modeli o otwartym kodzie źródłowym, wyprzedzając tylko Opus 4.6, Sonnet 4.6 i GPT-5.4. Na Toolathon osiągnął wynik 46,3%, a na MM Claw MiniMax utrzymał wskaźnik zgodności umiejętności na poziomie 97% w 40 złożonych umiejętnościach (każda przekraczająca 2000 tokenów).
Model obsługuje rodzimą współpracę wieloagentową za pomocą tzw. Agent Teams, gdzie wiele wystąpień modelu utrzymuje odrębne role i współpracuje przy zadaniach. Ta funkcjonalność jest skierowana do agentów AI do automatyzacji biznesu, w których wymagane są stabilne granice ról i rozumowanie przeciwnika między agentami.
MiniMax zbudował M2.7 na architekturze Mixture-of-Experts, co oznacza, że tylko podzbiór jego 229 miliardów parametrów jest aktywny podczas jednego przejścia inferencyjnego. To sprawia, że model jest tańszy i szybszy w obsłudze niż gęsty model o porównywalnej jakości wyjściowej – ważne rozważanie dla deweloperów, którzy chcą uruchamiać modele lokalnie lub na ograniczonej infrastrukturze.
MiniMax również udostępnił OpenRoom, interaktywną demonstrację zbudowaną głównie przez AI, która umieszcza interakcje agentów w sieciowym interfejsie graficznym z rzeczywistą zwrotną, sygnalizując swoje zainteresowanie rozszerzaniem dużych modeli językowych poza produktywność w kierunku interaktywnej rozrywki.
Publikacja dodaje kolejną konkurencyjną opcję do krajobrazu umiejętności agentów o otwartym kodzie źródłowym, gdzie modele od Meta, Alibaba i DeepSeek są na granicy tego, co jest dostępne bezpłatnie. Kąt samoewolucji – gdzie model znacząco przyczynia się do poprawy swojego następcy – pozostaje na wczesnym etapie, ale M2.7 oferuje pierwsze konkretny punkty danych na temat tego, jak to wygląda w praktyce: 30% wewnętrzny zysk benchmarkowy z 100+ autonomicznych rund optymalizacji, bez interwencji człowieka w pętli.












