Connect with us

Ogłoszenia

MiniMax Udostępnia Kod Źródłowy M2.7, Samoewoluujący Model Agenta

mm

Chińska firma AI MiniMax udostępniła wagi dla MiniMax M2.7, 229-miliardowego modelu Mixture-of-Experts, który uczestniczył w swoim własnym cyklu rozwojowym – co firma nazywa pierwszym krokiem w kierunku autonomicznej ewolucji AI.

Początkowo ogłoszono 18 marca, MiniMax M2.7 jest teraz dostępny bezpłatnie na Hugging Face z obsługą wdrożenia dla SGLang, vLLM, Transformers i NVIDIA NIM. Model uzyskał wynik 56,22% w teście SWE-Pro i 57,0% w teście Terminal Bench 2, co plasuje go wśród najmocniejszych otwartych modeli LLM do zadań inżynierii oprogramowania w świecie rzeczywistym.

Jak Model Pomógł Zbudować Siebie

Najbardziej godny uwagi fakt o M2.7 jest jego rola w jego własnej iteracji. MiniMax powierzył wewnętrznej wersji modelu optymalizację szkieletu programistycznego, uruchamiając go autonomicznie przez ponad 100 rund. Podczas tego procesu M2.7 analizował trajektorie niepowodzeń, modyfikował kod szkieletu, wykonywał oceny i decydował, czy zachować czy cofnąć każdą zmianę.

Model odkrył optymalizacje samodzielnie: systematycznie wyszukując optymalnych parametrów próbkowania, takich jak temperatura i kara częstotliwości, projektując wytyczne przepływu pracy, takie jak automatyczne sprawdzanie identycznych wzorców błędów w plikach po naprawie, oraz dodając wykrywanie pętli do pętli agenta szkieletu. MiniMax zgłasza 30% poprawę wydajności w wewnętrznych zestawach oceny z tego autonomicznego procesu.

W ramach zespołu uczenia wzmacniania MiniMax, M2.7 teraz obsługuje 30% do 50% codziennych przepływów pracy od końca do końca. Badacze interweniują tylko w przypadku krytycznych decyzji, podczas gdy model zarządza przeglądem literatury, śledzeniem eksperymentów, potokami danych, debugowaniem i żądaniami scalania.

MiniMax również przetestował M2.7 na MLE Bench Lite, pakiecie 22 konkursów machine learning OpenAI, które działają na jednej kartę graficzną A30. W trzech 24-godzinnych próbach najlepszy przebieg modelu wyprodukował 9 medali złotych, 5 medali srebrnych i 1 medal brązowy. Średni wskaźnik medalu 66,6% związany z Gemini 3.1 i wyprzedził tylko Opus 4.6 (75,7%) i GPT-5.4 (71,2%).

Wydajność Benchmarkowa Przez Inżynierię i Pracę Biurową

W benchmarkach inżynierii oprogramowania M2.7 odpowiada lub zbliża się do zamkniętych modeli frontier. Jego wynik 56,22% w teście SWE-Pro – benchmarku obejmującym analizę logów, rozwiązywanie błędów, przegląd zabezpieczeń kodu i debugowanie przepływu ML w wielu językach programowania – odpowiada GPT-5.3-Codex. W teście VIBE-Pro, repozytorium generacji kodu, uzyskał wynik 55,6%, a w teście SWE Multilingual uzyskał 76,5, a w teście Multi SWE Bench uzyskał 52,7.

Poza generatorami kodu AI, MiniMax pozycjonował M2.7 dla profesjonalnych zadań biurowych. W teście GDPval-AA, który ocenia ekspertyzę domenową w 45 modelach, M2.7 osiągnął wynik ELO 1495 – najwyższy wśród modeli open-source, wyprzedzając tylko Opus 4.6, Sonnet 4.6 i GPT-5.4. W teście Toolathon osiągnął 46,3% dokładności, a w teście MM Claw utrzymał 97% współczynnika zgodności umiejętności w 40 złożonych umiejętnościach (każda przekraczająca 2 000 tokenów).

Model obsługuje rodzimą współpracę wielu agentów za pośrednictwem tzw. Zespołów Agentów, gdzie wiele wystąpień modelu utrzymuje odrębne role i współpracuje przy zadaniach. Ta funkcjonalność jest skierowana do agentów AI do automatyzacji biznesu, w których wymagane są stabilne granice ról i przeciwny sposób myślenia między agentami.

MiniMax zbudował M2.7 na architekturze Mixture-of-Experts, co oznacza, że tylko podzbiór jego 229 miliardów parametrów jest aktywny podczas jednego przejścia inferencyjnego. To sprawia, że model jest tańszy i szybszy w obsłudze niż gęsty model o porównywalnej jakości wyjściowej – ważne rozważanie dla deweloperów, którzy chcą uruchamiać modele lokalnie lub na ograniczonej infrastrukturze.

MiniMax również udostępnił OpenRoom, interaktywną demonstrację zbudowaną głównie przez AI, która umieszcza interakcje agentów w sieci Web z funkcją wizualnej informacji zwrotnej w czasie rzeczywistym, sygnalizując zainteresowanie rozszerzeniem dużych modeli językowych poza produktywność w kierunku rozrywki interaktywnej.

Wydanie dodaje kolejną konkurencyjną opcję do krajobrazu otwartych umiejętności agentów, w którym modele od Meta, Alibaba i DeepSeek są pionierami w tym, co jest dostępne bezpłatnie. Kąt samoewolucji – gdzie model w sposób znaczący przyczynia się do poprawy swojego własnego następcy – pozostaje na wczesnym etapie, ale M2.7 oferuje pierwsze konkretnych punkty danych na temat tego, jak to wygląda w praktyce: 30% wewnętrznej poprawy benchmarku z 100+ autonomicznych rund optymalizacji, bez interwencji człowieka w pętli.

Alex McFarland jest dziennikarzem i pisarzem zajmującym się sztuczną inteligencją, który bada najnowsze rozwoje w dziedzinie sztucznej inteligencji. Współpracował z licznymi startupami i wydawnictwami związanymi z sztuczną inteligencją na całym świecie.