공지
MiniMax, M2.7

중국 AI 회사인 MiniMax는 MiniMax M2.7의 가중치를 공개했습니다. M2.7은 229억개의 매개변수를 갖는 Mixture-of-Experts 모델로, 자체 개발 주기에 참여한 첫 번째 모델입니다.
원래 3월 18일에 발표된 MiniMax M2.7은 현재 Hugging Face에서 무료로 사용할 수 있으며, SGLang, vLLM, Transformers, 및 NVIDIA NIM에 대한 배포 지원을 제공합니다. 이 모델은 SWE-Pro에서 56.22%, Terminal Bench 2에서 57.0%의 점수를 얻어, 실제 소프트웨어 엔지니어링 작업을 위한 가장 강력한 오픈소스 LLM 중 하나입니다.
모델이 자체적으로 구축되는 과정
M2.7에 대한 가장 주목할 만한 주장은 자체 반복에 대한 역할입니다. MiniMax는 내부 버전의 모델을 프로그래밍 스캐폴드 최적화에 할당하고, 100회 이상의 라운드에서 자율적으로 실행했습니다. 그 과정에서 M2.7은 실패 트레이저토리를 분석하고, 스캐폴드 코드를 수정하고, 평가를 실행하고, 각 변경 사항을 유지 또는 되돌릴지 결정했습니다.
모델은 최적화를 자체적으로 발견했습니다. 온도와 주파수 패널티와 같은 샘플링 매개변수를 체계적으로 검색하고, 파일 간의 동일한 버그 패턴을 자동으로 확인하는 워크플로우 가이드라인을 설계하고, 에이전트 루프에 루프 감지를 추가했습니다. MiniMax는 이 자율적 과정에서 내부 평가 세트의 30% 성능 향상을 보고했습니다.
MiniMax의 강화 학습 팀 내에서 M2.7은 현재 일일 워크플로의 30%에서 50%를 처리합니다. 연구자들은 중요한 결정에만 참여하며, 모델은 문헌 검토, 실험 추적, 데이터 파이프라인, 디버깅 및 병합 요청을 관리합니다.
MiniMax는 또한 M2.7을 MLE Bench Lite에서 테스트했습니다. OpenAI의 22개 기계 학습 대회가 단일 A30 GPU에서 실행됩니다. 3번의 24시간 시도에서, 모델의 최고 기록은 9개의 금메달, 5개의 은메달, 1개의 동메달을 획득했습니다. 평균 메달 비율은 66.6%로, Gemini 3.1과 동률이며, Opus 4.6(75.7%)과 GPT-5.4(71.2%)에 이어 2위입니다.
엔지니어링 및 오피스 작업에 대한 벤치마크 성능
소프트웨어 엔지니어링 벤치마크에서 M2.7은 경계선에 있는 폐쇄형 모델과 일치하거나 근접합니다. SWE-Pro에서 56.22%를 기록했으며, 이는 여러 프로그래밍 언어에 걸친 로그 분석, 버그 문제 해결, 코드 보안 검토 및 ML 워크플로우 디버깅을 다루는 벤치마크입니다. 이는 GPT-5.3-Codex와 일치합니다. VIBE-Pro에서 55.6%, SWE Multilingual에서 76.5%, Multi SWE Bench에서 52.7%를 기록했습니다.
AI 코드 생성기를 넘어서, MiniMax는 M2.7을 전문 오피스 작업에 위치시켰습니다. 45개 모델의 도메인 전문 지식을 평가하는 GDPval-AA에서 M2.7은 1495의 ELO 점수를 달성했습니다. 이는 오픈소스 모델 중最高이며, Opus 4.6, Sonnet 4.6, GPT-5.4에 이어 2위입니다. Toolathon에서 46.3%의 정확도를 달성했으며, MiniMax의 MM Claw 평가에서 40개의 복잡한 스킬(각각 2,000개 토큰 이상)에서 97%의 스킬 준수율을 유지했습니다.
모델은 MiniMax가 에이전트 팀이라고 부르는 네이티브 멀티 에이전트 협력을 지원합니다. 여기서 여러 모델 인스턴스는 구별되는 역할 정체성을 유지하며, 작업에 협력합니다. 이 기능은 안정적인 역할 경계와 에이전트 간의 적대적推論이 필요한 비즈니스 자동화 시나리오를 대상으로 합니다.
MiniMax는 M2.7을 Mixture-of-Experts 아키텍처로 구축했습니다. 즉, 단일 추론 패스 중에 총 229억개의 매개변수 중 일부만 활성화됩니다. 이는 비교할 수 있는 출력 품질의 밀집 모델보다 모델을 제공하는 데 더 저렴하고 빠르며, 개발자가 로컬에서 모델을 실행하거나 제한된 인프라에서 실행할 때 중요한 고려 사항입니다.
MiniMax는 또한 OpenRoom을 오픈소스로 공개했습니다. 이는 대부분 AI에 의해 구축된 대화형 데모로, 에이전트 상호작용을 웹 GUI에 넣고, 실시간 시각적 피드백을 제공하며, 대화형 엔터테인먼트로의 확장을 나타냅니다.
이 릴리스는 Meta, Alibaba, DeepSeek의 모델이 오픈소스 에이전트 기술의 경계를 확장하는 동안, 경쟁적인 옵션을 추가합니다. 자체 후속 모델을 개선하는 데 의미 있는 기여를 하는 모델 – 100회 이상의 자율적 최적화 라운드에서 30%의 내부 벤치마크 향상을 제공하는 M2.7은 이에 대한 첫 번째 구체적인 데이터 포인트를 제공합니다.












