๊ณต์ง€

MiniMax, M2.7 ์ž์ฒด ๋ฐœ์ „ ์—์ด์ „ํŠธ ๋ชจ๋ธ ์˜คํ”ˆ์†Œ์Šคํ™”

mm

중국 AI 회사인 MiniMax는 229억 파라미터의 Mixture-of-Experts 모델인 MiniMax M2.7의 가중치를 공개했습니다. 이 모델은 자체 개발 주기에 참여하여 자체 발전을 위한 첫 번째 단계를 이루어냈습니다.

원래 3월 18일에 발표된 MiniMax M2.7는 현재 Hugging Face에서 무료로 사용할 수 있으며 SGLang, vLLM, Transformers, NVIDIA NIM을 지원합니다. 이 모델은 SWE-Pro에서 56.22%, Terminal Bench 2에서 57.0%의 점수를 얻어 강력한 오픈소스 LLM 중 하나로 자리 잡았습니다.

모델이 자체 구축에 어떻게 기여했는지

M2.7의 가장 주목할 만한 점은 자체 발전에 대한 역할입니다. MiniMax는 내부 버전의 모델을 프로그래밍 스캐폴드 최적화에 할당하고 100번 이상의 자율적인 최적화 라운드를 실행했습니다. 이 과정에서 M2.7은 실패 경로를 분석하고 스캐폴드 코드를 수정하며 평가를 실행하고 각 변경 사항을 유지 또는 되돌리기로 결정했습니다.

모델은 자체적으로 최적화를 발견했습니다. 시스템적으로 최적의 샘플링 파라미터를 검색하고 워크플로우 지침을 설계하며 스캐폴드의 에이전트 루프에 루프 감지를 추가했습니다. MiniMax는 이 자율적인 프로세스에서 30%의 성능 개선을 보고했습니다.

MiniMax의 강화 학습 팀에서 M2.7는 현재 일일 워크플로우의 30%에서 50%를 처리합니다. 연구자들은 중요한 결정에만 참여하며 모델은 문헌 검토, 실험 추적, 데이터 파이프라인, 디버깅, 머지 요청을 관리합니다.

MiniMax는 또한 M2.7를 MLE Bench Lite에서 테스트했습니다. OpenAI의 22개 기계 학습 대회가 단일 A30 GPU에서 실행됩니다. 24시간 동안 3번의 시도를 통해 모델의 최고 성적은 9개의 금메달, 5개의 은메달, 1개의 동메달을 얻었습니다. 평균 메달 비율은 66.6%로 Gemini 3.1과 동률이며 Opus 4.6(75.7%)와 GPT-5.4(71.2%)에 이어졌습니다.

엔지니어링 및 오피스 작업을 위한 벤치마크 성능

소프트웨어 엔지니어링 벤치마크에서 M2.7는 경계선에 있는 폐쇄형 모델과 일치하거나 근접합니다. SWE-Pro에서 56.22%의 점수를 얻었으며 VIBE-Pro에서 55.6%, SWE Multilingual에서 76.5%, Multi SWE Bench에서 52.7%의 점수를 얻었습니다.

AI 코드 생성기 외에도 MiniMax는 M2.7를 전문 오피스 작업을 위해 포지셔닝했습니다. GDPval-AA에서 도메인 전문 지식을 평가하며 45개 모델 중에서 M2.7는 1495의 ELO 점수를 얻어 오픈소스 모델 중最高의 점수를 얻었습니다. Toolathon에서 46.3%의 정확도를 달성하며 MiniMax의 MM Claw 평가에서 40개 이상의 복잡한 스킬(각각 2,000개 토큰 이상)에서 97%의 스킬 준수율을 유지했습니다.

모델은 Agent Teams을 통해 네이티브 멀티 에이전트 협력을 지원합니다. 여기서 여러 모델 인스턴스는 구별되는 역할 정체성을 유지하며 작업을 함께 수행합니다. 이 기능은 안정적인 역할 경계와 에이전트 간의 적대적推論이 필요한 비즈니스 자동화 시나리오를 위한 AI 에이전트를 대상으로 합니다.

MiniMax는 M2.7를 Mixture-of-Experts 아키텍처로 구축했습니다. 이는 모델의 229억 개 파라미터 중에서 단일 추론 패스 동안에만 일부가 활성화됩니다. 이는 출력 품질이 비교할 수 있는 밀도 모델보다 저렴하고 빠르게 제공될 수 있음을 의미합니다. 개발자가 모델을 로컬로 실행하거나 제한된 인프라에서 실행하려는 경우 이는 중요한 고려 사항입니다.

MiniMax는 또한 OpenRoom을 오픈소스화했습니다. 이는 주로 AI에 의해 구축된 대화형 데모로 웹 GUI 내에서 에이전트 상호작용을 실시간으로 시각화하여 대형 언어 모델을 생산성으로 확장하는 데 관심을 보입니다.

이 릴리스는 오픈소스 에이전트 기술의 경쟁력을 높입니다. 여기서 Meta, Alibaba, DeepSeek의 모델이 무료로 사용 가능한 기술의 경계를 확장하고 있습니다. 자체 발전의 관점은 초기 단계이지만 M2.7은 실제 적용에서 어떻게 작동하는지에 대한 첫 번째 구체적인 데이터 포인트를 제공합니다. 100번 이상의 자율 최적화 라운드에서 30%의 내부 벤치마크 성능 개선이 있으며 루프에서 인간의 개입은 없습니다.

Alex McFarland์€ ์ธ๊ณต ์ง€๋Šฅ์˜ ์ตœ์‹  ๊ฐœ๋ฐœ์„ ํƒ๊ตฌํ•˜๋Š” AI ์ €๋„๋ฆฌ์ŠคํŠธ์ด์ž ์ž‘๊ฐ€์ž…๋‹ˆ๋‹ค. ๊ทธ๋Š” ์ „ ์„ธ๊ณ„์˜ ์ˆ˜๋งŽ์€ AI ์Šคํƒ€ํŠธ์—…๊ณผ ์ถœํŒ๋ฌผ๋“ค๊ณผ ํ˜‘๋ ฅํ–ˆ์Šต๋‹ˆ๋‹ค.