Thông báo
MiniMax Phát Hành Mở Nguồn M2.7, Một Mô Hình Độc Lập Tự Tiến Hóa

Công ty AI Trung Quốc MiniMax đã phát hành trọng lượng cho MiniMax M2.7, một mô hình Mixture-of-Experts 229 tỷ tham số đã tham gia vào chu kỳ phát triển của chính nó – đánh dấu bước đầu tiên hướng tới tự tiến hóa AI độc lập.
Ban đầu được công bố vào ngày 18 tháng 3, MiniMax M2.7 hiện đã có sẵn miễn phí trên Hugging Face với hỗ trợ triển khai cho SGLang, vLLM, Transformers và NVIDIA NIM. Mô hình này đạt điểm 56,22% trên SWE-Pro và 57,0% trên Terminal Bench 2, đặt nó trong số các mô hình LLM mã nguồn mở mạnh nhất cho các nhiệm vụ kỹ thuật phần mềm thực tế.
Làm Thế Nào Mô Hình Giúp Xây Dựng Chính Nó
Yếu tố đáng chú ý nhất về M2.7 là vai trò của nó trong quá trình lặp lại của chính nó. MiniMax đã giao cho một phiên bản nội bộ của mô hình tối ưu hóa một khuôn khổ lập trình, chạy tự động trong hơn 100 vòng. Trong quá trình đó, M2.7 đã phân tích các đường cong thất bại, sửa đổi mã khuôn khổ, chạy đánh giá và quyết định liệu có nên giữ hoặc trả lại mỗi thay đổi.
Mô hình đã tự phát hiện ra các tối ưu hóa: tìm kiếm có hệ thống các tham số lấy mẫu tối ưu như nhiệt độ và phạt tần số, thiết kế hướng dẫn công việc như tự động kiểm tra các mẫu lỗi giống hệt trên các tệp sau khi sửa, và thêm phát hiện vòng lặp vào vòng lặp tác nhân của khuôn khổ. MiniMax báo cáo sự cải thiện hiệu suất 30% trên các tập dữ liệu đánh giá nội bộ từ quá trình tự động này.
Trong nhóm học tăng cường của MiniMax, M2.7 hiện xử lý 30% đến 50% công việc hàng ngày từ đầu đến cuối. Các nhà nghiên cứu chỉ tương tác cho các quyết định quan trọng, trong khi mô hình quản lý xem xét tài liệu, theo dõi thí nghiệm, đường ống dữ liệu, gỡ lỗi và yêu cầu hợp nhất.
MiniMax cũng đã thử nghiệm M2.7 trên MLE Bench Lite, bộ dụng cụ 22 cuộc thi học máy của OpenAI chạy trên một GPU A30 duy nhất. Trong ba lần thử nghiệm 24 giờ, lần chạy tốt nhất của mô hình đã sản xuất 9 huy chương vàng, 5 huy chương bạc và 1 huy chương đồng. Tỷ lệ huy chương trung bình là 66,6% đã hòa với Gemini 3.1 và chỉ đứng sau Opus 4.6 (75,7%) và GPT-5.4 (71,2%).
Hiệu Suất Benchmark Trên Kỹ Thuật Và Công Việc Văn Phòng
Trên các điểm chuẩn kỹ thuật phần mềm, M2.7 khớp hoặc tiếp cận các mô hình đóng nguồn tiên phong. Điểm 56,22% của nó trên SWE-Pro – một điểm chuẩn bao gồm phân tích nhật ký, giải quyết sự cố, xem xét bảo mật mã và gỡ lỗi công việc ML trên nhiều ngôn ngữ lập trình – khớp với GPT-5.3-Codex. Trên VIBE-Pro, một điểm chuẩn tạo mã cấp kho, nó đạt điểm 55,6%, và nó đã đăng ký 76,5 trên SWE Multilingual và 52,7 trên Multi SWE Bench.
Ngoài các trình tạo mã AI, MiniMax đã định vị M2.7 cho các nhiệm vụ văn phòng chuyên nghiệp. Trên GDPval-AA, mô hình này đạt được điểm ELO là 1495 – cao nhất trong số các mô hình mã nguồn mở, chỉ đứng sau Opus 4.6, Sonnet 4.6 và GPT-5.4. Trên Toolathon, nó đạt 46,3% độ chính xác, và nó duy trì tỷ lệ tuân thủ kỹ năng là 97% trên 40 kỹ năng phức tạp (mỗi kỹ năng vượt quá 2.000 token) trong đánh giá MM Claw của MiniMax.
Mô hình hỗ trợ sự hợp tác đa tác nhân bản địa thông qua những gì MiniMax gọi là Agent Teams, nơi nhiều thể hiện mô hình duy trì các bản sắc vai trò riêng biệt và làm việc cùng nhau trên các nhiệm vụ. Khả năng này nhắm vào các tác nhân AI cho tự động hóa kinh doanh trong các kịch bản mà các ranh giới vai trò ổn định và lý luận đối lập giữa các tác nhân là cần thiết.
MiniMax đã xây dựng M2.7 trên kiến trúc Mixture-of-Experts, có nghĩa là chỉ một tập con của 229 tỷ tham số tổng thể được kích hoạt trong quá trình suy luận đơn lẻ. Điều này làm cho mô hình rẻ hơn và nhanh hơn để phục vụ so với mô hình dày đặc có chất lượng đầu ra tương đương – một yếu tố quan trọng đối với các nhà phát triển muốn chạy mô hình cục bộ hoặc trên cơ sở hạ tầng hạn chế.
MiniMax cũng đã phát hành mở OpenRoom, một bản demo tương tác được xây dựng chủ yếu bởi AI, đặt tương tác tác nhân bên trong giao diện người dùng web với phản hồi trực quan thời gian thực, cho thấy sự quan tâm của họ trong việc mở rộng các mô hình ngôn ngữ lớn vượt ra ngoài năng suất vào giải trí tương tác.
Phát hành này thêm một lựa chọn cạnh tranh khác vào cảnh quan kỹ năng tác nhân mở nguồn, nơi các mô hình từ Meta, Alibaba và DeepSeek đã đẩy ranh giới của những gì có sẵn miễn phí. Góc độ tự tiến hóa – nơi một mô hình đóng góp có ý nghĩa vào việc cải thiện người kế nhiệm của chính nó – vẫn còn trong giai đoạn đầu, nhưng M2.7 cung cấp các điểm dữ liệu cụ thể đầu tiên về hình dạng của nó trong thực tế: một lợi ích đánh giá nội bộ 30% từ 100+ vòng tối ưu hóa tự động, không có sự can thiệp của con người trong vòng lặp.












