Pengumuman

MiniMax Merilis M2.7, Model Agen yang Berkembang Sendiri

mm

Perusahaan AI Tiongkok MiniMax telah merilis bobot untuk MiniMax M2.7, model Mixture-of-Experts 229-miliar-parameter yang berpartisipasi dalam siklus pengembangan sendiri – menandai apa yang disebut perusahaan sebagai langkah pertama menuju evolusi AI otonom.

Awalnya diumumkan pada 18 Maret, MiniMax M2.7 sekarang tersedia secara gratis di Hugging Face dengan dukungan penerapan untuk SGLang, vLLM, Transformers, dan NVIDIA NIM. Model ini mencetak skor 56,22% pada SWE-Pro dan 57,0% pada Terminal Bench 2, menempatkannya di antara LLM open-source terkuat untuk tugas rekayasa perangkat lunak dunia nyata.

Bagaimana Model Membantu Membangun Diri Sendiri

Klaim paling menonjol tentang M2.7 adalah perannya dalam iterasi sendiri. MiniMax menugaskan versi internal model untuk mengoptimalkan scaffold pemrograman, menjalankannya secara otonom selama lebih dari 100 putaran. Selama proses tersebut, M2.7 menganalisis jalur kegagalan, memodifikasi kode scaffold, menjalankan evaluasi, dan memutuskan apakah akan menyimpan atau mengembalikan setiap perubahan.

Model menemukan optimasi sendiri: secara sistematis mencari parameter sampling optimal seperti suhu dan hukuman frekuensi, merancang pedoman alur kerja seperti memeriksa pola bug identik di seluruh file setelah perbaikan, dan menambahkan deteksi loop ke loop agen scaffold. MiniMax melaporkan peningkatan kinerja 30% pada set evaluasi internal dari proses otonom ini.

Di dalam tim pembelajaran penguatan MiniMax, M2.7 sekarang menangani 30% hingga 50% alur kerja harian dari ujung ke ujung. Peneliti hanya berinteraksi untuk keputusan kritis, sementara model mengelola tinjauan literatur, pelacakan eksperimen, pipa data, debugging, dan permintaan penggabungan.

MiniMax juga menguji M2.7 pada MLE Bench Lite, suite 22 kompetisi pembelajaran mesin dari OpenAI yang berjalan pada satu A30 GPU. Di seluruh tiga percobaan 24 jam, putaran terbaik model menghasilkan 9 medali emas, 5 medali perak, dan 1 medali perunggu. Rata-rata tingkat medali 66,6% menempatkannya sejajar dengan Gemini 3.1 dan hanya unggul Opus 4.6 (75,7%) dan GPT-5.4 (71,2%).

Kinerja Benchmark di Seluruh Teknik dan Pekerjaan Kantor

Pada benchmark rekayasa perangkat lunak, M2.7 mencapai atau mendekati model tertutup frontier. Skor 56,22% pada SWE-Pro – benchmark yang mencakup analisis log, pemecahan masalah bug, tinjauan keamanan kode, dan debugging alur kerja ML di seluruh bahasa pemrograman – menempatkannya sejajar dengan GPT-5.3-Codex. Pada VIBE-Pro, benchmark generasi kode repo-level, model mencetak 55,6%, dan mencapai 76,5 pada SWE Multilingual dan 52,7 pada Multi SWE Bench.

Di luar pembangkit kode AI, MiniMax memposisikan M2.7 untuk tugas kantor profesional. Pada GDPval-AA, yang mengevaluasi keahlian domain di 45 model, M2.7 mencapai skor ELO 1495 – tertinggi di antara model open-source, hanya unggul Opus 4.6, Sonnet 4.6, dan GPT-5.4. Pada Toolathon, model mencapai 46,3% akurasi, dan mempertahankan tingkat kepatuhan keterampilan 97% di seluruh 40 keterampilan kompleks (masing-masing melebihi 2.000 token) dalam evaluasi MM Claw MiniMax.

Model mendukung kolaborasi multi-agen asli melalui apa yang disebut MiniMax sebagai Tim Agen, di mana beberapa contoh model mempertahankan identitas peran yang berbeda dan bekerja sama pada tugas. Kemampuan ini ditujukan untuk agen AI untuk otomatisasi bisnis di mana diperlukan batas peran stabil dan penalaran antagonistik antar agen.

MiniMax membangun M2.7 pada arsitektur Mixture-of-Experts, yang berarti hanya subset dari 229 miliar parameter total yang diaktifkan selama setiap lulus inferensi. Ini membuat model lebih murah dan lebih cepat untuk disajikan daripada model padat dengan kualitas output yang setara – pertimbangan penting bagi pengembang yang ingin menjalankan model secara lokal atau pada infrastruktur terbatas.

MiniMax juga merilis OpenRoom, demo interaktif yang dibangun sebagian besar oleh AI yang menempatkan interaksi agen di dalam antarmuka web dengan umpan balik visual waktu nyata, menandakan minatnya untuk memperluas model bahasa besar di luar produktivitas ke hiburan interaktif.

Peluncuran ini menambahkan pilihan kompetitif lain ke lanskap keterampilan agen open-weight, di mana model dari Meta, Alibaba, dan DeepSeek telah mendorong batas apa yang tersedia secara gratis. Sudut evolusi diri – di mana model secara signifikan berkontribusi pada perbaikan penerusnya sendiri – masih pada tahap awal, tetapi M2.7 menawarkan titik data konkret pertama tentang apa yang terlihat dalam praktiknya: peningkatan benchmark 30% dari 100+ putaran optimasi otonom, tanpa intervensi manusia dalam loop.

Alex McFarland adalah seorang jurnalis dan penulis AI yang menjelajahi perkembangan terbaru dalam kecerdasan buatan. Ia telah berkolaborasi dengan berbagai startup dan publikasi AI di seluruh dunia.