ประกาศ

MiniMax เปิดเผย M2.7 โมเดลเอเย่นต์ที่พัฒนาตัวเอง

mm

บริษัท AI ของจีน MiniMax ได้เผยแพร่น้ำหนักของ MiniMax M2.7 โมเดล Mixture-of-Experts ที่มีพารามิเตอร์ 229 พันล้านตัว ซึ่งเข้าร่วมในวงจรการพัฒนาของตัวเอง – ซึ่งบริษัทเรียกว่าขั้นตอนแรกในการพัฒนาตัวเองของ AI ในลักษณะอัตโนมัติ

Originally ประกาศเมื่อวันที่ 18 มีนาคม MiniMax M2.7 มีให้ใช้งานฟรีบน Hugging Face พร้อมการสนับสนุนการ部署สำหรับ SGLang, vLLM, Transformers และ NVIDIA NIM โมเดลนี้ได้คะแนน 56.22% ใน SWE-Pro และ 57.0% ใน Terminal Bench 2 ซึ่งทำให้ได้คะแนนสูงในบรรดา โมเดล LLM ที่เปิดเผยแหล่งที่มา สำหรับการทำงานด้านวิศวกรรมซอฟต์แวร์ในโลกแห่งความเป็นจริง

วิธีการที่โมเดลช่วยสร้างตัวเอง

ข้อกล่าวอ้างที่น่าสังเกตที่สุดเกี่ยวกับ M2.7 คือบทบาทของมันในการสร้างตัวเอง MiniMax มอบหมายให้เวอร์ชันภายในของโมเดลเพื่อปรับเปลี่ยนโครงสร้างโปรแกรม โดยการทำงานอัตโนมัติเป็นเวลามากกว่า 100 รอบ ในระหว่างกระบวนการนั้น M2.7 วิเคราะห์เส้นทางการล้มเหลว ปรับเปลี่ยนโค้ดโครงสร้าง วิ่งการประเมิน และตัดสินใจว่าจะเก็บหรือย้อนกลับการเปลี่ยนแปลง

โมเดลค้นพบการปรับเปลี่ยนด้วยตัวเอง: ค้นหาค่าพารามิเตอร์การสุ่มตัวอย่างที่เหมาะสม เช่น อุณหภูมิและค่าปรับโทษความถี่ ออกแบบแนวทางปฏิบัติสำหรับงาน เช่น ตรวจสอบรูปแบบบั๊กที่เหมือนกันข้ามไฟล์หลังการแก้ไข และเพิ่มการตรวจจุ๊ปในวงจรของตัวแทน โมเดล MiniMax รายงานการปรับปรุงประสิทธิภาพ 30% ในชุดการประเมินภายในจากการดำเนินการอัตโนมัตินี้

ภายในทีมการเรียนรู้แบบเสริมของ MiniMax M2.7 จัดการการทำงานประจำวัน 30% ถึง 50% โดยไม่ต้องมีการแทรกแซงจากมนุษย์ นักวิจัยมีส่วนร่วมเฉพาะในการตัดสินใจที่สำคัญ ในขณะที่โมเดลจัดการการตรวจสอบเอกสาร การติดตามการทดลอง การจัดการข้อมูล การแก้ปัญหา และการขอการรวม

MiniMax ยังทดสอบ M2.7 บน MLE Bench Lite ชุดการแข่งขันการเรียนรู้ของเครื่อง 22 รายการของ OpenAI ที่สามารถทำงานบน A30 GPU ได้ ในช่วงการทดลอง 24 ชั่วโมง 3 ครั้ง การทำงานที่ดีที่สุดของโมเดลได้รับ 9 เหรียญทอง 5 เหรียญเงิน และ 1 เหรียญทองแดง อัตราการได้รับเหรียญรางวัลเฉลี่ย 66.6% เท่ากับ Gemini 3.1 และตามหลัง Opus 4.6 (75.7%) และ GPT-5.4 (71.2%) เท่านั้น

ประสิทธิภาพการทำงานแบบเบンチมาร์คในการทำงานด้านวิศวกรรมและสำนักงาน

ในด้านการทำงานด้านวิศวกรรมซอฟต์แวร์ M2.7 มีประสิทธิภาพที่ใกล้เคียงหรือเทียบเท่ากับโมเดลที่ปิดแหล่งที่มา โมเดลได้คะแนน 56.22% ใน SWE-Pro – การทดสอบที่ครอบคลุมการวิเคราะห์ข้อมูลล็อก การแก้ปัญหา การตรวจสอบความปลอดภัยของโค้ด และการแก้ปัญหา ML Workflow ในหลายภาษา – ซึ่งเทียบเท่ากับ GPT-5.3-Codex ใน VIBE-Pro ซึ่งเป็นการประเมินระดับ repo สำหรับการสร้างโค้ด โมเดลได้คะแนน 55.6% และได้คะแนน 76.5 ใน SWE Multilingual และ 52.7 ใน Multi SWE Bench

นอกเหนือจาก เครื่องมือสร้างโค้ด AI แล้ว MiniMax ยังกำหนดให้ M2.7 สำหรับการทำงานในสำนักงาน ใน GDPval-AA ซึ่งประเมินความเชี่ยวชาญในโดเมนใน 45 โมเดล M2.7 ได้คะแนน ELO 1495 – ซึ่งเป็นคะแนนสูงสุดในบรรดาโมเดลที่เปิดเผยแหล่งที่มา โดยตามหลัง Opus 4.6, Sonnet 4.6 และ GPT-5.4 เท่านั้น ใน Toolathon โมเดลได้คะแนน 46.3% และรักษาอัตราความสอดคล้องทักษะ 97% ใน 40 ทักษะที่ซับซ้อน (แต่ละทักษะมีมากกว่า 2,000 โทเคน) ในการประเมิน MM Claw ของ MiniMax

โมเดลรองรับการทำงานร่วมกันแบบหลายตัวแทนผ่านสิ่งที่ MiniMax เรียกว่า Agent Teams โดยที่ตัวแทนหลายตัวของโมเดลรักษาตัวตนของบทบาทที่แตกต่างกันและทำงานร่วมกันในงาน โมเดลนี้มุ่งเป้าไปที่ ตัวแทน AI สำหรับการทำงานอัตโนมัติของธุรกิจ โดยที่ต้องการขอบเขตบทบาทที่เสถียรและเหตุผลที่เป็นปฏิปักษ์ระหว่างตัวแทน

MiniMax สร้าง M2.7 บนโครงสร้าง Mixture-of-Experts ซึ่งหมายความว่าเฉพาะพารามิเตอร์ย่อยของทั้งหมด 229 พันล้านพารามิเตอร์เท่านั้นที่ทำงานในระหว่างการอนุมานแต่ละครั้ง ทำให้โมเดลนี้มีราคาถูกกว่าและเร็วกว่าในการให้บริการมากกว่าโมเดลที่หนาแน่นที่มีคุณภาพการผลิตที่เทียบเท่า – ซึ่งเป็นข้อพิจารณาที่สำคัญสำหรับนักพัฒนาที่ต้องการ รันโมเดลในท้องถิ่น หรือบนโครงสร้างพื้นฐานที่จำกัด

MiniMax ยังเผยแพร่ OpenRoom ซึ่งเป็นตัวเดโมแบบโต้ตอบที่สร้างโดย AI ส่วนใหญ่ โดยวางปฏิสัมพันธ์ของตัวแทนไว้ใน GUI เว็บที่มีการตอบกลับแบบเรียลไทม์ ซึ่งบ่งบอกถึงความสนใจในการขยายโมเดลภาษาที่ใหญ่กว่านี้ไปไกลกว่าการทำงานเพื่อความบันเทิงแบบโต้ตอบ

การเผยแพร่นี้เพิ่มทางเลือกที่แข่งขันกันสำหรับภูมิทัศน์ของทักษะตัวแทนแบบเปิดน้ำหนัก โดยที่โมเดลจาก Meta, Alibaba และ DeepSeek ได้ผลักดันขอบเขตของสิ่งที่มีให้ใช้งานฟรี มุมมองการปรับปรุงตัวเอง – โดยที่โมเดลมีส่วนร่วมอย่างมีความหมายในการปรับปรุงตัวสืบทอดของตัวเอง – ยังคงอยู่ในขั้นตอนแรก แต่ M2.7 เสนอจุดข้อมูลที่เป็นรูปธรรมแรกเกี่ยวกับสิ่งที่ดูเหมือนในทางปฏิบัติ: การเพิ่มขึ้น 30% ในการประเมินภายในจากการปรับเปลี่ยนอัตโนมัติ 100 รอบขึ้นไป โดยไม่มีการแทรกแซงจากมนุษย์ในวงจร

Alex McFarland เป็นนักข่าวและนักเขียน AI ที่สำรวจการพัฒนาล่าสุดในด้านปัญญาประดิษฐ์ เขาได้ร่วมงานกับสตาร์ทอัพ AI และสื่อสิ่งพิมพ์ต่างๆ ทั่วโลก