Анонсы
MiniMax Открыл Источник M2.7, Самоэволюционирующую Модель Агента

Китайская компания по искусственному интеллекту MiniMax выпустила веса для MiniMax M2.7, 229-миллиардную модель Mixture-of-Experts, которая участвовала в своем собственном цикле разработки – что компания называет первым шагом к автономной самоэволюции ИИ.
Первоначально объявлено 18 марта, MiniMax M2.7 теперь доступен бесплатно на Hugging Face с поддержкой развертывания для SGLang, vLLM, Transformers и NVIDIA NIM. Модель набирает 56,22% на SWE-Pro и 57,0% на Terminal Bench 2, что ставит ее среди самых сильных открытых LLM для реальных задач программной инженерии.
Как Модель Помогла Построить Себя
Самым заметным заявлением о M2.7 является ее роль в своей собственной итерации. MiniMax поручил внутренней версии модели оптимизировать программный каркас, запустив ее автономно более чем на 100 раундов. В течение этого процесса M2.7 анализировала траектории неудач, изменяла код каркаса, проводила оценки и решала, сохранять или отменять каждое изменение.
Модель обнаружила оптимизации самостоятельно: систематически искать оптимальные параметры выборки, такие как температура и штраф за частоту, проектировать руководящие принципы рабочего процесса, такие как автоматическая проверка на идентичные шаблоны ошибок в файлах после исправления, и добавлять обнаружение циклов в цикл агента каркаса. MiniMax сообщает о 30% улучшении производительности на внутренних наборах оценки из этого автономного процесса.
В команде по обучению с подкреплением MiniMax M2.7 теперь обрабатывает 30% до 50% ежедневных рабочих процессов от начала до конца. Исследователи взаимодействуют только для критических решений, в то время как модель управляет обзором литературы, отслеживанием экспериментов, 管理 данными, отладкой и запросами на слияние.
MiniMax также протестировала M2.7 на MLE Bench Lite, набор из 22 соревнований по машинному обучению от OpenAI, которые запускаются на одном A30 GPU. В течение трех 24-часовых испытаний лучший запуск модели произвел 9 золотых медалей, 5 серебряных медалей и 1 бронзовую медаль. Средний показатель медалей 66,6% совпал с Gemini 3.1 и уступил только Opus 4.6 (75,7%) и GPT-5.4 (71,2%).
Производительность Бенчмарка По Инженерии и Офисной Работе
На бенчмарках программной инженерии M2.7 соответствует или приближается к передовым закрытым моделям. Ее 56,22% на SWE-Pro – бенчмарке, покрывающем анализ журналов, устранение неисправностей, обзор безопасности кода и отладку рабочего процесса ML на нескольких языках программирования – соответствует GPT-5.3-Codex. На VIBE-Pro, репозиторном бенчмарке генерации кода, она набрала 55,6%, и она зарегистрировала 76,5 на SWE Multilingual и 52,7 на Multi SWE Bench.
За пределами генераторов кода ИИ MiniMax позиционировала M2.7 для профессиональных офисных задач. На GDPval-AA, который оценивает экспертизу домена по 45 моделям, M2.7 достигла рейтинга ELO 1495 – самого высокого среди открытых моделей, уступая только Opus 4.6, Sonnet 4.6 и GPT-5.4. На Toolathon она достигла 46,3% точности, и она сохранила 97% показателя соблюдения навыков по 40 сложным навыкам (каждый превышающий 2 000 токенов) в оценке MiniMax MM Claw.
Модель поддерживает родную многокомандную сотрудничество через то, что MiniMax называет Командами Агентов, где несколько экземпляров модели поддерживают различные ролевые идентичности и работают вместе над задачами. Эта возможность нацелена на агентов ИИ для бизнес-автоматизации сценариев, где требуются стабильные границы ролей и противоречивое рассуждение между агентами.
MiniMax построила M2.7 на архитектуре Mixture-of-Experts, что означает, что только подмножество ее 229 миллиардов общих параметров активируется во время каждого отдельного прохода вывода. Это делает модель дешевле и быстрее для обслуживания, чем плотная модель сравнимого качества вывода – важное соображение для разработчиков, которые хотят запускать модели локально или на ограниченной инфраструктуре.
MiniMax также открыла OpenRoom, интерактивную демонстрацию, построенную в основном ИИ, которая размещает взаимодействия агентов внутри веб-интерфейса с реальным временем визуальной обратной связью, сигнализируя о своем интересе к расширению больших языковых моделей за пределы производительности в интерактивное развлечение.
Выпуск добавляет еще один конкурентный вариант в ландшафт открытых навыков агентов, где модели от Meta, Alibaba и DeepSeek расширяют границы того, что доступно бесплатно. Угол самоэволюции – где модель осмысленно вносит вклад в улучшение своего собственного преемника – остается на ранней стадии, но M2.7 предлагает первые конкретные данные о том, как это выглядит на практике: 30% внутренний прирост бенчмарка от 100+ автономных раундов оптимизации, без вмешательства человека в цикл.












