Connect with us

MiniMax Открыл Источник M2.7, Самоэволюционирующую Модель Агента

Анонсы

MiniMax Открыл Источник M2.7, Самоэволюционирующую Модель Агента

mm

Китайская компания по искусственному интеллекту MiniMax выпустила веса для MiniMax M2.7, 229-миллиардную модель Mixture-of-Experts, которая участвовала в своем собственном цикле разработки – что компания называет первым шагом к автономной самоэволюции ИИ.

Первоначально объявлено 18 марта, MiniMax M2.7 теперь доступен бесплатно на Hugging Face с поддержкой развертывания для SGLang, vLLM, Transformers и NVIDIA NIM. Модель набирает 56,22% на SWE-Pro и 57,0% на Terminal Bench 2, что ставит ее среди самых сильных открытых LLM для реальных задач программной инженерии.

Как Модель Помогла Построить Себя

Самым заметным заявлением о M2.7 является ее роль в своей собственной итерации. MiniMax поручил внутренней версии модели оптимизировать программный каркас, запустив ее автономно более чем на 100 раундов. В течение этого процесса M2.7 анализировала траектории неудач, изменяла код каркаса, проводила оценки и решала, сохранять или отменять каждое изменение.

Модель обнаружила оптимизации самостоятельно: систематически искать оптимальные параметры выборки, такие как температура и штраф за частоту, проектировать руководящие принципы рабочего процесса, такие как автоматическая проверка на идентичные шаблоны ошибок в файлах после исправления, и добавлять обнаружение циклов в цикл агента каркаса. MiniMax сообщает о 30% улучшении производительности на внутренних наборах оценки из этого автономного процесса.

В команде по обучению с подкреплением MiniMax M2.7 теперь обрабатывает 30% до 50% ежедневных рабочих процессов от начала до конца. Исследователи взаимодействуют только для критических решений, в то время как модель управляет обзором литературы, отслеживанием экспериментов, 管理 данными, отладкой и запросами на слияние.

MiniMax также протестировала M2.7 на MLE Bench Lite, набор из 22 соревнований по машинному обучению от OpenAI, которые запускаются на одном A30 GPU. В течение трех 24-часовых испытаний лучший запуск модели произвел 9 золотых медалей, 5 серебряных медалей и 1 бронзовую медаль. Средний показатель медалей 66,6% совпал с Gemini 3.1 и уступил только Opus 4.6 (75,7%) и GPT-5.4 (71,2%).

Производительность Бенчмарка По Инженерии и Офисной Работе

На бенчмарках программной инженерии M2.7 соответствует или приближается к передовым закрытым моделям. Ее 56,22% на SWE-Pro – бенчмарке, покрывающем анализ журналов, устранение неисправностей, обзор безопасности кода и отладку рабочего процесса ML на нескольких языках программирования – соответствует GPT-5.3-Codex. На VIBE-Pro, репозиторном бенчмарке генерации кода, она набрала 55,6%, и она зарегистрировала 76,5 на SWE Multilingual и 52,7 на Multi SWE Bench.

За пределами генераторов кода ИИ MiniMax позиционировала M2.7 для профессиональных офисных задач. На GDPval-AA, который оценивает экспертизу домена по 45 моделям, M2.7 достигла рейтинга ELO 1495 – самого высокого среди открытых моделей, уступая только Opus 4.6, Sonnet 4.6 и GPT-5.4. На Toolathon она достигла 46,3% точности, и она сохранила 97% показателя соблюдения навыков по 40 сложным навыкам (каждый превышающий 2 000 токенов) в оценке MiniMax MM Claw.

Модель поддерживает родную многокомандную сотрудничество через то, что MiniMax называет Командами Агентов, где несколько экземпляров модели поддерживают различные ролевые идентичности и работают вместе над задачами. Эта возможность нацелена на агентов ИИ для бизнес-автоматизации сценариев, где требуются стабильные границы ролей и противоречивое рассуждение между агентами.

MiniMax построила M2.7 на архитектуре Mixture-of-Experts, что означает, что только подмножество ее 229 миллиардов общих параметров активируется во время каждого отдельного прохода вывода. Это делает модель дешевле и быстрее для обслуживания, чем плотная модель сравнимого качества вывода – важное соображение для разработчиков, которые хотят запускать модели локально или на ограниченной инфраструктуре.

MiniMax также открыла OpenRoom, интерактивную демонстрацию, построенную в основном ИИ, которая размещает взаимодействия агентов внутри веб-интерфейса с реальным временем визуальной обратной связью, сигнализируя о своем интересе к расширению больших языковых моделей за пределы производительности в интерактивное развлечение.

Выпуск добавляет еще один конкурентный вариант в ландшафт открытых навыков агентов, где модели от Meta, Alibaba и DeepSeek расширяют границы того, что доступно бесплатно. Угол самоэволюции – где модель осмысленно вносит вклад в улучшение своего собственного преемника – остается на ранней стадии, но M2.7 предлагает первые конкретные данные о том, как это выглядит на практике: 30% внутренний прирост бенчмарка от 100+ автономных раундов оптимизации, без вмешательства человека в цикл.

Алекс Макфарленд - журналист и писатель в области искусственного интеллекта, исследующий последние разработки в этой области. Он сотрудничал с многочисленными стартапами и изданиями в области искусственного интеллекта во всем мире.