Оголошення

MiniMax відкрито джерело M2.7, саморозвивається модель агента

mm

Китайська компанія з штучного інтелекту MiniMax випустила ваги для MiniMax M2.7, 229-мільярдний параметр Мікс-експертів модель, яка брала участь у своєму власному циклі розробки – позначаючи те, що компанія називає першим кроком до автономного штучного інтелекту саморозвитку.

Спочатку оголошено 18 березня, MiniMax M2.7 тепер вільно доступний на Hugging Face з підтримкою розгортання для SGLang, vLLM, Transformers і NVIDIA NIM. Модель набирає 56,22% на SWE-Pro і 57,0% на Terminal Bench 2, займаючи місце серед найсильніших відкритих джерел LLM для реальних завдань програмної інженерії.

Як модель допомогла побудувати себе

Найбільш помітним твердженням про M2.7 є її роль у власній ітерації. MiniMax доручила внутрішній версії моделі оптимізувати програмну конструкцію, запускаючи її автономно понад 100 раундів. Під час цього процесу M2.7 аналізувала траєкторії відмов, модифікувала код конструкції, проводила оцінки та вирішувала, чи зберігати чи повертати кожну зміну.

Модель самостійно відкрила оптимізації: систематично шукаючи оптимальні параметри вибірки, такі як температура та штраф за частоту, проектуючи керівні принципи роботи, такі як автоматична перевірка ідентичних шаблонів помилок у файлах після виправлення, і додавання виявлення петель до конструкції агента. MiniMax повідомляє про 30% покращення продуктивності на внутрішніх наборах оцінювання з цього автономного процесу.

У команді з підтримки навчання з підкріпленням MiniMax M2.7 тепер обробляє 30% до 50% щоденних робочих процесів з кінця в кінець. Дослідники взаємодіють лише для критичних рішень, тоді як модель керує оглядом літератури, відстежуванням експериментів, трубопроводами даних, налагодженням та запитами на злиття.

MiniMax також протестувала M2.7 на MLE Bench Lite, наборі з 22 змагань з машинного навчання, які працюють на одному A30 GPU. У трьох 24-годинних випробуваннях найкращий запуск моделі дав 9 золотих медалей, 5 срібних медалей і 1 бронзову медаль. Середній показник медалей 66,6% дорівнював Gemini 3.1 і поступався лише Opus 4.6 (75,7%) і GPT-5.4 (71,2%).

Бенчмарк-продуктивність у сфері інженерії та офісної роботи

На бенчмарках програмної інженерії M2.7 дорівнює або наближається до моделей з закритим джерелом. Її 56,22% на SWE-Pro – бенчмарку, який охоплює аналіз журналів, усунення помилок, перевірку безпеки коду та налагодження робочого процесу машинного навчання на кількох мовах програмування – дорівнює GPT-5.3-Codex. На VIBE-Pro, бенчмарку генерації коду на рівні репозиторію, вона набрала 55,6%, і вона зареєструвала 76,5 на SWE Multilingual і 52,7 на Multi SWE Bench.

Поза генераторами коду штучного інтелекту MiniMax позиціонувала M2.7 для професійних офісних завдань. На GDPval-AA, який оцінює експертизу у 45 моделей, M2.7 досягла рейтингу Ело 1495 – найвищого серед відкритих джерел моделей, поступаючись лише Opus 4.6, Sonnet 4.6 і GPT-5.4. На Toolathon вона досягла 46,3% точності, і вона підтримувала 97% показника відповідності навичок на 40 складних навичках (кожна з яких перевищує 2 000 токенів) у оцінці MM Claw від MiniMax.

Модель підтримує рідну багатокористувацьку співпрацю через те, що MiniMax називає Командами агентів, де кілька екземплярів моделі підтримують різні ідентичності ролей та працюють разом над завданнями. Ця можливість спрямована на агентів штучного інтелекту для автоматизації бізнесу сценаріїв, де потрібні стабільні межі ролей та суперницьке мислення між агентами.

MiniMax побудувала M2.7 на архітектурі Мікс-експертів, що означає, що тільки підмножина її 229 мільярдів параметрів активується під час одного проходу висновку. Це робить модель дешевшою та швидшою для обслуговування, ніж густина моделі порівняної якості виводу – важливий фактор для розробників, які хочуть запускати моделі локально або на обмеженій інфраструктурі.

MiniMax також відкрито джерело OpenRoom, інтерактивну демонстрацію, побудовану в основному штучним інтелектом, яка розміщує взаємодію агентів у веб-інтерфейсі з реальною візуальною віддачею, сигналізуючи про свій інтерес у розширенні великих мовних моделей за межі продуктивності в інтерактивному розваженні.

Випуск додає ще одну конкурентну опцію до відкритого джерела навичок агентів ландшафту, де моделі від Meta, Alibaba та DeepSeek розширюють межі того, що вільно доступно. Кут саморозвитку – де модель суттєво сприяє поліпшенню свого власного наступника – залишається на ранній стадії, але M2.7 пропонує перші конкретні дані про те, як це виглядає на практиці: 30% внутрішнього бенчмарку виграшу з 100+ автономних раундів оптимізації, без втручання людини в цикл.

Алекс Макфарленд - журналіст та письменник з питань штучного інтелекту, який досліджує останні розробки в галузі штучного інтелекту. Він співпрацював з численними стартапами та виданнями з штучного інтелекту у світі.