Anúncios

MiniMax Lança M2.7, um Modelo de Agente Autoevolutivo

mm

A empresa chinesa de inteligência artificial MiniMax lançou os pesos para MiniMax M2.7, um modelo Mixture-of-Experts de 229 bilhões de parâmetros que participou de seu próprio ciclo de desenvolvimento – marcando o que a empresa chama de primeiro passo em direção à autoevolução autônoma da IA.

Originalmente anunciado em 18 de março, o MiniMax M2.7 agora está disponível gratuitamente no Hugging Face com suporte de implantação para SGLang, vLLM, Transformers e NVIDIA NIM. O modelo alcança 56,22% no SWE-Pro e 57,0% no Terminal Bench 2, colocando-o entre os melhores LLMs de código aberto para tarefas de engenharia de software do mundo real.

Como o Modelo Ajudou a Construir a Si Mesmo

A afirmação mais notável sobre o M2.7 é seu papel em sua própria iteração. A MiniMax encarregou uma versão interna do modelo de otimizar uma estrutura de programação, executando-a de forma autônoma por mais de 100 rodadas. Durante esse processo, o M2.7 analisou trajetórias de falha, modificou o código da estrutura, executou avaliações e decidiu se manter ou reverter cada alteração.

O modelo descobriu otimizações por conta própria: procurando sistematicamente parâmetros de amostragem ótimos, como temperatura e penalidade de frequência, projetando diretrizes de fluxo de trabalho, como verificar automaticamente padrões de bugs idênticos em arquivos após uma correção, e adicionando detecção de loop à estrutura do agente. A MiniMax relata uma melhoria de 30% no desempenho em conjuntos de avaliação internos a partir desse processo autônomo.

Dentro da equipe de aprendizado por reforço da MiniMax, o M2.7 agora lida com 30% a 50% dos fluxos de trabalho diários de ponta a ponta. Os pesquisadores interagem apenas para decisões críticas, enquanto o modelo gerencia a revisão da literatura, o rastreamento de experimentos, os pipelines de dados, a depuração e os pedidos de mesclagem.

A MiniMax também testou o M2.7 no MLE Bench Lite, uma suíte de 22 competições de aprendizado de máquina da OpenAI que roda em uma única GPU A30. Em três ensaios de 24 horas, a melhor execução do modelo produziu 9 medalhas de ouro, 5 medalhas de prata e 1 medalha de bronze. A taxa de medalha média de 66,6% empatou com o Gemini 3.1 e ficou atrás apenas do Opus 4.6 (75,7%) e do GPT-5.4 (71,2%).

Desempenho de Referência em Engenharia e Trabalho de Escritório

Nos benchmarks de engenharia de software, o M2.7 iguala ou se aproxima dos modelos fechados de fronteira. Seu resultado de 56,22% no SWE-Pro – um benchmark que abrange análise de log, depuração de bugs, revisão de segurança de código e depuração de fluxo de trabalho de ML em várias linguagens de programação – iguala o GPT-5.3-Codex. No VIBE-Pro, um benchmark de geração de código em nível de repositório, ele alcançou 55,6%, e registrou 76,5 no SWE Multilingual e 52,7 no Multi SWE Bench.

Além dos geradores de código de IA, a MiniMax posicionou o M2.7 para tarefas profissionais de escritório. No GDPval-AA, que avalia a expertise de domínio em 45 modelos, o M2.7 alcançou um escore ELO de 1495 – o mais alto entre os modelos de código aberto, ficando atrás apenas do Opus 4.6, Sonnet 4.6 e GPT-5.4. No Toolathon, ele alcançou 46,3% de precisão, e manteve uma taxa de conformidade de habilidade de 97% em 40 habilidades complexas (cada uma excedendo 2.000 tokens) na avaliação MM Claw da MiniMax.

O modelo suporta colaboração multiagente nativa por meio do que a MiniMax chama de Equipes de Agentes, onde várias instâncias do modelo mantêm identidades de papel distintas e trabalham juntas em tarefas. Essa capacidade visa cenários de automação de negócios de IA onde são necessárias fronteiras de papel estáveis e raciocínio adversarial entre agentes.

A MiniMax construiu o M2.7 em uma arquitetura Mixture-of-Experts, o que significa que apenas um subconjunto de seus 229 bilhões de parâmetros totais é ativado durante uma única passagem de inferência. Isso torna o modelo mais barato e rápido para servir do que um modelo denso de qualidade de saída comparável – uma consideração importante para desenvolvedores que desejam executar modelos localmente ou em infraestrutura limitada.

A MiniMax também lançou OpenRoom, um demonstrativo interativo construído principalmente por IA que coloca interações de agente dentro de uma interface gráfica da web com feedback visual em tempo real, sinalizando seu interesse em estender grandes modelos de linguagem além da produtividade para entretenimento interativo.

O lançamento adiciona mais uma opção competitiva ao cenário de habilidades de agente de código aberto, onde modelos da Meta, Alibaba e DeepSeek vêm empurrando os limites do que está disponível gratuitamente. O ângulo de autoevolução – onde um modelo contribui significativamente para melhorar seu próprio sucessor – ainda está em estágio inicial, mas o M2.7 oferece os primeiros pontos de dados concretos sobre como isso funciona na prática: uma melhoria de 30% no benchmark interno a partir de 100+ rodadas de otimização autônoma, sem intervenção humana no loop.

Alex McFarland é um jornalista e escritor de IA que explora os últimos desenvolvimentos em inteligência artificial. Ele colaborou com inúmeras startups de IA e publicações em todo o mundo.