Anuncios

MiniMax abre el código fuente de M2.7, un modelo de agente autoevolutivo

Published April 13, 2026

Alex McFarland

La empresa china de inteligencia artificial MiniMax ha lanzado los pesos para MiniMax M2.7, un modelo Mixture-of-Experts de 229 mil millones de parámetros que participó en su propio ciclo de desarrollo – lo que marca lo que la empresa llama el primer paso hacia la autoevolución autónoma de la inteligencia artificial.

Originalmente anunciado el 18 de marzo, MiniMax M2.7 ahora está disponible de forma gratuita en Hugging Face con soporte de implementación para SGLang, vLLM, Transformers y NVIDIA NIM. El modelo obtiene una puntuación del 56,22% en SWE-Pro y del 57,0% en Terminal Bench 2, lo que lo sitúa entre los mejores modelos de lenguaje abierto para tareas de ingeniería de software en el mundo real.

Cómo el modelo ayudó a construirse a sí mismo

La afirmación más notable sobre M2.7 es su papel en su propia iteración. MiniMax encargó a una versión interna del modelo que optimizara un andamio de programación, ejecutándolo de forma autónoma durante más de 100 rondas. Durante ese proceso, M2.7 analizó trayectorias de fallos, modificó el código del andamio, realizó evaluaciones y decidió si mantener o revertir cada cambio.

El modelo descubrió optimizaciones por sí mismo: buscando sistemáticamente parámetros de muestreo óptimos como temperatura y penalización de frecuencia, diseñando directrices de flujo de trabajo como la comprobación automática de patrones de errores idénticos en archivos después de una solución, y agregando detección de bucles al bucle de agente del andamio. MiniMax informa una mejora del rendimiento del 30% en conjuntos de evaluación internos a partir de este proceso autónomo.

Dentro del equipo de aprendizaje por refuerzo de MiniMax, M2.7 ahora maneja del 30% al 50% de los flujos de trabajo diarios de extremo a extremo. Los investigadores interactúan solo para decisiones críticas, mientras que el modelo gestiona la revisión de la literatura, el seguimiento de experimentos, las tuberías de datos, la depuración y las solicitudes de combinación.

MiniMax también probó M2.7 en MLE Bench Lite, la suite de 22 competencias de aprendizaje automático de OpenAI que se ejecutan en una sola GPU A30. A lo largo de tres pruebas de 24 horas, la mejor carrera del modelo produjo 9 medallas de oro, 5 medallas de plata y 1 medalla de bronce. La tasa media de medallas del 66,6% empató con Gemini 3.1 y solo fue superada por Opus 4.6 (75,7%) y GPT-5.4 (71,2%).

Rendimiento de referencia en ingeniería y trabajo de oficina

En las referencias de ingeniería de software, M2.7 coincide o se acerca a los modelos cerrados de vanguardia. Su puntuación del 56,22% en SWE-Pro – una referencia que cubre análisis de registros, depuración de errores, revisión de seguridad de código y depuración de flujos de trabajo de ML en varios lenguajes de programación – coincide con GPT-5.3-Codex. En VIBE-Pro, una referencia de generación de código a nivel de repositorio, obtuvo una puntuación del 55,6%, y registró 76,5 en SWE Multilingual y 52,7 en Multi SWE Bench.

Más allá de los generadores de código de IA, MiniMax posicionó M2.7 para tareas profesionales de oficina. En GDPval-AA, que evalúa la experiencia en el dominio en 45 modelos, M2.7 logró una puntuación ELO de 1495 – la más alta entre los modelos de código abierto, solo superada por Opus 4.6, Sonnet 4.6 y GPT-5.4. En Toolathon, alcanzó una precisión del 46,3%, y mantuvo una tasa de cumplimiento de habilidades del 97% en 40 habilidades complejas (cada una excediendo los 2.000 tokens) en la evaluación MM Claw de MiniMax.

El modelo admite la colaboración multiagente nativa a través de lo que MiniMax llama Agent Teams, donde varias instancias del modelo mantienen identidades de roles distintas y trabajan juntas en tareas. Esta capacidad se dirige a escenarios de automatización de negocios de agentes de IA donde se requieren límites de roles estables y razonamiento adversario entre agentes.

MiniMax construyó M2.7 sobre una arquitectura Mixture-of-Experts, lo que significa que solo un subconjunto de sus 229 mil millones de parámetros totales se activan durante cualquier paso de inferencia individual. Esto hace que el modelo sea más barato y rápido de servir que un modelo denso de calidad de salida comparable – una consideración importante para los desarrolladores que desean ejecutar modelos localmente o en infraestructura limitada.

MiniMax también abrió el código fuente de OpenRoom, una demo interactiva construida en gran parte por IA que coloca las interacciones de los agentes dentro de una GUI web con retroalimentación visual en tiempo real, lo que indica su interés en extender los grandes modelos de lenguaje más allá de la productividad hacia el entretenimiento interactivo.

El lanzamiento agrega otra opción competitiva al paisaje de habilidades de agente de código abierto, donde los modelos de Meta, Alibaba y DeepSeek han estado empujando los límites de lo que está disponible de forma gratuita. El ángulo de autoevolución – donde un modelo contribuye de manera significativa a mejorar a su propio sucesor – sigue siendo de etapa temprana, pero M2.7 ofrece los primeros puntos de datos concretos sobre cómo se ve esto en la práctica: una ganancia del 30% en la referencia interna a partir de 100+ rondas de optimización autónoma, sin intervención humana en el bucle.