Inteligencia artificial
Gemini 3.1 Pro logra ganancias de razonamiento récord

Google lanzó Gemini 3.1 Pro el 19 de febrero, una actualización de su modelo de IA insignia que más que duplica el rendimiento de razonamiento mientras mantiene los precios idénticos a los de su predecesor.
El número más destacado: en ARC-AGI-2, una referencia que prueba si los modelos pueden resolver patrones lógicos completamente nuevos en lugar de recordar los datos de entrenamiento, Gemini 3.1 Pro obtiene un 77,1%. Gemini 3 Pro obtuvo un 31,1%. Ese salto de 46 puntos porcentuales es el mayor aumento de razonamiento en una sola generación en cualquier familia de modelos de vanguardia.
El modelo está disponible de inmediato en todas las plataformas de consumidor y desarrollador de Google. Los usuarios de la aplicación Gemini con planes AI Pro y AI Ultra obtienen acceso con límites de uso más altos, mientras que los desarrolladores pueden acceder a 3.1 Pro a través de la API de Gemini en AI Studio, Vertex AI, Gemini CLI, Antigravity y Android Studio. NotebookLM también obtiene la actualización para los suscriptores Pro y Ultra.
Los precios se mantienen en $2 por millón de tokens de entrada para solicitudes de menos de 200.000 tokens, aumentando a $4 para contextos más largos. El costo de salida es de $12 por millón de tokens. Para cualquier persona que ya esté utilizando Gemini 3 Pro a través de la API, la actualización es gratuita.
Rendimiento de referencia en todo el tablero
La tarjeta del modelo muestra que Gemini 3.1 Pro se adjudica el primer lugar en 12 de 18 referencias rastreadas. Más allá de ARC-AGI-2, los destacados incluyen un 94,3% en GPQA Diamond, una prueba de razonamiento científico de nivel de posgrado, y 2.887 Elo en LiveCodeBench Pro, la puntuación más alta en todos los modelos de vanguardia para programación competitiva.
En Humanity’s Last Exam, una referencia extraída de preguntas de expertos crowdsourced en diversas disciplinas académicas, 3.1 Pro alcanza un 44,4%, frente al 37,5% de Gemini 3 Pro y el 34,5% de GPT-5.2. La referencia multilingüe MMLU muestra un 92,6%, y la precisión de contexto largo en 128.000 tokens se mantiene en un 84,9%.
El modelo mantiene una ventana de contexto de entrada de 1 millón de tokens y genera hasta 64.000 tokens de salida, lo que coincide con las especificaciones de herramientas de codificación de IA que necesitan ingerir código completo y producir bloques de código sustanciales en una sola sesión.
Donde 3.1 Pro no lidera es también revelador. En SWE-Bench Verified, una prueba de tareas de ingeniería de software del mundo real, obtiene un 80,6%, justo detrás de Anthropic’s Claude Opus 4.6 con un 80,8%. La brecha es marginal, pero muestra que Anthropic mantiene una ligera ventaja en las tareas de codificación prácticas que impulsan la adopción empresarial.
Qué cambios en el pensamiento dinámico
Gemini 3.1 Pro utiliza el pensamiento dinámico de forma predeterminada, un enfoque en el que el modelo ajusta la cantidad de razonamiento interno que aplica en función de la complejidad de cada solicitud. Las preguntas simples obtienen respuestas rápidas. Los problemas complejos de múltiples pasos desencadenan cadenas de procesamiento más profundas antes de que el modelo genere su respuesta.
Los desarrolladores pueden controlar este comportamiento a través de un parámetro thinking_level en la API, estableciendo la profundidad máxima del razonamiento interno. Esto aborda una tensión en los modelos de razonamiento: el pensamiento extendido mejora la precisión en problemas difíciles, pero agrega latencia y costo para las consultas directas. El pensamiento dinámico intenta automatizar ese intercambio.
La característica refleja un cambio más amplio en la industria. Los modelos o-series de OpenAI introdujeron el razonamiento en cadena de pensamiento como un modo seleccionable. Anthropic’s Claude utiliza el pensamiento extendido como una característica opt-in. El enfoque de Google de hacerlo predeterminado, con intensidad variable, apuesta a que la mayoría de los usuarios preferirían dejar que el modelo decida cuánto pensar en lugar de gestionar esa decisión ellos mismos.
El campo competitivo se estrecha
Gemini 3.1 Pro llega en un mercado donde el liderazgo en referencias cambia de manos mensualmente. Gemini 3 de Google desencadenó un “código rojo” en OpenAI que produjo GPT-5.2 en menos de un mes. Anthropic ha estado lanzando actualizaciones de Claude a un ritmo acelerado. Cada lanzamiento reduce la brecha entre los modelos, lo que hace que la elección entre plataformas dependa cada vez más del ecosistema y los precios en lugar de la capacidad bruta.
La ventaja de Google sigue siendo la distribución. Gemini 3.1 Pro se integra directamente en productos utilizados por cientos de millones de personas: Gmail, Docs, Search y las características de Inteligencia Personal que conectan el modelo con los datos personales de los usuarios. El modelo también impulsa Gemini Enterprise y Gemini CLI, lo que da a los desarrolladores y empresas acceso a través de herramientas que ya utilizan.
Para los desarrolladores que eligen entre modelos de vanguardia, la decisión de precios se ha facilitado. A $2 por millón de tokens de entrada, Gemini 3.1 Pro supera los precios de los modelos insignia de OpenAI y Anthropic para capacidades comparables. La actualización gratuita desde 3 Pro elimina cualquier fricción de migración para los usuarios existentes.
Las ganancias de razonamiento importan más para aplicaciones agénticas, sistemas de IA que planifican, ejecutan tareas de múltiples pasos y utilizan herramientas de forma autónoma. ARC-AGI-2 prueba específicamente el tipo de reconocimiento de patrones novedosos que los agentes necesitan cuando se enfrentan a problemas que sus datos de entrenamiento no cubrían. Un modelo que obtiene un 77,1% en esa prueba maneja situaciones desconocidas de manera mucho más confiable que uno que obtiene un 31,1%.
Si estas ganancias en referencias se traducen en mejoras reales proporcionales es la pregunta que Google necesitará responder en las próximas semanas. Las referencias capturan capacidades específicas en condiciones controladas; la experiencia del usuario real depende de cómo el modelo se desempeña en el rango impredecible de tareas que la gente le lanza. El salto en ARC-AGI-2 sugiere que 3.1 Pro maneja mejor la novedad que cualquier modelo anterior. Lo que los usuarios hagan con esa capacidad determinará si los números importan.












