Inteligencia Artificial
De plata a oro: cómo la IA de DeepMind conquistó la Olimpiada de Matemáticas

La IA de DeepMind ha logrado avances notables en el razonamiento matemático en tan solo un año. Tras obtener una medalla de plata en la Olimpiada Internacional de Matemáticas (OIM) en 2024, su sistema de IA obtuvo la medalla de oro en 2025. Este rápido avance pone de relieve las crecientes capacidades de la inteligencia artificial para abordar problemas complejos y abstractos que requieren una creatividad y una perspicacia similares a las humanas. Este artículo analizará cómo DeepMind logró esta transformación, las decisiones técnicas y estratégicas que la respaldaron y las implicaciones más amplias de estos avances.
La importancia de la OMI
El Olimpiada Internacional de MatemáticasFundada en 1959, es reconocida mundialmente como la principal competencia de matemáticas para estudiantes de secundaria. Cada año, los mejores estudiantes de todo el mundo se enfrentan a seis desafiantes problemas de álgebra, geometría, teoría de números y combinatoria. Resolver estos problemas requiere mucho más que cálculos; los participantes deben demostrar verdadera creatividad matemática, un pensamiento lógico riguroso y la capacidad de construir demostraciones elegantes.
Para la inteligencia artificial, la OMI presenta un desafío único. Si bien la IA domina el reconocimiento de patrones, el análisis de datos e incluso juegos complejos como el Go y el ajedrez, las matemáticas olímpicas exigen razonamiento creativo y abstracto, así como la síntesis de nuevas ideas, habilidades tradicionalmente consideradas características de la inteligencia humana. Como resultado, la OMI se ha convertido en un banco de pruebas natural para evaluar qué tan cerca está la IA de lograr un razonamiento verdaderamente similar al humano.
El avance de la medalla de plata de 2024
En 2024, DeepMind Introducido Dos sistemas de IA para abordar problemas de nivel OMI: AlphaProof y AlphaGeometry 2. Ambos sistemas son ejemplos de “neurosimbólico” IA, que combina las fortalezas de los modelos de lenguaje grandes (LLM) con el rigor de la lógica simbólica.
AlfaProof Fue diseñado para probar afirmaciones matemáticas utilizando "Lean", un lenguaje matemático formal. Combinaba Gemini, el gran modelo de lenguaje de DeepMind, con AlphaZero, un motor de aprendizaje por refuerzo conocido por su éxito en juegos de mesa. En este contexto, la función de Gemini era traducir problemas de lenguaje natural a Lean e intentar demostrarlos mediante la generación de pasos lógicos. AlphaProof se entrenó con millones de problemas de ejemplo que abarcaban diferentes disciplinas matemáticas y dificultades. El sistema se mejoró a sí mismo intentando demostrar enunciados cada vez más complejos, de forma similar a cómo AlphaZero aprendió jugando contra sí mismo.
AlfaGeometría 2 Fue diseñado para resolver problemas de geometría. En este caso, la comprensión del lenguaje de Gemini permitió a la IA predecir construcciones auxiliares útiles, mientras que un motor de razonamiento simbólico gestionaba las deducciones lógicas. Este enfoque híbrido permitió AlfaGeometría para abordar problemas geométricos que van mucho más allá del alcance del razonamiento de las máquinas tradicionales.
En conjunto, estos sistemas resolvieron cuatro de los seis problemas de la OMI: dos de álgebra, uno de teoría de números y uno de geometría, logrando una puntuación de 28 sobre 42. Este desempeño fue un hito significativo, ya que fue la primera vez que una IA había alcanzado El nivel de medalla de plata en la OMI. Sin embargo, este éxito dependía en gran medida de expertos humanos para traducir los problemas a lenguajes matemáticos formales. También requería recursos computacionales masivos, lo que requería días de procesamiento para cada problema.
Innovaciones técnicas detrás de la medalla de oro
La transición de DeepMind de una empresa de plata a una una medalla de oro El rendimiento fue impulsado por varias mejoras técnicas significativas.
1. El lenguaje natural como medio para las pruebas
El cambio más significativo fue la transición de sistemas que requerían traducciones expertas a lenguajes formales a utilizar el lenguaje natural como medio para las pruebas. Este cambio se logró mediante una versión mejorada de Gemini. equipada con Capacidades de pensamiento profundo. En lugar de convertir los problemas en Lean, el modelo procesa el texto directamente, genera bocetos informales, formaliza internamente los pasos críticos y produce una demostración refinada en inglés. Aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) se utilizó para recompensar soluciones que fueran lógicamente consistentes, breves y bien presentadas.
Gemini Deep Think se diferencia de la versión pública de Gemini en dos aspectos principales. En primer lugar, asigna ventanas de contexto más amplias y más tokens de cómputo por consulta, lo que permite al modelo mantener cadenas de pensamiento de varias páginas. En segundo lugar, utiliza razonamiento paralelo, donde se generan cientos de hilos especulativos para diferentes soluciones potenciales. Un supervisor ligero clasifica y promueve las rutas más prometedoras, tomando prestados conceptos de... Búsqueda de árboles en Monte Carlo Pero aplicado al texto. Este enfoque imita la forma en que los equipos humanos intercambian ideas, descartan ideas improductivas y convergen en soluciones elegantes.
2. Entrenamiento y aprendizaje de refuerzo
El entrenamiento de Gemini Deep Think implicó ajustar el modelo para predecir los siguientes pasos en lugar de las respuestas finales. Para ello, se compiló un corpus de 100,000 XNUMX soluciones de alta calidad para olimpiadas y concursos universitarios. El corpus se recopiló principalmente de foros públicos de matemáticas, preimpresiones de arXiv y conjuntos de problemas universitarios. Los mentores revisaron los ejemplos de entrenamiento para filtrar las demostraciones ilógicas o incompletas. El aprendizaje por refuerzo ayudó a refinar el modelo, orientándolo hacia la producción de demostraciones concisas y precisas. Las primeras versiones produjeron demostraciones excesivamente verbosas, pero las penalizaciones por frases redundantes contribuyeron a reducir el resultado.
A diferencia del ajuste fino convencional, que suele presentar dificultades con recompensas escasas donde la retroalimentación es binaria, ya sea que la prueba sea correcta o no, DeepMind implementó un sistema de recompensas gradual, donde cada sublema verificado contribuía a la puntuación general. Este mecanismo de recompensa guía a Gemini incluso cuando la prueba completa es poco frecuente. El proceso de entrenamiento duró tres meses y utilizó aproximadamente 25 millones de horas de TPU.
3. Paralelización masiva
La paralelización también jugó un papel crucial en el avance de DeepMind de la plata al oro. Cada problema generaba múltiples ramas de razonamiento en paralelo, y los recursos se desplazaban dinámicamente hacia vías más prometedoras cuando otros se estancaban. Esta programación dinámica fue especialmente beneficiosa para los problemas combinatorios, que tienen amplios espacios de solución. El enfoque es similar al que utilizan los humanos para probar desigualdades auxiliares antes de comprometerse con una inducción completa. Si bien esta técnica era computacionalmente costosa, era factible utilizando los clústeres TPU v5 de DeepMind.
DeepMind en la OMI 2025
Para mantener la integridad de la competición, DeepMind congeló los pesos del modelo tres semanas antes de la OMI para evitar la filtración de problemas oficiales en el conjunto de entrenamiento. También filtraron datos que contenían soluciones a preguntas de las Olimpiadas no publicadas previamente.
Durante la competición, Gemini Deep Think recibió los seis problemas oficiales en texto plano, sin acceso a internet. El sistema operó en un clúster configurado para simular la capacidad computacional de una computadora portátil estándar por proceso. Todo el proceso de resolución de problemas se completó en menos de tres horas, dentro del plazo establecido. Las pruebas generadas se enviaron a los coordinadores de la OMI sin modificaciones.
Gemini Deep Think obtuvo puntuaciones perfectas en los primeros cinco problemas. Sin embargo, la pregunta final, un desafiante rompecabezas combinatorio, dejó perplejos tanto a la IA como al 94 % de los participantes humanos. A pesar de ello, la IA obtuvo una puntuación total de 35/42, lo que le permitió obtener la medalla de oro. Esta puntuación fue siete puntos superior a la del año anterior, que le otorgó la medalla de plata. Posteriormente, los observadores describieron las demostraciones de la IA como "diligentes" y "completas", señalando que seguían las rigurosas justificaciones que se esperaban de los participantes humanos.
Implicaciones para la IA y las matemáticas
El logro de DeepMind es un hito significativo tanto para la IA como para las matemáticas. Para la IA, dominar la OMI supone un paso hacia la inteligencia artificial general (IAG), donde los sistemas pueden realizar cualquier tarea intelectual que un humano pueda realizar. Resolver problemas matemáticos complejos requiere razonamiento y comprensión, componentes fundamentales de la inteligencia general. Este éxito indica que la IA está avanzando hacia capacidades cognitivas más similares a las humanas.
En el ámbito matemático, sistemas de IA como Gemini Deep Think pueden convertirse en herramientas invaluables para los matemáticos. Pueden ayudar a explorar nuevas áreas, verificar conjeturas e incluso descubrir nuevos teoremas. Al automatizar los aspectos más tediosos de la construcción de demostraciones, la IA permite a los matemáticos humanos centrarse en el trabajo conceptual de alto nivel. Además, las técnicas desarrolladas para estos sistemas de IA podrían inspirar nuevos métodos de investigación matemática que podrían no ser posibles solo con el esfuerzo humano.
Sin embargo, el progreso de la IA en matemáticas también plantea interrogantes sobre su papel en entornos educativos y competiciones. A medida que las capacidades de la IA sigan creciendo, surgirán debates sobre cómo su participación podría alterar la naturaleza de la educación y la competición matemática.
Mirando hacia el futuro
Obtener el oro en la OMI es un hito significativo, pero muchos desafíos matemáticos aún permanecen fuera del alcance de los sistemas de IA actuales. Sin embargo, el rápido avance de la plata al oro en tan solo un año pone de manifiesto el ritmo acelerado de las innovaciones y los desarrollos en IA. Si este ritmo continúa, los sistemas de IA podrían pronto abordar algunos de los problemas matemáticos sin resolver más conocidos. Si bien la pregunta de si la IA reemplazará o potenciará la creatividad humana sigue sin resolverse, la OMI de 2025 es una clara indicación de que la inteligencia artificial ha logrado avances significativos en el razonamiento lógico.