Искусственный интеллект
От Серебра к Золоту: Как ИИ DeepMind Завоевал Математическую Олимпиаду

ИИ DeepMind сделал замечательный прогресс в математическом рассуждении в течение всего одного года. После получения серебряной медали на Международной математической олимпиаде (IMO) в 2024 году, их система ИИ получила золотую медаль в 2025 году. Этот быстрый прогресс подчеркивает растущие возможности искусственного интеллекта в решении сложных, абстрактных проблем, требующих человеческого творчества и проницательности. В этой статье мы рассмотрим, как DeepMind достигла этого преобразования, технические и стратегические решения, стоящие за этим, и более широкие последствия этих достижений.
Значимость IMO
Международная математическая олимпиада, основанная в 1959 году, признана во всем мире как главное математическое соревнование для школьников. Каждый год лучшие студенты со всего мира сталкиваются с шестью сложными проблемами по алгебре, геометрии, теории чисел и комбинаторике. Решение этих проблем требует гораздо больше, чем вычисления; участники должны показать настоящую математическую креативность, строгое логическое мышление и способность строить элегантные доказательства.
Для искусственного интеллекта IMO представляет собой уникальный вызов. Хотя ИИ освоил распознавание образов, анализ данных и даже сложные игры, такие как Го и шахматы, олимпиадная математика требует творческого, абстрактного рассуждения и синтеза новых идей, навыков, традиционно считающихся характерными для человеческого интеллекта. В результате IMO стала естественным полигоном для оценки того, насколько близок ИИ к достижению真正щего человеческого рассуждения.
Прорыв Серебряной Медали в 2024 году
В 2024 году DeepMind представила две системы ИИ для решения проблем IMO-уровня: AlphaProof и AlphaGeometry 2. Обе системы являются примерами “нейро-символического” ИИ, сочетающего сильные стороны больших языковых моделей (LLM) с строгостью символической логики.
AlphaProof был разработан для доказательства математических утверждений с помощью Lean, формального математического языка. Он объединил Gemini, большую языковую модель DeepMind, с AlphaZero, который является двигателем обучения с подкреплением, известным своей успешностью в настольных играх. В этом контексте роль Gemini заключалась в переводе естественного языка проблем в Lean и попытке доказательств путем генерации логических шагов. AlphaProof был обучен на миллионах образцов проблем, охватывающих различные математические дисциплины и уровни сложности. Система улучшала себя, пытаясь доказать все более сложные утверждения, подобно тому, как AlphaZero учился, играя в игры против себя.
AlphaGeometry 2 был разработан для решения геометрических проблем. Здесь языковое понимание Gemini позволило ИИ предсказать полезные вспомогательные конструкции, а символический двигатель рассуждений управлял логическими выводами. Этот гибридный подход позволил AlphaGeometry решать геометрические проблемы, далеко выходящие за рамки традиционного машинного рассуждения.
Вместе эти системы решили четыре из шести проблем IMO: две по алгебре, одну по теории чисел и одну по геометрии, достигнув результата 28 из 42. Это выступление было значительным рубежом, поскольку это был первый раз, когда ИИ достиг уровня серебряной медали на IMO. Однако этот успех сильно зависел от человеческих экспертов, переводящих проблемы в формальные математические языки. Они также требовали огромных вычислительных ресурсов, что заняло дни обработки для каждой проблемы.
Технические Инновации За Золотую Медаль
Переход DeepMind от серебряной до золотой медали был обусловлен несколькими значительными техническими улучшениями.
1. Естественный Язык Как Средство Доказательств
Самым значительным изменением было переход от систем, требующих экспертных переводов в формальные языки, к использованию естественного языка как средства доказательств. Этот переход был достигнут с помощью улучшенной версии Gemini оснащенной возможностями Deep Think. Вместо перевода проблем в Lean, модель обрабатывает текст trực, генерирует неформальные эскизы, внутренне формализует критические шаги и производит отточённое английское доказательство. Обучение с подкреплением от человеческой обратной связи (RLHF) использовалось для награждения решений, которые были логически последовательными, краткими и представленными.
Gemini Deep Think отличается от публичной версии Gemini двумя основными способами. Во-первых, он выделяет более длинные окна контекста и больше вычислительных токенов на запрос, что позволяет модели поддерживать цепочки мыслей на нескольких страницах. Во-вторых, он использует параллельное рассуждение, где сотни спекулятивных нитей генерируются для разных потенциальных решений. Лёгкий супервайзер затем ранжирует и продвигает наиболее перспективные пути, заимствуя концепции из Монте-Карло дерева поиска, но применяемые к тексту. Этот подход имитирует, как человеческие команды генерируют идеи, отбрасывают непродуктивные идеи и сходятся на элегантных решениях.
2. Обучение и Обучение С Подкреплением
Обучение Gemini Deep Think включало дообучение модели для предсказания следующих шагов, а не окончательных ответов. Для этой цели была собрана коллекция из 100 000 высококачественных решений олимпиадных и студенческих конкурсов. Коллекция была в основном собрана из публичных математических форумов, arXiv-предпубликаций и колледжских задач. Человеческие наставники проверяли примеры обучения, чтобы отфильтровать нелогичные или неполные доказательства. Обучение с подкреплением помогло усовершенствовать модель, направляя ее на производство кратких и точных доказательств. Ранние версии производили слишком многословные доказательства, но штрафы на избыточные фразы помогли обрезать вывод.
В отличие от обычной дообучки, которая часто борется с разреженными наградами, где обратная связь бинарна, либо доказательство правильное, либо нет. DeepMind реализовала систему наград за каждый шаг, где каждая подтвержденная сублемма вносила вклад в общий счет. Этот механизм награды направляет Gemini даже тогда, когда полное доказательство редко. Процесс обучения занял три месяца и использовал примерно 25 миллионов TPU-часов.
3. Массовая Параллелизация
Параллелизация также сыграла решающую роль в прогрессе DeepMind от серебра к золоту. Каждая проблема генерировала несколько ветвей рассуждений параллельно, с ресурсами, динамически переключаемыми на более перспективные пути, когда другие застревали. Этот динамический подход был особенно полезен для комбинаторных проблем, которые имеют большие пространства решений. Подход аналогичен тому, как люди проверяют вспомогательные неравенства, прежде чем приступить к полной индукции. Хотя этот метод был вычислительно дорогим, он был управляемым с помощью кластеров TPU v5 DeepMind.
DeepMind на IMO 2025
Чтобы сохранить целостность соревнования, DeepMind заморозила веса модели за три недели до IMO, чтобы предотвратить утечку официальных проблем в обучающий набор. Они также отфильтровали данные, содержащие решения ранее неопубликованных олимпиадных вопросов.
Во время соревнования Gemini Deep Think был предоставлен с шестью официальными проблемами в формате простого текста, без доступа к интернету. Система работала на кластере, сконфигурированном для имитации вычислительной мощности стандартного ноутбука на процесс. Всего процесса решения проблем было завершено менее чем за три часа, что было хорошо в рамках временных ограничений. Сгенерированные доказательства были представлены координаторам IMO без изменений.
Gemini Deep Think получил идеальные баллы за первые пять проблем. Последний вопрос, который был сложной комбинаторной головоломкой, однако, озадачил как ИИ, так и 94% человеческих участников. Несмотря на это, ИИ завершил с общим результатом 35/42, обеспечив золотую медаль. Этот результат был на семь очков выше, чем выступление серебряной медали предыдущего года. Наблюдатели позже описали доказательства ИИ как “прилежные” и “полные”, отметив, что они следовали строгим обоснованиям, ожидаемым от человеческих участников.
Последствия для ИИ и Математики
Достижение DeepMind является значительным рубежом как для ИИ, так и для математики. Для ИИ освоение IMO является шагом к искусственному общему интеллекту (AGI), где системы могут выполнять любую интеллектуальную задачу, которую может выполнить человек. Решение сложных математических проблем требует рассуждения и понимания, которые являются фундаментальными компонентами общего интеллекта. Этот успех указывает на то, что ИИ делает шаги к более человеческим когнитивным способностям.
Для математики системы ИИ, такие как Gemini Deep Think, могут стать бесценными инструментами для математиков. Они могут помочь в исследовании новых областей, проверке гипотез и даже открытии новых теорем. Автоматизируя более скучные аспекты построения доказательств, ИИ освобождает человеческих математиков, чтобы они могли сосредоточиться на высокоуровневой концептуальной работе. Кроме того, методы, разработанные для этих систем ИИ, могут вдохновить новые методы в математических исследованиях, которые могут быть невозможны благодаря человеческим усилиям alone.
Однако прогресс ИИ в математике также вызывает вопросы о роли ИИ в образовательных учреждениях и соревнованиях. По мере того, как возможности ИИ продолжают расти, будут дискуссии о том, как его участие может изменить природу математического образования и соревнований.
Взгляд в Будущее
Победа в IMO – это значительный рубеж, но многие математические проблемы все еще остаются недоступными для текущих систем ИИ. Однако быстрый прогресс от серебра к золоту за всего один год подчеркивает ускоряющийся темп инноваций и разработок ИИ. Если этот темп продолжится, системы ИИ могут вскоре решить некоторые из самых знаменитых нерешенных математических проблем. Хотя вопрос о том, заменит ли ИИ человеческое творчество или улучшит его, остается нерешенным, IMO 2025 является явным указанием на то, что искусственный интеллект сделал значительные шаги в логическом рассуждении.












