Искусственный интеллект
DeepSeek-Prover-V2: преодоление разрыва между неформальными и формальными математическими рассуждениями

В то время как ДипСик-Р1 значительно продвинула возможности ИИ в неформальном рассуждении, формальное математическое рассуждение осталось сложной задачей для ИИ. Это в первую очередь потому, что создание проверяемого математического доказательства требует как глубокого концептуального понимания, так и способности строить точные, пошаговые логические аргументы. Однако в последнее время в этом направлении достигнут значительный прогресс, поскольку исследователи DeepSeek-AI представили DeepSeek-Prover-V2, модель ИИ с открытым исходным кодом, способная преобразовывать математическую интуицию в строгие, проверяемые доказательства. В этой статье будут подробно рассмотрены детали DeepSeek-Prover-V2 и рассмотрено ее потенциальное влияние на будущие научные открытия.
Проблема формального математического мышления
Математики часто решают проблемы, используя интуицию, эвристику и рассуждения высокого уровня. Такой подход позволяет им пропускать шаги, которые кажутся очевидными, или полагаться на приближения, достаточные для их нужд. Однако формальное доказательство теорем требует иного подхода. Оно требует полной точности, когда каждый шаг явно указан и логически обоснован без какой-либо двусмысленности.
Недавние достижения в области больших языковых моделей (LLM) показали, что они могут решать сложные математические задачи соревновательного уровня, используя рассуждения на естественном языке. Однако, несмотря на эти достижения, LLM все еще испытывают трудности с преобразованием интуитивных рассуждений в формальные доказательства, которые могут проверить машины. Это в первую очередь связано с тем, что неформальные рассуждения часто включают сокращения и пропущенные шаги, которые формальные системы не могут проверить.
DeepSeek-Prover-V2 решает эту проблему, объединяя сильные стороны неформального и формального рассуждения. Он разбивает сложные проблемы на более мелкие, управляемые части, сохраняя при этом точность, требуемую формальной проверкой. Такой подход облегчает преодоление разрыва между человеческой интуицией и проверенными машиной доказательствами.
Новый подход к доказательству теорем
По сути, DeepSeek-Prover-V2 использует уникальный конвейер обработки данных, который включает как неформальные, так и формальные рассуждения. Конвейер начинается с DeepSeek-V3, универсального LLM, который анализирует математические задачи на естественном языке, разлагает их на более мелкие шаги и переводит эти шаги на формальный язык, который могут понимать машины.
Вместо того, чтобы пытаться решить всю проблему сразу, система разбивает ее на ряд «подцелей» — промежуточных лемм, которые служат ступеньками к окончательному доказательству. Этот подход воспроизводит то, как математики-люди решают сложные проблемы, работая с управляемыми частями, а не пытаясь решить все за один раз.
Инновационность этого подхода заключается в способе синтеза обучающих данных. После успешного решения всех подцелей сложной задачи система объединяет эти решения в полное формальное доказательство. Это доказательство затем сопоставляется с оригинальной цепочкой рассуждений DeepSeek-V3 для создания высококачественных обучающих данных «холодного старта» для обучения модели.
Обучение с подкреплением для математического мышления
После первоначального обучения на синтетических данных DeepSeek-Prover-V2 использует усиление обучения для дальнейшего улучшения своих возможностей. Модель получает обратную связь о том, верны ли ее решения или нет, и использует эту обратную связь, чтобы узнать, какие подходы работают лучше всего.
Одной из проблем здесь является то, что структура сгенерированных доказательств не всегда соответствовала разложению леммы, предложенному цепочка мыслей. Чтобы исправить это, исследователи включили вознаграждение за согласованность на этапах обучения, чтобы уменьшить структурное несоответствие и обеспечить включение всех разложенных лемм в окончательные доказательства. Этот подход к согласованию оказался особенно эффективным для сложных теорем, требующих многошагового рассуждения.
Производительность и реальные возможности
Производительность DeepSeek-Prover-V2 на проверенных тестах демонстрирует его исключительные возможности. Модель демонстрирует впечатляющие результаты на MiniF2F-тест тест и успешно решает 49 из 658 задач PutnamBench – сборник задач престижного математического конкурса Уильяма Лоуэлла Патнэма.
Возможно, более впечатляюще, если оценивать по 15 выбранным проблемам из недавних Американский пригласительный экзамен по математике (AIME) соревнованиях модель успешно решила 6 задач. Интересно также отметить, что по сравнению с DeepSeek-Prover-V2, DeepSeek-V3 8 из этих задач были решены большинством голосов. Это говорит о том, что разрыв между формальным и неформальным математическим мышлением у студентов магистратуры права быстро сокращается. Однако эффективность модели при решении комбинаторных задач всё ещё требует улучшения, что указывает на область, на которой можно сосредоточить будущие исследования.
ProverBench: новый эталон для ИИ в математике
Исследователи DeepSeek также представили новый набор данных для оценки способности LLM решать математические задачи. Этот набор данных, названный ProverBench, состоит из 325 формализованных математических задач, включая 15 задач из недавних соревнований AIME, а также задачи из учебников и учебных пособий. Эти задачи охватывают такие области, как теория чисел, алгебра, исчисление, действительный анализ и многое другое. Введение задач AIME особенно важно, поскольку оно оценивает модель в задачах, требующих не только припоминания знаний, но и творческого решения задач.
Открытый доступ и будущие последствия
DeepSeek-Prover-V2 предлагает захватывающие возможности благодаря своей доступности с открытым исходным кодом. Размещено на Платформы Как и Hugging Face, модель доступна широкому кругу пользователей, включая исследователей, преподавателей и разработчиков. С более легкой версией на 7 миллиардов параметров и мощной версией на 671 миллиард параметров исследователи DeepSeek гарантируют, что пользователи с различными вычислительными ресурсами все еще могут извлечь из нее пользу. Этот открытый доступ поощряет эксперименты и позволяет разработчикам создавать передовые инструменты ИИ для решения математических задач. В результате эта модель имеет потенциал для стимулирования инноваций в математических исследованиях, позволяя исследователям решать сложные проблемы и открывать новые идеи в этой области.
Последствия для ИИ и математических исследований
Разработка DeepSeek-Prover-V2 имеет важное значение не только для математических исследований, но и для искусственного интеллекта. Способность модели генерировать формальные доказательства может помочь математикам в решении сложных теорем, автоматизации процессов верификации и даже в выдвижении новых гипотез. Более того, методы, использованные при создании DeepSeek-Prover-V2, могут повлиять на разработку будущих моделей искусственного интеллекта в других областях, где требуется строгое логическое мышление, например, в разработке программного и аппаратного обеспечения.
Исследователи намерены масштабировать модель для решения еще более сложных задач, например, на уровне Международной математической олимпиады (IMO). Это может еще больше улучшить возможности ИИ по доказательству математических теорем. Поскольку такие модели, как DeepSeek-Prover-V2, продолжают развиваться, они могут переопределить будущее как математики, так и ИИ, способствуя прогрессу в различных областях: от теоретических исследований до практических приложений в технологиях.
Выводы
DeepSeek-Prover-V2 — это значительное развитие в области математических рассуждений, основанных на ИИ. Он сочетает неформальную интуицию с формальной логикой для разбиения сложных проблем и генерации проверяемых доказательств. Его впечатляющие результаты на бенчмарках показывают его потенциал для поддержки математиков, автоматизации проверки доказательств и даже стимулирования новых открытий в этой области. Как модель с открытым исходным кодом, он широко доступен, предлагая захватывающие возможности для инноваций и новых приложений как в ИИ, так и в математике.