Connect with us

DeepSeek-Prover-V2: Мост между неформальной и формальной математической логикой

Искусственный интеллект

DeepSeek-Prover-V2: Мост между неформальной и формальной математической логикой

mm

Хотя DeepSeek-R1 значительно расширил возможности ИИ в неформальном рассуждении, формальная математическая логика остается сложной задачей для ИИ. Это в первую очередь связано с тем, что создание верифицируемого математического доказательства требует как глубокого понимания концепций, так и способности строить точные, пошаговые логические аргументы. Однако最近 было достигнуто значительное продвижение в этом направлении, поскольку исследователи в DeepSeek-AI представили DeepSeek-Prover-V2, открытую модель ИИ, способную преобразовывать математическую интуицию в строгие, верифицируемые доказательства. Эта статья углубится в детали DeepSeek-Prover-V2 и рассмотрит его потенциальное влияние на будущие научные открытия.

Проблема формальной математической логики

Математики часто решают проблемы, используя интуицию, эвристику и высокоуровневое рассуждение. Этот подход позволяет им пропускать шаги, которые кажутся очевидными, или полагаться на приближения, достаточные для их потребностей. Однако формальная теорема доказательства требует другого подхода. Это требует полной точности, с каждым шагом явно заявленным и логически обоснованным без какой-либо двусмысленности.

Недавние достижения в области крупных языковых моделей (LLM) показали, что они могут решать сложные, конкурентные математические проблемы, используя естественно-языковое рассуждение. Несмотря на эти достижения, однако, LLM все еще испытывают трудности в преобразовании интуитивного рассуждения в формальные доказательства, которые машины могут проверить. Это в первую очередь связано с тем, что неформальное рассуждение часто включает в себя сокращения и пропущенные шаги, которые формальные системы не могут проверить.

DeepSeek-Prover-V2 решает эту проблему, сочетая сильные стороны неформального и формального рассуждения. Он разбивает сложные проблемы на более мелкие, управляемые части, сохраняя при этом точность, необходимую для формальной верификации. Этот подход делает его проще мостить разрыв между человеческой интуицией и машинно-проверяемыми доказательствами.

Новый подход к теореме доказательства

По сути, DeepSeek-Prover-V2 использует уникальную обработку данных, которая включает в себя как неформальное, так и формальное рассуждение. Pipeline начинается с DeepSeek-V3, общего языкового модели, который анализирует математические проблемы в естественном языке, разбивает их на более мелкие шаги и переводит эти шаги в формальный язык, который машины могут понять.

Вместо того, чтобы пытаться решить всю проблему сразу, система разбивает ее на ряд “подцелей” – промежуточных лемм, которые служат ступенями к окончательному доказательству. Этот подход повторяет то, как человеческие математики решают сложные проблемы, работая над управляемыми частями, а не пытаясь решить все сразу.

Что делает этот подход особенно инновационным, так это то, как он синтезирует обучающие данные. Когда все подцели сложной проблемы успешно решены, система объединяет эти решения в полное формальное доказательство. Это доказательство затем объединяется с исходным рассуждением DeepSeek-V3, чтобы создать высококачественные “холодные” обучающие данные для обучения модели.

Реинфорсмент-обучение для математического рассуждения

После первоначального обучения на синтетических данных DeepSeek-Prover-V2 использует реинфорсмент-обучение, чтобы еще больше улучшить свои возможности. Модель получает обратную связь о том, являются ли ее решения правильными или нет, и она использует эту обратную связь, чтобы узнать, какие подходы работают лучше.

Одной из проблем здесь является то, что структура сгенерированных доказательств не всегда соответствует лемме-разложению, предложенному цепочкой мыслей. Чтобы исправить это, исследователи включили награду за последовательность на этапах обучения, чтобы уменьшить структурное несоответствие и обеспечить включение всех разложенных лемм в окончательные доказательства. Этот подход к согласованности оказался особенно эффективным для сложных теорем, требующих многоступенчатого рассуждения.

Производительность и реальные возможности

Производительность DeepSeek-Prover-V2 на установленных бенчмарках демонстрирует его исключительные возможности. Модель достигает впечатляющих результатов на бенчмарке MiniF2F-test и успешно решает 49 из 658 проблем из PutnamBench – коллекции проблем из престижного математического конкурса Уильяма Лоуэлла Путнэма.

Возможно, еще более впечатляющим является то, что при оценке на 15 выбранных проблем из недавних Американских пригласительных математических экзаменов (AIME) модель успешно решила 6 проблем. Также интересно отметить, что по сравнению с DeepSeek-Prover-V2, DeepSeek-V3 решила 8 из этих проблем, используя голосование большинства. Это говорит о том, что разрыв между формальной и неформальной математической логикой быстро сокращается в LLM. Однако производительность модели на комбинаторных проблемах все еще требует улучшения, подчеркивая область, где будущие исследования могли бы сосредоточиться.

ProverBench: Новый бенчмарк для ИИ в математике

Исследователи DeepSeek также представили новый набор данных бенчмарка для оценки математических возможностей решения проблем LLM. Этот бенчмарк, названный ProverBench, состоит из 325 формализованных математических проблем, включая 15 проблем из недавних конкурсов AIME, а также проблемы из учебников и образовательных уроков. Эти проблемы охватывают области, такие как теория чисел, алгебра, исчисление, реальный анализ и многое другое. Введение проблем AIME особенно важно, поскольку оно оценивает модель на проблемах, которые требуют не только знаний, но и творческого решения проблем.

Открытый доступ и будущие последствия

DeepSeek-Prover-V2 предлагает интересную возможность с его открытым доступом. Размещенный на платформах như Hugging Face, модель доступна широкому кругу пользователей, включая исследователей, педагогов и разработчиков. С как более легкой 7-миллиардной версией параметров, так и мощной 671-миллиардной версией параметров, исследователи DeepSeek обеспечивают, что пользователи с различными вычислительными ресурсами все еще могут извлечь из нее пользу. Этот открытый доступ поощряет эксперименты и позволяет разработчикам создавать передовые инструменты ИИ для математического решения проблем. В результате эта модель имеет потенциал стимулировать инновации в математических исследованиях, наделяя исследователей возможностью решать сложные проблемы и открывать новые идеи в области.

Последствия для ИИ и математических исследований

Разработка DeepSeek-Prover-V2 имеет значительные последствия не только для математических исследований, но и для ИИ. Способность модели генерировать формальные доказательства может помочь математикам решать сложные теоремы, автоматизировать процессы верификации и даже предлагать новые предположения. Кроме того, методы, использованные для создания DeepSeek-Prover-V2, могут повлиять на разработку будущих моделей ИИ в других областях, которые полагаются на строгую логическую логику, такие как программная и аппаратная инженерия.

Исследователи стремятся масштабировать модель, чтобы решать еще более сложные проблемы, такие как те, которые представлены на Международной математической олимпиаде (IMO). Это может еще больше продвинуть возможности ИИ для доказательства математических теорем. По мере того, как модели, подобные DeepSeek-Prover-V2, продолжают эволюционировать, они могут переопределить будущее как математики, так и ИИ, стимулируя достижения в области теоретических исследований и практических применений в технологиях.

Основная мысль

DeepSeek-Prover-V2 является значительным развитием в области ИИ-обусловленного математического рассуждения. Он сочетает неформальную интуицию с формальной логикой, чтобы разбить сложные проблемы и сгенерировать верифицируемые доказательства. Его впечатляющая производительность на бенчмарках демонстрирует его потенциал для поддержки математиков, автоматизации верификации доказательств и даже стимулирования новых открытий в области. Как открытая модель, она широко доступна, предлагая интересные возможности для инноваций и новых применений как в ИИ, так и в математике.

Доктор Техсин Зия является доцентом в университете COMSATS в Исламабаде, имеющим степень PhD в области ИИ в Венском техническом университете, Австрия. Специализируясь в области искусственного интеллекта, машинного обучения, науки о данных и компьютерного зрения, он внес значительный вклад с публикациями в авторитетных научных журналах. Доктор Техсин также возглавлял различные промышленные проекты в качестве основного исследователя и служил консультантом по ИИ.