Лидеры мнений

Неудача Больших Языковых Моделей в Математике и Как Её Решить

Published December 5, 2024

Updated April 27, 2026

Peter Relan, Chairman of MathGPT.ai

Математика всегда представляла значительную проблему для моделей искусственного интеллекта. Освоение математики требует сложных навыков рассуждения, и для ИИ эта задача далеко не тривиальна. Это создает огромную проблему, учитывая важность математической грамотности для профессионального, личного и академического успеха.

Несмотря на их замечательные способности, большие языковые модели (LLMs) часто борются с сложными математическими задачами, такими как геометрия, которые требуют продвинутых навыков рассуждения. Это приводит нас к критическому вопросу: сколько математической способности модели ИИ исходит от настоящего рассуждения, а не от простого воспоминания обучающих данных?

Недавние исследования Apple показывают, что даже когда внимание сосредоточено на математических задачах начальной школы, самые совершенные модели не полностью управляются «рассуждением».

Идущий дальше, команда исследований и разработки MathGPT.ai пролила новый свет на области алгебры до математического анализа, которые требуют наиболее значительного улучшения.

Эти данные исследовали, как вариации контекста проблемы и языка влияют на производительность модели в разных LLM, включая последние модели o1-preview и o1-mini от OpenAI. Результаты показали тревожную тенденцию: точность последовательно снижалась, когда задачи отклонялись от исходных вопросов, доступных в обучающих данных LLM, а производительность резко падала на более сложных математических эталонах выше уровня начальной школы.

Дилемма Воспоминания и Рассуждения

Исследование было сосредоточено на трёх ключевых факторах:

Использование более сложных математических эталонов, чем математика начальной школы
Изучение «1-шот-промпта» с экстремальной близостью к тестовой задаче
Реализация стратегии «лучшего из n» для n попыток решить одну и ту же задачу – эффективно большинством голосов для исключения статистических аномалий в момент вывода.

Результаты были как интригующими, так и тревожными. Границы вариации задач были расширены, что показало последовательное снижение производительности модели ИИ, когда математические уравнения становились более сложными.

Вызов Набора Данных MATH

Был развернут набор данных MATH, известный своими сложными задачами уровня средней школы, в отличие от набора данных Grade School Math 8K, который содержит 8 500 лингвистически разнообразных элементарных задач. Набор данных MATH представляет более сложные задачи уровня средней школы для изучения производительности модели на различных уровнях сложности, от предалгебры до теории чисел. Этот выбор позволил MathGPT.ai лучше изучить производительность модели на различных уровнях сложности.

При тестировании, хотя числовые значения и окончательные ответы оставались неизменными, мы варьировали язык, переменные и контекст задач. Например, сценарий «прогулка с собакой» мог быть преобразован в задачу «посудомойка». Этот метод помог смягчить возросшую сложность набора данных MATH, сохраняя при этом сложность для навыков рассуждения моделей.

Раскрытие Результатов

Результаты были поразительными. Даже самые совершенные модели испытывали трудности, когда сталкивались с вариациями задач, которые они, вероятно, встречали в своих обучающих данных. Например, точность модели o1-mini снизилась с 93,66% на исходных вопросах до 88,54% на наиболее сложной вариации. Модель o1-preview испытала аналогичное снижение, упав с 91,22% до 82,93% – достаточно резкое снижение, чтобы подчеркнуть критические пробелы в их прочности.

Эти результаты соответствуют и развивают более ранние исследования Apple, демонстрируя, что ограничения математического рассуждения ИИ становятся более очевидными, когда задачи становятся более сложными и требуют более глубокого понимания, а не распознавания образов.

Путь Вперед

Когда мы продолжаем расширять границы рассуждения LLM, важно признать как их невероятный потенциал, так и текущие ограничения. Новые исследования подчеркивают необходимость продолжения инноваций в разработке моделей ИИ, способных выйти за рамки распознавания образов для достижения более прочных и общих навыков решения проблем.

Это происходит в критический момент, особенно в высшем образовании, где ИИ все чаще используется в качестве помощи преподавателям в классе, а также школы продолжают наблюдать высокие показатели неудач среди студентов, не подготовленных к математическим курсам.

Достижение когнитивных способностей, подобных человеческим, или общего интеллекта в ИИ требует не только технологических достижений, но и тонкого понимания того, как мостить разрыв между воспоминанием и настоящим рассуждением.

Если мы преуспеем на этом пути, я уверен, что мы сможем изменить жизни миллионов студентов и даже профессионалов, поставив их жизнь на совершенно новую траекторию.

Unite.AI

Неудача Больших Языковых Моделей в Математике и Как Её Решить

Дилемма Воспоминания и Рассуждения

Вызов Набора Данных MATH

Раскрытие Результатов

Путь Вперед

You may like