Свяжитесь с нами:

Неудача LLM в математике и как ее решить

Лидеры мысли

Неудача LLM в математике и как ее решить

mm

Математика всегда представляла собой значительную проблему для моделей ИИ. Освоение математики требует сложных навыков рассуждения, и для ИИ эта задача совсем не простая. Это создает огромную проблему, учитывая важность математических навыков для профессионального, личного и академического успеха.

Несмотря на свои замечательные способности, большие языковые модели (LLM) часто бороться со сложными математическими задачами, например, геометрия, которая требует продвинутых навыков рассуждения. Это подводит нас к важному вопросу: какая часть математических способностей модели ИИ исходит из подлинного рассуждения, а какая — из простого припоминания обучающих данных?

Последние выводы от Apple показывают, что даже при рассмотрении текстовых задач по математике начальной школы самые сложные модели не полностью основаны на «рассуждениях».

Команда исследователей и разработчиков MathGPT.ai пошла еще дальше и пролила новый свет на области алгебры и математики на уровне исчисления, которые требуют наибольшего улучшения.

Эти данные позволили изучить, как различия в контексте задачи и языке влияют на производительность моделей в различных программах LLM, включая новейшие модели OpenAI o1-preview и o1-mini. Результаты выявили тревожную тенденцию: точность последовательно снижалась по мере отклонения задач от исходных вопросов, доступных в обучающих данных программ LLM, при этом производительность резко падала на более сложных математических тестах, превышающих уровень математики начальной школы. 

Дилемма «припоминание против рассуждения»

Расследование было сосредоточено на трех ключевых факторах:

  1. Использование более сложных математических тестов, чем математика начальной школы
  2. Изучение «одноразовой подсказки» с максимальной близостью к тестовой задаче
  3. Реализация стратегии «лучшее из n» для n попыток решения одной и той же проблемы — по сути, голосование большинства для устранения статистических аномалий во время вывода. 

Результаты были одновременно интригующими и тревожными. Границы вариации проблемы были расширены, что показало последовательное снижение производительности модели ИИ по мере усложнения математических уравнений.

Задача набора данных MATH

Набор данных MATH был развернут, известный своими сложными задачами уровня средней школы, в отличие от набора данных Grade School Math 8K, который содержит 8,500 лингвистически разнообразных задач элементарного уровня. Набор данных MATH представляет собой более сложные вопросы уровня средней школы для проверки производительности модели на разных уровнях сложности, от предалгебры до теории чисел. Этот выбор позволил MathGPT.ai лучше проверить производительность модели на разных уровнях сложности.

В ходе тестирования, хотя числовые значения и окончательные ответы оставались неизменными, мы варьировали язык, переменные и контекст задач. Например, сценарий «Выгул собаки» можно было преобразовать в задачу «Посудомоечная машина». Этот метод помог снизить возросшую сложность набора данных MATH, при этом по-прежнему испытывая рассудочные способности моделей.

Показательные результаты

Результаты оказались поразительными. Даже самые продвинутые модели испытывали трудности при столкновении с различными проблемами, с которыми они, вероятно, сталкивались в своих обучающих данных. Например, точность модели o1-mini упала с 93.66% на исходных вопросах до 88.54% на самом сложном варианте. Точность модели o1-preview также снизилась: с 91.22% до 82.93% — достаточно резкое падение, чтобы выявить критические пробелы в их надежности.

Эти результаты согласуются с более ранними исследованиями Apple и развивают их, демонстрируя, что ограничения математических рассуждений ИИ становятся более очевидными по мере того, как проблемы становятся сложнее и требуют более глубокого понимания, а не распознавания образов.

Путь вперед

Продолжая расширять границы логического мышления для лиц, получающих степень магистра права (LLM), крайне важно осознавать как его невероятный потенциал, так и существующие ограничения. Новые исследования подчёркивают необходимость постоянных инноваций в разработке моделей ИИ, способных выйти за рамки распознавания образов и достичь более надёжных и универсальных навыков решения задач.

Это происходит в критический момент, особенно в сфере высшего образования, где искусственный интеллект все активнее используется в качестве помощника преподавателя в классе, а школы продолжают фиксировать высокие показатели неуспеваемости среди студентов-математиков, неподготовленных к курсам.

Достижение когнитивных способностей, подобных человеческим, или общего уровня интеллекта в ИИ требует не только технологических достижений, но и тонкого понимания того, как преодолеть разрыв между воспоминаниями и истинными рассуждениями. 

Если мы добьемся успеха на этом пути, я уверен, мы сможем изменить жизни миллионов студентов и даже специалистов, направив их на совершенно новый путь.

Питер является председателем MathGPT.ai, он также опытный предприниматель и наставник в сфере технологий, посвятивший себя разработке эффективных решений, которые улучшают жизнь. Получив степень магистра в Стэнфорде в 1992 году, он провел 30 лет, основывая и поддерживая предприятия в сфере игр, Интернета вещей, программного обеспечения, искусственного интеллекта и климатических инноваций.

Как основатель YouWeb Incubator, он руководил стартапами с финансированием и практическим наставничеством, достигая заметного успеха. Питер также входит в советы директоров The Tech, GotIt! и GotIt! AI, консультирует Институт углеродного менеджмента Калифорнийского университета в Лос-Анджелесе и возглавляет фонд Dharma Karma Foundation.