Leaders d’opinion

L’échec des LLM dans les mathématiques et comment y remédier

Published December 5, 2024

Updated April 27, 2026

Peter Relan, Chairman of MathGPT.ai

Les mathématiques ont toujours posé un défi important pour les modèles d’intelligence artificielle. Maîtriser les mathématiques nécessite des compétences de raisonnement complexes, et pour l’IA, cette tâche est loin d’être simple. Cela crée un énorme problème étant donné l’importance de la maîtrise des mathématiques pour le succès professionnel, personnel et académique.

Malgré leurs capacités remarquables, les grands modèles de langage (LLM) ont souvent des difficultés avec les tâches mathématiques complexes, telles que la géométrie, qui exigent des compétences de raisonnement avancées. Cela nous amène à la question critique : quelle partie des capacités mathématiques d’un modèle d’IA provient d’un véritable raisonnement et non d’une simple mémorisation des données d’entraînement ?

Des découvertes récentes d’Apple montrent que même lorsqu’elles se concentrent sur les problèmes de mathématiques de l’école primaire, les modèles les plus sophistiqués ne sont pas complètement guidés par le « raisonnement ».

En allant plus loin, l’équipe de recherche et développement de MathGPT.ai a jeté une nouvelle lumière sur les domaines d’algèbre au niveau de calcul qui nécessitent le plus d’amélioration.

Ces données ont exploré comment les variations du contexte du problème et du langage affectent les performances du modèle sur différents LLM, y compris les derniers modèles o1-preview et o1-mini d’OpenAI. Les résultats ont révélé une tendance inquiétante : la précision a diminué de manière constante à mesure que les problèmes s’éloignaient des questions originales disponibles dans les données d’entraînement des LLM, avec des performances qui ont fortement chuté sur des benchmarks mathématiques plus difficiles au-dessus du niveau de mathématiques de l’école primaire.

Le dilemme du rappel et du raisonnement

L’enquête s’est concentrée sur trois facteurs clés :

Utiliser des benchmarks mathématiques plus difficiles que les mathématiques de l’école primaire
Explorer une « invite à un coup » avec une proximité extrême avec le problème de test
Mettre en œuvre une stratégie « du meilleur de n » pour n tentatives du même problème – effectivement un vote majoritaire pour éliminer les anomalies statistiques, au moment de l’inférence.

Les résultats ont été à la fois intrigants et inquiétants. Les limites de la variation des problèmes ont été poussées, ce qui a montré une diminution constante des performances du modèle d’IA à mesure que les équations mathématiques devenaient plus complexes.

Le défi du jeu de données MATH

Le jeu de données MATH a été déployé, connu pour ses problèmes de niveau lycée difficiles, par opposition au jeu de données Grade School Math 8K, qui contient 8 500 problèmes de niveau élémentaire linguistiquement divers. Le jeu de données MATH présente des problèmes de niveau lycée plus difficiles pour examiner les performances du modèle sur différents niveaux de difficulté, de la préalgèbre à la théorie des nombres. Ce choix a permis à MathGPT.ai d’examiner mieux les performances du modèle sur différents niveaux de difficulté.

Lors des tests, bien que les valeurs numériques et les réponses finales soient restées inchangées, nous avons varié le langage, les variables et le contexte des problèmes. Par exemple, un scénario « promenade de chien » pourrait être transformé en un problème « lave-vaisselle ». Cette méthode a aidé à atténuer la complexité accrue du jeu de données MATH tout en continuant à mettre à l’épreuve les capacités de raisonnement des modèles.

Résultats révélateurs

Les résultats ont été frappants. Même les modèles les plus avancés ont eu du mal lorsqu’ils ont été confrontés à des variations de problèmes qu’ils avaient probablement rencontrés dans leurs données d’entraînement. Par exemple, la précision du modèle o1-mini est passée de 93,66 % sur les questions originales à 88,54 % sur la variation la plus difficile. Le modèle o1-preview a connu une diminution similaire, passant de 91,22 % à 82,93 % – une chute suffisamment abrupte pour mettre en évidence des lacunes critiques dans leur robustesse.

Ces résultats sont conformes aux recherches antérieures d’Apple et démontrent que les limites du raisonnement mathématique de l’IA deviennent plus apparentes à mesure que les problèmes deviennent plus complexes et nécessitent une compréhension plus profonde plutôt que la reconnaissance de modèles.

La voie à suivre

Alors que nous continuons à pousser les limites du raisonnement des LLM, il est crucial de reconnaître à la fois leur potentiel incroyable et leurs limites actuelles. De nouvelles recherches soulignent la nécessité d’une innovation continue dans le développement de modèles d’IA capables de dépasser la reconnaissance de modèles pour atteindre des compétences de résolution de problèmes plus robustes et plus généralisables.

Cela se produit à un moment critique, en particulier dans l’enseignement supérieur, où l’IA est utilisée de plus en plus comme un outil d’aide pour les instructeurs en classe tout en voyant les écoles continuer à connaître des taux d’échec élevés parmi les étudiants en mathématiques qui ne sont pas préparés pour les cours.

Atteindre des capacités cognitives similaires à celles de l’homme ou une intelligence générale dans l’IA exige non seulement des progrès technologiques mais également une compréhension nuancée de la façon de combler le fossé entre la mémorisation et le véritable raisonnement.

Si nous réussissons sur ce chemin, je suis convaincu que nous pouvons changer la vie de millions d’étudiants et même de professionnels pour les mettre sur une trajectoire complètement nouvelle.

Unite.AI

L’échec des LLM dans les mathématiques et comment y remédier

Le dilemme du rappel et du raisonnement

Le défi du jeu de données MATH

Résultats révélateurs

La voie à suivre

You may like