Leaders d’opinion

L’échec des LLM dans les mathématiques et comment y remédier

mm

Les mathématiques ont toujours posé un défi important pour les modèles d’intelligence artificielle. Maîtriser les mathématiques nécessite des compétences de raisonnement complexes, et pour l’IA, cette tâche est loin d’être simple. Cela crée un énorme problème étant donné l’importance de la maîtrise des mathématiques pour le succès professionnel, personnel et académique.

Malgré leurs capacités remarquables, les grands modèles de langage (LLM) ont souvent des difficultés avec des tâches mathématiques complexes, telles que la géométrie, qui exigent des compétences de raisonnement avancées. Cela nous amène à la question critique : quelle partie de la capacité mathématique d’un modèle d’IA provient d’un véritable raisonnement et non d’une simple répétition des données d’entraînement ?

Des découvertes récentes d’Apple montrent que même lorsqu’ils se concentrent sur des problèmes de mathématiques de niveau élémentaire, les modèles les plus sophistiqués ne sont pas complètement guidés par le « raisonnement ».

En allant plus loin, l’équipe de R&D de MathGPT.ai a jeté une nouvelle lumière sur les domaines de l’algèbre au calcul qui nécessitent le plus d’amélioration.

Ces données ont exploré comment les variations du contexte et du langage affectent les performances du modèle à travers différents LLM, y compris les derniers modèles o1-preview et o1-mini d’OpenAI. Les résultats ont révélé une tendance inquiétante : la précision a constamment diminué à mesure que les problèmes s’éloignaient des questions originales disponibles dans les données d’entraînement des LLM, avec des performances qui ont chuté de manière significative sur des benchmarks mathématiques plus difficiles au-delà du niveau de mathématiques de l’école primaire.

Le dilemme de la répétition et du raisonnement

L’enquête s’est concentrée sur trois facteurs clés :

  1. Utiliser des benchmarks mathématiques plus difficiles que les mathématiques de l’école primaire
  2. Explorer un « prompt à un coup » avec une proximité extrême avec le problème de test
  3. Mettre en œuvre une stratégie de « meilleur de n » pour n tentatives du même problème – effectivement un vote majoritaire pour éliminer les anomalies statistiques, au moment de l’inférence.

Les résultats étaient à la fois intrigants et inquiétants. Les limites de la variation des problèmes ont été repoussées, ce qui a montré une diminution constante des performances du modèle d’IA à mesure que les équations mathématiques devenaient plus complexes.

Le défi du jeu de données MATH

Le jeu de données MATH a été déployé, connu pour ses problèmes de niveau secondaire difficiles, par opposition au jeu de données Grade School Math 8K, qui contient 8 500 problèmes de niveau élémentaire diversifiés linguistiquement. Le jeu de données MATH présente des questions de niveau secondaire plus difficiles pour examiner les performances du modèle à travers différents niveaux de difficulté, de la pré-algèbre à la théorie des nombres. Ce choix a permis à MathGPT.ai d’examiner plus en détail les performances du modèle à travers différents niveaux de difficulté.

Lors des tests, bien que les valeurs numériques et les réponses finales soient restées inchangées, nous avons varié le langage, les variables et le contexte des problèmes. Par exemple, un scénario de « chien qui marche » pourrait être transformé en un problème de « lave-vaisselle ». Cette méthode a aidé à atténuer la complexité accrue du jeu de données MATH tout en continuant à mettre à l’épreuve les capacités de raisonnement des modèles.

Résultats révélateurs

Les résultats étaient frappants. Même les modèles les plus avancés ont eu du mal lorsqu’ils ont été confrontés à des variations de problèmes qu’ils avaient probablement rencontrés dans leurs données d’entraînement. Par exemple, la précision du modèle o1-mini est passée de 93,66 % sur les questions originales à 88,54 % sur la variation la plus difficile. Le modèle o1-preview a connu une diminution similaire, passant de 91,22 % à 82,93 % – une chute suffisamment importante pour mettre en évidence les lacunes critiques dans leur robustesse.

Ces résultats sont conformes aux recherches antérieures d’Apple et démontrent que les limites du raisonnement mathématique de l’IA deviennent plus apparentes à mesure que les problèmes deviennent plus complexes et nécessitent une compréhension plus profonde plutôt que la reconnaissance de modèles.

La voie à suivre

Alors que nous continuons à repousser les limites du raisonnement des LLM, il est crucial de reconnaître à la fois leur potentiel incroyable et leurs limites actuelles. De nouvelles recherches soulignent la nécessité d’une innovation continue dans le développement de modèles d’IA capables de dépasser la reconnaissance de modèles pour atteindre des compétences de résolution de problèmes plus robustes et plus généralisables.

Cela se produit à un moment critique, en particulier dans l’enseignement supérieur, où l’IA est de plus en plus utilisée comme outil d’aide pour les instructeurs en classe tout en constatant que les écoles continuent à connaître des taux d’échec élevés parmi les étudiants en mathématiques qui ne sont pas préparés pour les cours.

Atteindre des capacités cognitives similaires à celles de l’homme ou une intelligence générale dans l’IA nécessite non seulement des progrès technologiques mais également une compréhension nuancée de la façon de combler le fossé entre la répétition et le véritable raisonnement.

Si nous réussissons sur ce chemin, je suis convaincu que nous pouvons changer la vie de millions d’étudiants et même de professionnels pour les mettre sur une trajectoire complètement nouvelle.

Peter est le président de MathGPT.ai, il est également un entrepreneur et mentor expérimenté dans le domaine de la technologie, dédié à développer des solutions ayant un impact qui améliorent la vie. Après avoir obtenu un diplôme d'études supérieures à Stanford en 1992, il a passé 30 ans à fonder et à soutenir des entreprises dans les domaines du jeu, de l'IoT, du logiciel, de l'IA et de l'innovation climatique.

En tant que fondateur de YouWeb Incubator, il a guidé les startups avec un financement et un mentorat pratique, obtenant un succès notable. Peter siège également aux conseils d'administration de The Tech, GotIt! et GotIt! AI, conseille l'Institut de gestion du carbone de l'UCLA et dirige la Fondation Dharma Karma.