Leaders d’opinion

Benchmarks pour les LLM

Published August 28, 2024

Updated April 27, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

Comprenez le rôle et les limites des benchmarks dans l’évaluation des performances des LLM. Explorez les techniques pour développer des LLM robustes.

Les grands modèles de langage ont gagné une popularité massive ces dernières années. Je veux dire, vous l’avez vu. La capacité exceptionnelle des LLM à comprendre les commandes de langage humain les a rendus l’intégration parfaite pour les entreprises, en soutenant les flux de travail critiques et en automatisant les tâches pour une efficacité maximale. De plus, au-delà de la compréhension moyenne de l’utilisateur, il y a tellement plus de choses que les LLM peuvent faire. Et à mesure que notre dépendance à leur égard augmente, nous devons vraiment prêter plus d’attention aux mesures pour assurer l’exactitude et la fiabilité nécessaires. Il s’agit d’une tâche mondiale qui concerne l’ensemble des institutions, mais dans le domaine des entreprises, il existe désormais plusieurs benchmarks qui peuvent être utilisés pour évaluer les performances des LLM dans divers domaines. Ceux-ci peuvent tester les capacités du modèle en termes de compréhension, de construction logique, de mathématiques, etc., et les résultats déterminent si un LLM est prêt pour le déploiement commercial.

Dans cet article, j’ai rassemblé une liste complète des benchmarks les plus populaires pour l’évaluation des LLM. Nous allons discuter de chaque benchmark en détail et voir comment différents LLM se comportent par rapport aux critères d’évaluation. Mais d’abord, comprenons l’évaluation des LLM en plus de détails.

Qu’est-ce que l’évaluation des LLM ?

Comme les autres modèles d’IA, les LLM doivent également être évalués par rapport à des benchmarks spécifiques qui évaluent divers aspects des performances du modèle de langage : connaissance, exactitude, fiabilité et cohérence. La norme implique généralement :

Compréhension des requêtes utilisateur : Évaluation de la capacité du modèle à comprendre et à interpréter avec précision une large gamme de requêtes utilisateur.
Vérification de la sortie : Vérification des réponses générées par l’IA par rapport à une base de connaissances fiable pour s’assurer qu’elles sont correctes et pertinentes.
Robustesse : Mesure de la façon dont le modèle se comporte avec des entrées ambigües, incomplètes ou bruyantes.

L’évaluation des LLM donne aux développeurs le pouvoir d’identifier et de résoudre les limitations de manière efficace, afin qu’ils puissent améliorer l’expérience utilisateur globale. Si un LLM est évalué de manière approfondie, il sera suffisamment précis et robuste pour gérer différentes applications du monde réel, même celles avec des entrées ambigües ou inattendues.

Benchmarks

Les LLM sont l’un des éléments de technologie les plus compliqués à ce jour et peuvent alimenter même les applications les plus complexes. Le processus d’évaluation doit donc être tout aussi complexe, en mettant à l’épreuve sa pensée et sa précision technique.

Un benchmark utilise des jeux de données spécifiques, des métriques et des tâches d’évaluation pour tester les performances des LLM, et permet de comparer différents LLM et de mesurer leur exactitude, ce qui à son tour impulse les progrès dans l’industrie grâce à des performances améliorées.

Voici quelques-uns des aspects les plus typiques des performances des LLM :

Connaissance : Les connaissances du modèle doivent être testées dans divers domaines. C’est ce que le benchmark de connaissance est pour. Il évalue comment efficacement le modèle peut rappeler des informations provenant de différents domaines, comme la physique, la programmation, la géographie, etc.
Raisonnement logique : Cela signifie tester la capacité d’un modèle à « penser » étape par étape et à dériver une conclusion logique, ils impliquent généralement des scénarios dans lesquels le modèle doit sélectionner la continuation la plus plausible ou l’explication basée sur les connaissances quotidiennes et le raisonnement logique.
Compréhension de la lecture : Les modèles doivent être excellents dans l’interprétation du langage naturel et générer des réponses en conséquence. Le test ressemble à répondre à des questions basées sur des passages pour évaluer la compréhension, la déduction et la rétention de détails. Comme un test de lecture scolaire.
Compréhension du code : Cela est nécessaire pour mesurer la compétence d’un modèle dans la compréhension, la rédaction et le débogage du code. Ces benchmarks donnent au modèle des tâches de codage ou des problèmes à résoudre avec précision, souvent couvrant une gamme de langages de programmation et de paradigmes.
Connaissances du monde : Pour évaluer la compréhension du modèle des connaissances générales sur le monde. Ces jeux de données comportent généralement des questions qui nécessitent une connaissance encyclopédique large pour être répondues correctement, ce qui les distingue des benchmarks de connaissance plus spécifiques et spécialisés.

Benchmarks de « connaissance »

MMLU (Multimodal Language Understanding)

Ce benchmark est conçu pour tester la compréhension des LLM de connaissances factuelles dans divers sujets comme les humanités, les sciences sociales, l’histoire, l’informatique et même le droit. 57 questions et 15 000 tâches, toutes destinées à s’assurer que le modèle a de grandes capacités de raisonnement. Cela fait de MMLU un bon outil pour évaluer les connaissances factuelles et le raisonnement des LLM dans divers sujets.

Récemment, il est devenu un benchmark clé pour évaluer les LLM pour les domaines mentionnés ci-dessus. Les développeurs veulent toujours optimiser leurs modèles pour surpasser les autres dans ce benchmark, ce qui en fait une norme de facto pour évaluer le raisonnement avancé et les connaissances dans les LLM. Les grands modèles de niveau entreprise, comme GPT-4-omni, ont montré des scores impressionnants sur ce benchmark, y compris GPT-4-omni à 88,7 %, Claude 3 Opus à 86,8 %, Gemini 1,5 Pro à 85,9 % et Llama-3 70B à 82 %. Les petits modèles ne performent généralement pas aussi bien sur ce benchmark, ne dépassant généralement pas 60-65 %, mais la performance récente de Phi-3-Small-7b à 75,3 % est quelque chose à considérer.

Cependant, MMLU n’est pas sans inconvénients : il comporte des problèmes connus tels que des questions ambigües, des réponses incorrectes et un manque de contexte. Et beaucoup pensent que certaines de ses tâches sont trop faciles pour une évaluation appropriée des LLM.

Je voudrais clarifier que les benchmarks comme MMLU ne dépeignent pas parfaitement les scénarios du monde réel. Si un LLM obtient un excellent score sur celui-ci, cela ne signifie pas nécessairement qu’il est devenu un expert dans le domaine. Les benchmarks sont vraiment limités dans leur portée et s’appuient souvent sur des questions à choix multiple, qui ne peuvent jamais capturer pleinement la complexité et le contexte des interactions du monde réel. Une véritable compréhension nécessite de connaître les faits et d’appliquer ces connaissances de manière dynamique, ce qui implique la pensée critique, la résolution de problèmes et la compréhension contextuelle. Pour ces raisons, les LLM doivent être constamment affinés et mis à jour afin que le modèle maintienne la pertinence et l’efficacité du benchmark.

GPQA (Graduate-Level Google-Proof Q&A Benchmark)

Ce benchmark évalue les LLM sur le raisonnement logique en utilisant un jeu de données avec seulement 448 questions. Des experts dans le domaine l’ont développé et il couvre des sujets en biologie, physique et chimie.

Chaque question passe par le processus de validation suivant :

Un expert dans le même sujet répond à la question et fournit des commentaires détaillés.
L’auteur de la question révise la question en fonction de ces commentaires.
Un deuxième expert répond à la question révisée.

Ce processus peut en fait s’assurer que les questions sont objectives, précises et difficiles pour un modèle de langage. Même des chercheurs expérimentés en doctorat n’obtiennent qu’une précision de 65 % sur ces questions, tandis que GPT-4-omni n’atteint que 53,6 %, mettant en évidence le fossé entre l’intelligence humaine et l’intelligence artificielle.

En raison des exigences de qualification élevées, le jeu de données est en fait assez petit, ce qui limite quelque peu sa puissance statistique pour comparer la précision, et nécessite de grands effets de taille. Les experts qui ont créé et validé ces questions provenaient de Upwork, ils ont donc potentiellement introduit des biais basés sur leur expertise et les sujets couverts.

Benchmarks de code

HumanEval

164 problèmes de programmation, un véritable test pour les capacités de codage des LLM. C’est HumanEval. Il est conçu pour tester les capacités de codage de base des grands modèles de langage (LLM). Il utilise la métrique pass@k pour juger de l’exactitude fonctionnelle du code généré, qui donne la probabilité qu’au moins un des meilleurs exemples de code généré par le LLM passe les tests de cas.

Alors que le jeu de données HumanEval inclut des signatures de fonction, des docstrings, des corps de code et plusieurs tests unitaires, il ne couvre pas la gamme complète des problèmes de codage du monde réel, ce qui ne testera pas adéquatement la capacité d’un modèle à générer un code correct pour divers scénarios.

MBPP (Mostly Basic Python Programming)

Mbpp est un benchmark composé de 1 000 questions de programmation Python créées par la foule. Ce sont des problèmes de niveau débutant et ils se concentrent sur les compétences de programmation fondamentales. Il utilise des approches de few-shot et de fine-tuning pour évaluer les performances du modèle, les plus grands modèles performant généralement mieux sur ce jeu de données. Cependant, puisque le jeu de données contient principalement des programmes de niveau débutant, il ne représente pas pleinement la complexité et les défis des applications du monde réel.

Benchmarks mathématiques

Alors que la plupart des LLM sont très bons pour structurer des réponses standard, le raisonnement mathématique est un problème beaucoup plus important pour eux. Pourquoi ? Parce que cela nécessite des compétences liées à la compréhension des questions, à une approche logique étape par étape avec un raisonnement mathématique, et à la dérivation de la bonne réponse.

La méthode « Chaîne de pensée » (CoT) est conçue pour évaluer les LLM sur les benchmarks liés aux mathématiques, elle implique de demander aux modèles d’expliquer leur processus de raisonnement étape par étape lors de la résolution d’un problème. Il y a plusieurs avantages à cela. Cela rend le processus de raisonnement plus transparent, aide à identifier les défauts dans la logique du modèle, et permet une évaluation plus granulaire des compétences en résolution de problèmes. En décomposant des problèmes complexes en une série d’étapes plus simples, CoT peut améliorer les performances du modèle sur les benchmarks mathématiques et fournir des informations plus approfondies sur ses capacités de raisonnement.

GSM8K : Un benchmark mathématique populaire

L’un des benchmarks bien connus pour évaluer les capacités mathématiques des LLM est le jeu de données GSM8K. GSM8K se compose de 8 500 problèmes mathématiques de niveau collège, qui nécessitent plusieurs étapes pour être résolus, et les solutions impliquent principalement des calculs élémentaires. Généralement, les plus grands modèles ou ceux spécifiquement formés pour le raisonnement mathématique tendent à performer mieux sur ce benchmark, par exemple, les modèles GPT-4 affichent un score de 96,5 %, tandis que DeepSeekMATH-RL-7B est légèrement en retard à 88,2 %.

Alors que GSM8K est utile pour évaluer la capacité d’un modèle à gérer des problèmes mathématiques de niveau scolaire, il peut ne pas pleinement capturer la capacité d’un modèle à résoudre des défis mathématiques plus avancés ou divers, limitant ainsi son efficacité comme mesure globale de capacité mathématique.

Le jeu de données mathématiques : Une alternative complète

Le jeu de données mathématiques a traité des lacunes des benchmarks comme GSM8K. Ce jeu de données est plus vaste, couvrant l’arithmétique élémentaire jusqu’aux problèmes de niveau collège et même universitaire. Il est également comparé aux performances humaines, avec un étudiant en doctorat en informatique qui n’aime pas les mathématiques atteignant une précision de 40 % et un médaillé d’or atteignant une précision de 90 %.

Il fournit une évaluation plus complète des capacités mathématiques d’un LLM. Il s’assure que le modèle est compétent en arithmétique de base et en algèbre, en géométrie et en calcul. Mais la complexité et la diversité accrues des problèmes peuvent rendre difficile pour les modèles d’atteindre une grande précision, en particulier ceux qui n’ont pas été explicitement formés sur une large gamme de concepts mathématiques. De plus, les formats de problèmes variés dans le jeu de données mathématiques peuvent introduire des incohérences dans les performances du modèle, ce qui rend plus difficile de tirer des conclusions définitives sur la compétence mathématique globale d’un modèle.

L’utilisation de la méthode de chaîne de pensée avec le jeu de données mathématiques peut améliorer l’évaluation car elle révèle les capacités de raisonnement étape par étape des LLM sur une large gamme de défis mathématiques. Une approche combinée comme celle-ci garantit qu’il y a une évaluation plus robuste et plus détaillée des véritables capacités mathématiques d’un LLM.

Benchmarks de compréhension de la lecture

Une évaluation de la compréhension de la lecture évalue la capacité du modèle à comprendre et à traiter des textes complexes, ce qui est particulièrement fondamental pour des applications comme le support client, la génération de contenu et la récupération d’informations. Il existe plusieurs benchmarks conçus pour évaluer cette compétence, chacun avec des attributs uniques qui contribuent à une évaluation complète des capacités d’un modèle.

RACE (Reading Comprehension dataset from Examinations)

Les benchmarks RACE comportent près de 28 000 passages et 100 000 questions collectées à partir d’examens en anglais pour les élèves chinois de niveau collège et lycée âgés de 12 à 18 ans. Il ne restreint pas les questions et les réponses à être extraites des passages donnés, ce qui rend les tâches encore plus difficiles.

Il couvre un large éventail de sujets et de types de questions, ce qui permet une évaluation approfondie et inclut des questions à différents niveaux de difficulté. De plus, les questions dans RACE sont spécifiquement conçues pour tester les compétences de lecture humaines et sont créées par des experts dans le domaine.

Cependant, le benchmark a certains inconvénients. Puisqu’il est développé à partir de matériel pédagogique chinois, il est enclin à introduire des biais culturels qui ne reflètent pas un contexte global. De plus, le niveau de difficulté élevé de certaines questions n’est pas représentatif des tâches du monde réel typiques. Les évaluations de performances peuvent donc ne pas être très précises.

DROP (Discrete Reasoning Over Paragraphs)

Une autre approche significative est DROP (Discrete Reasoning Over Paragraphs), qui défie les modèles pour effectuer un raisonnement discret sur des paragraphes. Il comporte 96 000 questions pour tester les capacités de raisonnement des LLM et les questions sont extraites de Wikipedia et créées par la foule via Amazon Mechanical Turk. Les questions DROP obligent souvent les modèles à effectuer des opérations mathématiques comme l’addition, la soustraction et la comparaison sur la base d’informations dispersées dans un paragraphe.

Les questions sont difficiles. Ils exigent que les LLM localisent plusieurs nombres dans le paragraphe et les ajoutent ou les soustraient pour obtenir la réponse finale. Les grands modèles comme GPT-4 et Palm atteignent 80 % et 85 %, tandis que les humains atteignent 96 % sur le jeu de données DROP.

Benchmarks de bon sens

Tester le bon sens dans les modèles de langage est intéressant mais également clé car cela évalue la capacité d’un modèle à porter des jugements et à faire des inférences qui s’alignent sur le raisonnement humain. Contrairement à nous, qui développons un modèle de monde complet à travers des expériences pratiques, les modèles de langage sont formés sur de vastes jeux de données sans vraiment comprendre le contexte. Cela signifie que les modèles luttent avec des tâches qui nécessitent une compréhension intuitive des situations quotidiennes, un raisonnement logique et des connaissances pratiques, qui sont très importantes pour des applications d’IA robustes et fiables.

HellaSwag (Harder Endings, Longer contexts, and Low-shot Activities for Situations With Adversarial Generations)

Hellaswag a été développé par Rowan Zellers et ses collègues à l’Université de Washington et à l’Institut Allen pour l’intelligence artificielle. Il est conçu pour tester la capacité d’un modèle à prédire la continuation la plus plausible d’un scénario donné. Ce benchmark est construit en utilisant un filtrage adversatif (AF), où une série de discriminateurs sélectionne itérativement des réponses incorrectes générées par machine. Cette méthode crée un jeu de données avec des exemples triviaux pour les humains mais difficiles pour les modèles, aboutissant à une « zone de difficulté » idéale.

Alors que Hellaswag a été difficile pour les modèles précédents, les modèles de pointe comme GPT-4 ont atteint des niveaux de performance proches de la précision humaine, indiquant des progrès importants dans le domaine. Cependant, ces résultats suggèrent le besoin de benchmarks continuellement évolutifs pour suivre les progrès des capacités d’IA.

Openbook

Le jeu de données Openbook se compose de 5 957 questions de sciences à choix multiple de niveau élémentaire, qui sont recueillies à partir d’examens ouverts et développées pour évaluer la compréhension humaine du sujet.

Le benchmark Openbook nécessite une capacité de raisonnement au-delà de la récupération d’informations. GPT-4 atteint la précision la plus élevée à 95,9 % à ce jour.

OpenbookQA est modelé d’après des examens ouverts et se compose de 5 957 questions de sciences à choix multiple de niveau élémentaire. Ces questions sont conçues pour sonder la compréhension de 1 326 faits scientifiques de base et leur application à des situations nouvelles.

De même que Hellaswag, les modèles précédents ont trouvé OpenbookQA difficile, mais les modèles modernes comme GPT-4 ont atteint des niveaux de performance proches de ceux des humains. Ce progrès souligne l’importance de développer des benchmarks encore plus complexes et nuancés pour continuer à pousser les limites de la compréhension d’IA.

Les benchmarks sont-ils suffisants pour l’évaluation des performances des LLM ?

Oui, même s’ils offrent une approche standardisée pour évaluer les performances des LLM, ils peuvent également être trompeurs. L’organisation des systèmes de modèles de grande taille indique qu’un bon benchmark pour les LLM doit être évolutif, capable d’évaluer de nouveaux modèles avec un nombre relativement faible d’essais, et fournir un ordre de classement unique pour tous les modèles. Mais il y a des raisons pour lesquelles ils peuvent ne pas être suffisants. Voici quelques-unes :

Fuite de benchmark

C’est une rencontre courante, et cela se produit lorsque les données de formation se chevauchent avec les données de test, ce qui entraîne une évaluation trompeuse. Si un modèle a déjà rencontré certaines questions de test pendant la formation, son résultat peut ne pas refléter avec précision ses véritables capacités. Mais un benchmark idéal devrait minimiser la mémorisation et refléter les scénarios du monde réel.

Biais d’évaluation

Les tableaux de bord des benchmarks pour les LLM sont utilisés pour comparer les performances des LLM sur diverses tâches. Cependant, s’appuyer sur ces tableaux de bord pour comparer les modèles peut être trompeur. De simples changements dans les tests de benchmark, comme modifier l’ordre des questions, peuvent déplacer le classement des modèles de jusqu’à huit positions. De plus, les LLM peuvent performer différemment en fonction des méthodes de notation, mettant en évidence l’importance de considérer les biais d’évaluation.

Caractère ouvert

L’interaction avec les LLM dans le monde réel implique la conception de invites pour générer les sorties d’IA souhaitées. Les sorties des LLM dépendent de l’efficacité des invites, et les benchmarks sont conçus pour tester la conscience du contexte des LLM. Même si les benchmarks sont conçus pour tester la conscience du contexte d’un LLM, ils ne se traduisent pas toujours directement en performances du monde réel. Par exemple, un modèle qui atteint un score de 100 % sur un jeu de données de benchmark, comme le LSAT, ne garantit pas le même niveau de précision dans les applications pratiques. Cela souligne l’importance de considérer la nature ouverte des tâches du monde réel dans l’évaluation des LLM.

Évaluation efficace pour des LLM robustes

Donc, maintenant vous savez que les benchmarks ne sont pas toujours la meilleure option car ils ne peuvent pas toujours généraliser à tous les problèmes. Mais il y a d’autres moyens.

Benchmarks personnalisés

Ceux-ci sont parfaits pour tester des comportements et des fonctionnalités spécifiques dans des scénarios d’exécution de tâches. Disons, si un LLM est conçu pour les officiers médicaux, les jeux de données collectés à partir de contextes médicaux représentent efficacement les scénarios du monde réel. Ces benchmarks personnalisés peuvent se concentrer sur la compréhension du langage spécifique au domaine, les performances et les exigences contextuelles uniques. En alignant les benchmarks avec les scénarios du monde réel possibles, vous pouvez vous assurer que le LLM se comporte bien en général et excelle dans les tâches spécifiques pour lesquelles il est destiné. Cela peut aider à identifier et à résoudre les lacunes ou les faiblesses dans les capacités du modèle dès le départ.

Pipeline de détection de fuite de données

Si vous voulez que vos évaluations « montrent » de l’intégrité, avoir un pipeline de benchmark exempt de fuite de données est très important. La fuite de données se produit lorsque les données de benchmark sont incluses dans le corpus de préformation du modèle, aboutissant à des scores de performance artificiellement élevés. Pour éviter cela, les benchmarks doivent être comparés aux données de préformation. De plus, des étapes pour éviter toute information précédemment vue. Cela peut impliquer l’utilisation de jeux de données propriétaires ou nouvellement curés qui sont maintenus séparément du pipeline de formation du modèle – cela garantira que les métriques de performance que vous obtenez reflètent la capacité du modèle à généraliser bien.

Évaluation humaine

Les métriques automatisées seules ne peuvent pas capturer la pleine gamme des performances d’un modèle, en particulier lorsqu’il s’agit d’aspects nuancés et subjectifs de la compréhension et de la génération du langage. Ici, l’évaluation humaine fournit une évaluation beaucoup plus complète :

Embaucher des professionnels qui peuvent fournir des évaluations détaillées et fiables, en particulier pour des domaines spécialisés.
Externalisation ! Les plateformes comme Amazon Mechanical Turk permettent de recueillir rapidement des jugements humains diversifiés et à faible coût.
Retour de la communauté : L’utilisation de plateformes comme l’arène de leaderboard LMSYS, où les utilisateurs peuvent voter et comparer des modèles, ajoute une couche supplémentaire d’insight. L’arène de chatbot LMSYS Hard, par exemple, est particulièrement efficace pour mettre en évidence les différences subtiles entre les meilleurs modèles à travers des interactions utilisateur directes et des votes.

Conclusion

Sans évaluation et benchmarking, nous n’aurions aucun moyen de savoir si la capacité des LLM à gérer les tâches du monde réel est aussi précise et applicable que nous le pensons. Mais, comme je l’ai dit, les benchmarks ne sont pas une façon complètement infaillible de vérifier cela, ils peuvent conduire à des lacunes dans les performances des LLM. Cela peut également ralentir le développement de LLM qui sont vraiment robustes pour le travail.

C’est ainsi que cela devrait être dans un monde idéal. Les LLM comprennent les requêtes utilisateur, identifient les erreurs dans les invites, exécutent les tâches comme indiqué et génèrent des sorties fiables. Les résultats sont déjà grands mais pas idéaux. C’est là que les benchmarks spécifiques à la tâche prouvent être très utiles, tout comme l’évaluation humaine et la détection de fuite de benchmark. En utilisant ceux-ci, nous avons la chance de produire des LLM vraiment robustes.

Irina Barskaya, PhD, Head Data Scientist at Yandex

Irina Barskaya, PhD, est une scientifique de données distinguée avec plus d'une décennie d'expérience, englobant à la fois l'analyse de produits et l'analyse pour les technologies de pointe. Elle a dirigé la création et l'analyse pour Yasmina, le premier assistant vocal basé sur l'IA entièrement fonctionnel et localisé pour l'Arabie saoudite, gérant une localisation de données complexe et un étiquetage pour l'arabe standard moderne et les dialectes saoudiens. Actuellement, Irina dirige l'analyse de la qualité chez Yandex, impulsant les progrès dans les technologies de l'IA.