Des leaders d'opinion

Benchmarks pour les LLM

Publié 28 août 2024

Irina Barskaïa, PhD, responsable scientifique des données chez Yandex

Comprendre le rôle et les limites des benchmarks dans l'évaluation des performances LLM. Explorez les techniques de développement de LLM robustes.

Les grands modèles de langage ont connu un succès fulgurant ces dernières années. Vous l'avez constaté. Leur capacité exceptionnelle à comprendre les commandes du langage humain en a fait l'intégration idéale pour les entreprises, prenant en charge les flux de travail critiques et automatisant les tâches pour une efficacité maximale. De plus, au-delà de la compréhension de l'utilisateur moyen, les LLM offrent bien plus. Face à leur dépendance croissante, nous devons accorder une attention accrue aux mesures visant à garantir la précision et la fiabilité nécessaires. Il s'agit d'une tâche mondiale qui concerne des institutions entières, mais dans le monde des entreprises, il existe désormais plusieurs critères permettant d'évaluer les performances des LLM dans divers domaines. Ces critères permettent de tester les capacités du modèle en matière de compréhension, de construction logique, de mathématiques, etc., et les résultats déterminent si un LLM est prêt à être déployé en entreprise.

Dans cet article, j'ai rassemblé une liste complète des critères les plus populaires pour l'évaluation LLM. Nous discuterons de chaque référence en détail et verrons comment les différents LLM se comportent par rapport aux critères d'évaluation. Mais d’abord, comprenons plus en détail l’évaluation LLM.

Qu'est-ce que l'évaluation LLM ?

Comme d'autres modèles d'IA, les LLM doivent être évalués selon des critères spécifiques évaluant divers aspects de la performance du modèle linguistique : connaissances, précision, fiabilité et cohérence. La norme implique généralement :

Comprendre les requêtes des utilisateurs : Évaluer la capacité du modèle à comprendre et interpréter avec précision un large éventail d’entrées utilisateur.
Vérification de sortie : Vérifier les réponses générées par l'IA par rapport à une base de connaissances fiable pour garantir qu'elles sont correctes et pertinentes.
Robustesse: Mesurer les performances du modèle avec des entrées ambiguës, incomplètes ou bruyantes.

L'évaluation LLM donne aux développeurs le pouvoir d'identifier et de résoudre efficacement les limitations, afin qu'ils puissent améliorer l'expérience utilisateur globale. Si un LLM est évalué de manière approfondie, il sera suffisamment précis et robuste pour gérer différentes applications du monde réel, y compris celles comportant des entrées ambiguës ou inattendues.

Repères

Les LLM sont l’un des éléments technologiques les plus complexes à ce jour et peuvent alimenter même les applications les plus délicates. Le processus d’évaluation doit donc tout simplement être tout aussi complexe, mettant à l’épreuve son processus de réflexion et sa précision technique.

Un benchmark utilise des ensembles de données, des mesures et des tâches d'évaluation spécifiques pour tester les performances des LLM et permet de comparer différents LLM et de mesurer leur précision, ce qui à son tour favorise les progrès dans l'industrie grâce à des performances améliorées.

Voici quelques-uns des aspects les plus typiques de la performance LLM :

ConnaissancesLes connaissances du modèle doivent être testées dans différents domaines. C'est à cela que sert le benchmark de connaissances. Il évalue l'efficacité du modèle à mémoriser des informations issues de différents domaines, comme la physique, la programmation, la géographie, etc.
logique Raisonnement: Il s'agit de tester la capacité d'un modèle à « penser » étape par étape et à tirer une conclusion logique. Il s'agit généralement de scénarios dans lesquels le modèle doit sélectionner la continuation ou l'explication la plus plausible en fonction des connaissances quotidiennes et du raisonnement logique.
Compréhension écrite: Les modèles doivent être excellents dans l'interprétation du langage naturel, puis générer des réponses en conséquence. Le test consiste à répondre à des questions basées sur des passages pour évaluer la compréhension, l'inférence et la rétention des détails. Comme un test de lecture à l'école.
Compréhension du code : Ces tests sont nécessaires pour mesurer la capacité d'un modèle à comprendre, écrire et déboguer du code. Ces tests donnent au modèle des tâches de codage ou des problèmes qu'il doit résoudre avec précision, couvrant souvent une gamme de langages et de paradigmes de programmation.
Connaissance du monde:Évaluer la maîtrise des connaissances générales du monde par le modèle. Ces ensembles de données comportent généralement des questions nécessitant des connaissances générales et encyclopédiques pour obtenir une réponse correcte, ce qui les distingue des référentiels de connaissances plus spécifiques et spécialisés.

Benchmarks « Connaissances »

MMLU (Compréhension du langage multimodal)

Ce benchmark est conçu pour tester la compréhension des connaissances factuelles du LLM dans divers sujets tels que les sciences humaines, les sciences sociales, l'histoire, l'informatique et même le droit. 57 questions et 15 XNUMX tâches visant toutes à garantir que le modèle possède de grandes capacités de raisonnement. Cela fait de MMLU un bon outil pour évaluer les connaissances factuelles et le raisonnement d'un LLM traitant de divers sujets.

Récemment, il est devenu une référence clé pour l'évaluation des LLM dans les domaines mentionnés ci-dessus. Les développeurs souhaitent toujours optimiser leurs modèles pour surpasser les autres dans ce benchmark, ce qui en fait une norme de facto pour évaluer le raisonnement et les connaissances avancés dans les LLM. Les grands modèles de niveau entreprise ont montré des scores impressionnants sur ce benchmark, notamment le GPT-4-omni à 88.7 %, le Claude 3 Opus à 86.8 %, le Gemini 1.5 Pro à 85.9 % et le Llama-3 70B à 82 %. Les petits modèles ne sont généralement pas aussi performants sur ce benchmark, ne dépassant généralement pas 60-65 %, mais les performances récentes du Phi-3-Small-7b à 75.3 % sont à méditer.

Cependant, MMLU n'est pas sans inconvénients : il a connu des problèmes tels que des questions ambiguës, réponses incorrectes, et contexte manquant. Et beaucoup pensent que certaines de ses tâches sont trop faciles pour une évaluation LLM appropriée.

Je tiens à préciser que les benchmarks comme MMLU ne reflètent pas parfaitement les situations réelles. Si un LLM obtient un excellent score à ce niveau, cela ne signifie pas forcément qu'il est devenu un expert dans son domaine. Les benchmarks ont une portée très limitée et reposent souvent sur des questions à choix multiples, qui ne permettent jamais de saisir pleinement la complexité et le contexte des interactions réelles. Une véritable compréhension nécessite de connaître les faits et de les appliquer de manière dynamique, ce qui implique un esprit critique, la résolution de problèmes et une compréhension contextuelle. C'est pourquoi les LLM doivent être constamment peaufinés et mis à jour afin que le modèle conserve la pertinence et l'efficacité du benchmark.

GPQA (référence de questions et réponses à l'épreuve de Google pour les cycles supérieurs)

Ce benchmark évalue les LLM sur le raisonnement logique à l'aide d'un jeu de données avec seulement 448 questions. Des experts du domaine l'ont développé et il couvre des sujets en biologie, physique et chimie.

Chaque question passe par le processus de validation suivant :

Un expert dans le même sujet répond à la question et fournit des commentaires détaillés.
Le rédacteur de la question révise la question en fonction de ces commentaires.
Un deuxième expert répond à la question révisée.

Ce processus peut en fait garantir que les questions sont objectives, précises et stimulantes pour un modèle linguistique. Même les doctorants expérimentés n'obtiennent qu'une précision de 65 % sur ces questions, tandis que GPT-4-omni n'atteint que 53.6 %, soulignant l'écart entre l'intelligence humaine et l'intelligence artificielle.

En raison des exigences élevées en matière de qualification, l’ensemble de données est en fait assez petit, ce qui limite quelque peu sa puissance statistique pour comparer l’exactitude et nécessite des tailles d’effet importantes. Les experts qui ont créé et validé ces questions venaient d'Upwork, ils ont donc potentiellement introduit des biais basés sur leur expertise et les sujets abordés.

Références de code

HumanEval

164 problèmes de programmation, un véritable test pour les capacités de codage des LLM. HumanEval. Il est conçu pour tester les capacités de codage de base des grands modèles de langage (LLM). Il utilise la métrique pass@k pour juger de l'exactitude fonctionnelle du code généré, qui génère la probabilité qu'au moins l'un des k principaux échantillons de code générés par LLM réussisse les cas de test.

Bien que l'ensemble de données HumanEval comprenne des signatures de fonctions, des docstrings, des corps de code et plusieurs tests unitaires, il n'inclut pas la gamme complète des problèmes de codage du monde réel, qui ne testeront tout simplement pas de manière adéquate la capacité d'un modèle à créer un code correct pour divers scénarios.

MBPP (programmation Python principalement basique)

Mbpp Le benchmark se compose de 1,000 XNUMX questions de programmation Python issues du crowdsourcing. Ce sont des problèmes de niveau d’entrée et ils se concentrent sur les compétences fondamentales en programmation. Il utilise quelques approches de réglage précis pour évaluer les performances du modèle, les modèles plus grands étant généralement plus performants sur cet ensemble de données. Cependant, étant donné que l’ensemble de données contient principalement des programmes d’entrée de gamme, il ne représente toujours pas pleinement les complexités et les défis des applications du monde réel.

Références mathématiques

Bien que la plupart des LLM soient très doués pour structurer des réponses standard, le raisonnement mathématique constitue pour eux un problème bien plus important. Pourquoi? Parce que cela nécessite des compétences liées à la compréhension des questions, une approche logique étape par étape avec un raisonnement mathématique et la détermination de la bonne réponse.

La méthode « Chaîne de Pensée » (CoT) est conçue pour évaluer les LLM selon des critères mathématiques. Elle consiste à demander aux modèles d'expliquer leur processus de raisonnement étape par étape lors de la résolution d'un problème. Cette méthode présente plusieurs avantages. Elle rend le raisonnement plus transparent, aide à identifier les failles dans la logique du modèle et permet une évaluation plus fine des compétences en résolution de problèmes. En décomposant les problèmes complexes en une série d'étapes plus simples, la CoT peut améliorer les performances du modèle selon des critères mathématiques et fournir des informations plus approfondies sur ses capacités de raisonnement.

GSM8K : une référence mathématique populaire

L’ensemble de données GSM8K est l’un des points de référence bien connus pour évaluer les capacités en mathématiques dans les LLM. GSM8K se compose de 8.5 4 problèmes de mathématiques de niveau intermédiaire, qui nécessitent quelques étapes à résoudre, et les solutions impliquent principalement d'effectuer une séquence de calculs élémentaires. En règle générale, les modèles plus grands ou ceux spécifiquement formés au raisonnement mathématique ont tendance à obtenir de meilleurs résultats sur cette référence, par exemple les modèles GPT-96.5 affichent un score de 7 %, tandis que DeepSeekMATH-RL-88.2B est légèrement en retard à XNUMX %.

Bien que le GSM8K soit utile pour évaluer la capacité d'un modèle à gérer des problèmes mathématiques de niveau scolaire, il peut ne pas capturer pleinement la capacité d'un modèle à résoudre des défis mathématiques plus avancés ou plus divers, limitant ainsi son efficacité en tant que mesure complète des capacités mathématiques.

L'ensemble de données mathématiques : une alternative complète

L'ensemble de données mathématiques traitait des lacunes de références telles que GSM8K. Cet ensemble de données est plus étendu, couvrant l'arithmétique élémentaire jusqu'aux problèmes de niveau secondaire et même collégial. Il est également comparé aux humains, avec un doctorant en informatique qui n'aime pas les mathématiques atteignant une précision de 40 % et un médaillé d'or atteignant une précision de 90 %.

Il offre une évaluation plus complète des compétences mathématiques d'un LLM. Il s'assure que le modèle maîtrise l'arithmétique de base et est compétent dans des domaines complexes comme l'algèbre, la géométrie et le calcul. Cependant, la complexité et la diversité croissantes des problèmes peuvent compliquer la tâche des modèles pour atteindre une grande précision, en particulier ceux qui ne sont pas explicitement entraînés sur un large éventail de concepts mathématiques. De plus, la diversité des formats de problèmes dans l'ensemble de données mathématiques peut introduire des incohérences dans les performances du modèle, ce qui complique considérablement les conclusions définitives sur ses compétences mathématiques globales.

L'utilisation de la méthode de la chaîne de pensée avec l'ensemble de données mathématiques peut améliorer l'évaluation, car elle révèle les capacités de raisonnement étape par étape des titulaires d'un LLM face à un large éventail de défis mathématiques. Une approche combinée comme celle-ci garantit une évaluation plus solide et plus détaillée des véritables capacités mathématiques d'un titulaire d'un LLM.

Repères de compréhension écrite

Une évaluation de compréhension écrite évalue la capacité du modèle à comprendre et à traiter des textes complexes, ce qui est particulièrement fondamental pour des applications telles que le support client, la génération de contenu et la recherche d'informations. Il existe plusieurs critères d'évaluation de cette compétence, chacun doté d'attributs uniques qui contribuent à une évaluation complète des capacités d'un modèle.

RACE (ensemble de données de compréhension en lecture provenant des examens)

Les benchmarks RACE comptent près de 28,000 100,000 passages et 12 18 questions collectées lors des examens d'anglais pour les élèves chinois des collèges et lycées âgés de XNUMX à XNUMX ans. Il ne limite pas les questions et réponses à extraire des passages donnés, ce qui rend les tâches même plus c’est difficile.

Il couvre un large éventail de sujets et de types de questions, ce qui permet une évaluation approfondie et comprend des questions de différents niveaux de difficulté. De plus, les questions de RACE sont spécialement conçues pour tester les compétences humaines en lecture et sont créées par des experts du domaine.

Cependant, le benchmark présente certains inconvénients. Puisqu’il est développé sur du matériel pédagogique chinois, il est susceptible d’introduire des préjugés culturels qui ne reflètent pas un contexte mondial. De plus, le niveau de difficulté élevé de certaines questions n’est pas réellement représentatif des tâches typiques du monde réel. Les évaluations des performances peuvent donc ne pas être aussi précises.

DROP (raisonnement discret sur les paragraphes)

Une autre approche importante est DROP (Discrete Reasoning Over Paragraphs), qui met les modèles au défi d'effectuer un raisonnement discret sur des paragraphes. Il contient 96,000 XNUMX questions pour tester les capacités de raisonnement des LLM et les questions sont extraites de Wikipédia et issues d'Amazon Mechanical Turk. Les questions DROP appellent souvent des modèles pour effectuer des opérations mathématiques telles que l'addition, la soustraction et la comparaison basées sur des informations dispersées dans un passage.

Les questions sont difficiles. Ils demandent aux LLM de localiser plusieurs nombres dans le passage et de les ajouter ou de les soustraire pour obtenir la réponse finale. Les grands modèles tels que GPT-4 et palm atteignent 80 % et 85 %, tandis que les humains atteignent 96 % sur l'ensemble de données DROP.

Repères de bon sens

Tester le bon sens dans les modèles linguistiques est une tâche intéressante, mais aussi essentielle, car elle évalue la capacité d'un modèle à formuler des jugements et des inférences conformes à notre raisonnement humain. Contrairement à nous, qui développons un modèle du monde complet par le biais d'expériences pratiques, les modèles linguistiques sont entraînés sur d'énormes ensembles de données sans réellement comprendre le contexte. Cela signifie que les modèles peinent à réaliser des tâches nécessitant une compréhension intuitive des situations quotidiennes, un raisonnement logique et des connaissances pratiques, essentiels à la robustesse et à la fiabilité des applications d'IA.

HellaSwag (fins plus difficiles, contextes plus longs et activités à faible intensité pour les situations avec des générations adverses)

Hellaswag a été développé par Rowan Zellers et ses collègues de l'Université de Washington et de l'Institut Allen d'intelligence artificielle. Il vise à tester la capacité d'un modèle à prédire la suite la plus plausible d'un scénario donné. Ce benchmark est construit à l'aide du filtrage contradictoire (AF), où une série de discriminateurs sélectionnent de manière itérative les réponses erronées générées par des machines contradictoires. Cette méthode crée un ensemble de données contenant des exemples triviaux pour les humains, mais complexes pour les modèles, ce qui crée une zone de difficulté « Boucles d'or ».

Alors que Hellaswag représentait un défi pour les modèles précédents, les modèles de pointe comme le GPT-4 ont atteint des niveaux de performances proches de la précision humaine, ce qui indique des progrès significatifs dans ce domaine. Cependant, ces résultats suggèrent la nécessité de normes en constante évolution pour suivre le rythme des progrès des capacités de l’IA.

Livre ouvert

L'ensemble de données Openbook comprend 5957 questions à choix multiples en sciences de niveau élémentaire. Les questions sont recueillies à partir d'examens à livre ouvert et développées pour évaluer la compréhension humaine du sujet.

Le benchmark Openbook nécessite une capacité de raisonnement au-delà de la recherche d’informations. GPT-4 atteint actuellement la précision la plus élevée de 95.9 %.

OpenbookQA est calqué sur les examens à livre ouvert et comprend 5,957 1,326 questions scientifiques à choix multiples de niveau élémentaire. Ces questions sont conçues pour sonder la compréhension de XNUMX XNUMX faits scientifiques fondamentaux et leur application à des situations nouvelles.

Semblable à Hellaswag, les modèles antérieurs trouvaient OpenbookQA difficile, mais les modèles modernes comme GPT-4 ont atteint des niveaux de performances proches de ceux des humains. Ces progrès soulignent l’importance de développer des références encore plus complexes et nuancées pour continuer à repousser les limites de la compréhension de l’IA.

Les critères de référence sont-ils suffisants pour l'évaluation des performances LLM ?

Certes, bien qu'ils fournissent une approche standardisée pour évaluer les performances des LLM, ils peuvent également être trompeurs. La Large Model Systems Organization affirme qu'un bon benchmark LLM doit être évolutif, capable d'évaluer de nouveaux modèles avec un nombre relativement faible d'essais et de fournir un ordre de classement unique pour tous les modèles. Mais il existe des raisons pour lesquelles ils peuvent ne pas être suffisants. En voici quelques-unes :

Fuite de référence

Il s'agit d'une situation courante, qui se produit lorsque les données d'entraînement se chevauchent avec les données de test, ce qui donne lieu à une évaluation trompeuse. Si un modèle a déjà rencontré certaines questions de test au cours de la formation, son résultat peut ne pas refléter avec précision ses véritables capacités. Mais un benchmark idéal devrait minimiser la mémorisation et refléter des scénarios du monde réel.

Biais d'évaluation

Les classements de référence des LLM permettent de comparer les performances des LLM sur diverses tâches. Cependant, il peut être utile de s'appuyer sur ces classements pour comparer les modèles. trompeur. De simples changements dans les tests de référence, comme la modification de l’ordre des questions, peuvent modifier le classement des modèles jusqu’à huit positions. En outre, les LLM peuvent fonctionner différemment selon les méthodes de notation, soulignant l'importance de prendre en compte les biais d'évaluation.

Une fin ouverte

L'interaction LLM dans le monde réel implique la conception d'invites pour générer les résultats d'IA souhaités. Les résultats du LLM dépendent de l'efficacité des invites, et les tests de référence sont conçus pour tester la connaissance du contexte des LLM. Bien que les benchmarks soient conçus pour tester la connaissance du contexte d'un LLM, ils ne se traduisent pas toujours directement en performances réelles. Par exemple, un modèle obtenant un score de 100 % sur un ensemble de données de référence, tel que le LSAT, ne garantit pas le même niveau de précision dans les applications pratiques. Cela souligne l'importance de considérer la nature ouverte des tâches du monde réel dans l'évaluation LLM.

Évaluation efficace pour des LLM robustes

Vous savez désormais que les benchmarks ne sont pas toujours la meilleure option car ils ne peuvent pas toujours être généralisés à tous les problèmes. Mais il existe d’autres moyens.

Repères personnalisés

Ces tests sont parfaits pour tester des comportements et des fonctionnalités spécifiques dans des scénarios spécifiques à certaines tâches. Par exemple, si le LLM est conçu pour les médecins, les ensembles de données collectés dans le milieu médical représenteront efficacement des scénarios réels. Ces benchmarks personnalisés peuvent se concentrer sur la compréhension du langage, les performances et les exigences contextuelles spécifiques à chaque domaine. En alignant les benchmarks sur des scénarios réels possibles, vous pouvez garantir que le LLM fonctionne bien en général et excelle dans les tâches spécifiques auxquelles il est destiné. Cela peut aider à identifier et à corriger rapidement les lacunes ou les faiblesses du modèle.

Pipeline de détection des fuites de données

Pour que vos évaluations soient intègres, il est essentiel de disposer d'un pipeline de benchmarking exempt de fuites de données. Une fuite de données se produit lorsque les données de benchmarking sont incluses dans le corpus de pré-entraînement du modèle, ce qui génère des scores de performance artificiellement élevés. Pour éviter cela, il est conseillé de croiser les données de benchmarking avec les données de pré-entraînement. Il est également important d'éviter toute information déjà vue. Cela peut impliquer l'utilisation d'ensembles de données propriétaires ou nouvellement créés, conservés séparément du pipeline d'entraînement du modèle. Cela garantira que les indicateurs de performance obtenus reflètent la capacité du modèle à généraliser efficacement.

Évaluation humaine

Les mesures automatisées ne peuvent à elles seules saisir l'intégralité des performances d'un modèle, notamment lorsqu'il s'agit d'aspects très nuancés et subjectifs de la compréhension et de la génération du langage. Dans ce cas, l'évaluation humaine offre une bien meilleure évaluation :

Embaucher des professionnels qui peut fournir des évaluations détaillées et fiables, en particulier pour les domaines spécialisés.
Crowdsourcing! Des plateformes comme Amazon Mechanical Turk vous permettent de recueillir rapidement et à peu de frais divers jugements humains.
Commentaires de la communauté: L'utilisation de plateformes telles que l'arène du classement LMSYS, où les utilisateurs peuvent voter et comparer les modèles, ajoute une couche supplémentaire d'informations. Le LMSYS Chatbot Arena Hard, par exemple, est particulièrement efficace pour mettre en évidence les différences subtiles entre les meilleurs modèles grâce aux interactions directes des utilisateurs et aux votes.

Conclusion

Sans évaluation et analyse comparative, nous n'aurions aucun moyen de savoir si la capacité du LLM à gérer des tâches du monde réel est aussi précise et applicable que nous le pensons. Mais, comme je l'ai dit, les benchmarks ne sont pas un moyen totalement infaillible de vérifier cela, ils peuvent entraîner des écarts dans les performances des LLM. Cela peut également ralentir le développement de LLM réellement robustes pour le travail.

C’est ainsi que cela devrait être dans un monde idéal. Les LLM comprennent les requêtes des utilisateurs, identifient les erreurs dans les invites, effectuent les tâches comme indiqué et génèrent des sorties fiables. Les résultats sont déjà excellents mais pas idéaux. C’est là que les benchmarks spécifiques à une tâche s’avèrent très utiles, tout comme l’évaluation humaine et la détection des fuites de benchmarks. En les utilisant, nous avons la possibilité de produire des LLM réellement robustes.

Irina Barskaya, PhD, responsable des données chez Yandex

Irina Barskaya, PhD, est une éminente data scientist avec plus d'une décennie d'expérience, englobant à la fois l'analyse de produits et l'analyse de technologies de pointe. Elle a dirigé la création et l'analyse de Yasmina, le premier assistant vocal localisé entièrement fonctionnel basé sur l'IA pour l'Arabie saoudite, gérant la localisation et l'étiquetage de données complexes pour les dialectes arabes et saoudiens standard modernes. Actuellement, Irina dirige l'analyse de la qualité chez Yandex, favorisant les progrès des technologies d’IA.

Unite.AI