Intelligence artificielle
Évaluation des grands modèles de langage : un guide technique

Les grands modèles de langage (LLM) comme GPT-4, Claude et LLaMA ont explosé en popularité. Grâce à leur capacité à générer du texte impressionnamment similaire à celui des humains, ces systèmes d’IA sont maintenant utilisés pour tout, desde la création de contenu jusqu’aux chatbots de service client.
Mais comment savons-nous si ces modèles sont vraiment efficaces ? Avec de nouveaux LLM annoncés constamment, tous prétendant être plus grands et meilleurs, comment évaluons-nous et comparons-nous leurs performances ?
Dans ce guide complet, nous allons explorer les meilleures techniques pour évaluer les grands modèles de langage. Nous allons examiner les avantages et les inconvénients de chaque approche, quand elles sont les mieux appliquées et comment vous pouvez les exploiter dans vos propres tests LLM.
Métriques spécifiques aux tâches
L’une des façons les plus simples d’évaluer un LLM est de le tester sur des tâches NLP établies en utilisant des métriques standardisées. Par exemple :
Résumé
Pour les tâches de résumé, des métriques comme ROUGE (Recall-Oriented Understudy for Gisting Evaluation) sont couramment utilisées. ROUGE compare le résumé généré par le modèle à un résumé “de référence” rédigé par un humain, en comptant le chevauchement des mots ou des phrases.
Il existe plusieurs variantes de ROUGE, chacune avec ses propres avantages et inconvénients :
- ROUGE-N : compare le chevauchement des n-grammes (séquences de N mots). ROUGE-1 utilise des unigrammes (mots simples), ROUGE-2 utilise des bigrammes, etc. L’avantage est qu’il capture l’ordre des mots, mais il peut être trop strict.
- ROUGE-L : basé sur la plus longue sous-séquence commune (LCS). Plus flexible sur l’ordre des mots, mais se concentre sur les points principaux.
- ROUGE-W : pondère les correspondances LCS par leur importance. Tente d’améliorer ROUGE-L.
En général, les métriques ROUGE sont rapides, automatiques et fonctionnent bien pour classer les résumés de systèmes. Cependant, elles ne mesurent pas la cohérence ou le sens. Un résumé peut obtenir un score ROUGE élevé et être encore sans sens.
La formule pour ROUGE-N est :
ROUGE-N=∑∈{Résumés de référence}∑∑�∈{Résumés de référence}∑
Où :
Count_{match}(gram_n)est le nombre de n-grammes dans le résumé généré et le résumé de référence.Count(gram_n)est le nombre de n-grammes dans le résumé de référence.
Par exemple, pour ROUGE-1 (unigrammes) :
- Résumé généré : “Le chat est assis.”
- Résumé de référence : “Le chat est assis sur le tapis.”
- Unigrammes chevauchants : “Le”, “chat”, “est”, “assis”
- Score ROUGE-1 = 4/5 = 0,8
ROUGE-L utilise la plus longue sous-séquence commune (LCS). Il est plus flexible avec l’ordre des mots. La formule est :
ROUGE-L=���(généré,référence)max(longueur(généré), longueur(référence))
Où LCS est la longueur de la plus longue sous-séquence commune.
ROUGE-W pondère les correspondances LCS. Il prend en compte l’importance de chaque correspondance dans la LCS.
Traduction
Pour les tâches de traduction automatique, BLEU (Bilingual Evaluation Understudy) est une métrique populaire. BLEU mesure la similarité entre la traduction générée par le modèle et les traductions professionnelles humaines, en utilisant la précision des n-grammes et une pénalité de brièveté.
Aspects clés de la façon dont BLEU fonctionne :
- Compare les chevauchements des n-grammes pour n allant jusqu’à 4 (unigrammes, bigrammes, trigrammes, 4-grammes).
- Calcule une moyenne géométrique des précisions des n-grammes.
- Applique une pénalité de brièveté si la traduction est beaucoup plus courte que la référence.
- Va généralement de 0 à 1, avec 1 étant une correspondance parfaite à la référence.
BLEU est raisonnablement bien corrélé avec les jugements humains de la qualité de la traduction. Mais il a encore des limites :
- Ne mesure que la précision par rapport aux références, et non la rappel ou le F1.
- Éprouve des difficultés avec les traductions créatives utilisant des formulations différentes.
- Sensible aux “trucs” de traduction.
D’autres métriques de traduction comme METEOR et TER tentent d’améliorer les faiblesses de BLEU. Mais en général, les métriques automatiques ne capturent pas entièrement la qualité de la traduction.
Autres tâches
En plus du résumé et de la traduction, des métriques comme F1, la précision, MSE et plus encore peuvent être utilisées pour évaluer les performances des LLM sur des tâches comme :
- Classification de texte
- Extraction d’informations
- Réponse à des questions
- Analyse de sentiments
- Détection d’erreurs grammaticales
L’avantage des métriques spécifiques aux tâches est que l’évaluation peut être entièrement automatisée en utilisant des jeux de données standardisés comme SQuAD pour les questions-réponses et GLUE pour une gamme de tâches. Les résultats peuvent être facilement suivis au fil du temps à mesure que les modèles s’améliorent.
Cependant, ces métriques sont étroitement axées et ne peuvent pas mesurer la qualité globale du langage. Les LLM qui performent bien sur les métriques d’une tâche unique peuvent échouer à générer du texte cohérent, logique et utile en général.
Bancs d’essai de recherche
Un moyen populaire d’évaluer les LLM est de les tester sur des bancs d’essai de recherche à large échelle couvrant divers sujets et compétences. Ces bancs d’essai permettent aux modèles d’être rapidement testés à grande échelle.
Certains bancs d’essai bien connus incluent :
- SuperGLUE – Ensemble de 11 tâches de langage diversifiées difficiles.
- GLUE – Collection de 9 tâches de compréhension de phrases. Plus simple que SuperGLUE.
- MMLU – 57 tâches différentes de sciences, de sciences sociales et d’humanités. Teste les connaissances et les capacités de raisonnement.
- Winograd Schema Challenge – Problèmes de résolution de pronoms nécessitant un raisonnement basé sur le bon sens.
- ARC – Tâches de raisonnement en langage naturel difficiles.
- Hellaswag – Raisonnement basé sur le bon sens sur des situations.
- PIQA – Questions de physique nécessitant des diagrammes.
En évaluant sur ces bancs d’essai, les chercheurs peuvent rapidement tester les modèles sur leur capacité à effectuer des mathématiques, de la logique, du raisonnement, de la programmation, du bon sens et bien plus encore. Le pourcentage de questions correctement répondues devient une métrique de référence pour comparer les modèles.
Cependant, un problème majeur avec les bancs d’essai est la contamination des données d’entraînement. De nombreux bancs d’essai contiennent des exemples qui ont déjà été vus par les modèles lors de l’entraînement préalable. Cela permet aux modèles de “mémoriser” les réponses à des questions spécifiques et de performer mieux que leurs véritables capacités.
Des tentatives sont faites pour “décontaminer” les bancs d’essai en supprimant les exemples chevauchants. Mais cela est difficile à faire de manière exhaustive, surtout lorsque les modèles peuvent avoir vu des versions paraphrasées ou traduites des questions.
Ainsi, même si les bancs d’essai peuvent tester un large éventail de compétences de manière efficace, ils ne peuvent pas mesurer de manière fiable les véritables capacités de raisonnement ou éviter l’inflation des scores due à la contamination. Des méthodes d’évaluation complémentaires sont nécessaires.
Auto-évaluation des LLM
Une approche intrigante consiste à faire évaluer les sorties d’un LLM par un autre LLM. L’idée est de tirer parti du concept de “tâche plus facile” :
- Produire une sortie de haute qualité peut être difficile pour un LLM.
- Mais déterminer si une sortie donnée est de haute qualité peut être une tâche plus facile.
Par exemple, même si un LLM peut avoir du mal à générer un paragraphe factuel, cohérent à partir de zéro, il peut plus facilement juger si un paragraphe donné a un sens logique et convient au contexte.
Le processus est donc :
- Passer la invite d’entrée au premier LLM pour générer une sortie.
- Passer l’invite d’entrée + la sortie générée au deuxième LLM “évaluateur”.
- Demander à l’évaluateur LLM une question pour évaluer la qualité de la sortie. Par exemple : “La réponse ci-dessus a-t-elle un sens logique ?”
Cette approche est rapide à mettre en œuvre et automatise l’évaluation des LLM. Mais il y a quelques défis :
- Les performances dépendent fortement du choix de l’évaluateur LLM et de la formulation de l’invite.
- Contraignant par la difficulté de la tâche d’origine. Évaluer le raisonnement complexe est toujours difficile pour les LLM.
- Peut être coûteux en termes de calcul si l’on utilise des LLM basés sur des API.
L’auto-évaluation est particulièrement prometteuse pour évaluer les informations récupérées dans les systèmes RAG (retrieval-augmented generation). Des requêtes LLM supplémentaires peuvent valider si le contexte récupéré est utilisé de manière appropriée.
Dans l’ensemble, l’auto-évaluation montre du potentiel mais nécessite une mise en œuvre soignée. Elle complète, plutôt que remplace, l’évaluation humaine.
Évaluation humaine
Compte tenu des limites des métriques automatisées et des bancs d’essai, l’évaluation humaine est toujours la référence pour évaluer de manière rigoureuse la qualité des LLM.
Les experts peuvent fournir des évaluations qualitatives détaillées sur :
- L’exactitude et la correction factuelle
- La logique, le raisonnement et le bon sens
- La cohérence, la constance et la lisibilité
- L’adéquation du ton, du style et de la voix
- La grammaticalité et la fluidité
- La créativité et la nuance
Pour évaluer un modèle, les humains sont donnés un ensemble d’invites d’entrée et les réponses générées par le LLM. Ils évaluent la qualité des réponses, souvent en utilisant des échelles de notation et des rubriques.
L’inconvénient est que l’évaluation manuelle humaine est coûteuse, lente et difficile à mettre à l’échelle. Elle nécessite également de développer des critères standardisés et de former les évaluateurs à les appliquer de manière cohérente.
Certains chercheurs ont exploré des moyens créatifs de financer les évaluations humaines des LLM en utilisant des systèmes de tournoi où les gens parient et jugent les confrontations entre modèles. Mais la couverture est toujours limitée par rapport aux évaluations manuelles complètes.
Pour les cas d’utilisation commerciaux où la qualité compte plus que la quantité brute, les tests d’experts humains restent la référence malgré leurs coûts. C’est particulièrement vrai pour les applications plus risquées des LLM.
Conclusion
Évaluer les grands modèles de langage de manière approfondie nécessite d’utiliser un ensemble diversifié de méthodes complémentaires, plutôt que de s’appuyer sur une seule technique.
En combinant les approches automatisées pour la rapidité avec une surveillance humaine rigoureuse pour l’exactitude, nous pouvons développer des méthodologies de test fiables pour les grands modèles de langage. Avec une évaluation robuste, nous pouvons débloquer le potentiel énorme des LLM tout en gérant leurs risques de manière responsable.












