Intelligence artificielle

Évaluation de grands modèles de langage : un guide technique

Publié le

il y a des mois 3

29 janvier 2024

Les grands modèles de langage (LLM) comme GPT-4, Claude et LLaMA ont explosé en popularité. Grâce à leur capacité à générer un texte incroyablement semblable à celui d'un humain, ces systèmes d'IA sont désormais utilisés pour tout, de la création de contenu aux chatbots du service client.

Mais comment savoir si ces modèles sont réellement bons ? Alors que de nouveaux LLM sont constamment annoncés, tous prétendant être plus grands et meilleurs, comment pouvons-nous évaluer et comparer leurs performances ?

Dans ce guide complet, nous explorerons les principales techniques d'évaluation de grands modèles de langage. Nous examinerons les avantages et les inconvénients de chaque approche, quand elles sont mieux appliquées et comment vous pouvez les exploiter dans vos propres tests LLM.

Métriques spécifiques à une tâche

L'un des moyens les plus simples d'évaluer un LLM consiste à le tester sur des tâches PNL établies à l'aide de métriques standardisées. Par exemple:

Récapitulation

Pour les tâches de synthèse, des métriques telles que ROUGE (Recall-Oriented Understudy for Gisting Evaluation) sont couramment utilisés. ROUGE compare le résumé généré par le modèle à un résumé de « référence » écrit par un humain, en comptant le chevauchement des mots ou des phrases.

Il existe plusieurs saveurs de ROUGE, chacune avec ses propres avantages et inconvénients :

ROUGE-N : Compare le chevauchement de n-grammes (séquences de N mots). ROUGE-1 utilise des unigrammes (mots simples), ROUGE-2 utilise des bigrammes, etc. L'avantage est qu'il capture l'ordre des mots, mais il peut être trop strict.
ROUGE-L : Basé sur la sous-séquence commune la plus longue (LCS). Plus flexible sur l'ordre des mots mais se concentre sur les points principaux.
ROUGE-W : Pondère les correspondances LCS en fonction de leur importance. Tentatives d'amélioration de ROUGE-L.

En général, les métriques ROUGE sont rapides, automatiques et fonctionnent bien pour les résumés du système de classement. Cependant, ils ne mesurent pas la cohérence ou le sens. Un résumé pourrait obtenir un score ROUGE élevé tout en restant absurde.

La formule de ROUGE-N est :

$ROUGE-N = Σ ^{s \in {Résumés de référence}} Σ ^{g r a m n \in s} C o u n t ( g r a m ^{n} ) Σ ^{s \in {Résumés de référence}} Σ ^{g r a m n \in s} C o u n t ^{ma t c h} ( g r a m ^{n} )$

Où :

Count_{match}(gram_n) est le nombre de n-grammes dans le résumé généré et celui de référence.
Count(gram_n) est le nombre de n-grammes dans le résumé de référence.

Par exemple, pour ROUGE-1 (unigrammes) :

Résumé généré : "Le chat s'est assis."
Résumé de référence : « Le chat était assis sur le tapis. »
Unigrammes superposés : "Le", "chat", "sat"
Note ROUGE-1 = 3/5 = 0.6

ROUGE-L utilise la sous-séquence commune la plus longue (LCS). C'est plus flexible avec l'ordre des mots. La formule est :

$ROUGE-L = max(longueur(générée), longueur(référence)) L CS ( généré , référence )$

Où LCS est la longueur de la sous-séquence commune la plus longue.

ROUGE-W pondère les correspondances LCS. Il considère l’importance de chaque match des LCS.

Traduction

Pour les tâches de traduction automatique, BLEU (bilingue évaluation doublure) est une mesure populaire. BLEU mesure la similarité entre la traduction de sortie du modèle et les traductions humaines professionnelles, en utilisant une précision n-gramme et une pénalité de brièveté.

Aspects clés du fonctionnement de BLEU :

Compare les chevauchements de n-grammes pour n jusqu'à 4 (unigrammes, bigrammes, trigrammes, 4 grammes).
Calcule une moyenne géométrique des précisions n-grammes.
Applique une pénalité de brièveté si la traduction est beaucoup plus courte que la référence.
Généralement compris entre 0 et 1, 1 étant une correspondance parfaite avec la référence.

BLEU correspond assez bien aux jugements humains sur la qualité de la traduction. Mais il a quand même des limites :

Mesure uniquement la précision par rapport aux références, pas au rappel ou à la F1.
Il a du mal à trouver des traductions créatives utilisant des formulations différentes.
Susceptible de « jouer » avec des astuces de traduction.

D'autres mesures de traduction comme METEOR et TER tentent d'améliorer les faiblesses de BLEU. Mais en général, les mesures automatiques ne reflètent pas pleinement la qualité de la traduction.

Autres tâches

En plus du résumé et de la traduction, des métriques telles que F1, précision, MSE, etc. peuvent être utilisées pour évaluer les performances LLM sur des tâches telles que :

Classification de texte
Extraction d'information
Question répondant
Analyse des sentiments
Détection des erreurs grammaticales

L'avantage des mesures spécifiques à une tâche est que l'évaluation peut être entièrement automatisée à l'aide d'ensembles de données standardisés tels que Équipe pour l'assurance qualité et LA COLLE référence pour une gamme de tâches. Les résultats peuvent facilement être suivis au fil du temps à mesure que les modèles s’améliorent.

Cependant, ces mesures sont étroitement ciblées et ne peuvent pas mesurer la qualité globale d’une langue. Les LLM qui fonctionnent bien sur les mesures d'une seule tâche peuvent ne pas parvenir à générer un texte cohérent, logique et utile en général.

Repères de recherche

Une manière courante d’évaluer les LLM consiste à les tester par rapport à de vastes références de recherche couvrant divers sujets et compétences. Ces benchmarks permettent de tester rapidement les modèles à grande échelle.

Certains points de référence bien connus incluent :

Super colle – Ensemble stimulant de 11 tâches linguistiques diverses.
LA COLLE – Collection de 9 tâches de compréhension de phrases. Plus simple que SuperGLUE.
MMLU – 57 tâches différentes en STEM, sciences sociales et humaines. Teste les connaissances et la capacité de raisonnement.
Défi du schéma Winograd – Problèmes de résolution de pronoms nécessitant un raisonnement de bon sens.
ARC – Tâches difficiles de raisonnement en langage naturel.
Hellaswag – Raisonnement de bon sens sur des situations.
PIQA – Questions de physique nécessitant des schémas.

En évaluant sur des critères comme ceux-ci, les chercheurs peuvent rapidement tester des modèles sur leur capacité à effectuer des mathématiques, de la logique, du raisonnement, du codage, du bon sens et bien plus encore. Le pourcentage de questions correctement répondues devient une mesure de référence pour comparer les modèles.

Cependant, un problème majeur avec les benchmarks est contamination des données de formation. De nombreux benchmarks contiennent des exemples déjà vus par les modèles lors de la pré-formation. Cela permet aux modèles de «mémoriser» répondent à des questions spécifiques et fonctionnent mieux que leurs véritables capacités.

Des tentatives sont faites pour «décontaminer" benchmarks en supprimant les exemples qui se chevauchent. Mais cela est difficile à réaliser de manière globale, en particulier lorsque les modèles ont pu voir des versions paraphrasées ou traduites des questions.

Ainsi, même si les tests de référence peuvent tester efficacement un large éventail de compétences, ils ne peuvent pas mesurer de manière fiable les véritables capacités de raisonnement ni éviter l’inflation des scores due à la contamination. Des méthodes d'évaluation complémentaires sont nécessaires.

Auto-évaluation LLM

Une approche intéressante consiste à demander à un LLM d'évaluer les résultats d'un autre LLM. L’idée est de tirer parti du concept de tâche « plus facile » :

Produire un résultat de haute qualité peut être difficile pour un LLM.
Mais déterminer si un résultat donné est de haute qualité peut être une tâche plus facile.

Par exemple, même si un LLM peut avoir du mal à générer un paragraphe factuel et cohérent à partir de zéro, il peut plus facilement juger si un paragraphe donné a un sens logique et correspond au contexte.

Le processus est donc :

Transmettez l’invite de saisie au premier LLM pour générer la sortie.
Transmettez l’invite de saisie + la sortie générée au deuxième LLM « évaluateur ».
Posez une question à l’évaluateur LLM pour évaluer la qualité des résultats. par exemple : « La réponse ci-dessus a-t-elle un sens logique ? »

Cette approche est rapide à mettre en œuvre et automatise l’évaluation LLM. Mais il y a quelques défis :

La performance dépend fortement du choix du LLM de l'évaluateur et de la formulation rapide.
Contraint par la difficulté de la tâche originale. L'évaluation d'un raisonnement complexe est encore difficile pour les LLM.
Peut être coûteux en termes de calcul si vous utilisez des LLM basés sur des API.

L'auto-évaluation est particulièrement prometteuse pour évaluer les informations récupérées dans RAG (génération augmentée par récupération) systèmes. Des requêtes LLM supplémentaires peuvent valider si le contexte récupéré est utilisé de manière appropriée.

Dans l’ensemble, l’auto-évaluation montre du potentiel mais nécessite une mise en œuvre prudente. Elle complète, plutôt qu’elle ne remplace, l’évaluation humaine.

Évaluation humaine

Compte tenu des limites des mesures et des critères automatisés, l'évaluation humaine reste la référence en matière d'évaluation rigoureuse de la qualité du LLM.

Les experts peuvent fournir des évaluations qualitatives détaillées sur :

Exactitude et exactitude factuelle
Logique, raisonnement et bon sens
Cohérence, constance et lisibilité
Adéquation du ton, du style et de la voix
Grammaticalité et maîtrise
Créativité et nuance

Pour évaluer un modèle, les humains reçoivent un ensemble d'invites de saisie et les réponses générées par LLM. Ils évaluent la qualité des réponses, souvent à l’aide d’échelles et de rubriques d’évaluation.

L’inconvénient est que l’évaluation humaine manuelle est coûteuse, lente et difficile à mettre à l’échelle. Cela nécessite également de développer des critères standardisés et de former les évaluateurs pour les appliquer de manière cohérente.

Certains chercheurs ont exploré des moyens créatifs de financer participativement des évaluations LLM humaines en utilisant des systèmes de type tournoi sur lesquels les gens parient et jugent les confrontations entre modèles. Mais la couverture est encore limitée par rapport aux évaluations entièrement manuelles.

Pour les cas d’utilisation commerciale où la qualité compte plus que l’échelle brute, les tests humains experts restent la référence malgré leurs coûts. Cela est particulièrement vrai pour les applications plus risquées des LLM.

Conclusion

L’évaluation approfondie de grands modèles de langage nécessite l’utilisation d’une boîte à outils diversifiée de méthodes complémentaires, plutôt que de s’appuyer sur une seule technique.

En combinant des approches automatisées pour la rapidité avec une surveillance humaine rigoureuse pour l'exactitude, nous pouvons développer des méthodologies de test fiables pour les grands modèles de langage. Grâce à une évaluation solide, nous pouvons libérer l’énorme potentiel des LLM tout en gérant leurs risques de manière responsable.

Rubriques connexes:AI GPT Flamme métrique

Naviguer dans l’ère de la désinformation : les arguments en faveur d’une IA générative centrée sur les données

Ne manquez pas

L'avenir de l'inférence sans serveur pour les grands modèles de langage

Ayush Mittal

J'ai passé les cinq dernières années à m'immerger dans le monde fascinant du Machine Learning et du Deep Learning. Ma passion et mon expertise m'ont amené à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique du langage naturel, un domaine que j'ai hâte d'explorer davantage.

Unite.AI

Évaluation de grands modèles de langage : un guide technique

Intelligence artificielle

Évaluation de grands modèles de langage : un guide technique

Table des matières