Intelligence artificielle

Évaluation des grands modèles de langage : Un guide technique

mm
Evaluating Large Language Models

Les grands modèles de langage (LLM) comme GPT-4, Claude et LLaMA ont explosé en popularité. Grâce à leur capacité à générer du texte impressionnamment similaire à celui des humains, ces systèmes d’IA sont maintenant utilisés pour tout, de la création de contenu à la mise en place de chatbots de service client.

Mais comment savons-nous si ces modèles sont vraiment efficaces ? Avec de nouveaux LLM étant annoncés constamment, tous prétendant être plus grands et meilleurs, comment évaluons-nous et comparons-nous leurs performances ?

Dans ce guide complet, nous allons explorer les meilleures techniques pour évaluer les grands modèles de langage. Nous allons examiner les avantages et les inconvénients de chaque approche, quand ils sont les mieux appliqués et comment vous pouvez les utiliser dans vos propres tests LLM.

Métriques spécifiques aux tâches

L’une des façons les plus simples d’évaluer un LLM est de le tester sur des tâches NLP établies en utilisant des métriques standardisées. Par exemple :

Résumé

Pour les tâches de résumé, des métriques comme ROUGE (Recall-Oriented Understudy for Gisting Evaluation) sont couramment utilisées. ROUGE compare le résumé généré par le modèle à un résumé “de référence” rédigé par un humain, en comptant le chevauchement des mots ou des phrases.

Il existe plusieurs variantes de ROUGE, chacune avec ses propres avantages et inconvénients :

  • ROUGE-N : Compare le chevauchement des n-grammes (séquences de N mots). ROUGE-1 utilise des unigrammes (mots simples), ROUGE-2 utilise des bigrammes, etc. L’avantage est qu’il capture l’ordre des mots, mais il peut être trop strict.
  • ROUGE-L : Basé sur la plus longue sous-séquence commune (LCS). Plus flexible sur l’ordre des mots, mais se concentre sur les points principaux.
  • ROUGE-W : Pondere les correspondances LCS. Tente d’améliorer ROUGE-L.

En général, les métriques ROUGE sont rapides, automatiques et fonctionnent bien pour classer les résumés de systèmes. Cependant, ils ne mesurent pas la cohérence ou le sens. Un résumé peut obtenir un score ROUGE élevé et être encore sans sens.

La formule pour ROUGE-N est :

ROUGE-N=∑∈{Résumés de référence}∑∑�∈{Résumés de référence}∑

Où :

  • Count_{match}(gram_n) est le nombre de n-grammes dans le résumé généré et le résumé de référence.
  • Count(gram_n) est le nombre de n-grammes dans le résumé de référence.

Par exemple, pour ROUGE-1 (unigrammes) :

  • Résumé généré : “Le chat est assis.”
  • Résumé de référence : “Le chat est assis sur le tapis.”
  • Unigrammes chevauchants : “Le”, “chat”, “est assis”
  • Score ROUGE-1 = 3/5 = 0,6

ROUGE-L utilise la plus longue sous-séquence commune (LCS). Il est plus flexible sur l’ordre des mots. La formule est :

ROUGE-L=���(généré, référence)max(longueur(généré), longueur(référence))

LCS est la longueur de la plus longue sous-séquence commune.

ROUGE-W pondere les correspondances LCS. Il prend en compte la signification de chaque correspondance dans la LCS.

Traduction

Pour les tâches de traduction automatique, BLEU (Bilingual Evaluation Understudy) est une métrique populaire. BLEU mesure la similarité entre la sortie de traduction du modèle et les traductions professionnelles humaines, en utilisant la précision des n-grammes et une pénalité de brièveté.

Aspects clés de la façon dont BLEU fonctionne :

  • Compare les chevauchements des n-grammes pour n allant jusqu’à 4 (unigrammes, bigrammes, trigrammes, 4-grammes).
  • Calcule une moyenne géométrique des précisions des n-grammes.
  • Applique une pénalité de brièveté si la traduction est beaucoup plus courte que la référence.
  • Généralement compris entre 0 et 1, avec 1 étant une correspondance parfaite avec la référence.

BLEU est raisonnablement bien corrélé avec les jugements humains de la qualité de la traduction. Mais il a encore des limites :

  • Ne mesure que la précision par rapport aux références, et non la rappel ou la F1.
  • Éprouve des difficultés avec les traductions créatives utilisant des formulations différentes.
  • Sensible aux “trucs” de traduction.

D’autres métriques de traduction comme METEOR et TER tentent d’améliorer les faiblesses de BLEU. Mais en général, les métriques automatiques ne capturent pas entièrement la qualité de la traduction.

Autres tâches

En plus de la synthèse et de la traduction, des métriques comme F1, la précision, MSE et plus peuvent être utilisées pour évaluer les performances des LLM sur des tâches comme :

  • Classification de texte
  • Extraction d’informations
  • Réponse à des questions
  • Analyse de sentiments
  • Détection d’erreurs grammaticales

L’avantage des métriques spécifiques aux tâches est que l’évaluation peut être entièrement automatisée en utilisant des ensembles de données standardisés comme SQuAD pour les questions-réponses et GLUE pour une gamme de tâches. Les résultats peuvent facilement être suivis dans le temps à mesure que les modèles s’améliorent.

Cependant, ces métriques sont étroitement axées et ne peuvent pas mesurer la qualité globale du langage. Les LLM qui performent bien sur les métriques pour une tâche unique peuvent échouer à générer du texte cohérent, logique et utile en général.

Benchmark de recherche

Un moyen populaire d’évaluer les LLM est de les tester contre des benchmarks de recherche à large échelle couvrant divers sujets et compétences. Ces benchmarks permettent aux modèles d’être rapidement testés à grande échelle.

Certains benchmarks bien connus incluent :

  • SuperGLUE – Un ensemble difficile de 11 tâches de langage diverses.
  • GLUE – Une collection de 9 tâches de compréhension de phrases. Plus simple que SuperGLUE.
  • MMLU – 57 tâches différentes de STEM, de sciences sociales et d’humanités. Teste les connaissances et les capacités de raisonnement.
  • Winograd Schema Challenge – Problèmes de résolution de pronoms nécessitant un raisonnement basé sur le sens commun.
  • ARC – Tâches de raisonnement en langage naturel difficiles.
  • Hellaswag – Raisonnement basé sur le sens commun sur des situations.
  • PIQA – Questions de physique nécessitant des diagrammes.

En évaluant sur des benchmarks comme ceux-ci, les chercheurs peuvent rapidement tester les modèles sur leur capacité à effectuer des mathématiques, de la logique, du raisonnement, de la programmation, du sens commun et bien plus encore. Le pourcentage de questions correctement répondues devient une métrique de benchmark pour comparer les modèles.

Cependant, un problème majeur avec les benchmarks est la contamination des données de formation. De nombreux benchmarks contiennent des exemples qui ont déjà été vus par les modèles pendant la formation préalable. Cela permet aux modèles de “mémoriser” les réponses à des questions spécifiques et de performer mieux que leurs véritables capacités.

Des tentatives sont faites pour “décontaminer” les benchmarks en supprimant les exemples chevauchants. Mais cela est difficile à faire de manière exhaustive, surtout lorsque les modèles peuvent avoir vu des versions paraphrasées ou traduites des questions.

Donc, même si les benchmarks peuvent tester un large éventail de compétences de manière efficace, ils ne peuvent pas mesurer de manière fiable les véritables capacités de raisonnement ou éviter l’inflation des scores due à la contamination. Des méthodes d’évaluation complémentaires sont nécessaires.

Auto-évaluation des LLM

Une approche intrigante est d’avoir un LLM évaluer les sorties d’un autre LLM. L’idée est de tirer parti de la tâche “plus facile” :

  • Produire une sortie de haute qualité peut être difficile pour un LLM.
  • Mais déterminer si une sortie donnée est de haute qualité peut être une tâche plus facile.

Par exemple, même si un LLM peut avoir du mal à générer un paragraphe factuel, cohérent et logique à partir de zéro, il peut plus facilement juger si un paragraphe donné a du sens et convient au contexte.

Le processus est donc :

  1. Passer l’invite de saisie à un premier LLM pour générer une sortie.
  2. Passer l’invite de saisie + la sortie générée à un deuxième LLM “évaluateur”.
  3. Demander à l’évaluateur LLM une question pour évaluer la qualité de la sortie. Par exemple : “La réponse ci-dessus est-elle logique ?”

Cette approche est rapide à mettre en œuvre et automatise l’évaluation des LLM. Mais il y a quelques défis :

  • Les performances dépendent fortement du choix de l’évaluateur LLM et de la formulation de l’invite.
  • Contraignant par la difficulté de la tâche originale. Évaluer le raisonnement complexe est toujours difficile pour les LLM.
  • Peut être coûteux en calcul si l’on utilise des LLM basés sur des API.

L’auto-évaluation est particulièrement prometteuse pour évaluer les informations récupérées dans les systèmes RAG (retrieval-augmented generation). Des requêtes LLM supplémentaires peuvent valider si le contexte récupéré est utilisé de manière appropriée.

Dans l’ensemble, l’auto-évaluation montre du potentiel mais nécessite une mise en œuvre soignée. Elle complète, plutôt que remplace, l’évaluation humaine.

Évaluation humaine

Compte tenu des limites des métriques automatisées et des benchmarks, l’évaluation humaine est toujours la référence pour évaluer rigoureusement la qualité des LLM.

Les experts peuvent fournir des évaluations qualitatives détaillées sur :

  • L’exactitude et la correction factuelle
  • La logique, le raisonnement et le sens commun
  • La cohérence, la constance et la lisibilité
  • L’adéquation du ton, du style et de la voix
  • La grammaticalité et la fluidité
  • La créativité et la nuance

Pour évaluer un modèle, les humains sont donnés un ensemble d’invites de saisie et les réponses générées par le LLM. Ils évaluent la qualité des réponses, souvent en utilisant des échelles de notation et des rubriques.

Le désavantage est que l’évaluation manuelle humaine est coûteuse, lente et difficile à mettre à l’échelle. Elle nécessite également de développer des critères standardisés et de former des évaluateurs pour les appliquer de manière cohérente.

Certains chercheurs ont exploré des moyens créatifs pour financer l’évaluation humaine des LLM en utilisant des systèmes de tournoi où les gens parient et jugent les confrontations entre modèles. Mais la couverture est toujours limitée par rapport aux évaluations manuelles complètes.

Pour les cas d’utilisation commerciaux où la qualité est plus importante que la mise à l’échelle brute, les tests d’experts humains restent la référence malgré leurs coûts. C’est particulièrement vrai pour les applications plus risquées des LLM.

Conclusion

Évaluer les grands modèles de langage de manière approfondie nécessite l’utilisation d’un ensemble diversifié de méthodes complémentaires, plutôt que de s’appuyer sur une seule technique.

En combinant les approches automatisées pour la rapidité avec une surveillance humaine rigoureuse pour l’exactitude, nous pouvons développer des méthodes de test fiables pour les grands modèles de langage. Avec une évaluation robuste, nous pouvons débloquer le potentiel considérable des LLM tout en gérant leurs risques de manière responsable.

J'ai passé les cinq dernières années à plonger dans le monde fascinant de l'apprentissage automatique et du deep learning. Ma passion et mon expertise m'ont conduit à contribuer à plus de 50 projets de génie logiciel divers, avec un focus particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique des langues, un domaine que je suis impatient d'explorer plus en profondeur.