Intelligence Artificielle

LLM-as-a-Judge : une solution évolutive pour évaluer les modèles linguistiques à l'aide de modèles linguistiques

Publié 14 novembre 2024

Ayush Mittal mital

LLM en tant que juge pour une évaluation automatisée et évolutive

Le cadre LLM-as-a-Judge est une alternative évolutive et automatisée aux évaluations humaines, qui sont souvent coûteuses, lentes et limitées par le volume de réponses qu'elles peuvent évaluer. En utilisant un LLM pour évaluer les résultats d'un autre LLM, les équipes peuvent suivre efficacement l'exactitude, la pertinence, le ton et le respect de directives spécifiques de manière cohérente et reproductible.

L'évaluation du texte généré crée des défis uniques qui vont au-delà des mesures de précision traditionnelles. prompt peut donner lieu à plusieurs réponses correctes qui diffèrent en termes de style, de ton ou de formulation, ce qui rend difficile l'évaluation de la qualité à l'aide de mesures quantitatives simples.

Ici, l'approche LLM-as-a-Judge se démarque : elle permet des évaluations nuancées sur des qualités complexes comme le ton, la serviabilité et la cohérence conversationnelle. Qu'ils soient utilisés pour comparer des versions de modèles ou évaluer des résultats en temps réel, les LLM-as-a-Judge offrent un moyen flexible d'approximer le jugement humain, ce qui en fait une solution idéale pour étendre les efforts d'évaluation à de grands ensembles de données et à des interactions en direct.

Ce guide explique le fonctionnement du programme LLM-as-a-Judge, ses différents types d'évaluation et les étapes pratiques pour le mettre en œuvre efficacement dans divers contextes. Nous aborderons la définition des critères, la conception des questionnaires d'évaluation et la mise en place d'un système de rétroaction pour une amélioration continue.

Concept de LLM en tant que juge

LLM-en-tant-que-juge utilise des LLM pour évaluer les résultats textuels d'autres systèmes d'IA. Agissant en tant qu'évaluateurs impartiaux, les LLM peuvent évaluer le texte généré en fonction de critères personnalisés, tels que la pertinence, la concision et le ton. Ce processus d'évaluation s'apparente à un évaluateur virtuel qui examine chaque résultat selon des directives spécifiques fournies dans un prompt Il s'agit d'un cadre particulièrement utile pour les applications à contenu important, où la révision humaine est impossible en raison de contraintes de volume ou de temps.

Comment ça marche

Un LLM-as-a-Judge est conçu pour évaluer les réponses textuelles en fonction des instructions figurant dans une invite d'évaluation. L'invite définit généralement des qualités telles que l'utilité, la pertinence ou la clarté que le LLM doit prendre en compte lors de l'évaluation d'un résultat. Par exemple, une invite peut demander au LLM de décider si une réponse d'un chatbot est « utile » ou « inutile », avec des indications sur ce que chaque étiquette implique.

Le LLM LLM-as-a-Judge utilise ses connaissances internes et les modèles linguistiques appris pour évaluer le texte fourni, en faisant correspondre les critères d'invite aux qualités de la réponse. En définissant des attentes claires, les évaluateurs peuvent adapter l'objectif du LLM pour capturer des qualités nuancées comme la politesse ou la spécificité qui pourraient autrement être difficiles à mesurer. Contrairement aux mesures d'évaluation traditionnelles, LLM-as-a-Judge fournit une approximation flexible et de haut niveau du jugement humain qui est adaptable à différents types de contenu et besoins d'évaluation.

Types d'évaluation

Comparaison par paire:Dans cette méthode, le LLM reçoit deux réponses à la même invite et est invité à choisir la « meilleure » en fonction de critères tels que la pertinence ou la précision. Ce type d'évaluation est souvent utilisé dans les tests A/B, où les développeurs comparent différentes versions d'un modèle ou de configurations d'invite. En demandant au LLM de juger quelle réponse est la plus performante selon des critères spécifiques, la comparaison par paires offre un moyen simple de déterminer la préférence dans les résultats du modèle.
Notation directe: La notation directe est une évaluation sans référence dans laquelle le LLM note un résultat unique en fonction de qualités prédéfinies comme la politesse, le ton ou la clarté. La notation directe fonctionne bien dans les évaluations hors ligne et en ligne, offrant un moyen de surveiller en permanence la qualité à travers diverses interactions. Cette méthode est utile pour suivre les qualités constantes au fil du temps et est souvent utilisée pour surveiller les réponses en temps réel en production.
Évaluation basée sur des références:Cette méthode introduit un contexte supplémentaire, tel qu'une réponse de référence ou un matériel d'appui, par rapport auquel la réponse générée est évaluée. Elle est couramment utilisée dans Génération augmentée par récupération (RAG) où la réponse doit être étroitement alignée avec les connaissances récupérées. En comparant le résultat à un document de référence, cette approche permet d'évaluer l'exactitude factuelle et le respect d'un contenu spécifique, comme la vérification des hallucinations dans le texte généré.

Cas d'usage

Le LLM-as-a-Judge est adaptable à diverses applications :

Chatbots:Évaluer les réponses selon des critères tels que la pertinence, le ton et l’utilité pour garantir une qualité constante.
Récapitulation: Notation des résumés pour la concision, la clarté et l'alignement avec le document source afin de maintenir la fidélité.
Génération de code:Révision des extraits de code pour vérifier leur exactitude, leur lisibilité et leur conformité aux instructions données ou aux meilleures pratiques.

Cette méthode peut servir d’évaluateur automatisé pour améliorer ces applications en surveillant et en améliorant en permanence les performances du modèle sans examen humain exhaustif.

Élaboration de votre jury LLM – Un guide étape par étape

La création d'une configuration d'évaluation basée sur le LLM nécessite une planification minutieuse et des directives claires. Suivez ces étapes pour créer un système d'évaluation LLM-as-a-Judge robuste :

Étape 1 : Définition des critères d’évaluation

Commencez par définir les qualités spécifiques que vous souhaitez que le LLM évalue. Vos critères d'évaluation peuvent inclure des facteurs tels que :

Pertinence:La réponse répond-elle directement à la question ou à l’invite ?
Tonalité:Le ton est-il adapté au contexte (par exemple, professionnel, amical, concis) ?
Précision:Les informations fournies sont-elles factuellement correctes, en particulier dans les réponses basées sur les connaissances ?

Par exemple, si vous évaluez un chatbot, vous pouvez privilégier la pertinence et l’utilité pour garantir qu’il fournit des réponses utiles et pertinentes. Chaque critère doit être clairement défini, car des directives vagues peuvent conduire à des évaluations incohérentes. La définition de critères binaires ou échelonnés simples (comme « pertinent » ou « non pertinent » ou une échelle de Likert pour l’utilité) peut améliorer la cohérence.

Étape 2 : Préparation de l’ensemble de données d’évaluation

Pour calibrer et tester le juge LLM, vous aurez besoin d'un ensemble de données représentatif avec des exemples étiquetés. Il existe deux approches principales pour préparer cet ensemble de données :

Données de production:Utilisez les données des sorties historiques de votre application. Sélectionnez des exemples qui représentent des réponses typiques, couvrant une gamme de niveaux de qualité pour chaque critère.
Données synthétiques:Si les données de production sont limitées, vous pouvez créer des exemples synthétiques. Ces exemples doivent imiter les caractéristiques de réponse attendues et couvrir les cas limites pour des tests plus complets.

Une fois que vous disposez d'un ensemble de données, étiquetez-le manuellement en fonction de vos critères d'évaluation. Cet ensemble de données étiqueté servira de vérité fondamentale, vous permettant de mesurer la cohérence et l'exactitude du juge LLM.

Étape 3 : Élaborer des messages efficaces

Ingénierie rapide est essentiel pour guider efficacement le juge du LLM. Chaque question doit être claire, spécifique et alignée sur vos critères d'évaluation. Vous trouverez ci-dessous des exemples pour chaque type d'évaluation :

Invite de comparaison par paires

 
You will be shown two responses to the same question. Choose the response that is more helpful, relevant, and detailed. If both responses are equally good, mark them as a tie.

Question: [Insert question here]
Response A: [Insert Response A]
Response B: [Insert Response B]

Output: "Better Response: A" or "Better Response: B" or "Tie"

Message de notation directe

 
Evaluate the following response for politeness. A polite response is respectful, considerate, and avoids harsh language. Return "Polite" or "Impolite."

Response: [Insert response here]

Output: "Polite" or "Impolite"

Invite d'évaluation basée sur la référence

 
Compare the following response to the provided reference answer. Evaluate if the response is factually correct and conveys the same meaning. Label as "Correct" or "Incorrect."

Reference Answer: [Insert reference answer here]
Generated Response: [Insert generated response here]

Output: "Correct" or "Incorrect"

En élaborant les questions de cette manière, on réduit l'ambiguïté et on permet au juge du LLM de comprendre exactement comment évaluer chaque réponse. Pour améliorer encore la clarté des questions, limitez la portée de chaque évaluation à une ou deux qualités (par exemple, la pertinence et le détail) au lieu de mélanger plusieurs facteurs dans une seule question.

Étape 4 : Tests et itérations

Après avoir créé l'invite et l'ensemble de données, évaluez le juge LLM en l'exécutant sur votre ensemble de données étiqueté. Comparez les résultats du LLM aux étiquettes de vérité fondamentale que vous avez attribuées pour vérifier la cohérence et l'exactitude. Les indicateurs clés pour l'évaluation comprennent :

La précision:Le pourcentage d'évaluations positives correctes.
Rappeler:Le pourcentage de vérités terrain positives correctement identifiées par le LLM.
Précision:Le pourcentage global d'évaluations correctes.

Les tests permettent d'identifier les éventuelles incohérences dans les performances du juge LLM. Par exemple, si le juge qualifie fréquemment à tort des réponses utiles comme inutiles, vous devrez peut-être affiner l'invite d'évaluation. Commencez avec un petit échantillon, puis augmentez la taille de l'ensemble de données au fur et à mesure de vos itérations.

À ce stade, envisagez d'expérimenter différentes structures d'invite ou d'utiliser plusieurs LLM pour la validation croisée. Par exemple, si un modèle a tendance à être verbeux, essayez de tester avec un modèle LLM plus concis pour voir si les résultats correspondent davantage à votre vérité fondamentale. Les révisions d'invite peuvent impliquer l'ajustement des libellés, la simplification du langage ou même la division d'invites complexes en invites plus petites et plus faciles à gérer.

Mise en œuvre du code : mettre en pratique le LLM en tant que juge

Cette section vous guidera dans la configuration et la mise en œuvre du framework LLM-as-a-Judge à l'aide de Python et Étreindre le visageDe la configuration de votre client LLM au traitement des données et à l'exécution des évaluations, cette section couvrira l'ensemble du pipeline.

Configuration de votre client LLM

Pour utiliser un LLM comme évaluateur, nous devons d'abord le configurer pour les tâches d'évaluation. Cela implique de configurer un client de modèle LLM pour effectuer des tâches d'inférence et d'évaluation avec un modèle pré-entraîné disponible sur le hub de Hugging Face. Ici, nous utiliserons huggingface_hub pour simplifier la configuration.

 
import pandas as pd
from huggingface_hub import InferenceClient

# Initialize the LLM client with a specific model repository
repo_id = "mistralai/Mixtral-8x7B-Instruct-v0.1"
llm_client = InferenceClient(model=repo_id, timeout=120)

Dans cette configuration, le modèle est initialisé avec une limite de délai d'attente pour gérer les demandes d'évaluation étendues. Assurez-vous de remplacer repo_id avec l'ID de référentiel correct pour votre modèle choisi.

Chargement et préparation des données

Après avoir configuré le client LLM, l'étape suivante consiste à charger et préparer les données pour l'évaluation. Nous utiliserons pandas pour la manipulation des données et la datasets bibliothèque pour charger des ensembles de données préexistants. Ci-dessous, nous préparons un petit ensemble de données contenant des questions et des réponses pour l'évaluation.

 
import pandas as pd
from datasets import load_dataset

# Load a sample dataset (replace with your dataset)
data = load_dataset("your_dataset_id")["train"]

# Extract relevant fields for evaluation
df = pd.DataFrame({
    'question': data['question_field'],
    'answer': data['answer_field']
})
df.head()

Assurez-vous que l’ensemble de données contient des champs pertinents pour vos critères d’évaluation, tels que des paires question-réponse ou des formats de sortie attendus.

Évaluation avec un juge LLM

Une fois les données chargées et préparées, nous pouvons créer des fonctions pour évaluer les réponses. Cet exemple illustre une fonction qui évalue la pertinence et l'exactitude d'une réponse en fonction d'une paire question-réponse fournie.

 
def evaluate_answer(question, answer):
    # Craft a prompt to evaluate relevance and accuracy
    prompt = f"Evaluate the response's relevance and accuracy:\nQuestion: {question}\nAnswer: {answer}"
    result = llm_client.text_generation(prompt=prompt, max_new_tokens=50)
    return result

# Test the function with an example
question = "How does the FED's actions impact inflation?"
answer = "When the FED buys bonds, it can lead to..."
evaluation = evaluate_answer(question, answer)
print("LLM Evaluation:", evaluation)

Cette fonction envoie une paire question-réponse au LLM, qui répond par un jugement basé sur l'invite d'évaluation. Vous pouvez adapter cette invite à d'autres tâches d'évaluation en modifiant les critères spécifiés dans l'invite, tels que « pertinence et ton » ou « concision ».

Mise en œuvre des comparaisons par paires

Dans les cas où vous souhaitez comparer deux résultats de modèle, le LLM peut agir comme un juge entre les réponses. Nous ajustons l'invite d'évaluation pour demander au LLM de choisir la meilleure réponse parmi les deux en fonction de critères spécifiés.

 
def evaluate_pairwise(question, answer_a, answer_b):
    # Craft a prompt for pairwise comparison
    prompt = (
        f"Given the question below, determine which response is more relevant and detailed.\n\n"
        f"Question: {question}\n\n"
        f"Response A: {answer_a}\n\n"
        f"Response B: {answer_b}\n\n"
        "Choose the better response: A or B."
    )
    result = llm_client.text_generation(prompt=prompt, max_new_tokens=10)
    return result

# Example pairwise comparison
question = "What is the impact of the FED's bond-buying actions?"
answer_a = "The FED's actions can increase the money supply."
answer_b = "The FED's bond purchases generally raise inflation."
comparison = evaluate_pairwise(question, answer_a, answer_b)
print("Better Response:", comparison)

Cette fonction fournit un moyen pratique d’évaluer et de classer les réponses, ce qui est particulièrement utile dans les scénarios de tests A/B pour optimiser les réponses du modèle.

Conseils pratiques et défis

Bien que le cadre LLM-as-a-Judge soit un outil puissant, plusieurs considérations pratiques peuvent aider à améliorer ses performances et à maintenir sa précision au fil du temps.

Bonnes pratiques pour la création rapide

L'élaboration de consignes efficaces est essentielle pour des évaluations précises. Voici quelques conseils pratiques :

Éviter les préjugés:Les LLM peuvent montrer des biais de préférence en fonction de la structure des questions. Évitez de suggérer la « bonne » réponse dans la question et assurez-vous que la question est neutre.
Réduire le biais de verbosité:Les LLM peuvent privilégier des réponses plus verbeuses. Précisez la concision si la verbosité n'est pas un critère.
Réduire le biais de positionnement:Dans les comparaisons par paires, randomisez périodiquement l’ordre des réponses pour réduire tout biais de position en faveur de la première ou de la deuxième réponse.

Par exemple, plutôt que de dire « Choisissez la meilleure réponse ci-dessous », précisez directement les critères : « Choisissez la réponse qui fournit une explication claire et concise. »

Limitations et stratégies d'atténuation

Bien que les juges du LLM puissent reproduire un jugement humain, ils ont également des limites :

Complexité des tâchesCertaines tâches, notamment celles nécessitant des mathématiques ou un raisonnement approfondi, peuvent dépasser les capacités d'un LLM. Il peut être avantageux d'utiliser des modèles plus simples ou des validateurs externes pour les tâches exigeant des connaissances factuelles précises.
Biais involontaires:Les juges de LLM peuvent afficher des biais basés sur la formulation, connus sous le nom de « biais de position » (favorisant les réponses dans certaines positions) ou « biais d'auto-amélioration » (favorisant les réponses similaires aux précédentes). Pour atténuer ces biais, évitez les hypothèses de position et surveillez les tendances d'évaluation pour repérer les incohérences.
Ambiguïté dans les résultats:Si le LLM produit des évaluations ambiguës, envisagez d’utiliser des invites binaires qui nécessitent des classifications oui/non ou positives/négatives pour des tâches plus simples.

Conclusion

Le cadre LLM-as-a-Judge offre une approche flexible, évolutive et rentable pour évaluer les résultats de texte générés par l'IA. Avec une configuration appropriée et une conception réfléchie des invites, il peut imiter le jugement humain dans diverses applications, des chatbots aux synthétiseurs en passant par les systèmes d'assurance qualité.

Grâce à une surveillance minutieuse, une itération rapide et une connaissance des limites, les équipes peuvent s'assurer que leurs juges LLM restent alignés sur les besoins des applications du monde réel.

Ayush Mittal

J'ai passé les cinq dernières années à m'immerger dans le monde fascinant du Machine Learning et du Deep Learning. Ma passion et mon expertise m'ont amené à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique du langage naturel, un domaine que j'ai hâte d'explorer davantage.

Unite.AI