الذكاء الاصطناعي

LLM-as-a-Judge: حل قابل للتوسيع لتقييم نماذج اللغة باستخدام نماذج اللغة

Published November 14, 2024

Updated April 3, 2026

Aayush Mittal Mittal

LLM-as-a-Judge for Automated and Scalable Evaluation

إطار LLM-as-a-Judge هو بديل قابل للتوسيع وآلي للتقييمات البشرية ، والتي غالبًا ما تكون مكلفة وبطيئة ومحدودة بحجم الاستجابات التي يمكن تقييمها بشكل معقول. من خلال استخدام LLM لتقييم مخرجات LLM آخر ، يمكن للفرق تتبع الدقة والصلة والطون والامتثال للمبادئ التوجيهية المحددة بطريقة متسقة وقابلة للتكرار.

إن تقييم النص المتولد يخلق تحديات فريدة تذهب أبعد من معايير الدقة التقليدية. يمكن أن يؤدي استجابة واحدة إلى مؤشر متعددة الصحيح التي تختلف في الشكل أو النبرة أو الصياغة ، مما يجعل من الصعب قياس الجودة باستخدام معايير كمية بسيطة.

هنا ، يبرز подход LLM-as-a-Judge: إنه يسمح بتقييمات دقيقة على خصائص معقدة مثل النبرة والفائدة والترابط في المحادثة. سواء أستخدمت لمقارنة إصدارات النموذج أو تقييم الإخراج في الوقت الفعلي ، فإن LLMs كقضاة يقدمون طريقة مرنة لتقريب الحكم البشري ، مما يجعلهم حلاً مثاليًا لتوسيع جهود التقييم عبر مجموعات بيانات كبيرة وتفاعلات حية.

سيقوم هذا الدليل باستكشاف كيفية عمل LLM-as-a-Judge ، وأنواع التقييمات المختلفة ، والخطوات العملية لتنفيذه بشكل فعال في سياقات مختلفة. سنغطي كيفية 설정 المعايير وتصميم مؤشرات التقييم وتحديد حلقة ملاحظات لتحسينات مستمرة.

مفهوم LLM-as-a-Judge

LLM-as-a-Judge يستخدم LLMs لتقييم مخرجات النص من أنظمة ذكاء اصطناعي أخرى. باعتبارهم محلفين محايدين ، يمكن لـ LLMs تقييم النص المتولد بناءً على معايير مخصصة ، مثل الصلة والوضوح والنبرة. هذا عملية التقييم مشابهة لوجود محكم افتراضي لمراجعة كل مخرج وفقًا للمبادئ التوجيهية المحددة في مؤشر. إنه إطار مفيد بشكل خاص للتطبيقات الغنية بالمحتويات ، حيث يكون المراجعة البشرية غير عملية بسبب الحجم أو قيود الوقت.

كيف يعمل

تم تصميم LLM-as-a-Judge لتقييم استجابات النص بناءً على الإرشادات داخل مؤشر التقييم. يحدد المؤشر عادةً الخصائص مثل الفائدة والصلة أو الوضوح التي يجب على LLM مراعاتها عند تقييم مخرج. على سبيل المثال ، قد يطلب مؤشر من LLM أن يقرر ما إذا كانت استجابة الدردشة مفيدة أو غير مفيدة ، مع توجيهات حول ما يشمل كل تسمية.

يستخدم LLM معرفته الداخلية وأنماط اللغة المكتسبة لتقييم النص المقدم ، مطابقًا لمعايير المؤشر إلى خصائص الاستجابة. من خلال وضع التوقعات الواضحة ، يمكن للمحكمين توجيه تركيز LLM لالتقاط خصائص دقيقة مثل اللطف أو الضبط التي قد تكون صعبة القياس بخلاف ذلك. على عكس معايير التقييم التقليدية ، يوفر LLM-as-a-Judge تقريبًا مرنًا ومتوسطًا للحكم البشري قابل للتكيف مع أنواع المحتوى المختلفة واحتياجات التقييم.

أنواع التقييم

المقارنة الزوجية: في هذه الطريقة ، يُطلب من LLM اختيار استجابة أفضل من استجابتين لاستجابة واحدة بناءً على معايير مثل الصلة أو الدقة. غالبًا ما يتم استخدام هذا النوع من التقييم في اختبار A / B ، حيث يقوم المطورون بمقارنة إصدارات مختلفة من نموذج أو تكوين مؤشر. من خلال طلب LLM لحكم أي استجابة تعمل بشكل أفضل وفقًا لمعايير محددة ، توفر المقارنة الزوجية طريقة مباشرة لتحديد التفضيل في مخرجات النموذج.
التقييم المباشر: التقييم المباشر هو تقييم بدون مرجع حيث يُمنح LLM درجة استجابة واحدة بناءً على خصائص مخصصة مثل اللطف أو النبرة أو الوضوح. يعمل التقييم المباشر بشكل جيد في التقييمات غير المتصلة بالإنترنت وオンライン ، مما يوفر طريقة لمراقبة الجودة بشكل مستمر عبر التفاعلات المختلفة. هذا الأسلوب مفيد لتعقب الخصائص الثابتة مع مرور الوقت ويستخدم غالبًا لمراقبة الاستجابات في الوقت الفعلي في الإنتاج.
التقييم القائم على المرجع: يُقدم هذا الأسلوب سياقًا إضافيًا ، مثل إجابة مرجعية أو مواد داعمة ، التي يتم تقييم الاستجابة المتولدة ضدها. يتم استخدام هذا بشكل شائع في توليد Retrieval-Augmented (RAG) ، حيث يجب أن تتماشى الاستجابة بشكل وثيق مع المعرفة المستردة. من خلال مقارنة المخرجات مع وثيقة مرجعية ، يساعد هذا النهج في تقييم الدقة الفعلية والامتثال للمحتوى المحدد ، مثل التحقق من هلوسات النص المتولد.

حالات الاستخدام

LLM-as-a-Judge قابل للتكيف عبر تطبيقات مختلفة:

دردشات: تقييم الاستجابات بناءً على معايير مثل الصلة والنبرة والفائدة لضمان جودة متسقة.
التلخيص: تقييم الملخصات للاختصار والوضوح والامتثال للوثيقة الأصلية للحفاظ على الإخلاص.
توليد الكود: مراجعة شذرات الكود لصحتها وقابلية القراءة والامتثال للتعليمات المحددة أو أفضل الممارسات.

يمكن أن يخدم هذا الأسلوب كمقييم آلي لتحسين هذه التطبيقات من خلال مراقبة أداء النموذج وتحسينه بشكل مستمر دون مراجعة بشرية شاملة.

بناء قاضيك LLM – دليل خطوة بخطوة

إنشاء إعداد تقييم قائم على LLM يتطلب التخطيط والارشادات الواضحة. اتبع هذه الخطوات لإنشاء نظام تقييم LLM-as-a-Judge قوي:

الخطوة 1: تعريف معايير التقييم

ابحث عن تحديد الخصائص المحددة التي تريد أن يقيمها LLM. قد تتضمن معايير التقييم الخاصة بك عوامل مثل:

الصلة: هل الاستجابة تتناول مباشرة السؤال أو المؤشر؟
النبرة: هل النبرة مناسبة للسياق (مثل المهنية أو الودية أو الموجزة)؟
الدقة: هل المعلومات المقدمة صحيحة ، خاصة في الاستجابات القائمة على المعرفة؟

على سبيل المثال ، إذا كنت تقيم دردشة ، قد تُفضل الصلة والفائدة لضمان تقديم استجابات مفيدة وموضوعية. يجب أن تكون كل معايير واضحة ، لأن الإرشادات الغامضة يمكن أن تؤدي إلى تقييمات غير متسقة. يمكن أن ي cải thiện تعريف معايير ثنائية بسيطة أو مقياس (مثل “محدد” مقابل “غير محدد” أو مقياس Likert للفائدة) من الاتساق.

الخطوة 2: إعداد مجموعة البيانات

لتهيئة واختبار قاضي LLM ، ستحتاج إلى مجموعة بيانات ممثلة مع أمثلة تم تصنيفها. هناك نهجان رئيسيان لتحضير هذه المجموعة من البيانات:

بيانات الإنتاج: استخدم بيانات من مخرجات تطبيقك التاريخية. اختر أمثلة تمثل استجابات نمطية ، تغطي مجموعة من مستويات الجودة لكل معيار.
بيانات اصطناعية: إذا كانت بيانات الإنتاج محدودة ، يمكنك إنشاء أمثلة اصطناعية. يجب أن تقلد هذه الأمثلة خصائص الاستجابة المتوقعة وتغطي حالات حافة لاختبار أكثر شمولاً.

بمجرد أن تحصل على مجموعة بيانات ، قم بتصنيفها يدوياً وفقًا لمعايير التقييم الخاصة بك. ستعمل هذه المجموعة من البيانات المصنفة كحقيقة مرجعية ، مما يسمح لك بقياس اتساق و دقة قاضي LLM.

الخطوة 3: تصميم مؤشرات فعالة

هندسة المؤشرات هي أمر حاسم لتوجيه قاضي LLM بشكل فعال. يجب أن يكون كل مؤشر واضحًا و محددًا ومتوافقًا مع معايير التقييم الخاصة بك. فيما يلي أمثلة لكل نوع من التقييمات:

مؤشر المقارنة الزوجية

ستظهر لك استجابتان لاستجابة واحدة. اختر الاستجابة التي هي أكثر فائدة و صلة و تفصيل. إذا كانت كلتا الاستجابتين متساويتين ، قم بتحديدهما كتعادل.

السؤال: [أدخل السؤال هنا]
الاستجابة أ: [أدخل الاستجابة أ]
الاستجابة ب: [أدخل الاستجابة ب]

الإخراج: "الاستجابة الأفضل: أ" أو "الاستجابة الأفضل: ب" أو "تعادل";

مؤشر التقييم المباشر

تقييم الاستجابة التالية لللطف. استجابة لطيفة هي محترمة ومتعاونة وتتجنب اللغة القاسية. أعد "لطف" أو "غير لطيف".

الاستجابة: [أدخل الاستجابة هنا]

الإخراج: "لطف" أو "غير لطيف";

مؤشر التقييم القائم على المرجع

قارن الاستجابة التالية بالجواب المرجعي المقدم. تقييم ما إذا كانت الاستجابة صحيحة من الناحية الفعلية وتنقل نفس المعنى. قم بتحديدها ك "صحيح" أو "غير صحيح".

الجواب المرجعي: [أدخل الجواب المرجعي هنا]
الاستجابة المتولدة: [أدخل الاستجابة المتولدة هنا]

الإخراج: "صحيح" أو "غير صحيح";

تصميم المؤشرات بهذه الطريقة يقلل من الغموض ويمكن قاضي LLM من فهم كيفية تقييم كل استجابة. لتحسين وضوح المؤشر بشكل أكبر ، حدد نطاق كل تقييم إلى جودة واحدة أو جوقتين (مثل الصلة والتفصيل) بدلاً من مزيج من العوامل المتعددة في مؤشر واحد.

الخطوة 4: الاختبار والتحديث

بعد إنشاء المؤشر ومجموعة البيانات ، قم بتقييم قاضي LLM عن طريق تشغيله على مجموعة بيانات المصنفة. قارن مخرجات LLM بالتسميات الحقيقية التي قمت بتعيينها للتحقق من الاتساق والدقة. تشمل المعايير الرئيسية للتقييم:

الدقة: نسبة التقييمات الإيجابية الصحيحة.
الاستدلال: نسبة الإيجابيات الحقيقية التي تم تحديدها بشكل صحيح بواسطة LLM.
الدقة: نسبة التقييمات الصحيحة الإجمالية.

يساعد الاختبار في تحديد أي عدم اتساق في أداء قاضي LLM. على سبيل المثال ، إذا كان القاضي يخطئ بشكل متكرر في تحديد الاستجابات المفيدة على أنها غير مفيدة ، قد تحتاج إلى تعديل مؤشر التقييم. ابدأ بمثال صغير ، ثم زيد من حجم المجموعة من البيانات أثناء التكرار.

في هذه المرحلة ، فكر في تجربة هياكل مؤشرات مختلفة أو استخدام عدة LLMs للتحقق المتقاطع. على سبيل المثال ، إذا كان أحد النماذج يميل إلى أن يكون冗長 ، جرب اختبار نموذج LLM أكثر إيجازًا لمعرفة ما إذا كانت النتائج تتوافق بشكل أوثق مع حقيقة مرجعية الخاصة بك. قد تتضمن تعديلات المؤشر تعديل التسميات أو تبسيط اللغة أو حتى كسر مؤشرات معقدة إلى مؤشرات أصغر وأكثر إدارة.

تنفيذ الكود: وضع LLM-as-a-Judge في العمل

سيقوم هذا القسم بمرافقتك خلال إعداد وتنفيذ إطار LLM-as-a-Judge باستخدام Python و Hugging Face. من إعداد العميل LLM إلى معالجة البيانات و تشغيل التقييمات ، سيغطي هذا القسم整个 خط أنابيب.

إعداد العميل LLM

لاستخدام LLM كمقييم ، نحتاج إلى تكوينه لأداء مهام التقييم. يتضمن ذلك إعداد عميل LLM لتنفيذ مهام الاستدلال والتقييم مع نموذج مدرب مسبقًا متاح على هاب Hugging Face. هنا ، سنستخدم huggingface_hub لتسهيل الإعداد.

import pandas as pd
from huggingface_hub import InferenceClient

# قم بتهيئة العميل LLM بنموذج مستودع معين
repo_id = "mistralai/Mixtral-8x7B-Instruct-v0.1"
llm_client = InferenceClient(model=repo_id, timeout=120)

في هذا الإعداد ، يتم تكوين النموذج بحد زمني لتعامل مع طلبات التقييم الممتدة. تأكد من استبدال repo_id بидентيفير المستودع الصحيح لنموذجك.

تحميل وتحضير البيانات

بعد إعداد العميل LLM ، يكون الخطوة التالية هي تحميل وتحضير البيانات للتقييم. سنستخدم pandas لعمليات البيانات و datasets لتحميل أي مجموعات بيانات موجودة. أدناه ، نقوم بتحضير مجموعة بيانات صغيرة تحتوي على أسئلة واستجابات للتقييم.

import pandas as pd
from datasets import load_dataset

# تحميل مجموعة بيانات نموذجية (استبدل بمجموعة بياناتك)
data = load_dataset("your_dataset_id")["train"]

# استخراج الحقول ذات الصلة للتقييم
df = pd.DataFrame({
'question': data['question_field'],
'answer': data['answer_field']
})
df.head()

تأكد من أن المجموعة من البيانات تحتوي على حقول ذات صلة لمعايير التقييم الخاصة بك ، مثل أزواج سؤال-استجابة أو تنسيقات مخرجات متوقعة.

التقييم باستخدام قاضي LLM

بمجرد تحميل وتحضير البيانات ، يمكننا إنشاء دوال لتقييم الاستجابات. يوضح هذا المثال وظيفة تقييم استجابة لصحتها ودقتها بناءً على زوج سؤال-استجابة مقدم.

def evaluate_answer(question, answer):
# قم بتصميم مؤشر لتقييم الصلة والدقة
prompt = f"تقييم استجابة الصلة والدقة:\nالسؤال: {question}\nالاستجابة: {answer}"
result = llm_client.text_generation(prompt=prompt, max_new_tokens=50)
return result

# اختبار الوظيفة مع مثال
question = "كيف تؤثر إجراءات FED على التضخم؟"
answer = "عندما يشتري FED السندات ، يمكن أن يؤدي إلى..."
evaluation = evaluate_answer(question, answer)
print("تقييم LLM:", evaluation)

تُرسل هذه الوظيفة زوج سؤال-استجابة إلى LLM ، والذي يستجيب بتحكيم بناءً على مؤشر التقييم. يمكنك تعديل هذا المؤشر لتحقيق مهام تقييم أخرى عن طريق تعديل المعايير المحددة في المؤشر ، مثل “الصلة والنبرة” أو “الوضوح”.

تنفيذ المقارنة الزوجية

في الحالات التي تريد فيها مقارنة مخرجات نموذجين ، يمكن لـ LLM أن يتصرف كقاضي بين الاستجابات. نعدل مؤشر التقييم لتعليم LLM اختيار الاستجابة الأفضل من بين اثنتين بناءً على معايير محددة.

def evaluate_pairwise(question, answer_a, answer_b):
# قم بتصميم مؤشر للمقارنة الزوجية
prompt = (
f"عندما يتم تقديم السؤال أدناه ، حدد الاستجابة الأكثر صلة و تفصيلا.\n\n"
f"السؤال: {question}\n\n"
f"الاستجابة أ: {answer_a}\n\n"
f"الاستجابة ب: {answer_b}\n\n"
"اختر الاستجابة الأفضل: أ أو ب."
)
result = llm_client.text_generation(prompt=prompt, max_new_tokens=10)
return result

# مثال للمقارنة الزوجية
question = "ما هو تأثير إجراءات FED لشراء السندات؟"
answer_a = "إجراءات FED يمكن أن تزيد من المعروض النقدي."
answer_b = "عمليات شراء سندات FED تزيد بشكل عام من التضخم."
comparison = evaluate_pairwise(question, answer_a, answer_b)
print("الاستجابة الأفضل:", comparison)

توفر هذه الوظيفة طريقة عملية لتقييم وترتيب الاستجابات ، وهو مفيد بشكل خاص في اختبارات A / B لتحسين استجابات النموذج.

نصائح عملية وتحديات

بينما يوفر إطار LLM-as-a-Judge أداة قوية ، هناك اعتبارات عملية يمكن أن تحسن أدائه والحفاظ على دقته مع مرور الوقت.

أفضل الممارسات لتصميم المؤشرات

تصميم مؤشرات فعالة هو مفتاح تقييمات دقيقة. 여기 بعض النصائح العملية:

تجنب التحيز: يمكن أن تظهر LLMs تحيزات تفضيلية بناءً على هيكل المؤشر. تجنب اقتراح “الجواب الصحيح” داخل المؤشر ، واكد أن السؤال محايد.
تقليل تحيز اللفظ: يمكن أن تفضل LLMs استجابات أكثر تفصيلاً. حدد الاختصار إذا لم يكن طول النص معيارًا.
تقليل تحيز الموقع: في المقارنات الزوجية ، قم بتدوير ترتيب الاستجابات بشكل دوري لتقليل أي تحيز موقعي نحو الاستجابة الأولى أو الثانية.

على سبيل المثال ، بدلاً من قول “اختر أفضل جواب أدناه” ، حدد المعايير مباشرة: “اختر الاستجابة التي توفر شرحًا واضحًا وموجزًا”.

limitations و استراتيجيات التخفيف

بينما يمكن لـ LLMs تقديم أحكام تشبه الإنسانية ، لديهم أيضًا قيود:

تعقيد المهمة: بعض المهام ، خاصة تلك التي تتطلب الرياضيات أو التفكير العميق ، قد تتجاوز قدرة LLM. قد يكون من المفيد استخدام نماذج أبسط أو مصادقة خارجية لمهام تتطلب معرفة دقيقة.
تحيزات غير مقصودة: يمكن أن تظهر قضاة LLM تحيزات بناءً على الصياغة ، مثل “تحيز الموقع” (الافضل استجابة في مواقع معينة) أو “تحيز التعزيز الذاتي” (الافضل استجابات مشابهة لاستجابات سابقة). لتخفيف هذه ، تجنب افتراضات الموقع ، ومراقبة اتجاهات التقييم لتحديد عدم الاتساق.
غموض الإخراج: إذا أنتج LLM تقييمات غامضة ، فكر في استخدام مؤشرات ثنائية تطلب تصنيفات نعم / لا أو إيجابية / سلبية لمهام أبسط.

الخلاصة

يوفر إطار LLM-as-a-Judge نهجًا مرنًا وقابلًا للتوسيع لتقييم مخرجات النص المتولد بواسطة الذكاء الاصطناعي. من خلال التخطيط والتصميم بعناية ، يمكن أن يقلد هذا الإطار الحكم البشري في مجموعة واسعة من التطبيقات ، من الدردشات إلى ملخصات الأنظمة والأنظمة الأساسية.

من خلال المراقبة الدقيقة وتصميم المؤشرات وتحديثه ، يمكن للفرق ضمان أن قضاتهم LLM يبقون على اتصال مع احتياجات التطبيق في العالم الحقيقي.

Aayush Mittal

لقد قمت بإنفاق الخمس سنوات الماضية في غمرة العالم المثير للاهتمام من تعلم الآلة والتعلم العميق. وقد أدت شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا للهندسة البرمجية متنوعًا، مع التركيز بشكل خاص على الذكاء الاصطناعي / تعلم الآلة. كما أدت فضولي المستمر إلى جذبي نحو معالجة اللغة الطبيعية، وهو مجال أنا حريص على استكشافه بشكل أكبر.

Unite.AI