Kecerdasan buatan

LLM-as-a-Judge: Solusi Scalable untuk Mengevaluasi Model Bahasa Menggunakan Model Bahasa

Published November 14, 2024

Updated April 3, 2026

Aayush Mittal Mittal

LLM-as-a-Judge for Automated and Scalable Evaluation

Kerangka LLM-as-a-Judge adalah alternatif otomatis yang scalable untuk evaluasi manusia, yang sering kali mahal, lambat, dan terbatas oleh volume respons yang dapat dinilai. Dengan menggunakan LLM untuk menilai output LLM lain, tim dapat secara efisien melacak akurasi, relevansi, nada, dan kepatuhan terhadap pedoman tertentu secara konsisten dan dapat diulang.

Mengevaluasi teks yang dihasilkan menciptakan tantangan unik yang melampaui metrik akurasi tradisional. Satu prompt dapat menghasilkan beberapa respons yang benar yang berbeda dalam gaya, nada, atau frasa, membuatnya sulit untuk memantau kualitas menggunakan metrik kuantitatif sederhana.

Di sini, pendekatan LLM-as-a-Judge menonjol: itu memungkinkan evaluasi nuansa pada kualitas kompleks seperti nada, bantuan, dan koherensi percakapan. Apakah digunakan untuk membandingkan versi model atau menilai output waktu nyata, LLM sebagai hakim menawarkan cara fleksibel untuk mengapproximasi penilaian manusia, membuatnya menjadi solusi ideal untuk menskalakan upaya evaluasi di seluruh dataset besar dan interaksi langsung.

Pedoman ini akan menjelajahi bagaimana LLM-as-a-Judge bekerja, jenis evaluasi yang berbeda, dan langkah-langkah praktis untuk mengimplementasikannya secara efektif dalam berbagai konteks. Kami akan membahas bagaimana menetapkan kriteria, merancang prompt evaluasi, dan membangun umpan balik untuk perbaikan berkelanjutan.

Konsep LLM-as-a-Judge

LLM-as-a-Judge menggunakan LLM untuk menilai output teks dari sistem AI lain. Bertindak sebagai penilai yang tidak memihak, LLM dapat menilai teks yang dihasilkan berdasarkan kriteria kustom, seperti relevansi, kekompakan, dan nada. Proses evaluasi ini serupa dengan memiliki evaluator virtual yang meninjau setiap output sesuai dengan pedoman tertentu yang diberikan dalam prompt. Ini adalah kerangka kerja yang sangat berguna untuk aplikasi yang sarat konten, di mana tinjauan manusia tidak praktis karena volume atau keterbatasan waktu.

Bagaimana Cara Kerjanya

LLM-as-a-Judgeancang untuk menilai respons teks berdasarkan instruksi dalam prompt evaluasi. Prompt biasanya mendefinisikan kualitas seperti bantuan, relevansi, atau kejelasan yang harus dipertimbangkan LLM saat menilai output. Misalnya, prompt mungkin meminta LLM untuk memutuskan apakah respons chatbot “bermanfaat” atau “tidak bermanfaat”, dengan pedoman tentang apa yang dimaksud dengan setiap label.

LLM menggunakan pengetahuan internal dan pola bahasa yang dipelajari untuk menilai teks yang diberikan, mencocokkan kriteria prompt dengan kualitas respons. Dengan menetapkan harapan yang jelas, evaluator dapat menyesuaikan fokus LLM untuk menangkap kualitas nuansa seperti kesopanan atau spesifisitas yang mungkin sulit diukur. Tidak seperti metrik evaluasi tradisional, LLM-as-a-Judge menyediakan aproksimasi penilaian manusia yang fleksibel dan dapat disesuaikan dengan berbagai jenis konten dan kebutuhan evaluasi.

Jenis Evaluasi

Perbandingan Berpasangan: Dalam metode ini, LLM diberikan dua respons terhadap prompt yang sama dan diminta untuk memilih “lebih baik” berdasarkan kriteria seperti relevansi atau akurasi. Jenis evaluasi ini sering digunakan dalam pengujian A/B, di mana pengembang membandingkan versi model atau konfigurasi prompt yang berbeda. Dengan meminta LLM untuk menilai respons mana yang berkinerja lebih baik sesuai dengan kriteria tertentu, perbandingan berpasangan menawarkan cara langsung untuk menentukan preferensi dalam output model.
Penilaian Langsung: Penilaian langsung adalah evaluasi referensi-bebas di mana LLM menilai satu output berdasarkan kualitas pra-definisi seperti kesopanan, nada, atau kejelasan. Penilaian langsung bekerja dengan baik dalam evaluasi offline dan online, menyediakan cara untuk terus memantau kualitas di seluruh interaksi. Metode ini bermanfaat untuk melacak kualitas konsisten dari waktu ke waktu dan sering digunakan untuk memantau respons waktu nyata dalam produksi.
Evaluasi Berbasis Referensi: Metode ini memperkenalkan konteks tambahan, seperti jawaban referensi atau materi pendukung, terhadap mana respons yang dihasilkan dinilai. Ini umum digunakan dalam Retrieval-Augmented Generation (RAG) setup, di mana respons harus selaras erat dengan pengetahuan yang diperoleh. Dengan membandingkan output dengan dokumen referensi, pendekatan ini membantu menilai akurasi faktual dan kepatuhan terhadap konten tertentu, seperti memeriksa halusinasi dalam teks yang dihasilkan.

Kasus Penggunaan

LLM-as-a-Judge dapat disesuaikan dengan berbagai aplikasi:

Chatbot: Menilai respons berdasarkan kriteria seperti relevansi, nada, dan bantuan untuk memastikan kualitas konsisten.
Ringkasan: Menilai ringkasan berdasarkan kekompakan, kejelasan, dan keselarasan dengan dokumen sumber untuk mempertahankan kesetiaan.
Generasi Kode: Meninjau potongan kode untuk kebenaran, keterbacaan, dan kepatuhan terhadap instruksi atau praktik terbaik yang diberikan.

Metode ini dapat berfungsi sebagai evaluator otomatis untuk meningkatkan aplikasi ini dengan terus memantau dan meningkatkan kinerja model tanpa tinjauan manusia yang menyeluruh.

Membangun LLM Judge Anda – Panduan Langkah demi Langkah

Membuat setup evaluasi berbasis LLM memerlukan perencanaan yang cermat dan pedoman yang jelas. Ikuti langkah-langkah ini untuk membangun sistem evaluasi LLM-as-a-Judge yang kuat:

Langkah 1: Mendefinisikan Kriteria Evaluasi

Mulailah dengan mendefinisikan kualitas spesifik yang Anda inginkan LLM untuk menilai. Kriteria evaluasi Anda mungkin termasuk faktor seperti:

Relevansi: Apakah respons langsung menjawab pertanyaan atau prompt?
Nada: Apakah nada sesuai dengan konteks (misalnya, profesional, ramah, singkat)?
Akurasi: Apakah informasi yang diberikan faktual benar, terutama dalam respons berbasis pengetahuan?

Misalnya, jika menilai chatbot, Anda mungkin memprioritaskan relevansi dan bantuan untuk memastikan itu memberikan respons yang berguna dan topik. Setiap kriteria harus didefinisikan dengan jelas, karena pedoman yang samar dapat menyebabkan evaluasi yang tidak konsisten. Mendefinisikan kriteria biner sederhana atau skala (seperti “relevant” vs. “tidak relevant” atau skala Likert untuk bantuan) dapat meningkatkan konsistensi.

Langkah 2: Menyiapkan Dataset Evaluasi

Untuk mengkalibrasi dan menguji LLM judge, Anda memerlukan dataset representatif dengan contoh yang diberi label. Ada dua pendekatan utama untuk menyiapkan dataset ini:

Data Produksi: Gunakan data dari output aplikasi historis. Pilih contoh yang mewakili respons tipikal, mencakup berbagai tingkat kualitas untuk setiap kriteria.
Data Sintetis: Jika data produksi terbatas, Anda dapat membuat contoh sintetis. Contoh ini harus meniru karakteristik respons yang diharapkan dan mencakup kasus tepi untuk pengujian yang lebih komprehensif.

Setelah Anda memiliki dataset, berikan label secara manual sesuai dengan kriteria evaluasi Anda. Dataset yang diberi label ini akan berfungsi sebagai kebenaran dasar, memungkinkan Anda untuk mengukur konsistensi dan akurasi LLM judge.

Langkah 3: Merancang Prompt Evaluasi yang Efektif

Teknik prompt sangat penting untuk memandu LLM judge secara efektif. Setiap prompt harus jelas, spesifik, dan selaras dengan kriteria evaluasi Anda. Berikut adalah contoh untuk setiap jenis evaluasi:

Prompt Perbandingan Berpasangan

Anda akan diberikan dua respons terhadap pertanyaan yang sama. Pilih respons yang lebih bermanfaat, relevan, dan detail. Jika kedua respons sama baik, tandai sebagai seri.
"Respons Lebih Baik: A" atau "Respons Lebih Baik: B" atau "Seri";

Prompt Penilaian Langsung

Nilai respons berikut untuk kesopanan. Respons yang sopan adalah hormat, considerate, dan menghindari bahasa kasar. Kembalikan "Sopan" atau "Tidak Sopan."
"Sopan" atau "Tidak Sopan";

Prompt Evaluasi Berbasis Referensi

Bandikan respons berikut dengan jawaban referensi yang diberikan. Nilai apakah respons tersebut faktual benar dan mengungkapkan makna yang sama. Beri label sebagai "Benar" atau "Tidak Benar."
"Benar" atau "Tidak Benar";

Merancang prompt dengan cara ini mengurangi ambiguitas dan memungkinkan LLM judge untuk memahami secara tepat bagaimana menilai setiap respons. Untuk lebih meningkatkan kejelasan prompt, batasi cakupan setiap evaluasi menjadi satu atau dua kualitas (misalnya, relevansi dan detail) alih-alih mencampur beberapa faktor dalam satu prompt.

Langkah 4: Pengujian dan Iterasi

Setelah membuat prompt dan dataset, evaluasi LLM judge dengan menjalankannya pada dataset yang diberi label. Bandingkan output LLM dengan label kebenaran dasar yang Anda tetapkan untuk memeriksa konsistensi dan akurasi. Metrik kunci untuk evaluasi termasuk:

Presisi: Persentase evaluasi positif yang benar.
Pengingatan: Persentase positif kebenaran dasar yang benar diidentifikasi oleh LLM.
Akurasi: Persentase evaluasi yang benar secara keseluruhan.

Pengujian membantu mengidentifikasi inkonsistensi dalam kinerja LLM judge. Misalnya, jika judge sering salah menandai respons bermanfaat sebagai tidak bermanfaat, Anda mungkin perlu memperbarui prompt evaluasi. Mulailah dengan sampel kecil, kemudian tingkatkan ukuran dataset saat Anda mengiterasi.

Dalam tahap ini, pertimbangkan untuk bereksperimen dengan struktur prompt yang berbeda atau menggunakan beberapa LLM untuk validasi silang. Misalnya, jika satu model cenderung bersifat verbos, coba uji dengan model LLM yang lebih ringkas untuk melihat apakah hasilnya selaras lebih dekat dengan kebenaran dasar Anda. Revisi prompt mungkin melibatkan penyesuaian label, penyederhanaan bahasa, atau bahkan memecah prompt kompleks menjadi prompt yang lebih kecil dan lebih mudah diatur.

Implementasi Kode: Menggunakan LLM-as-a-Judge dalam Aksi

Bagian ini akan memandu Anda melalui pengaturan dan implementasi kerangka kerja LLM-as-a-Judge menggunakan Python dan Hugging Face. Dari pengaturan klien LLM hingga pemrosesan data dan menjalankan evaluasi, bagian ini akan mencakup seluruh pipeline.

Mengatur Klien LLM Anda

Untuk menggunakan LLM sebagai evaluator, kita perlu mengkonfigurasinya untuk tugas evaluasi. Ini melibatkan pengaturan klien LLM untuk melakukan inferensi dan tugas evaluasi dengan model pra-terlatih yang tersedia di hub Hugging Face. Di sini, kita akan menggunakan huggingface_hub untuk mempermudah pengaturan.

import pandas as pd
from huggingface_hub import InferenceClient

# Inisialisasi klien LLM dengan repositori model tertentu
repo_id = "mistralai/Mixtral-8x7B-Instruct-v0.1"
llm_client = InferenceClient(model=repo_id, timeout=120)

Dalam pengaturan ini, model diinisialisasi dengan batas waktu untuk menangani permintaan evaluasi yang diperpanjang. Pastikan untuk mengganti repo_id dengan ID repositori yang benar untuk model yang Anda pilih.

Memuat dan Menyiapkan Data

Setelah mengatur klien LLM, langkah berikutnya adalah memuat dan menyiapkan data untuk evaluasi. Kita akan menggunakan pandas untuk manipulasi data dan perpustakaan datasets untuk memuat dataset yang ada. Berikut, kita menyiapkan dataset kecil yang berisi pertanyaan dan respons untuk evaluasi.

import pandas as pd
from datasets import load_dataset

# Muat dataset contoh (gantikan dengan dataset Anda)
data = load_dataset("your_dataset_id")["train"]

# Ekstrak bidang yang relevan untuk evaluasi
df = pd.DataFrame({
'pertanyaan': data['question_field'],
'jawaban': data['answer_field']
})
df.head()

Pastikan dataset berisi bidang yang relevan dengan kriteria evaluasi Anda, seperti pasangan pertanyaan-jawaban atau format output yang diharapkan.

Menilai dengan LLM Judge

Setelah data dimuat dan disiapkan, kita dapat membuat fungsi untuk menilai respons. Contoh ini menunjukkan fungsi yang menilai relevansi dan akurasi jawaban berdasarkan pasangan pertanyaan-jawaban yang diberikan.

def evaluate_answer(pertanyaan, jawaban):
# Buat prompt untuk menilai relevansi dan akurasi
prompt = f"Nilai respons berdasarkan relevansi dan akurasi:\nPertanyaan: {pertanyaan}\nJawaban: {jawaban}"
result = llm_client.text_generation(prompt=prompt, max_new_tokens=50)
return result

# Uji fungsi dengan contoh
pertanyaan = "Bagaimana tindakan FED mempengaruhi inflasi?"
jawaban = "Ketika FED membeli obligasi, itu dapat menyebabkan..."
evaluasi = evaluate_answer(pertanyaan, jawaban)
print("Evaluasi LLM:", evaluasi)

Fungsi ini mengirim pasangan pertanyaan-jawaban ke LLM, yang merespons dengan penilaian berdasarkan prompt evaluasi. Anda dapat menyesuaikan prompt ini untuk tugas evaluasi lain dengan memodifikasi kriteria yang ditentukan dalam prompt, seperti “relevansi dan nada” atau “kekompakan”.

Mengimplementasikan Perbandingan Berpasangan

Dalam kasus di mana Anda ingin membandingkan dua output model, LLM dapat bertindak sebagai hakim antara respons. Kita menyesuaikan prompt evaluasi untuk meminta LLM memilih respons yang lebih baik dari dua berdasarkan kriteria yang ditentukan.

def evaluate_pairwise(pertanyaan, jawaban_a, jawaban_b):
# Buat prompt untuk perbandingan berpasangan
prompt = (
f"Untuk pertanyaan di bawah, tentukan respons mana yang lebih relevan dan detail.\n\n"
f"Pertanyaan: {pertanyaan}\n\n"
f"Respons A: {jawaban_a}\n\n"
f"Respons B: {jawaban_b}\n\n"
"Pilih respons yang lebih baik: A atau B."
)
result = llm_client.text_generation(prompt=prompt, max_new_tokens=10)
return result

# Contoh perbandingan berpasangan
pertanyaan = "Apa dampak tindakan FED membeli obligasi?"
jawaban_a = "Tindakan FED dapat meningkatkan pasokan uang."
jawaban_b = "Pembelian obligasi FED umumnya meningkatkan inflasi."
perbandingan = evaluate_pairwise(pertanyaan, jawaban_a, jawaban_b)
print("Respons Lebih Baik:", perbandingan)

Fungsi ini menyediakan cara praktis untuk menilai dan meranking respons, yang sangat berguna dalam skenario pengujian A/B untuk mengoptimalkan respons model.

Tips Praktis dan Tantangan

Sementara kerangka kerja LLM-as-a-Judge adalah alat yang kuat, beberapa pertimbangan praktis dapat membantu meningkatkan kinerjanya dan mempertahankan akurasi dari waktu ke waktu.

Praktik Terbaik untuk Merancang Prompt

Merancang prompt yang efektif adalah kunci untuk evaluasi yang akurat. Berikut beberapa tips praktis:

Hindari Bias: LLM dapat menunjukkan preferensi bias berdasarkan struktur prompt. Hindari menyarankan “jawaban yang benar” dalam prompt, dan pastikan pertanyaan tersebut netral.
Kurangi Bias Verbositas: LLM mungkin memfavoritkan respons yang lebih verbos. Tentukan kekompakan jika verbositas bukanlah kriteria.
Minimalkan Bias Posisi: Dalam perbandingan berpasangan, acakkan urutan jawaban secara berkala untuk mengurangi bias posisi terhadap respons pertama atau kedua.

Misalnya, alih-alih mengatakan, “Pilih jawaban terbaik di bawah,” tentukan kriteria secara langsung: “Pilih respons yang memberikan penjelasan yang jelas dan ringkas.”

Batasan dan Strategi Mitigasi

Sementara hakim LLM dapat meniru penilaian manusia, mereka juga memiliki batasan:

Kompleksitas Tugas: Beberapa tugas, terutama yang memerlukan matematika atau penalaran yang dalam, mungkin melampaui kapasitas LLM. Mungkin bermanfaat untuk menggunakan model yang lebih sederhana atau validator eksternal untuk tugas yang memerlukan pengetahuan faktual yang tepat.
Bias Tidak Disengaja: Hakim LLM dapat menampilkan bias berdasarkan frasa, yang dikenal sebagai “bias posisi” (memfavoritkan respons dalam posisi tertentu) atau “bias peningkatani” (memfavoritkan jawaban yang mirip dengan jawaban sebelumnya). Untuk mitigasi, hindari asumsi posisi, dan pantau tren evaluasi untuk mendeteksi inkonsistensi.
Kabur dalam Output: Jika LLM menghasilkan evaluasi yang kabur, pertimbangkan untuk menggunakan prompt biner yang memerlukan klasifikasi ya/tidak atau positif/negatif untuk tugas yang lebih sederhana.

Kesimpulan

Kerangka kerja LLM-as-a-Judge menawarkan pendekatan yang fleksibel, scalable, dan hemat biaya untuk menilai output teks yang dihasilkan AI. Dengan pengaturan yang tepat dan desain prompt yang teliti, itu dapat meniru penilaian manusia di berbagai aplikasi, dari chatbot hingga ringkas hingga sistem QA.

Melalui pemantauan yang cermat, iterasi prompt, dan kesadaran akan batasan, tim dapat memastikan hakim LLM mereka tetap sejalan dengan kebutuhan aplikasi dunia nyata.

Aayush Mittal

Saya telah menghabiskan lima tahun terakhir dengan membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menarik. Minat dan keahlian saya telah membawa saya untuk berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Rasa ingin tahu saya yang terus-menerus juga telah menarik saya ke arah Natural Language Processing, sebuah bidang yang saya ingin jelajahi lebih lanjut.

Unite.AI