Kecerdasan buatan
Mengevaluasi Model Bahasa Besar: Panduan Teknis

Model bahasa besar (LLM) seperti GPT-4, Claude, dan LLaMA meledak dalam popularitas. Berkat kemampuan mereka untuk menghasilkan teks yang sangat mirip dengan manusia, sistem AI ini sekarang digunakan untuk segala hal, dari pembuatan konten hingga chatbot layanan pelanggan.
Tapi bagaimana kita tahu jika model-model ini benar-benar baik? Dengan munculnya LLM baru yang konstan, semua mengklaim lebih besar dan lebih baik, bagaimana kita mengevaluasi dan membandingkan kinerjanya?
Dalam panduan komprehensif ini, kita akan menjelajahi teknik terbaik untuk mengevaluasi model bahasa besar. Kita akan melihat kelebihan dan kekurangan dari setiap pendekatan, kapan mereka paling baik diterapkan, dan bagaimana Anda dapat memanfaatkannya dalam pengujian LLM Anda sendiri.
Metrik Tugas-Spesifik
Salah satu cara paling langsung untuk mengevaluasi LLM adalah dengan mengujinya pada tugas NLP yang mapan menggunakan metrik standar. Misalnya:
Rangkuman
Untuk tugas rangkuman, metrik seperti ROUGE (Recall-Oriented Understudy for Gisting Evaluation) umum digunakan. ROUGE membandingkan rangkuman yang dihasilkan model dengan “referensi” rangkuman yang ditulis manusia, menghitung tumpang tindih kata atau frasa.
Ada beberapa varian ROUGE, masing-masing dengan kelebihan dan kekurangan:
- ROUGE-N: Membandingkan tumpang tindih n-gram (urutan N kata). ROUGE-1 menggunakan unigram (kata tunggal), ROUGE-2 menggunakan bigram, dan seterusnya. Kelebihannya adalah menangkap urutan kata, tetapi bisa terlalu ketat.
- ROUGE-L: Berdasarkan pada urutan tumpang tindih terpanjang (LCS). Lebih fleksibel pada urutan kata tetapi fokus pada poin utama.
- ROUGE-W: Menimbang tumpang tindih LCS dengan signifikansinya. Mencoba memperbaiki ROUGE-L.
Secara umum, metrik ROUGE cepat, otomatis, dan bekerja dengan baik untuk peringkat rangkuman sistem. Namun, mereka tidak mengukur kohesi atau makna. Sebuah rangkuman bisa mendapatkan skor ROUGE tinggi dan masih tidak masuk akal.
Rumus untuk ROUGE-N adalah:
ROUGE-N=∑∈{Reference Summaries}∑∑�∈{Reference Summaries}∑
Di mana:
Count_{match}(gram_n)adalah hitungan n-gram pada rangkuman yang dihasilkan dan referensi.Count(gram_n)adalah hitungan n-gram pada rangkuman referensi.
Misalnya, untuk ROUGE-1 (unigram):
- Rangkuman yang dihasilkan: “Kucing duduk.”
- Rangkuman referensi: “Kucing duduk di atas tikar.”
- Unigram tumpang tindih: “Kucing”, “duduk”
- Skor ROUGE-1 = 2/4 = 0,5
ROUGE-L menggunakan urutan tumpang tindih terpanjang (LCS). Ini lebih fleksibel dengan urutan kata. Rumusnya adalah:
ROUGE-L=���(generated,reference)max(length(generated), length(reference))
Di mana LCS adalah panjang urutan tumpang tindih terpanjang.
ROUGE-W menimbang tumpang tindih LCS. Ini mempertimbangkan signifikansi dari setiap kecocokan dalam LCS.
Terjemahan
Untuk tugas terjemahan mesin, BLEU (Bilingual Evaluation Understudy) adalah metrik populer. BLEU mengukur kesamaan antara output terjemahan model dan terjemahan profesional manusia, menggunakan presisi n-gram dan hukuman kependekan.
Aspek kunci tentang bagaimana BLEU bekerja:
- Membandingkan tumpang tindih n-gram untuk n hingga 4 (unigram, bigram, trigram, 4-gram).
- Menghitung rata-rata geometrik dari presisi n-gram.
- Menerapkan hukuman kependekan jika terjemahan jauh lebih pendek dari referensi.
- Umumnya berkisar dari 0 hingga 1, dengan 1 menjadi kecocokan sempurna dengan referensi.
BLEU berkorelasi cukup baik dengan penilaian manusia tentang kualitas terjemahan. Tapi masih memiliki keterbatasan:
- Hanya mengukur presisi terhadap referensi, bukan recall atau F1.
- Bergelut dengan terjemahan kreatif yang menggunakan kata-kata berbeda.
- Rentan terhadap “penipuan” dengan trik terjemahan.
Metrik terjemahan lain seperti METEOR dan TER mencoba memperbaiki kelemahan BLEU. Tapi secara umum, metrik otomatis tidak sepenuhnya menangkap kualitas terjemahan.
Tugas Lainnya
Selain rangkuman dan terjemahan, metrik seperti F1, akurasi, MSE, dan lainnya dapat digunakan untuk mengevaluasi kinerja LLM pada tugas seperti:
- Klasifikasi teks
- Ekstraksi informasi
- Pertanyaan dan jawaban
- Analisis sentimen
- Deteksi kesalahan gramatikal
Kelebihan dari metrik tugas-spesifik adalah bahwa evaluasi dapat sepenuhnya otomatis menggunakan dataset standar seperti SQuAD untuk QA dan GLUE benchmark untuk berbagai tugas. Hasil dapat dengan mudah dilacak seiring waktu saat model diperbarui.
Namun, metrik ini memiliki fokus yang sempit dan tidak dapat mengukur kualitas bahasa secara keseluruhan. LLM yang berkinerja baik pada metrik untuk satu tugas mungkin gagal dalam menghasilkan teks yang kohesif, logis, dan bermanfaat secara umum.
Benchmark Penelitian
Cara populer untuk mengevaluasi LLM adalah dengan mengujinya terhadap benchmark penelitian yang luas yang mencakup topik dan keterampilan yang beragam. Benchmark ini memungkinkan model untuk diuji dengan cepat dan skala besar.
Beberapa benchmark yang terkenal termasuk:
- SuperGLUE – Set tugas bahasa yang beragam dan menantang.
- GLUE – Kumpulan 9 tugas pemahaman kalimat. Lebih sederhana daripada SuperGLUE.
- MMLU – 57 tugas yang berbeda dalam STEM, ilmu sosial, dan humaniora. Menguji pengetahuan dan kemampuan penalaran.
- Winograd Schema Challenge – Masalah resolusi pronoun yang memerlukan penalaran umum.
- ARC – Tugas penalaran bahasa alami yang menantang.
- Hellaswag – Penalaran umum tentang situasi.
- PIQA – Pertanyaan fisika yang memerlukan diagram.
Dengan mengevaluasi benchmark seperti ini, peneliti dapat dengan cepat menguji model pada kemampuan mereka untuk melakukan matematika, logika, penalaran, pemrograman, penalaran umum, dan banyak lagi. Persentase pertanyaan yang dijawab dengan benar menjadi metrik benchmark untuk membandingkan model.
Namun, masalah besar dengan benchmark adalah kontaminasi data pelatihan. Banyak benchmark mengandung contoh yang sudah dilihat oleh model selama pra-pelatihan. Ini memungkinkan model untuk “mengingat” jawaban untuk pertanyaan tertentu dan berkinerja lebih baik dari kemampuan sebenarnya.
Upaya dilakukan untuk “menghilangkan kontaminasi” benchmark dengan menghapus contoh yang tumpang tindih. Tapi ini sulit dilakukan secara menyeluruh, terutama ketika model mungkin telah melihat versi paraphrased atau diterjemahkan dari pertanyaan.
Jadi, sementara benchmark dapat menguji serangkaian keterampilan dengan efisien, mereka tidak dapat mengukur kemampuan penalaran sebenarnya atau menghindari inflasi skor karena kontaminasi. Metode evaluasi komplementer diperlukan.
Evaluasi Diri LLM
Pendekatan yang menarik adalah memiliki LLM untuk mengevaluasi output LLM lain. Ide ini adalah untuk memanfaatkan konsep tugas yang “lebih mudah”:
- Menghasilkan output berkualitas tinggi mungkin sulit untuk LLM.
- Tapi menentukan apakah output yang diberikan berkualitas tinggi dapat menjadi tugas yang lebih mudah.
Misalnya, sementara LLM mungkin bergelut untuk menghasilkan paragraf yang faktual dan kohesif dari awal, itu dapat lebih mudah menilai apakah paragraf yang diberikan masuk akal dan sesuai dengan konteks.
Jadi prosesnya adalah:
- Lulus prompt input ke LLM pertama untuk menghasilkan output.
- Lulus prompt input + output yang dihasilkan ke LLM “evaluasi” kedua.
- Tanyakan pada LLM evaluasi pertanyaan untuk menilai kualitas output. Misalnya, “Apakah respons di atas masuk akal?”
Pendekatan ini cepat untuk diimplementasikan dan mengotomatisasi evaluasi LLM. Tapi ada beberapa tantangan:
- Kinerja sangat bergantung pada pilihan LLM evaluasi dan kata-kata prompt.
- Terbatas oleh kesulitan tugas asli. Menilai penalaran yang kompleks masih sulit untuk LLM.
- Dapat menjadi mahal secara komputasi jika menggunakan LLM berbasis API.
Evaluasi diri sangat menjanjikan untuk menilai informasi yang diperoleh dalam sistem RAG (retrieval-augmented generation). Pertanyaan LLM tambahan dapat memvalidasi apakah konteks yang diperoleh digunakan secara tepat.
Secara keseluruhan, evaluasi diri menunjukkan potensi tetapi memerlukan perawatan dalam implementasi. Ini melengkapi, bukan menggantikan, evaluasi manusia.
Evaluasi Manusia
Mengingat keterbatasan metrik otomatis dan benchmark, evaluasi manusia masih menjadi standar emas untuk menilai kualitas LLM dengan ketat.
Ahli dapat memberikan penilaian kualitatif terperinci tentang:
- Akurasi dan kebenaran faktual
- Logika, penalaran, dan penalaran umum
- Kohesi, konsistensi, dan keterbacaan
- Kelayakan nada, gaya, dan suara
- Kegramatikan dan kelancaran
- Kreativitas dan nuansa
Untuk mengevaluasi model, manusia diberikan set prompt input dan respons LLM yang dihasilkan. Mereka menilai kualitas respons, sering menggunakan skala penilaian dan rubrik.
Kekurangannya adalah bahwa evaluasi manusia manual mahal, lambat, dan sulit untuk diskalakan. Ini juga memerlukan pengembangan kriteria standar dan pelatihan penilai untuk menerapkannya secara konsisten.
Beberapa peneliti telah menjelajahi cara kreatif untuk mengumpulkan evaluasi LLM manusia menggunakan sistem turnamen di mana orang bertaruh dan menilai pertandingan antar model. Tapi cakupannya masih terbatas dibandingkan dengan evaluasi manual penuh.
Untuk kasus penggunaan bisnis di mana kualitas lebih penting daripada skala, pengujian ahli manusia tetap menjadi standar emas meskipun biayanya. Ini terutama benar untuk aplikasi LLM yang lebih berisiko.
Kesimpulan
Mengevaluasi model bahasa besar dengan menyeluruh memerlukan menggunakan berbagai metode komplementer, bukan mengandalkan teknik tunggal.
Dengan menggabungkan pendekatan otomatis untuk kecepatan dengan pengawasan manusia yang ketat untuk akurasi, kita dapat mengembangkan metode pengujian LLM yang dapat dipercaya. Dengan evaluasi yang kuat, kita dapat membuka potensi besar LLM sambil mengelola risikonya dengan bertanggung jawab.












