Pemimpin pemikiran
Tolok Ukur untuk LLM
Pahami peran dan keterbatasan tolok ukur dalam evaluasi kinerja LLM. Jelajahi teknik untuk mengembangkan LLM yang tangguh.
Large Language Models telah mendapatkan popularitas besar dalam beberapa tahun terakhir. Maksud saya, Anda telah melihatnya. Kemampuan luar biasa LLM untuk memahami perintah bahasa manusia menjadikannya integrasi yang benar-benar sempurna untuk bisnis, mendukung alur kerja kritis dan mengotomatiskan tugas untuk efisiensi maksimum. Ditambah lagi, di luar pemahaman pengguna rata-rata, ada banyak lagi yang dapat dilakukan LLM. Dan seiring ketergantungan kita pada mereka tumbuh, kita benar-benar harus lebih memperhatikan langkah-langkah untuk memastikan akurasi dan keandalan yang dibutuhkan. Ini adalah tugas global yang menyangkut seluruh institusi, tetapi di ranah bisnis sekarang ada beberapa tolok ukur yang dapat digunakan untuk mengevaluasi kinerja LLM di berbagai domain. Ini dapat menguji kemampuan model dalam pemahaman, pembangunan logika, matematika, dan sebagainya, dan hasilnya menentukan apakah suatu LLM siap untuk penerapan bisnis.
Dalam artikel ini, saya telah mengumpulkan daftar komprehensif tolok ukur paling populer untuk evaluasi LLM. Kami akan membahas setiap tolok ukur secara detail dan melihat bagaimana berbagai LLM berkinerja terhadap kriteria evaluasi. Tapi pertama-tama, mari kita pahami evaluasi LLM lebih detail.
Apa itu Evaluasi LLM?
Seperti model AI lainnya, LLM juga perlu dievaluasi terhadap tolok ukur spesifik yang menilai berbagai aspek kinerja model bahasa: pengetahuan, akurasi, keandalan, dan konsistensi. Standarnya biasanya melibatkan:
- Memahami Kueri Pengguna: Menilai kemampuan model untuk secara akurat memahami dan menafsirkan berbagai masukan pengguna.
- Verifikasi Output: Memverifikasi respons yang dihasilkan AI terhadap basis pengetahuan tepercaya untuk memastikannya benar dan relevan.
- Ketangguhan: Mengukur seberapa baik model berkinerja dengan masukan yang ambigu, tidak lengkap, atau berisik.
Evaluasi LLM memberi pengembang kekuatan untuk mengidentifikasi dan mengatasi keterbatasan secara efisien, sehingga mereka dapat meningkatkan pengalaman pengguna secara keseluruhan. Jika sebuah LLM dievaluasi secara menyeluruh, ia akan cukup akurat dan tangguh untuk menangani berbagai aplikasi dunia nyata, bahkan termasuk yang memiliki masukan ambigu atau tak terduga.
Tolok Ukur
LLM adalah salah satu bagian teknologi paling rumit hingga saat ini dan dapat menggerakkan bahkan aplikasi yang paling rumit. Jadi proses evaluasinya harus sama kompleksnya, menguji proses berpikir dan akurasi teknisnya.
Sebuah tolok ukur menggunakan kumpulan data, metrik, dan tugas evaluasi spesifik untuk menguji kinerja LLM, dan memungkinkan untuk membandingkan LLM yang berbeda dan mengukur akurasinya, yang pada gilirannya mendorong kemajuan di industri melalui peningkatan kinerja.
Berikut adalah beberapa aspek paling khas dari kinerja LLM:
- Pengetahuan: Pengetahuan model perlu diuji di berbagai domain. Itulah gunanya tolok ukur pengetahuan. Ini mengevaluasi seberapa efektif model dapat mengingat informasi dari berbagai bidang, seperti Fisika, Pemrograman, Geografi, dll.
- Penalaran Logis: Berarti menguji kemampuan model untuk ‘berpikir’ langkah demi langkah dan menarik kesimpulan logis, mereka biasanya melibatkan skenario di mana model harus memilih kelanjutan atau penjelasan yang paling masuk akal berdasarkan pengetahuan sehari-hari dan penalaran logis.
- Pemahaman Bacaan: Model harus sangat baik dalam interpretasi bahasa alami dan kemudian menghasilkan respons yang sesuai. Tesnya terlihat seperti menjawab pertanyaan berdasarkan bagian untuk mengukur pemahaman, inferensi, dan retensi detail. Seperti tes membaca di sekolah.
- Pemahaman Kode: Ini diperlukan untuk mengukur kemahiran model dalam memahami, menulis, dan mendebug kode. Tolok ukur ini memberi model tugas atau masalah pengkodean yang harus diselesaikan model dengan akurat, sering kali mencakup berbagai bahasa dan paradigma pemrograman.
- Pengetahuan Dunia: Untuk mengevaluasi pemahaman model tentang pengetahuan umum tentang dunia. Kumpulan data ini biasanya memiliki pertanyaan yang membutuhkan pengetahuan ensiklopedis yang luas untuk dijawab dengan benar, yang membuatnya berbeda dari tolok ukur pengetahuan yang lebih spesifik dan khusus.
Tolok Ukur “Pengetahuan”
MMLU (Multimodal Language Understanding)
Tolok ukur ini dibuat untuk menguji pemahaman LLM tentang pengetahuan faktual di berbagai topik seperti humaniora, ilmu sosial, sejarah, ilmu komputer, dan bahkan hukum. 57 pertanyaan dan 15k tugas semua diarahkan untuk memastikan model memiliki kemampuan penalaran yang hebat. Ini membuat MMLU menjadi alat yang baik untuk menilai pengetahuan faktual dan penalaran LLM yang berhubungan dengan berbagai topik.
Baru-baru ini ia telah menjadi tolok ukur kunci untuk mengevaluasi LLM untuk area yang disebutkan di atas. Pengembang selalu ingin mengoptimalkan model mereka untuk mengungguli yang lain dalam tolok ukur ini, yang menjadikannya standar de facto untuk mengevaluasi penalaran dan pengetahuan tingkat lanjut dalam LLM. Model tingkat perusahaan besar telah menunjukkan skor yang mengesankan pada tolok ukur ini, termasuk GPT-4-omni di 88.7%, Claude 3 Opus di 86.8%, Gemini 1.5 Pro di 85.9%, dan Llama-3 70B di 82%. Model kecil biasanya tidak berkinerja sebaik ini pada tolok ukur ini, biasanya tidak melebihi 60-65%, tetapi kinerja terbaru Phi-3-Small-7b di 75.3% adalah sesuatu yang perlu dipikirkan.
Namun, MMLU bukan tanpa kekurangan: ia memiliki masalah yang diketahui seperti pertanyaan ambigu, jawaban yang salah, dan konteks yang hilang. Dan, banyak yang berpikir bahwa beberapa tugasnya terlalu mudah untuk evaluasi LLM yang tepat.
Saya ingin memperjelas bahwa tolok ukur seperti MMLU tidak menggambarkan skenario dunia nyata dengan sempurna. Jika sebuah LLM mencapai skor bagus dalam hal ini, itu tidak selalu berarti ia telah menjadi ahli materi pelajaran. Tolok ukur benar-benar cukup terbatas dalam cakupannya dan sering kali bergantung pada pertanyaan pilihan ganda, yang tidak pernah dapat sepenuhnya menangkap kompleksitas dan konteks interaksi dunia nyata. Pemahaman sejati membutuhkan pengetahuan fakta dan menerapkan pengetahuan itu secara dinamis dan ini melibatkan pemikiran kritis, pemecahan masalah, dan pemahaman kontekstual. Untuk alasan ini, LLM terus-menerus perlu disempurnakan dan diperbarui agar model menjaga relevansi dan efektivitas tolok ukur.
GPQA (Graduate-Level Google-Proof Q&A Benchmark)
Tolok ukur ini menilai LLM pada penalaran logis menggunakan dataset dengan hanya 448 pertanyaan. Pakar domain mengembangkannya dan mencakup topik dalam biologi, fisika, dan kimia.
Setiap pertanyaan melalui proses validasi berikut:
- Seorang ahli dalam topik yang sama menjawab pertanyaan dan memberikan umpan balik terperinci.
- Penulis pertanyaan merevisi pertanyaan berdasarkan umpan balik ini.
- Ahli kedua menjawab pertanyaan yang direvisi.
Proses ini sebenarnya dapat memastikan bahwa pertanyaan-pertanyaan tersebut objektif, akurat, dan menantang untuk model bahasa. Bahkan sarjana PhD yang berpengalaman hanya mencapai akurasi 65% pada pertanyaan-pertanyaan ini, sementara GPT-4-omni hanya mencapai 53.6%, menyoroti kesenjangan antara kecerdasan manusia dan mesin.
Karena persyaratan kualifikasi yang tinggi, dataset sebenarnya cukup kecil, yang agak membatasi kekuatan statistiknya untuk membandingkan akurasi, dan membutuhkan ukuran efek yang besar. Para ahli yang membuat dan memvalidasi pertanyaan-pertanyaan ini berasal dari Upwork, sehingga mereka berpotensi memperkenalkan bias berdasarkan keahlian dan topik yang dibahas.
Tolok Ukur Kode
HumanEval
164 masalah pemrograman, ujian nyata untuk kemampuan pengkodean LLM. Itu HumanEval. Ini dirancang untuk menguji kemampuan pengkodean dasar dari model bahasa besar (LLM). Ia menggunakan metrik pass@k untuk menilai akurasi fungsional dari kode yang sedang dihasilkan, yang mengeluarkan probabilitas setidaknya satu dari k sampel kode yang dihasilkan LLM teratas lolos dari kasus uji.
Sementara dataset HumanEval mencakup tanda tangan fungsi, docstring, badan kode, dan beberapa unit test, ia tidak mencakup seluruh rangkaian masalah pengkodean dunia nyata, yang hanya tidak akan menguji kemampuan model untuk membuat kode yang benar untuk skenario yang beragam.
MBPP (Mostly Basic Python Programming)
Mbpp benchmark terdiri dari 1.000 pertanyaan pemrograman Python yang dikumpulkan dari kerumunan. Ini adalah masalah tingkat pemula dan mereka fokus pada keterampilan pemrograman dasar. Ia menggunakan pendekatan few-shot dan fine tuning untuk mengevaluasi kinerja model, dengan model yang lebih besar biasanya berkinerja lebih baik pada dataset ini. Namun, karena dataset terutama berisi program tingkat pemula, ia masih tidak sepenuhnya mewakili kompleksitas dan tantangan aplikasi dunia nyata.
Tolok Ukur Matematika
Sementara sebagian besar LLM cukup hebat dalam menyusun respons standar, penalaran matematika adalah masalah yang jauh lebih besar bagi mereka. Mengapa? Karena membutuhkan keterampilan terkait pemahaman pertanyaan, pendekatan logis langkah demi langkah dengan penalaran matematika, dan mendapatkan jawaban yang benar.
Metode “Chain of Thought” (CoT) dibuat untuk mengevaluasi LLM pada tolok ukur terkait matematika, ini melibatkan meminta model untuk menjelaskan proses penalaran langkah demi langkah mereka ketika memecahkan masalah. Ada beberapa manfaat untuk ini. Ini membuat proses penalaran lebih transparan, membantu mengidentifikasi kelemahan dalam logika model, dan memungkinkan penilaian yang lebih granular terhadap keterampilan pemecahan masalah. Dengan memecah masalah kompleks menjadi serangkaian langkah yang lebih sederhana, CoT dapat meningkatkan kinerja model pada tolok ukur matematika dan memberikan wawasan yang lebih dalam tentang kemampuan penalarannya.
GSM8K: Tolok Ukur Matematika Populer
Salah satu tolok ukur terkenal untuk mengevaluasi kemampuan matematika dalam LLM adalah dataset GSM8K. GSM8K terdiri dari 8.5k masalah matematika sekolah menengah, yang membutuhkan beberapa langkah untuk diselesaikan, dan solusi terutama melibatkan melakukan serangkaian perhitungan dasar. Biasanya, model yang lebih besar atau yang secara khusus dilatih untuk penalaran matematika cenderung berkinerja lebih baik pada tolok ukur ini, misalnya model GPT-4 membanggakan skor 96.5%, sementara DeepSeekMATH-RL-7B tertinggal sedikit di 88.2%.
Sementara GSM8K berguna untuk menilai kemampuan model dalam menangani masalah matematika tingkat sekolah dasar, ia mungkin tidak sepenuhnya menangkap kapasitas model untuk memecahkan tantangan matematika yang lebih maju atau beragam, sehingga membatasi efektivitasnya sebagai ukuran komprehensif kemampuan matematika.
The Math Dataset: Alternatif Komprehensif
Dataset matematika menangani kekurangan tolok ukur seperti GSM8K. Dataset ini lebih luas, mencakup aritmatika dasar hingga masalah tingkat sekolah menengah dan bahkan perguruan tinggi. Ini juga dibandingkan dengan manusia, dengan seorang mahasiswa PhD ilmu komputer yang tidak menyukai matematika mencapai akurasi 40% dan seorang peraih medali emas mencapai akurasi 90%
Ini memberikan penilaian yang lebih menyeluruh tentang kemampuan matematika LLM. Ini memastikan bahwa model mahir dalam aritmatika dasar dan kompeten dalam area kompleks seperti aljabar, geometri, dan kalkulus. Tetapi peningkatan kompleksitas dan keragaman masalah dapat membuatnya menantang bagi model untuk mencapai akurasi tinggi, terutama yang tidak secara eksplisit dilatih pada berbagai konsep matematika. Juga, berbagai format masalah dalam dataset Matematika dapat memperkenalkan ketidakkonsistenan dalam kinerja model, yang membuatnya jauh lebih sulit untuk menarik kesimpulan pasti tentang kemahiran matematika keseluruhan model.
Menggunakan metode Chain of Thought dengan dataset Matematika dapat meningkatkan evaluasi karena mengungkapkan kemampuan penalaran langkah demi langkah LLM di seluruh spektrum tantangan matematika yang luas. Pendekatan gabungan seperti ini memastikan ada penilaian yang lebih kuat dan terperinci tentang kemampuan matematika sejati LLM.
Tolok Ukur Pemahaman Bacaan
Penilaian pemahaman bacaan mengevaluasi kemampuan model untuk memahami dan memproses teks kompleks, yang terutama mendasar untuk aplikasi seperti dukungan pelanggan, generasi konten, dan pengambilan informasi. Ada beberapa tolok ukur yang dirancang untuk menilai keterampilan ini, masing-masing dengan atribut unik yang berkontribusi pada evaluasi komprehensif tentang kemampuan model.
RACE (Reading Comprehension dataset from Examinations)
Tolok ukur RACE memiliki hampir 28.000 bagian dan 100.000 pertanyaan yang dikumpulkan dari ujian bahasa Inggris untuk siswa sekolah menengah dan atas China berusia antara 12 dan 18 tahun. Ini tidak membatasi pertanyaan dan jawaban untuk diekstraksi dari bagian yang diberikan, membuat tugas bahkan lebih menantang.
Ini mencakup berbagai topik dan jenis pertanyaan, yang memungkinkan penilaian yang menyeluruh dan termasuk pertanyaan pada tingkat kesulitan yang berbeda. Juga pertanyaan dalam RACE secara khusus dirancang untuk menguji keterampilan membaca manusia dan dibuat oleh ahli domain.
Namun, tolok ukur ini memang memiliki beberapa kelemahan. Karena dikembangkan pada materi pendidikan China, ia rentan memperkenalkan bias budaya yang tidak mencerminkan konteks global. Juga, tingkat kesulitan tinggi dalam beberapa pertanyaan sebenarnya tidak mewakili tugas dunia nyata yang k










