Pemimpin Pikiran
Tolok Ukur Untuk LLM

Memahami peran dan keterbatasan tolok ukur dalam evaluasi kinerja LLM. Jelajahi teknik untuk mengembangkan LLM yang kuat.
Model Bahasa Besar (Large Language Models/LM) telah mendapatkan popularitas besar dalam beberapa tahun terakhir. Maksud saya, Anda telah melihatnya. Kemampuan LLM yang luar biasa untuk memahami perintah bahasa manusia menjadikannya integrasi yang benar-benar sempurna untuk bisnis, mendukung alur kerja penting dan mengotomatiskan tugas untuk efisiensi maksimum. Selain itu, di luar pemahaman pengguna rata-rata, ada begitu banyak lagi yang dapat dilakukan LLM. Dan seiring meningkatnya ketergantungan kita pada mereka, kita benar-benar harus lebih memperhatikan langkah-langkah untuk memastikan akurasi dan keandalan yang dibutuhkan. Ini adalah tugas global yang menyangkut seluruh institusi, tetapi dalam ranah bisnis sekarang ada beberapa tolok ukur yang dapat digunakan untuk mengevaluasi kinerja LLM di berbagai domain. Ini dapat menguji kemampuan model dalam pemahaman, membangun logika, matematika, dan sebagainya, dan hasilnya menentukan apakah LLM siap untuk penerapan bisnis.
Pada artikel ini, saya telah mengumpulkan daftar lengkap tolok ukur paling populer untuk evaluasi LLM. Kami akan membahas setiap tolok ukur secara rinci dan melihat bagaimana kinerja LLM yang berbeda terhadap kriteria evaluasi. Namun pertama-tama, mari kita pahami evaluasi LLM lebih detail.
Apa itu Evaluasi LLM?
Seperti model AI lainnya, LLM juga perlu dievaluasi berdasarkan tolok ukur spesifik yang menilai berbagai aspek kinerja model bahasa: pengetahuan, akurasi, keandalan, dan konsistensi. Standar ini biasanya meliputi:
- Memahami Pertanyaan Pengguna: Menilai kemampuan model untuk secara akurat memahami dan menafsirkan berbagai masukan pengguna.
- Verifikasi Keluaran: Memverifikasi respons yang dihasilkan AI terhadap basis pengetahuan tepercaya untuk memastikan respons tersebut benar dan relevan.
- Kekokohan: Mengukur seberapa baik kinerja model dengan masukan yang ambigu, tidak lengkap, atau berisik.
Evaluasi LLM memberi pengembang kekuatan untuk mengidentifikasi dan mengatasi keterbatasan secara efisien, sehingga mereka dapat meningkatkan pengalaman pengguna secara keseluruhan. Jika LLM dievaluasi secara menyeluruh, LLM akan akurat dan cukup kuat untuk menangani berbagai aplikasi dunia nyata, bahkan termasuk aplikasi dengan masukan yang ambigu atau tidak terduga.
benchmark
LLM adalah salah satu teknologi paling rumit hingga saat ini dan dapat mendukung aplikasi yang paling rumit sekalipun. Jadi proses evaluasi harus sama rumitnya, dengan menguji proses pemikiran dan keakuratan teknisnya.
Tolok ukur menggunakan kumpulan data, metrik, dan tugas evaluasi tertentu untuk menguji kinerja LLM, dan memungkinkan untuk membandingkan LLM yang berbeda dan mengukur akurasinya, yang pada gilirannya mendorong kemajuan dalam industri dengan meningkatkan kinerja.
Berikut adalah beberapa aspek paling umum dari kinerja LLM:
- Pengetahuan - SanxinPengetahuan model perlu diuji di berbagai domain. Itulah gunanya tolok ukur pengetahuan. Tolok ukur ini mengevaluasi seberapa efektif model dapat mengingat informasi dari berbagai bidang, seperti Fisika, Pemrograman, Geografi, dll.
- logis Pemikiran: Berarti menguji kemampuan model untuk 'berpikir' langkah demi langkah dan memperoleh kesimpulan logis, biasanya melibatkan skenario di mana model harus memilih kelanjutan atau penjelasan yang paling masuk akal berdasarkan pengetahuan sehari-hari dan penalaran logis.
- Pemahaman membaca: Model harus mahir dalam interpretasi bahasa alami dan kemudian menghasilkan respons yang sesuai. Tes ini terlihat seperti menjawab pertanyaan berdasarkan bagian untuk mengukur pemahaman, inferensi, dan retensi detail. Seperti tes membaca di sekolah.
- Pemahaman Kode: Hal ini diperlukan untuk mengukur kemahiran model dalam memahami, menulis, dan melakukan debug kode. Tolok ukur ini memberikan tugas atau masalah pengkodean model yang harus dipecahkan oleh model secara akurat, sering kali mencakup berbagai bahasa dan paradigma pemrograman.
- Pengetahuan DuniaUntuk mengevaluasi pemahaman model terhadap pengetahuan umum tentang dunia. Kumpulan data ini biasanya memiliki pertanyaan yang membutuhkan pengetahuan luas dan ensiklopedis agar dapat dijawab dengan benar, yang membedakannya dari tolok ukur pengetahuan yang lebih spesifik dan terspesialisasi.
Tolok Ukur βPengetahuanβ.
MMLU (Pemahaman Bahasa Multimodal)
Tolok ukur ini dibuat untuk menguji pemahaman LLM terhadap pengetahuan faktual di berbagai topik seperti humaniora, ilmu sosial, sejarah, ilmu komputer, dan bahkan hukum. 57 pertanyaan dan 15 ribu tugas semuanya ditujukan untuk memastikan model memiliki kemampuan penalaran yang baik. Hal ini menjadikan MMLU alat yang baik untuk menilai pengetahuan faktual dan penalaran LLM yang berhubungan dengan berbagai topik.
Baru-baru ini telah menjadi tolok ukur utama untuk mengevaluasi LLM untuk bidang-bidang yang disebutkan di atas. Pengembang selalu ingin mengoptimalkan model mereka agar mengungguli model lain dalam tolok ukur ini, yang menjadikannya standar de facto untuk mengevaluasi penalaran dan pengetahuan tingkat lanjut di LLM. Model tingkat perusahaan besar telah ditunjukkan skor yang mengesankan pada benchmark ini, termasuk GPT-4-omni sebesar 88.7%, Claude 3 Opus sebesar 86.8%, Gemini 1.5 Pro sebesar 85.9%, dan Llama-3 70B sebesar 82%. Model kecil biasanya tidak berkinerja baik pada benchmark ini, biasanya tidak melebihi 60-65%, namun kinerja terbaru Phi-3-Small-7b sebesar 75.3% adalah sesuatu yang perlu dipikirkan.
Namun, MMLU bukannya tanpa kekurangan: MMLU mempunyai permasalahan seperti pertanyaan ambigu, jawaban yang salah, dan kehilangan konteks. Dan, banyak yang berpendapat bahwa beberapa tugasnya terlalu mudah untuk evaluasi LLM yang tepat.
Saya ingin menegaskan bahwa tolok ukur seperti MMLU tidak sepenuhnya menggambarkan skenario dunia nyata. Jika sebuah LLM meraih skor tinggi dalam hal ini, bukan berarti ia telah menjadi ahli di bidangnya. Tolok ukur sebenarnya sangat terbatas cakupannya dan seringkali bergantung pada soal pilihan ganda, yang tidak pernah dapat sepenuhnya menangkap kompleksitas dan konteks interaksi dunia nyata. Pemahaman sejati membutuhkan pengetahuan tentang fakta dan penerapan pengetahuan tersebut secara dinamis, dan ini melibatkan pemikiran kritis, pemecahan masalah, dan pemahaman kontekstual. Karena alasan-alasan ini, LLM perlu terus disempurnakan dan diperbarui agar modelnya tetap relevan dan efektif.
GPQA (Tolok Ukur Tanya Jawab Bukti Google Tingkat Pascasarjana)
Benchmark ini menilai LLM pada penalaran logis menggunakan kumpulan data hanya dengan 448 pertanyaan. Pakar domain mengembangkannya dan mencakup topik biologi, fisika, dan kimia.
Setiap pertanyaan melewati proses validasi berikut:
- Seorang ahli dalam topik yang sama menjawab pertanyaan dan memberikan umpan balik yang terperinci.
- Penulis pertanyaan merevisi pertanyaan berdasarkan masukan ini.
- Pakar kedua menjawab pertanyaan yang direvisi.
Proses ini sebenarnya dapat memastikan pertanyaannya obyektif, akurat, dan menantang untuk model bahasa. Bahkan sarjana PhD berpengalaman hanya mencapai akurasi 65% pada pertanyaan-pertanyaan ini, sementara GPT-4-omni hanya mencapai 53.6%, yang menyoroti kesenjangan antara kecerdasan manusia dan mesin.
Karena persyaratan kualifikasi yang tinggi, kumpulan data tersebut sebenarnya cukup kecil, sehingga membatasi kekuatan statistiknya untuk membandingkan akurasi, dan memerlukan ukuran efek yang besar. Para ahli yang membuat dan memvalidasi pertanyaan-pertanyaan ini berasal dari Upwork, sehingga mereka berpotensi menimbulkan bias berdasarkan keahlian mereka dan topik yang dibahas.
Tolok Ukur Kode
Evaluasi Manusia
164 soal pemrograman, ujian nyata bagi kemampuan pengkodean LLM. Dia Evaluasi Manusia. Ini dirancang untuk menguji kemampuan pengkodean dasar model bahasa besar (LLM). Ia menggunakan metrik pass@k untuk menilai keakuratan fungsional kode yang sedang dihasilkan, yang menghasilkan probabilitas setidaknya satu dari k sampel kode yang dihasilkan LLM teratas yang lulus kasus uji.
Meskipun kumpulan data HumanEval mencakup tanda tangan fungsi, dokumen, badan kode, dan beberapa pengujian unit, kumpulan data tersebut tidak mencakup seluruh masalah pengkodean di dunia nyata, yang tidak akan cukup menguji kemampuan model untuk membuat kode yang benar untuk beragam skenario.
MBPP (Kebanyakan Pemrograman Python Dasar)
Mbpp benchmark terdiri dari 1,000 pertanyaan pemrograman Python yang bersumber dari banyak orang. Ini adalah masalah tingkat pemula dan berfokus pada keterampilan pemrograman dasar. Ini menggunakan pendekatan beberapa langkah dan penyesuaian untuk mengevaluasi performa model, dengan model yang lebih besar biasanya berperforma lebih baik pada kumpulan data ini. Namun, karena kumpulan data sebagian besar berisi program tingkat awal, kumpulan data tersebut masih belum sepenuhnya mewakili kompleksitas dan tantangan aplikasi dunia nyata.
Tolok Ukur Matematika
Meskipun sebagian besar LLM cukup hebat dalam menyusun respons standar, penalaran matematis adalah masalah yang jauh lebih besar bagi mereka. Mengapa? Karena memerlukan keterampilan yang berkaitan dengan pemahaman pertanyaan, pendekatan logis langkah demi langkah dengan penalaran matematis, dan memperoleh jawaban yang benar.
Metode "Chain of Thought" (CoT) dirancang untuk mengevaluasi LLM pada tolok ukur terkait matematika. Metode ini melibatkan permintaan kepada model untuk menjelaskan proses penalaran langkah demi langkah mereka saat memecahkan masalah. Ada beberapa manfaat dari metode ini. Metode ini membuat proses penalaran lebih transparan, membantu mengidentifikasi kelemahan logika model, dan memungkinkan penilaian keterampilan pemecahan masalah yang lebih terperinci. Dengan memecah masalah kompleks menjadi serangkaian langkah yang lebih sederhana, CoT dapat meningkatkan kinerja model pada tolok ukur matematika dan memberikan wawasan yang lebih mendalam tentang kemampuan penalarannya.
GSM8K: Tolok Ukur Matematika Populer
Salah satu tolok ukur yang terkenal untuk mengevaluasi kemampuan matematika di LLM adalah kumpulan data GSM8K. GSM8K terdiri dari 8.5 ribu soal matematika sekolah menengah, yang memerlukan beberapa langkah untuk diselesaikan, dan solusi utamanya melibatkan melakukan serangkaian perhitungan dasar. Biasanya, model yang lebih besar atau model yang dilatih khusus untuk penalaran matematis cenderung memiliki performa lebih baik pada benchmark ini, misalnya model GPT-4 memiliki skor 96.5%, sedangkan DeepSeekMATH-RL-7B sedikit tertinggal di belakang yaitu 88.2%.
Meskipun GSM8K berguna untuk menilai kemampuan model dalam menangani masalah matematika tingkat sekolah dasar, GSMXNUMXK mungkin tidak sepenuhnya menangkap kapasitas model untuk memecahkan tantangan matematika yang lebih maju atau beragam, sehingga membatasi efektivitasnya sebagai ukuran kemampuan matematika yang komprehensif.
Kumpulan Data Matematika: Alternatif Komprehensif
Kumpulan data matematika mengatasi kekurangan benchmark seperti GSM8K. Kumpulan data ini lebih luas, mencakup masalah aritmatika tingkat dasar hingga sekolah menengah atas dan bahkan perguruan tinggi. Hal ini juga dibandingkan dengan manusia, dengan mahasiswa PhD ilmu komputer yang tidak menyukai matematika mencapai akurasi 40% dan peraih medali emas mencapai akurasi 90%.
Metode ini memberikan penilaian yang lebih menyeluruh terhadap kemampuan matematika seorang LLM. Metode ini memastikan bahwa model tersebut mahir dalam aritmatika dasar dan kompeten dalam bidang-bidang kompleks seperti aljabar, geometri, dan kalkulus. Namun, meningkatnya kompleksitas dan keragaman soal dapat menyulitkan model untuk mencapai akurasi tinggi, terutama yang tidak secara eksplisit dilatih pada berbagai konsep matematika. Selain itu, beragamnya format soal dalam dataset Matematika dapat menimbulkan inkonsistensi dalam kinerja model, yang mempersulit penarikan kesimpulan pasti tentang kemampuan matematika suatu model secara keseluruhan.
Penggunaan metode Rantai Pemikiran dengan dataset Matematika dapat meningkatkan evaluasi karena metode ini mengungkap kemampuan penalaran langkah demi langkah para LLM dalam berbagai tantangan matematika. Pendekatan gabungan seperti ini memastikan adanya penilaian yang lebih kuat dan terperinci terhadap kemampuan matematika sejati seorang LLM.
Tolok Ukur Pemahaman Membaca
Penilaian pemahaman bacaan mengevaluasi kemampuan model untuk memahami dan memproses teks kompleks, yang sangat penting untuk aplikasi seperti dukungan pelanggan, pembuatan konten, dan pengambilan informasi. Ada beberapa tolok ukur yang dirancang untuk menilai keterampilan ini, masing-masing dengan atribut unik yang berkontribusi pada evaluasi komprehensif terhadap kemampuan model.
RACE (Dataset Pemahaman Membaca dari Ujian)
Tolok ukur RACE memiliki hampir 28,000 bagian dan 100,000 pertanyaan yang dikumpulkan dari ujian bahasa Inggris untuk siswa sekolah menengah dan menengah atas Tiongkok yang berusia antara 12 dan 18 tahun. Hal ini tidak membatasi pertanyaan dan jawaban yang dapat diambil dari bagian-bagian yang diberikan, sehingga membuat tugas menjadi seimbang semakin menantang.
Ini mencakup berbagai topik dan jenis pertanyaan, sehingga menghasilkan penilaian menyeluruh dan mencakup pertanyaan pada tingkat kesulitan yang berbeda. Juga pertanyaan di RACE dirancang khusus untuk menguji keterampilan membaca manusia dan dibuat oleh pakar domain.
Namun, benchmark tersebut memiliki beberapa kelemahan. Karena dikembangkan berdasarkan materi pendidikan Tiongkok, buku ini rentan menimbulkan bias budaya yang tidak mencerminkan konteks global. Selain itu, tingkat kesulitan yang tinggi dalam beberapa pertanyaan sebenarnya tidak mewakili tugas-tugas umum di dunia nyata. Jadi evaluasi kinerja bisa jadi tidak begitu akurat.
DROP (Penalaran Diskrit Atas Paragraf)
Pendekatan penting lainnya adalah DROP (Discrete Reasoning Over Paragraphs), yang menantang model untuk melakukan penalaran terpisah pada paragraf. Ini memiliki 96,000 pertanyaan untuk menguji kemampuan penalaran LLM dan pertanyaan-pertanyaan tersebut diambil dari Wikipedia dan bersumber dari Amazon Mechanical Turk. Pertanyaan DROP sering kali memanggil model untuk melakukan operasi matematika seperti penjumlahan, pengurangan, dan perbandingan berdasarkan informasi yang tersebar di suatu bagian.
Pertanyaan-pertanyaannya menantang. Mereka mengharuskan LLM untuk menemukan beberapa angka dalam bagian tersebut dan menambahkan atau menguranginya untuk mendapatkan jawaban akhir. Model besar seperti GPT-4 dan palm mencapai 80% dan 85%, sedangkan manusia mencapai 96% pada dataset DROP.
Tolok Ukur Akal Sehat
Menguji akal sehat dalam model bahasa merupakan hal yang menarik, tetapi juga penting karena mengevaluasi kemampuan model untuk membuat penilaian dan inferensi yang selaras dengan penalaran manusia. Tidak seperti kita, yang mengembangkan model dunia yang komprehensif melalui pengalaman praktis, model bahasa dilatih pada kumpulan data yang sangat besar tanpa benar-benar memahami konteksnya. Ini berarti bahwa model kesulitan dalam tugas-tugas yang membutuhkan pemahaman intuitif tentang situasi sehari-hari, penalaran logis, dan pengetahuan praktis, yang sangat penting untuk aplikasi AI yang tangguh dan andal.
HellaSwag (Akhir yang Lebih Sulit, Konteks yang Lebih Panjang, dan Aktivitas Rendah untuk Situasi dengan Generasi yang Bermusuhan)
Hellaswag dikembangkan oleh Rowan Zellers dan rekan-rekannya di University of Washington dan Allen Institute for Artificial Intelligence. Metode ini dirancang untuk menguji kemampuan model dalam memprediksi kelanjutan skenario yang paling masuk akal. Tolok ukur ini dibangun menggunakan Adversarial Filtering (AF), di mana serangkaian diskriminator secara iteratif memilih jawaban salah yang dihasilkan mesin dan bersifat adversarial. Metode ini menghasilkan kumpulan data dengan contoh-contoh yang mudah dipahami manusia tetapi menantang bagi model, sehingga menghasilkan zona kesulitan "Goldilocks".
Meskipun Hellaswag menantang model-model sebelumnya, model-model canggih seperti GPT-4 telah mencapai tingkat kinerja yang mendekati akurasi manusia, yang menunjukkan kemajuan signifikan di lapangan. Namun, hasil ini menunjukkan perlunya tolok ukur yang terus berkembang untuk mengimbangi kemajuan dalam kemampuan AI.
Buka buku
Dataset Openbook terdiri dari 5957 soal pilihan ganda sains tingkat dasar. Pertanyaan-pertanyaan tersebut dikumpulkan dari ujian buku terbuka dan dikembangkan untuk menilai pemahaman manusia terhadap subjek tersebut.
Tolok ukur Openbook memerlukan kemampuan penalaran di luar pengambilan informasi. GPT-4 mencapai akurasi tertinggi sebesar 95.9% hingga saat ini.
OpenbookQA dimodelkan setelah ujian buku terbuka dan terdiri dari 5,957 soal sains pilihan ganda tingkat dasar. Pertanyaan-pertanyaan ini dirancang untuk menyelidiki pemahaman 1,326 fakta inti sains dan penerapannya pada situasi baru.
Mirip dengan Hellaswag, model sebelumnya menganggap OpenbookQA menantang, tetapi model modern seperti GPT-4 telah mencapai tingkat kinerja yang mendekati manusia. Kemajuan ini menggarisbawahi pentingnya mengembangkan tolok ukur yang lebih kompleks dan beragam untuk terus mendorong batas-batas pemahaman AI.
Apakah Tolok Ukur Cukup untuk Evaluasi Kinerja LLM?
Ya, meskipun mereka menyediakan pendekatan standar untuk mengevaluasi kinerja LLM, mereka juga bisa menyesatkan. Large Model Systems Organization mengatakan bahwa tolok ukur LLM yang baik harus dapat diskalakan, mampu mengevaluasi model baru dengan jumlah uji coba yang relatif kecil, dan menyediakan urutan peringkat yang unik untuk semua model. Namun, ada beberapa alasan mengapa hal itu mungkin tidak cukup. Berikut beberapa di antaranya:
Kebocoran Tolok Ukur
Ini adalah kejadian umum, dan terjadi ketika data pelatihan tumpang tindih dengan data pengujian, sehingga menghasilkan evaluasi yang menyesatkan. Jika suatu model telah menghadapi beberapa pertanyaan tes selama pelatihan, hasilnya mungkin tidak mencerminkan kemampuan sebenarnya secara akurat. Namun tolok ukur yang ideal harus meminimalkan hafalan dan mencerminkan skenario dunia nyata.
Bias Evaluasi
Papan peringkat tolok ukur LLM digunakan untuk membandingkan kinerja LLM dalam berbagai tugas. Namun, mengandalkan papan peringkat tersebut untuk perbandingan model dapat menjadi menyesatkan. Perubahan sederhana dalam tes benchmark seperti mengubah urutan pertanyaan, dapat menggeser peringkat model hingga delapan posisi. Selain itu, kinerja LLM mungkin berbeda tergantung pada metode penilaian, sehingga menyoroti pentingnya mempertimbangkan bias evaluasi.
Keterbukaan Berakhir
Interaksi LLM dunia nyata melibatkan perancangan petunjuk untuk menghasilkan keluaran AI yang diinginkan. Keluaran LLM bergantung pada efektivitas petunjuknya, dan tolok ukur dirancang untuk menguji kesadaran konteks LLM. Meskipun tolok ukur dirancang untuk menguji kesadaran konteks LLM, tolok ukur tersebut tidak selalu diterjemahkan langsung ke kinerja dunia nyata. Misalnya, model yang mencapai skor 100% pada kumpulan data benchmark, seperti LSAT, tidak menjamin tingkat akurasi yang sama dalam aplikasi praktis. Hal ini menggarisbawahi pentingnya mempertimbangkan sifat terbuka dari tugas-tugas dunia nyata dalam evaluasi LLM.
Evaluasi Efektif untuk LLM yang Kuat
Jadi, sekarang Anda tahu bahwa tolok ukur tidak selalu merupakan pilihan terbaik karena tolok ukur tidak selalu bisa menggeneralisasi semua masalah. Tapi, ada cara lain.
Tolok Ukur Khusus
Ini sempurna untuk menguji perilaku dan fungsi spesifik dalam skenario tugas tertentu. Misalnya, jika LLM dirancang untuk petugas medis, kumpulan data yang dikumpulkan dari lingkungan medis akan secara efektif mewakili skenario dunia nyata. Tolok ukur khusus ini dapat berfokus pada pemahaman bahasa spesifik domain, kinerja, dan persyaratan kontekstual yang unik. Dengan menyelaraskan tolok ukur dengan kemungkinan skenario dunia nyata, Anda dapat memastikan bahwa LLM berkinerja baik secara umum dan unggul dalam tugas-tugas spesifik yang dimaksudkannya. Hal ini dapat membantu mengidentifikasi dan mengatasi kesenjangan atau kelemahan apa pun dalam kapabilitas model sejak dini.
Saluran Deteksi Kebocoran Data
Jika Anda ingin evaluasi Anda "menunjukkan" integritas, memiliki jalur tolok ukur bebas kebocoran data sangatlah penting. Kebocoran data terjadi ketika data tolok ukur dimasukkan ke dalam korpus pra-pelatihan model, yang menghasilkan skor performa yang terlalu tinggi. Untuk menghindari hal ini, tolok ukur harus direferensikan silang dengan data pra-pelatihan. Selain itu, langkah-langkah untuk menghindari informasi yang pernah terlihat sebelumnya dapat dilakukan. Hal ini dapat melibatkan penggunaan dataset kepemilikan atau yang baru dikurasi yang dipisahkan dari jalur pelatihan model β hal ini akan memastikan bahwa metrik performa yang Anda dapatkan mencerminkan kemampuan model untuk melakukan generalisasi dengan baik.
Evaluasi Manusia
Metrik otomatis sendiri tidak dapat menangkap spektrum penuh performa suatu model, terutama dalam hal aspek pemahaman dan pembuatan bahasa yang sangat bernuansa dan subjektif. Dalam hal ini, evaluasi manusia memberikan penilaian yang jauh lebih baik:
- Mempekerjakan Profesional yang dapat memberikan evaluasi terperinci dan andal, terutama untuk domain khusus.
- crowdsourcing! Platform seperti Amazon Mechanical Turk memungkinkan Anda mengumpulkan beragam penilaian manusia dengan cepat dan dengan sedikit biaya.
- Umpan Balik Komunitas: Menggunakan platform seperti arena papan peringkat LMSYS, tempat pengguna dapat memilih dan membandingkan model, menambah lapisan wawasan tambahan. LMSYS Chatbot Arena Hard, misalnya, sangat efektif dalam menyoroti perbedaan halus antara model teratas melalui interaksi dan pemungutan suara pengguna langsung.
Kesimpulan
Tanpa evaluasi dan benchmarking, kita tidak akan tahu apakah kemampuan LLM dalam menangani tugas-tugas dunia nyata seakurat dan dapat diterapkan seperti yang kita pikirkan. Namun, seperti yang saya katakan, tolok ukur bukanlah cara yang benar-benar mudah untuk memeriksa hal tersebut, tolok ukur dapat menyebabkan kesenjangan dalam kinerja LLM. Hal ini juga dapat memperlambat pengembangan LLM yang benar-benar tangguh untuk bekerja.
Inilah yang seharusnya terjadi di dunia yang ideal. LLM memahami pertanyaan pengguna, mengidentifikasi kesalahan dalam perintah, menyelesaikan tugas sesuai instruksi, dan menghasilkan keluaran yang andal. Hasilnya sudah bagus tapi belum ideal. Di sinilah tolok ukur tugas spesifik terbukti sangat membantu seperti halnya evaluasi manusia dan mendeteksi kebocoran tolok ukur. Dengan menggunakannya, kami mendapat peluang untuk menghasilkan LLM yang benar-benar tangguh.