Pemimpin pemikiran

Benchmarks Untuk LLM

mm

Mengerti peran dan keterbatasan benchmarks dalam evaluasi kinerja LLM. Eksplorasi teknik untuk mengembangkan LLM yang kuat.

Model Bahasa Besar telah mendapatkan popularitas besar dalam beberapa tahun terakhir. Saya maksud, Anda telah melihatnya. Kemampuan LLM yang luar biasa untuk memahami perintah bahasa manusia membuat mereka menjadi integrasi yang sempurna untuk bisnis, mendukung alur kerja kritis dan mengotomatisasi tugas untuk efisiensi maksimum. Plus, di luar pemahaman rata-rata pengguna, ada banyak hal lain yang dapat dilakukan LLM. Dan ketika ketergantungan kita pada mereka tumbuh, kita harus memperhatikan langkah-langkah untuk memastikan akurasi dan keandalan yang diperlukan. Ini adalah tugas global yang mempengaruhi lembaga-lembaga, tetapi di dunia bisnis, ada beberapa benchmarks yang dapat digunakan untuk mengevaluasi kinerja LLM di berbagai domain. Mereka dapat menguji kemampuan model dalam pemahaman, logika, matematika, dan sebagainya, dan hasilnya menentukan apakah LLM siap untuk penerapan bisnis.

Dalam artikel ini, saya telah mengumpulkan daftar komprehensif tentang benchmarks paling populer untuk evaluasi LLM. Kami akan membahas setiap benchmark secara rinci dan melihat bagaimana LLM yang berbeda berperforma terhadap kriteria evaluasi. Tetapi pertama, mari kita memahami evaluasi LLM secara lebih rinci.

Apa itu Evaluasi LLM?

Seperti model AI lainnya, LLM juga perlu dievaluasi terhadap benchmarks tertentu yang menilai berbagai aspek kinerja model bahasa: pengetahuan, akurasi, keandalan, dan konsistensi. Standar biasanya melibatkan:

  1. Mengerti Pertanyaan Pengguna: Menilai kemampuan model untuk memahami dan menafsirkan berbagai input pengguna.
  2. Verifikasi Output: Memverifikasi respons AI yang dihasilkan terhadap basis pengetahuan yang tepercaya untuk memastikan mereka benar dan relevan.
  3. Keandalan: Mengukur seberapa baik model berperforma dengan input yang ambigu, tidak lengkap, atau bising.

Evaluasi LLM memberikan pengembang kekuatan untuk mengidentifikasi dan mengatasi keterbatasan dengan efisien, sehingga mereka dapat meningkatkan pengalaman pengguna secara keseluruhan. Jika LLM dievaluasi secara menyeluruh, maka akan akurat dan kuat enough untuk menangani berbagai aplikasi dunia nyata, bahkan termasuk yang memiliki input ambigu atau tidak terduga.

Benchmarks

LLM adalah salah satu teknologi paling kompleks hingga saat ini dan dapat menguatkan bahkan aplikasi yang paling sulit. Jadi, proses evaluasi harus sama-sama kompleks, menguji proses berpikir dan akurasi teknis.

Sebuah benchmark menggunakan dataset, metrik, dan tugas evaluasi tertentu untuk menguji kinerja LLM, dan memungkinkan perbandingan antara LLM yang berbeda dan mengukur akurasi, yang pada gilirannya mendorong kemajuan di industri melalui kinerja yang ditingkatkan.

Berikut adalah beberapa aspek kinerja LLM yang paling umum:

  • Pengetahuan: Pengetahuan model perlu diuji di berbagai domain. Itulah yang dilakukan oleh benchmark pengetahuan. Ini menilai seberapa efektif model dapat mengingat informasi dari berbagai bidang, seperti Fisika, Pemrograman, Geografi, dan sebagainya.
  • Penalaran Logis: Menguji kemampuan model untuk ‘berpikir’ langkah demi langkah dan menghasilkan kesimpulan logis, yang biasanya melibatkan skenario di mana model harus memilih kelanjutan atau penjelasan yang paling masuk akal berdasarkan pengetahuan sehari-hari dan penalaran logis.
  • Pemahaman Membaca: Model harus sangat baik dalam interpretasi bahasa alami dan kemudian menghasilkan respons yang sesuai. Tes ini melibatkan menjawab pertanyaan berdasarkan teks untuk mengukur pemahaman, inferensi, dan retensi detail, seperti tes membaca di sekolah.
  • Pemahaman Kode: Ini diperlukan untuk mengukur kemampuan model dalam memahami, menulis, dan meng-debug kode. Benchmarks ini memberikan tugas pemrograman atau masalah yang harus diselesaikan model dengan akurat, seringkali melibatkan berbagai bahasa pemrograman dan paradigma.
  • Pengetahuan Dunia: Untuk menilai pemahaman model tentang pengetahuan umum dunia. Dataset ini biasanya memiliki pertanyaan yang memerlukan pengetahuan ensiklopedis yang luas untuk dijawab dengan benar, yang membuatnya berbeda dari benchmark pengetahuan yang lebih spesifik dan terfokus.

Benchmarks “Pengetahuan”

MMLU (Multimodal Language Understanding)

Benchmark ini dirancang untuk menguji pemahaman LLM tentang pengetahuan faktual di berbagai topik seperti humaniora, ilmu sosial, sejarah, ilmu komputer, dan bahkan hukum. 57 pertanyaan dan 15k tugas semua ditujukan untuk memastikan model memiliki kemampuan penalaran yang baik. Ini membuat MMLU menjadi alat yang baik untuk menilai pengetahuan faktual dan penalaran LLM dalam berbagai topik.

Baru-baru ini, ini telah menjadi benchmark kunci untuk mengevaluasi LLM untuk area yang disebutkan di atas. Pengembang selalu ingin mengoptimalkan model mereka untuk mengungguli yang lain dalam benchmark ini, yang membuatnya menjadi standar de facto untuk mengevaluasi penalaran dan pengetahuan lanjutan dalam LLM. Model besar seperti GPT-4-omni mencapai skor 88,7%, sementara Claude 3 Opus mencapai 86,8%, Gemini 1,5 Pro mencapai 85,9%, dan Llama-3 70B mencapai 82%. Model kecil biasanya tidak berperforma sebaik ini dalam benchmark ini, biasanya tidak melebihi 60-65%, tetapi kinerja terbaru dari Phi-3-Small-7b mencapai 75,3% adalah sesuatu yang perlu dipertimbangkan.

Namun, MMLU tidak tanpa kelemahan: itu memiliki masalah yang diketahui seperti pertanyaan yang ambigu, jawaban yang salah, dan konteks yang hilang. Dan, banyak yang berpikir bahwa beberapa tugasnya terlalu mudah untuk evaluasi LLM yang tepat.

Saya ingin membuat jelas bahwa benchmarks seperti MMLU tidak sepenuhnya menggambarkan skenario dunia nyata. Jika LLM mencapai skor yang baik dalam ini, itu tidak selalu berarti bahwa itu telah menjadi ahli dalam suatu subjek. Benchmarks sangat terbatas dalam cakupan dan seringkali bergantung pada pertanyaan pilihan ganda, yang tidak pernah dapat sepenuhnya menangkap kompleksitas dan konteks interaksi dunia nyata. Pemahaman yang sebenarnya memerlukan pengetahuan dan penerapan pengetahuan secara dinamis, yang melibatkan pemikiran kritis, pemecahan masalah, dan pemahaman konteks. Untuk alasan ini, LLM terus perlu diperbarui dan ditingkatkan agar model tetap relevan dan efektif.

GPQA (Graduate-Level Google-Proof Q&A Benchmark)

Benchmark ini menilai LLM pada penalaran logis menggunakan dataset dengan 448 pertanyaan. Ahli domain mengembangkannya dan mencakup topik dalam biologi, fisika, dan kimia.

Setiap pertanyaan melalui proses validasi sebagai berikut:

  1. Seorang ahli dalam topik yang sama menjawab pertanyaan dan memberikan umpan balik rinci.
  2. Penulis pertanyaan merevisi pertanyaan berdasarkan umpan balik ini.
  3. Seorang ahli kedua menjawab pertanyaan yang direvisi.

Proses ini sebenarnya dapat memastikan bahwa pertanyaan-pertanyaan tersebut objektif, akurat, dan menantang bagi model bahasa. Bahkan ahli PhD yang berpengalaman hanya mencapai akurasi 65% pada pertanyaan-pertanyaan ini, sementara GPT-4-omni mencapai 53,6%, menyoroti kesenjangan antara kecerdasan manusia dan mesin.

Karena persyaratan kualifikasi yang tinggi, dataset ini sebenarnya cukup kecil, yang sedikit membatasi kekuatan statistiknya untuk membandingkan akurasi, dan memerlukan ukuran efek yang besar. Ahli-ahli yang menciptakan dan memvalidasi pertanyaan-pertanyaan ini berasal dari Upwork, sehingga mereka mungkin memperkenalkan bias berdasarkan keahlian dan topik yang mereka tutupi.

Benchmarks Kode

HumanEval

164 masalah pemrograman, tes nyata untuk kemampuan pemrograman LLM. Ini adalah HumanEval. Ini dirancang untuk menguji kemampuan pemrograman dasar model bahasa besar (LLM). Ini menggunakan metrik pass@k untuk menilai akurasi fungsional kode yang dihasilkan, yang mengeluarkan probabilitas bahwa setidaknya satu dari k sampel kode LLM yang dihasilkan lulus kasus uji.

Sementara dataset HumanEval mencakup tanda tangan fungsi, docstring, tubuh kode, dan beberapa tes unit, itu tidak mencakup seluruh rentang masalah pemrograman dunia nyata, yang tidak akan cukup untuk menguji kemampuan model untuk membuat kode yang benar untuk skenario yang beragam.

MBPP (Mostly Basic Python Programming)

Mbpp benchmark terdiri dari 1.000 pertanyaan pemrograman Python yang dikumpulkan dari kerumunan. Ini adalah masalah tingkat pemula dan fokus pada keterampilan pemrograman dasar. Ini menggunakan pendekatan few-shot dan fine-tuning untuk menilai kinerja model, dengan model yang lebih besar biasanya berperforma lebih baik pada dataset ini. Namun, karena dataset ini hanya berisi program tingkat pemula, itu tidak sepenuhnya mewakili kompleksitas dan tantangan aplikasi dunia nyata.

Benchmarks Matematika

Sementara sebagian besar LLM sangat baik dalam membangun respons standar, penalaran matematika adalah masalah yang jauh lebih besar bagi mereka. Mengapa? Karena itu memerlukan keterampilan yang terkait dengan pemahaman pertanyaan, pendekatan logis langkah demi langkah dengan penalaran matematika, dan menghasilkan jawaban yang benar.

Metode “Rantai Pemikiran” (CoT) dirancang untuk menilai LLM pada benchmarks yang terkait dengan matematika, yang melibatkan meminta model untuk menjelaskan proses penalaran langkah demi langkah mereka saat menyelesaikan suatu masalah. Ada beberapa kelebihan dari ini. Ini membuat proses penalaran lebih transparan, membantu mengidentifikasi kelemahan dalam logika model, dan memungkinkan penilaian yang lebih rinci tentang keterampilan pemecahan masalah. Dengan memecah masalah yang kompleks menjadi serangkaian langkah yang lebih sederhana, CoT dapat meningkatkan kinerja model pada benchmarks matematika dan memberikan wawasan yang lebih dalam tentang kemampuan penalaran mereka.

GSM8K: Sebuah Benchmark Matematika Populer

Salah satu benchmark yang terkenal untuk mengevaluasi kemampuan matematika LLM adalah dataset GSM8K. GSM8K terdiri dari 8,5k masalah matematika sekolah menengah, yang memerlukan beberapa langkah untuk diselesaikan, dan solusi utamanya melibatkan melakukan serangkaian perhitungan dasar. Biasanya, model yang lebih besar atau yang secara khusus dilatih untuk penalaran matematika cenderung berperforma lebih baik pada benchmark ini, misalnya model GPT-4 mencapai skor 96,5%, sementara DeepSeekMATH-RL-7B sedikit tertinggal di 88,2%.

Sementara GSM8K berguna untuk menilai kemampuan model untuk menangani masalah matematika tingkat sekolah dasar, itu mungkin tidak sepenuhnya menggambarkan kemampuan model untuk menyelesaikan tantangan matematika yang lebih maju atau beragam, sehingga membatasi efektivitasnya sebagai ukuran komprehensif kemampuan matematika.

Dataset Matematika: Alternatif Komprehensif

Dataset matematika ini mengatasi kelemahan benchmarks seperti GSM8K. Dataset ini lebih luas, mencakup aritmatika dasar hingga matematika tingkat sekolah menengah dan bahkan perguruan tinggi. Ini juga dibandingkan dengan kinerja manusia, dengan seorang mahasiswa PhD ilmu komputer yang tidak menyukai matematika mencapai akurasi 40% dan seorang juara emas mencapai akurasi 90%.

Ini memberikan penilaian yang lebih komprehensif tentang kemampuan matematika LLM. Ini memastikan bahwa model tersebut mahir dalam aritmatika dasar dan kompeten dalam area yang kompleks seperti aljabar, geometri, dan kalkulus. Namun, kompleksitas dan keragaman masalah yang meningkat dapat membuat model sulit untuk mencapai akurasi tinggi, terutama bagi model yang tidak secara eksplisit dilatih pada berbagai konsep matematika. Juga, format masalah yang bervariasi dalam dataset Matematika dapat memperkenalkan inkonsistensi dalam kinerja model, yang membuatnya lebih sulit untuk mengambil kesimpulan yang pasti tentang kemampuan matematika model secara keseluruhan.

Menggunakan metode Rantai Pemikiran dengan dataset Matematika dapat meningkatkan evaluasi karena itu mengungkap kemampuan penalaran langkah demi langkah LLM di seluruh spektrum tantangan matematika. Pendekatan gabungan seperti ini memastikan bahwa ada penilaian yang lebih kuat dan rinci tentang kemampuan matematika LLM yang sebenarnya.

Benchmarks Pemahaman Membaca

Penilaian pemahaman membaca menilai kemampuan model untuk memahami dan memproses teks yang kompleks, yang sangat penting untuk aplikasi seperti dukungan pelanggan, generasi konten, dan pengambilan informasi. Ada beberapa benchmarks yang dirancang untuk menilai keterampilan ini, masing-masing dengan atribut unik yang memberikan kontribusi pada evaluasi komprehensif kemampuan model.

RACE (Dataset Pemahaman Membaca dari Ujian)

Benchmarks RACE memiliki sekitar 28.000 pasangan teks dan 100.000 pertanyaan yang dikumpulkan dari ujian bahasa Inggris untuk siswa sekolah menengah dan sekolah dasar Tiongkok berusia 12 hingga 18 tahun. Ini tidak membatasi pertanyaan dan jawaban untuk diambil dari teks yang diberikan, membuat tugas menjadi lebih menantang.

Ini mencakup berbagai topik dan jenis pertanyaan, yang membuat penilaian menyeluruh dan termasuk pertanyaan pada berbagai tingkat kesulitan. Juga, pertanyaan dalam RACE dirancang khusus untuk menguji keterampilan membaca manusia dan dibuat oleh ahli domain.

Namun, benchmark ini memiliki beberapa kelemahan. Karena dikembangkan dari bahan pendidikan Tiongkok, itu rentan memperkenalkan bias budaya yang tidak mencerminkan konteks global. Juga, tingkat kesulitan yang tinggi pada beberapa pertanyaan tidak sepenuhnya mewakili tugas dunia nyata. Jadi, evaluasi kinerja mungkin tidak akurat.

DROP (Penalaran Diskret atas Paragraf)

Pendekatan lain yang signifikan adalah DROP (Penalaran Diskret atas Paragraf), yang menantang model untuk melakukan penalaran diskret atas paragraf. Ini memiliki 96.000 pertanyaan untuk menguji kemampuan penalaran LLM dan pertanyaan-pertanyaan tersebut diambil dari Wikipedia dan dikumpulkan dari Amazon Mechanical Turk. Pertanyaan DROP sering meminta model untuk melakukan operasi matematika seperti penambahan, pengurangan, dan perbandingan berdasarkan informasi yang tersebar di seluruh paragraf.

Pertanyaan-pertanyaan tersebut menantang. Mereka meminta LLM untuk menemukan beberapa angka dalam paragraf dan menambah atau menguranginya untuk mendapatkan jawaban akhir. Model besar seperti GPT-4 dan Palm mencapai 80% dan 85%, sementara manusia mencapai 96% pada dataset DROP.

Benchmarks Kesadaran Umum

Menguji kesadaran umum dalam model bahasa adalah satu hal yang menarik tetapi juga kunci karena itu menilai kemampuan model untuk membuat penilaian dan inferensi yang sejalan dengan penalaran manusia. Tidak seperti kita, yang mengembangkan model dunia yang komprehensif melalui pengalaman praktis, model bahasa dilatih pada dataset besar tanpa benar-benar memahami konteks. Ini berarti bahwa model bergelut dengan tugas yang memerlukan pemahaman intuitif tentang situasi sehari-hari, penalaran logis, dan pengetahuan praktis, yang sangat penting untuk aplikasi AI yang kuat dan dapat diandalkan.

HellaSwag (Akhir yang Lebih Sulit, Konteks yang Lebih Panjang, dan Aktivitas Low-shot untuk Situasi dengan Generasi Adversarial)

Hellaswag dikembangkan oleh Rowan Zellers dan rekan di Universitas Washington dan Allen Institute for Artificial Intelligence. Ini dirancang untuk menguji kemampuan model untuk memprediksi kelanjutan yang paling masuk akal dari skenario yang diberikan. Benchmark ini dibangun menggunakan Adversarial Filtering (AF), di mana serangkaian discriminator secara berulang memilih jawaban mesin yang salah yang dihasilkan secara adversarial. Metode ini menciptakan dataset dengan contoh yang sepele bagi manusia tetapi menantang bagi model, menghasilkan “zona emas” kesulitan.

Sementara Hellaswag telah menantang model sebelumnya, model mutakhir seperti GPT-4 telah mencapai tingkat kinerja yang mendekati akurasi manusia, menunjukkan kemajuan signifikan dalam bidang ini. Namun, hasil ini menunjukkan kebutuhan akan benchmarks yang terus berkembang untuk mengikuti kemajuan dalam kemampuan AI.

Openbook

Dataset Openbook terdiri dari 5957 pertanyaan pilihan ganda sains tingkat dasar. Pertanyaan-pertanyaan tersebut dikumpulkan dari ujian buku terbuka dan dikembangkan untuk menilai pemahaman manusia tentang subjek.

Benchmark Openbook memerlukan kemampuan penalaran di luar pengambilan informasi. GPT-4 mencapai akurasi tertinggi sebesar 95,9% hingga saat ini.

OpenbookQA dimodelkan setelah ujian buku terbuka dan terdiri dari 5.957 pertanyaan pilihan ganda sains dasar. Pertanyaan-pertanyaan ini dirancang untuk menyelidiki pemahaman tentang 1.326 fakta sains inti dan penerapan mereka pada situasi baru.

Serupa dengan Hellaswag, model sebelumnya menemukan OpenbookQA menantang, tetapi model mutakhir seperti GPT-4 telah mencapai tingkat kinerja yang mendekati akurasi manusia. Kemajuan ini menekankan pentingnya mengembangkan benchmarks yang lebih kompleks dan nuansa untuk terus mendorong batas-batas pemahaman AI.

Apakah Benchmarks Cukup untuk Evaluasi Kinerja LLM?

Ya, sementara mereka menyediakan pendekatan yang standar untuk mengevaluasi kinerja LLM, mereka juga dapat menyesatkan. Organisasi Sistem Model Besar mengatakan bahwa benchmark LLM yang baik harus dapat diskalakan, mampu mengevaluasi model baru dengan jumlah percobaan yang relatif kecil, dan memberikan urutan peringkat unik untuk semua model. Tetapi, ada alasan mengapa mereka mungkin tidak cukup. Berikut beberapa alasan:

Kebocoran Benchmark

Ini adalah pertemuan yang umum, dan itu terjadi ketika data pelatihan tumpang tindih dengan data pengujian, membuat evaluasi yang menyesatkan. Jika model telah menemui beberapa pertanyaan ujian selama pelatihan, hasilnya mungkin tidak secara akurat mencerminkan kemampuan sebenarnya. Tetapi, benchmark ideal harus meminimalkan memorifikasi dan mencerminkan skenario dunia nyata.

Bias Evaluasi

Papan peringkat benchmark LLM digunakan untuk membandingkan kinerja LLM pada berbagai tugas. Namun, mengandalkan papan peringkat tersebut untuk perbandingan model dapat menyesatkan. Perubahan sederhana dalam tes benchmark seperti mengubah urutan pertanyaan, dapat menggeser peringkat model hingga delapan posisi. Juga, LLM mungkin berperforma berbeda tergantung pada metode skoring, menyoroti pentingnya mempertimbangkan bias evaluasi.

Keterbukaan

Interaksi LLM dunia nyata melibatkan merancang prompt untuk menghasilkan output AI yang diinginkan. Output LLM bergantung pada efektivitas prompt, dan benchmarks dirancang untuk menguji kesadaran konteks LLM. Sementara benchmarks dirancang untuk menguji kesadaran konteks LLM, mereka tidak selalu diterjemahkan secara langsung ke kinerja dunia nyata. Misalnya, model yang mencapai skor 100% pada dataset benchmark, seperti LSAT, tidak menjamin tingkat akurasi yang sama dalam aplikasi praktis. Ini menekankan pentingnya mempertimbangkan sifat terbuka dari tugas dunia nyata dalam evaluasi LLM.

Evaluasi Efektif untuk LLM yang Kuat

Jadi, sekarang Anda tahu bahwa benchmarks tidak selalu menjadi pilihan terbaik karena mereka tidak dapat selalu generalisasi di semua masalah. Tetapi, ada cara lain.

Benchmarks Kustom

Mereka sempurna untuk menguji perilaku dan fungsionalitas tertentu dalam skenario tugas-spesifik. Misalnya, jika LLM dirancang untuk petugas medis, dataset yang dikumpulkan dari pengaturan medis akan secara efektif mewakili skenario dunia nyata. Benchmarks kustom ini dapat fokus pada pemahaman bahasa domain-spesifik, kinerja, dan persyaratan konteks unik. Dengan memenuhi benchmarks dengan skenario dunia nyata yang mungkin, Anda dapat memastikan bahwa LLM berperforma dengan baik secara umum dan unggul dalam tugas-tugas tertentu yang dimaksudkan. Ini dapat membantu mengidentifikasi dan mengatasi kesenjangan atau kelemahan dalam kemampuan model lebih awal.

Pipeline Deteksi Kebocoran Data

Jika Anda ingin evaluasi Anda “menunjukkan” integritas, memiliki pipeline benchmark yang bebas kebocoran data sangat penting. Kebocoran data terjadi ketika data benchmark termasuk dalam corpus pelatihan model, menghasilkan skor kinerja yang artificial tinggi. Untuk menghindarinya, benchmarks harus dikros-referensi terhadap data pelatihan. Plus, langkah-langkah untuk menghindari informasi yang telah dilihat sebelumnya. Ini dapat melibatkan menggunakan dataset propietary atau baru yang dikurasi yang dipisahkan dari pipeline pelatihan model – ini akan memastikan bahwa metrik kinerja yang Anda dapatkan mencerminkan kemampuan model untuk generalisasi dengan baik.

Evaluasi Manusia

Metrik otomatis saja tidak dapat menangkap spektrum penuh kinerja model, terutama ketika datang ke aspek yang sangat halus dan subjektif dari pemahaman dan generasi bahasa. Di sini, evaluasi manusia memberikan penilaian yang jauh lebih baik:

  • Merekrut Profesional yang dapat memberikan evaluasi yang detail dan dapat diandalkan, terutama untuk domain yang sangat spesifik.
  • Kerumunan! Platform seperti Amazon Mechanical Turk memungkinkan Anda untuk mengumpulkan penilaian manusia yang beragam dengan cepat dan dengan biaya yang relatif rendah.
  • Umpan Balik Komunitas: Menggunakan platform seperti arena papan peringkat LMSYS, di mana pengguna dapat memilih dan membandingkan model, menambahkan lapisan wawasan tambahan. Arena Chatbot LMSYS Hard, misalnya, sangat efektif dalam menyoroti perbedaan halus antara model teratas melalui interaksi pengguna langsung dan suara.

Kesimpulan

Tanpa evaluasi dan benchmarking, kita tidak akan tahu apakah kemampuan LLM untuk menangani tugas dunia nyata seakurat dan sesuai yang kita pikir. Tetapi, seperti yang saya katakan, benchmarks tidak selalu menjadi cara yang sempurna untuk memeriksa itu, mereka dapat menyebabkan kesenjangan dalam kinerja LLM. Ini juga dapat memperlambat pengembangan LLM yang benar-benar kuat untuk bekerja.

Inilah yang seharusnya terjadi di dunia ideal. LLM memahami pertanyaan pengguna, mengidentifikasi kesalahan dalam prompt, menyelesaikan tugas sesuai dengan instruksi, dan menghasilkan output yang dapat diandalkan. Hasilnya sudah hebat tetapi belum ideal. Inilah di mana benchmarks tugas-spesifik sangat berguna, seperti evaluasi manusia dan deteksi kebocoran benchmark. Dengan menggunakan itu, kita mendapatkan kesempatan untuk menghasilkan LLM yang benar-benar kuat.

Irina Barskaya, PhD, adalah seorang ilmuwan data terkemuka dengan lebih dari satu dekade pengalaman, mencakup analitik produk dan analitik untuk teknologi canggih. Ia memimpin pembuatan dan analitik untuk Yasmina, asisten suara berbasis AI pertama yang sepenuhnya fungsional dan dilokalkan untuk Arab Saudi, menangani pelokalan data kompleks dan pelabelan untuk Bahasa Arab Modern dan dialek Arab Saudi. Saat ini, Irina memimpin analitik kualitas di Yandex, mendorong kemajuan dalam teknologi AI.