Kecerdasan buatan
Zephyr-7B : HuggingFace’s Hyper-Optimized LLM Built on Top of Mistral 7B

Pendahuluan
Evolusi model bahasa besar terbuka (LLM) telah memberikan dampak signifikan pada komunitas penelitian AI, terutama dalam pengembangan chatbot dan aplikasi serupa. Setelah dirilisnya model seperti LLaMA, terdapat lonjakan penelitian pada fine-tuning yang efisien, penanganan prompt yang diperluas, retrieval augmented generation (RAG), dan kuantisasi.
Model LLaMA, misalnya, menandai era baru dalam fine-tuning dan kontekstualisasi prompt, membuka jalan bagi model selanjutnya seperti MPT dari MosaicML, RedPajama-INCITE dari Together AI, Falcon dari TII, dan Llama 2 dari Meta. Masing-masing model ini memberikan kemampuan unik, meningkatkan fungsionalitas dan cakupan LLM secara keseluruhan.
Mistral AI, sebuah startup dari Paris yang didirikan oleh mantan karyawan Google DeepMind dan Meta, telah membuat namanya dengan penawaran pertamanya: Mistral 7B.
Keunggulan Mistral 7B terletak pada efisiensinya, memberikan kemampuan serupa atau ditingkatkan dibandingkan dengan rekan-rekannya seperti Llama 2 tetapi dengan permintaan komputasi yang lebih rendah.
Secara khusus disesuaikan untuk tugas instruksional, Mistral 7B Instruct bersinar pada platform seperti Hugging Face, di mana ia melampaui model lain dengan ukuran yang sama dan bersaing erat dengan model yang memiliki hampir dua kali parameter.
Dengan membangun ini, Hugging Face memperkenalkan Zephyr 7B Alpha, menunjukkan bahwa fine-tuning Mistral 7B dapat melampaui kemampuan model chat yang jauh lebih besar dan, dalam beberapa tugas, bahkan bersaing dengan GPT-4. “Alpha” hanya awal, karena Zephyr 7B Beta mengikuti tidak lama setelah itu.
Artikel ini akan mengeksplorasi bagaimana Zephyr 7B memanfaatkan kekuatan model yang lebih besar untuk memperbaiki kemampuannya untuk merespons dan selaras dengan instruksi manusia, proses yang dimungkinkan melalui teknik distilasi pengetahuan. Metode ini melibatkan pelatihan model yang lebih kecil pada pola kompleks yang dipelajari oleh model yang lebih besar, mengurangi permintaan pelatihan tanpa mengorbankan kemampuan pemodelan bahasa. Kami akan memasuki spesifik dari pendekatan distilasi pengetahuan Hugging Face.
Distilasi Pengetahuan
Inovasi kunci dalam mengembangkan model seperti Zephyr-7B adalah fine-tuning ter supervisi yang didistilasi (dSFT). Metode ini melibatkan menggunakan output dari model “guru” yang lebih besar dan lebih mampu untuk melatih model “murid” yang lebih kecil, meningkatkan akurasi. Sementara distilasi meningkatkan model terbuka pada berbagai tugas, celah kinerja dibandingkan dengan model guru masih ada.
Distilasi pengetahuan adalah metode dalam pembelajaran mesin di mana model kompak, disebut sebagai “murid,” diajarkan untuk meniru kinerja model yang lebih besar dan lebih kompleks “guru“. Teknik ini memungkinkan murid untuk melakukan tugas yang sebelumnya diluar kemampuannya dengan mentransfer pola kompleks yang dipelajari oleh guru.
Model murid dilatih pada probabilitas output atau fitur yang dihasilkan oleh model guru, fokus pada mencocokkan output ini daripada hanya prediksi akhir. Ini memungkinkan murid untuk belajar proses pengambilan keputusan yang halus dari guru, sering menghasilkan kinerja yang ditingkatkan dibandingkan dengan pelatihan hanya dengan data kebenaran.
Secara historis, distilasi pengetahuan telah digunakan dalam model seperti jaringan distilasi asli Hinton, dan lebih baru dalam NLP dengan model seperti DistilBERT, yang mendistilasi model BERT menjadi versi yang lebih kecil dan lebih cepat yang mempertahankan sebagian besar kemampuan pemahaman bahasa aslinya. Contoh lain adalah TinyBERT, yang lebih lanjut dalam mengoptimalkan ukuran dan kecepatan untuk perangkat mobile atau perangkat tepi.
Dalam kasus Zephyr-7B, distilasi pengetahuan digunakan untuk memberikan model parameter 7B yang lebih kecil dengan kemampuan model yang lebih besar. Dengan demikian, Zephyr-7B mencapai keseimbangan antara kinerja dan efisiensi, membuatnya cocok untuk lingkungan di mana sumber daya komputasi terbatas, tanpa mengorbankan kualitas interaksi dan pemahaman.
Dalam mengembangkan Zephyr-7B, peneliti mengatasi tantangan untuk menyelaraskan model LLM terbuka yang kecil secara keseluruhan melalui distilasi. Mereka memperkenalkan pendekatan yang disebut optimasi preferensi langsung yang didistilasi (dDPO), yang menggunakan umpan balik AI dari ensemble model guru sebagai data preferensi. Metode ini, yang tidak memerlukan anotasi manusia, secara signifikan mengurangi waktu dan sumber daya yang dibutuhkan untuk pelatihan model.
Membangun ZEPHYR-7B
Untuk memvalidasi dDPO, peneliti membangun ZEPHYR-7B, versi yang diselaraskan dari model Mistral-7B. Proses ini melibatkan tiga langkah:
- dSFT menggunakan dataset UltraChat: Fine-tuning ter supervisi yang didistilasi (dSFT) adalah metode canggih untuk melatih model bahasa besar (LLM) dengan memanfaatkan output dari model “guru” yang lebih besar dan lebih mampu. Ini dimulai dengan LLM mentah yang dilatih untuk merespons prompt pengguna. Tidak seperti fine-tuning ter supervisi tradisional (SFT) yang menggunakan dataset tetap, dSFT menggunakan pendekatan dinamis di mana model itu sendiri menghasilkan instruksi dan respon. Metode ini, disebut self-instruct, melibatkan menggunakan model guru untuk menjawab dan memperbarui instruksi berdasarkan respon.
- Menggabungkan data umpan balik AI dari UltraFeedback: Data ini sangat penting untuk memperbarui respon model. Dalam langkah ini, model menghasilkan respon terhadap berbagai prompt (seperti menjelaskan cara membuat brownies cokelat) yang kemudian dinilai oleh model yang lebih maju seperti GPT-4. Respon dengan skor tertinggi (yw) dan respon dengan skor lebih rendah yang dipilih secara acak (yl) membentuk dataset umpan balik D.
- Menerapkan dDPO: Fase terakhir, Optimasi Preferensi Langsung yang Didistilasi (dDPO), melibatkan memperbarui model dSFT dengan memaksimalkan probabilitas peringkat respon yang dipilih lebih tinggi. Ini dicapai dengan menggunakan fungsi hadiah rθ(x, y) dalam model preferensi, yang berdasarkan pada kebijakan LLM optimal π* dan kebijakan πdSFT asli. Tujuan optimasi diformulasikan sebagai πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT(yl|x)), yang menyederhanakan proses pelatihan dengan memulai dari versi dSFT model dan mengiterasi melalui setiap triple AIF.
Secara luar biasa, Zephyr-7B mencapai kinerja yang setara dengan model 70B-parameter yang lebih besar yang diselaraskan dengan umpan balik manusia. Ini unggul dalam kedua benchmark akademis dan kemampuan percakapan, menyoroti efektivitas pembelajaran preferensi dalam pengembangan model. Untuk eksplorasi lebih lanjut, model, kode, dan instruksi tersedia di Repository GitHub Hugging Face.
Mengatasi Tantangan Penyelarasan Niat
Keprihatinan yang cukup besar dengan LLM adalah penyelarasan dengan niat manusia. Model sebelumnya sering gagal menghasilkan respon yang sesuai dengan preferensi pengguna, menghasilkan jawaban yang tidak akurat atau tidak relevan. Namun, benchmark terbaru seperti MT-Bench dan AlpacaEval telah menyediakan alat untuk mengukur dan meningkatkan aspek ini, menyoroti kinerja unggul dari model propietary yang dilatih dengan umpan balik manusia dibandingkan dengan yang dilatih hanya melalui distilasi.
Metode Evaluasi
Evaluasi Zephyr 7B melibatkan pengujian yang ketat di berbagai benchmark yang menilai kemampuan percakapan model dalam konteks tunggal dan multi-giliran:
- MT-Bench: Benchmark multi-giliran ini memerlukan model untuk menangani 160 pertanyaan yang mencakup delapan domain. Setiap respon dinilai oleh GPT-4, dengan skor akhir model mencerminkan rata-rata dari dua putaran pertanyaan.
- AlpacaEval: Dalam benchmark tunggal-giliran ini, model disajikan dengan 805 pertanyaan yang mencakup berbagai subjek. Fokus di sini adalah pada bantuan model, dengan GPT-4 menilai respon untuk menentukan tingkat kemenangan komparatif.
Selain itu, Zephyr 7B diuji pada Papan Peringkat LLM Terbuka, yang, meskipun tidak secara langsung menilai kemampuan percakapan, menawarkan wawasan tentang penalaran dan kebenaran model pasca-fine-tuning.
Zephyr 7B dibandingkan dengan berbagai model terbuka dan propietary, termasuk model dengan ukuran dan metode penyelarasan yang berbeda. Ini menetapkan benchmark baru untuk model 7B pada MT-Bench dan AlpacaEval dan menunjukkan kinerja kompetitif melawan model yang lebih besar, memvalidasi efektivitas optimasi preferensi langsung (dDPO) dalam pelatihan.
Fase pelatihan SFT dan DPO dikonfigurasi dengan hati-hati, melibatkan beberapa epoch dan tingkat pembelajaran yang difine-tuning untuk kinerja optimal. Model Zephyr akhir muncul tidak hanya tahan terhadap overfitting tetapi juga ditingkatkan dalam menangani tugas praktis dan benchmark akademis.
Dataset dan Hasil
Dataset yang Digunakan
Dalam pengembangan Zephyr-7B, dua dataset kunci digunakan untuk melatih dan memperbarui model, masing-masing menangani aspek yang berbeda dari generasi dialog:
Dataset UltraChat
- Sumber: Dikembangkan dari dialog yang dihasilkan oleh GPT-3.5-TURBO.
- Isi: Berisi 1,47 juta dialog multi-giliran yang mencakup 30 topik dan 20 jenis materi teks.
- Pembaruan: Dataset ini menjalani heuristik truecasing untuk memperbaiki masalah tata bahasa, dan filter diterapkan untuk meningkatkan bantuan respon dan menghilangkan kalimat pembuka yang tidak berguna.
Dataset UltraFeedback
- Sumber: Terdiri dari prompt yang dievaluasi oleh GPT-4, yang menilai respon berdasarkan pengikutan instruksi, kejujuran, dan bantuan.
- Isi: Berisi 64.000 prompt dengan empat respon masing-masing, dinilai oleh GPT-4.
- Preferensi Binari: Dihasilkan dengan memilih respon dengan skor rata-rata tertinggi sebagai “dipilih” dan satu yang dipilih secara acak dari sisa sebagai “ditolak” untuk meningkatkan keragaman dan menantang proses Optimasi Preferensi Langsung (DPO).
Kedua dataset ini sangat penting untuk melatih Zephyr-7B agar memahami dan menghasilkan dialog yang menyerupai manusia yang mengikuti instruksi, jujur, dan membantu. Dataset ini telah tersedia di Hugging Face Hub, yang dapat diakses di sini.
Hasil dan Kinerja
Grafik di bawah ini menggambarkan kinerja Zephyr 7B di berbagai kategori tugas dibandingkan dengan model lain seperti GPT-3.5-turbo, Claude 1, GPT-4, dan Llama-2-70b-chat. Kategori mungkin termasuk Penulisan, Humaniora, Peran, Penalaran, STEM, Ekstraksi, Pemrograman, dan Matematika.
Dari grafik, kita dapat menyimpulkan domain mana Zephyr 7B unggul dan domain mana yang mungkin memerlukan perbaikan lebih lanjut. Misalnya, jika garis Zephyr lebih panjang pada sumbu Penulisan dibandingkan dengan yang lain, itu menunjukkan bahwa Zephyr sangat kuat dalam menghasilkan konten tertulis. Sebaliknya, jika garis lebih dekat dengan pusat pada sumbu Matematika, itu mungkin menunjukkan kelemahan relatif dalam memecahkan masalah matematika.
Grafik radar membantu dalam mengidentifikasi kekuatan dan kelemahan Zephyr 7B, memberikan representasi visual tentang di mana ia berdiri dibandingkan dengan model yang lebih besar seperti GPT-4 dan model khusus seperti Llama-2-70b-chat.
Membandingkan berbagai model bahasa pada dua benchmark: MT-Bench dan AlpacaEval. Model dievaluasi berdasarkan ukuran, metode penyelarasan (seperti dSFT untuk fine-tuning ter supervisi yang didistilasi atau dDPO untuk optimasi preferensi langsung yang didistilasi), dan skor kinerja. Zephyr menonjol dengan skor tinggi di kedua benchmark, menunjukkan efektivitasnya dalam menghasilkan respon yang selaras.
Kesimpulan
Dalam kesimpulan, pengembangan Zephyr-7B menunjukkan bahwa penyelarasan dan distilasi kemampuan percakapan dari model bahasa besar (LLM) ke model yang lebih kecil dapat dicapai tanpa ketergantungan pada metode berbasis sampling. Dengan menggunakan optimasi preferensi langsung (DPO) dengan umpan balik AI, Zephyr-7B memanfaatkan fondasi yang kuat dari Mistral-7B untuk menetapkan benchmark baru untuk model chat parameter 7B, menunjukkan kemampuan model terbuka yang lebih kecil untuk memahami dan merespons niat pengguna secara efektif.
Namun, studi ini tidak tanpa keterbatasan. Ketergantungan pada GPT-4 sebagai evaluator untuk benchmark memperkenalkan bias terhadap model yang didistilasi darinya, potensialmente mendukung respon yang akurat. Selain itu, skalabilitas metode ini ke model yang lebih besar, seperti LLAMA2-70B, dan dampaknya pada peningkatan kinerja tetap menjadi area untuk penelitian lebih lanjut. Keterbatasan ini menyoroti kebutuhan akan inovasi terus-menerus dan pengembangan metode evaluasi yang tidak bias dalam komunitas AI.
Melihat lebih jauh dari studi, jelas bahwa potensi model yang lebih kecil untuk berkinerja setara dengan model yang lebih besar dapat mendemokratisasi AI, memungkinkan penggunaan yang lebih mudah diakses dan efisien dalam berbagai aplikasi. Keberhasilan Zephyr-7B mendorong penelitian lebih lanjut ke model terbuka, yang dapat mempercepat kemajuan dalam AI dengan memfasilitasi penelitian dan pengembangan kolaboratif.














