Terhubung dengan kami

Kecerdasan Buatan

Zephyr-7B : LLM HuggingFace yang Sangat Dioptimalkan Dibangun di Atas Mistral 7B

mm
Updated on
Zypher 7B

Pengantar

Evolusi model bahasa besar terbuka (LLM) telah berdampak signifikan pada komunitas riset AI, khususnya dalam pengembangan chatbot dan aplikasi serupa. Setelah peluncuran model seperti LLaMA, terdapat lonjakan penelitian mengenai penyesuaian yang efisien, penanganan cepat yang diperluas, pengambilan generasi yang ditambah (RAG), dan kuantisasi.

Model LLaMA, misalnya, menandai era baru dalam penyempurnaan dan kontekstualisasi cepat, membuka jalan bagi model-model berikutnya seperti MPT dari MosesML, RedPajama-INCITE dari Together AI, Falcon dari TII, dan Llama 2 dari Meta. Masing-masing model ini menyumbangkan kemampuan unik , meningkatkan fungsionalitas dan cakupan LLM secara keseluruhan.

Mistral AI, sebuah startup dari Paris dan didirikan oleh mantan karyawan Google DeepMind dan Meta, telah terkenal dengan penawaran pertamanya: Mistral 7B.

Keunggulan Mistral 7B terletak pada efisiensinya, memberikan kemampuan yang serupa atau ditingkatkan dibandingkan dengan sejenisnya Llama 2 tetapi dengan permintaan komputasi yang lebih sedikit.

Disetel secara khusus untuk tugas-tugas instruksional, Mistral 7B Instruct bersinar pada platform seperti Hugging Face, yang mengungguli model lain dengan ukuran yang sama dan bersaing ketat dengan model yang memiliki parameter hampir dua kali lipat.

Berdasarkan hal ini, Hugging Face memperkenalkan Zephyr 7B Alfa, menunjukkan bahwa Mistral 7B yang disempurnakan memang dapat melampaui kemampuan model obrolan yang jauh lebih besar dan, dalam beberapa tugas, bahkan menyaingi GPT-4. "Alpha" hanyalah permulaan, seperti Angin Semilir 7B Beta segera menyusul.

Artikel ini akan mengeksplorasi bagaimana Zephyr 7B memanfaatkan kekuatan model yang lebih besar untuk menyempurnakan kemampuannya dalam merespons dan menyelaraskan dengan instruksi manusia, sebuah proses yang dimungkinkan melalui teknik penyulingan pengetahuan. Metode ini melibatkan pelatihan model yang lebih kecil tentang pola kompleks yang dipelajari oleh model yang lebih besar, sehingga mengurangi tuntutan pelatihan tanpa mengorbankan kemampuan pemodelan bahasa. Kami akan mempelajari secara spesifik pendekatan penyulingan pengetahuan Hugging Face.

Penyulingan pengetahuan

Inovasi utama dalam mengembangkan model seperti Zephyr-7B adalah penyempurnaan terawasi suling (dSFT). Metode ini melibatkan penggunaan keluaran dari model 'guru' yang lebih besar dan lebih mampu untuk melatih model 'siswa' yang lebih kecil, sehingga meningkatkan akurasinya. Meskipun penyulingan meningkatkan model terbuka pada berbagai tugas, kesenjangan kinerja dibandingkan dengan model guru masih ada.

Penyulingan pengetahuan adalah metode dalam pembelajaran mesin yang menggunakan model kompak, yang disebut sebagai “mahasiswa,” diajarkan untuk mereplikasi kinerja yang lebih besar, lebih kompleks “guru" model. Teknik ini memungkinkan siswa untuk melakukan tugas-tugas yang sebelumnya di luar kemampuannya dengan mentransfer pola-pola rumit yang dipelajari oleh guru.

Penyulingan Pengetahuan,| Model Guru-Siswa

Penyulingan Pengetahuan | Model Guru-Siswa

Model siswa melatih probabilitas atau fitur keluaran yang dihasilkan oleh model guru, dengan fokus pada pencocokan keluaran ini, bukan hanya prediksi akhir. Hal ini memungkinkan siswa mempelajari berbagai proses pengambilan keputusan yang dilakukan guru, yang sering kali menghasilkan peningkatan kinerja dibandingkan pelatihan hanya dengan data kebenaran dasar.

Secara historis, penyulingan pengetahuan telah digunakan dalam model seperti jaringan distilasi asli Hinton, dan baru-baru ini di NLP dengan model seperti DistilBERT, yang menyaring model BERT menjadi versi yang lebih kecil dan lebih cepat yang mempertahankan sebagian besar kemampuan pemahaman bahasa aslinya. Contoh lainnya adalah TinyBERT, yang melangkah lebih jauh dalam mengoptimalkan ukuran dan kecepatan untuk perangkat seluler atau edge.

Dalam kasus Zephyr-7B, penyulingan pengetahuan digunakan untuk memberikan model parameter 7B yang lebih kecil dengan kemampuan model yang lebih besar. Dengan demikian, Zephyr-7B mencapai keseimbangan antara kinerja dan efisiensi, sehingga cocok untuk lingkungan di mana sumber daya komputasi terbatas, tanpa mengorbankan kualitas interaksi dan pemahaman.

Dalam mengembangkan Zephyr-7B, para peneliti mengatasi tantangan untuk menyelaraskan LLM terbuka kecil sepenuhnya melalui distilasi. Mereka memperkenalkan pendekatan yang disebut optimasi preferensi langsung tersuling (dDPO), yang menggunakan Umpan Balik AI dari kumpulan model guru sebagai data preferensi. Metode ini, yang tidak memerlukan anotasi manusia, secara signifikan mengurangi waktu dan sumber daya yang diperlukan untuk pelatihan model.

Membangun ZEPHYR-7B

Untuk memvalidasi dDPO, para peneliti membuat ZEPHYR-7B, versi yang selaras dari dDPO Model Mistral-7B. Prosesnya melibatkan tiga langkah:

  1. dSFT menggunakan kumpulan data UltraChat:Distilled Supervised Fine-Tuning (dSFT) adalah metode lanjutan untuk melatih model bahasa besar (LLM) dengan memanfaatkan keluaran model “guru” yang lebih besar dan lebih mampu. Ini dimulai dengan LLM mentah yang dilatih untuk merespons permintaan pengguna. Tidak seperti penyempurnaan terawasi (SFT) tradisional yang menggunakan kumpulan data tetap, dSFT menggunakan pendekatan dinamis di mana model itu sendiri menghasilkan instruksi dan respons. Metode ini, dikenal sebagai instruksi mandiri, melibatkan penggunaan model guru untuk menjawab dan menyempurnakan instruksi berdasarkan respons. Prosesnya dimulai dengan serangkaian petunjuk awal (x₀₁, x₀₂, …, x₀_J) yang mewakili beragam topik. Setiap perintah disempurnakan secara berulang: untuk perintah x₀ tertentu, respons y₀ dihasilkan oleh model guru, lalu instruksi baru x₁ diambil sampelnya berdasarkan x₀ dan y₀. Kumpulan data akhir C = {(x₁, y₁), …, (x_J, y_J)} digunakan untuk menyempurnakan model.
  2. Menggabungkan data umpan balik AI dari UltraFeedback:Data ini penting untuk menyempurnakan respons model. Pada langkah ini, model menghasilkan respons terhadap berbagai perintah (seperti menjelaskan cara membuat brownies coklat) yang kemudian diberi peringkat berdasarkan model yang lebih canggih seperti GPT-4. Respons dengan skor tertinggi (yw) dan respons dengan skor lebih rendah yang dipilih secara acak (yl) membentuk kumpulan data umpan balik D.
  3. Menerapkan dDPO:Fase terakhir, Distilled Direct Preference Optimization (dDPO), melibatkan penyempurnaan model dSFT dengan memaksimalkan kemungkinan memberi peringkat lebih tinggi pada respons yang disukai. Hal ini dicapai dengan menggunakan fungsi imbalan rθ(x, y) dalam model preferensi, yang didasarkan pada kebijakan LLM optimal π* dan kebijakan asli πdSFT. Tujuan optimasi dirumuskan sebagai πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT( yl|x)), yang menyederhanakan proses pelatihan dengan memulai model versi dSFT dan melakukan iterasi melalui setiap triple AIF.
Metode yang digunakan di Zephyr-7B mencerminkan proses yang digunakan di InstructGPT.

Metode yang digunakan di Zephyr-7B mencerminkan proses yang digunakan di InstructGPT.

Hebatnya, Zephyr-7B mencapai kinerja yang sebanding dengan model parameter 70B yang jauh lebih besar dan selaras dengan masukan manusia. Ia unggul dalam tolok ukur akademik dan kemampuan percakapan, menyoroti efektivitas pembelajaran preferensi dalam pengembangan model. Untuk eksplorasi lebih lanjut, model, kode, dan instruksi tersedia di Repositori GitHub Memeluk Wajah.

Mengatasi Tantangan Penyelarasan Niat

Kekhawatiran penting terhadap LLM adalah keselarasan mereka dengan niat manusia. Model sebelumnya sering kali gagal menghasilkan respons yang sesuai dengan preferensi pengguna, sehingga menghasilkan jawaban yang tidak akurat atau tidak relevan. Namun, tolok ukur terbaru seperti MT-Bench dan AlpacaEval telah menyediakan alat untuk mengukur dan meningkatkan aspek ini, menyoroti kinerja superior dari model berpemilik yang dilatih dengan masukan manusia dibandingkan model yang dilatih hanya melalui distilasi.

Metode Evaluasi

Evaluasi Zephyr 7B melibatkan pengujian ketat di seluruh tolok ukur yang menilai kemampuan percakapan model dalam konteks tunggal dan multi-putaran:

  • MT-Bangku: Tolok ukur multi-putaran ini memerlukan model untuk menjawab 160 pertanyaan yang mencakup delapan domain. Setiap respons dinilai berdasarkan GPT-4, dengan skor akhir model mencerminkan rata-rata dalam dua putaran pertanyaan.
  • AlpakaEval: Dalam benchmark satu putaran ini, model disajikan dengan 805 pertanyaan di berbagai mata pelajaran. Fokusnya di sini adalah pada kegunaan model, dengan GPT-4 menilai respons untuk menentukan tingkat kemenangan komparatif.

Selain itu, Zephyr 7B diuji di Papan Peringkat LLM Terbuka, yang, meskipun bukan penilaian langsung terhadap keterampilan percakapan, namun menawarkan wawasan tentang alasan dan kebenaran model pasca-penyesuaian.

Zephyr 7B dibandingkan dengan berbagai model terbuka dan berpemilik, termasuk model dengan ukuran dan metode penyelarasan berbeda. Hal ini menetapkan tolok ukur baru untuk model 7B di MT-Bench dan AlpacaEval dan menunjukkan kinerja kompetitif dibandingkan model yang lebih besar, memvalidasi efektivitas optimasi preferensi langsung (dDPO) dalam pelatihan.

Fase pelatihan SFT dan DPO dikonfigurasikan dengan cermat, mencakup beberapa periode dan menyempurnakan kecepatan pembelajaran serta ukuran batch untuk kinerja optimal. Model Zephyr terakhir muncul tidak hanya tahan terhadap overfitting tetapi juga ditingkatkan dalam menangani tugas-tugas praktis dan tolok ukur akademis.

Kumpulan Data dan Hasil

Kumpulan Data Digunakan

Dalam pengembangan Zephyr-7B, dua kumpulan data utama digunakan untuk melatih dan menyempurnakan model, yang masing-masing menangani aspek berbeda dalam menghasilkan dialog:

Kumpulan Data UltraChat

  • sumber: Dikembangkan dari dialog yang dihasilkan oleh GPT-3.5-TURBO.
  • Konten: Berisi 1.47 juta dialog multi-putaran dalam 30 topik dan 20 jenis materi teks.
  • Perbaikan: Kumpulan data menjalani heuristik truecasing untuk memperbaiki masalah tata bahasa, dan filter diterapkan untuk meningkatkan kegunaan respons dan menghilangkan frasa pengantar yang tidak membantu.

Kumpulan Data UltraUmpan Balik

  • sumber: Terdiri dari perintah yang dievaluasi oleh GPT-4, yang menilai respons berdasarkan kepatuhan terhadap instruksi, kejujuran, dan sikap membantu.
  • Konten: Mencakup 64,000 perintah dengan masing-masing empat tanggapan, diberi peringkat oleh GPT-4.
  • Preferensi Biner: Dihasilkan dengan memilih respons dengan skor rata-rata tertinggi sebagai “terpilih” dan skor acak dari sisanya sebagai “ditolak” untuk meningkatkan keragaman dan menantang proses Pengoptimalan Preferensi Langsung (DPO).

Kedua kumpulan data ini sangat penting untuk melatih Zephyr-7B agar dapat memahami dan menghasilkan dialog mirip manusia yang mengikuti instruksi, jujur, dan bermanfaat. Kumpulan data ini telah tersedia di Hugging Face Hub, yang dapat Anda akses di sini.

Kinerja dan Hasil

Bagan di bawah menggambarkan kinerja Zephyr 7B di berbagai kategori tugas dibandingkan model lain seperti GPT-3.5-turbo, Claude 1, GPT-4, dan Llama-2-70b-chat. Kategori mungkin mencakup Penulisan, Humaniora, Permainan Peran, Penalaran, STEM, Ekstraksi, Pengkodean, dan Matematika.

Dari bagan tersebut, kami dapat menyimpulkan domain mana yang menjadi keunggulan Zephyr 7B dan domain mana yang mungkin memerlukan perbaikan lebih lanjut. Misalnya, jika garis Zephyr membentang lebih jauh pada sumbu Penulisan dibandingkan garis lainnya, hal ini menunjukkan bahwa Zephyr sangat kuat dalam menghasilkan konten tertulis. Sebaliknya, jika garis lebih dekat ke pusat sumbu Matematika, hal ini mungkin menunjukkan kelemahan relatif dalam menyelesaikan soal matematika.

Bagan radar membantu mengidentifikasi kekuatan dan kelemahan Zephyr 7B, memberikan representasi visual tentang posisinya dibandingkan model yang lebih besar seperti GPT-4 dan model khusus seperti Llama-2-70b-chat.

 

Bagan Radar Kinerja Model

Bagan Radar Kinerja Model

Membandingkan berbagai model bahasa pada dua benchmark: MT-Bench dan AlpacaEval. Model dievaluasi berdasarkan ukurannya, metode penyelarasan (seperti dSFT untuk penyempurnaan terawasi sulingan atau dDPO untuk pengoptimalan preferensi langsung sulingan), dan skor kinerja. Zephyr menonjol dengan skor tinggi di kedua tolok ukur, yang menunjukkan efektivitasnya dalam menghasilkan respons yang selaras.

MT-Bench dan AlpacaEval

MT-Bench dan AlpacaEval

Kesimpulan

Kesimpulannya, pengembangan Zephyr-7B menunjukkan bahwa penyelarasan dan penyulingan kemampuan percakapan dari model bahasa besar (LLM) ke model yang lebih kecil dapat dicapai tanpa bergantung pada metode berbasis pengambilan sampel. Dengan menerapkan pengoptimalan preferensi langsung (DPO) dengan umpan balik AI, Zephyr-7B memanfaatkan fondasi kuat Mistral-7B untuk menetapkan tolok ukur baru bagi model obrolan parameter 7B, yang menunjukkan kemampuan model sumber terbuka yang lebih kecil untuk memahami dan merespons pengguna. niat secara efektif.

Namun penelitian ini bukannya tanpa keterbatasan. Ketergantungan pada GPT-4 sebagai evaluator untuk tolok ukur menimbulkan bias terhadap model yang disaring dari model tersebut, sehingga berpotensi lebih mengutamakan respons yang akurat. Selain itu, skalabilitas metode ini untuk model yang lebih besar, seperti LLAMA2-70B, dan dampaknya terhadap peningkatan kinerja masih menjadi area penelitian lebih lanjut. Keterbatasan ini menyoroti perlunya inovasi berkelanjutan dan pengembangan metode evaluasi yang tidak memihak dalam komunitas AI.

Melihat lebih jauh dari penelitian ini, terbukti bahwa potensi model yang lebih kecil untuk memiliki kinerja yang setara dengan model yang lebih besar dapat mendemokratisasi AI, sehingga memungkinkan penggunaan yang lebih mudah diakses dan efisien dalam berbagai aplikasi. Keberhasilan Zephyr-7B mendorong eksplorasi lebih lanjut terhadap model sumber terbuka, yang dapat mempercepat kemajuan AI dengan mendorong penelitian dan pengembangan kolaboratif.

Saya telah menghabiskan lima tahun terakhir membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menakjubkan. Semangat dan keahlian saya telah membuat saya berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Keingintahuan saya yang berkelanjutan juga menarik saya ke Natural Language Processing, bidang yang ingin saya jelajahi lebih jauh.