Kecerdasan Buatan

Bangkitnya Campuran Pakar untuk Model Bahasa Besar yang Efisien

Updated on 21 Maret, 2024

Dalam dunia pemrosesan bahasa alami (NLP), upaya untuk membangun model bahasa yang lebih besar dan lebih mumpuni telah menjadi kekuatan pendorong di balik banyak kemajuan terkini. Namun, seiring dengan bertambahnya ukuran model ini, persyaratan komputasi untuk pelatihan dan inferensi menjadi semakin menuntut, sehingga melampaui batas sumber daya perangkat keras yang tersedia.

Memasuki Mixture-of-Experts (MoE), sebuah teknik yang menjanjikan untuk meringankan beban komputasi sekaligus memungkinkan pelatihan model bahasa yang lebih besar dan lebih kuat. Dalam blog teknis ini, kita akan mempelajari dunia MoE, mengeksplorasi asal-usulnya, cara kerja, dan penerapannya dalam model bahasa berbasis transformator.

Asal Usul Campuran Para Ahli

Konsep Mixture-of-Experts (MoE) dapat ditelusuri kembali ke awal tahun 1990an ketika para peneliti mengeksplorasi gagasan komputasi bersyarat, di mana bagian-bagian jaringan saraf diaktifkan secara selektif berdasarkan data masukan. Salah satu karya perintis di bidang ini adalah “Campuran Adaptif Pakar Lokal” makalah oleh Jacobs dkk. pada tahun 1991, yang mengusulkan kerangka pembelajaran yang diawasi untuk ansambel jaringan saraf, masing-masing mengkhususkan diri pada wilayah ruang masukan yang berbeda.

Ide inti di balik KLH adalah memiliki beberapa jaringan “ahli”, yang masing-masing bertanggung jawab memproses sebagian data masukan. Mekanisme gerbang, biasanya jaringan saraf itu sendiri, menentukan pakar mana yang harus memproses masukan tertentu. Pendekatan ini memungkinkan model untuk mengalokasikan sumber daya komputasinya secara lebih efisien dengan hanya mengaktifkan pakar yang relevan untuk setiap masukan, daripada menggunakan kapasitas model penuh untuk setiap masukan.

Selama bertahun-tahun, berbagai peneliti mengeksplorasi dan memperluas gagasan komputasi bersyarat, yang mengarah pada perkembangan seperti MoE hierarkis, perkiraan peringkat rendah untuk komputasi bersyarat, dan teknik untuk memperkirakan gradien melalui neuron stokastik dan fungsi aktivasi ambang batas.

Campuran Pakar di Transformers

Campuran Ahli

Sedangkan idenya Kemenag telah ada selama beberapa dekade, penerapannya pada model bahasa berbasis transformator relatif baru. Transformer, yang telah menjadi standar de facto untuk model bahasa tercanggih, terdiri dari beberapa lapisan, masing-masing berisi mekanisme perhatian mandiri dan jaringan saraf feed-forward (FFN).

Inovasi utama dalam penerapan MoE pada transformator adalah mengganti lapisan FFN yang padat dengan lapisan MoE yang jarang, yang masing-masing terdiri dari beberapa FFN ahli dan mekanisme gating. Mekanisme gating menentukan pakar mana yang harus memproses setiap token masukan, sehingga memungkinkan model untuk secara selektif mengaktifkan hanya sebagian pakar untuk urutan masukan tertentu.

Salah satu karya awal yang menunjukkan potensi MoE pada transformator adalah makalah “Jaringan Neural yang Sangat Besar: Lapisan Campuran Pakar yang Jarang” oleh Shazeer dkk. pada tahun 2017. Penelitian ini memperkenalkan konsep lapisan MoE dengan gerbang jarang, yang menggunakan mekanisme gerbang yang menambah ketersebaran dan gangguan pada proses pemilihan pakar, sehingga memastikan bahwa hanya sebagian pakar yang diaktifkan untuk setiap masukan.

Sejak itu, beberapa penelitian lain telah mengembangkan penerapan MoE pada transformator, mengatasi tantangan seperti ketidakstabilan pelatihan, penyeimbangan beban, dan inferensi yang efisien. Contoh penting termasuk Beralih Transformator (Fedus dkk., 2021), ST-MoE (Zoph dkk., 2022), dan GLAM (Du et al., 2022).

Manfaat Campuran Pakar untuk Model Bahasa

Manfaat utama penggunaan MoE dalam model bahasa adalah kemampuan untuk meningkatkan ukuran model sambil mempertahankan biaya komputasi yang relatif konstan selama inferensi. Dengan mengaktifkan hanya sebagian ahli secara selektif untuk setiap token masukan, model MoE dapat mencapai kekuatan ekspresif dari model padat yang jauh lebih besar sekaligus memerlukan komputasi yang jauh lebih sedikit.

Misalnya, pertimbangkan model bahasa dengan lapisan FFN padat dengan 7 miliar parameter. Jika kita mengganti lapisan ini dengan lapisan MoE yang terdiri dari delapan ahli, masing-masing dengan 7 miliar parameter, jumlah parameter meningkat menjadi 56 miliar. Namun, selama inferensi, jika kita hanya mengaktifkan dua ahli per token, biaya komputasinya setara dengan model padat 14 miliar parameter, karena model tersebut menghitung dua perkalian matriks 7 miliar parameter.

Efisiensi komputasi selama inferensi ini sangat berharga dalam skenario penerapan dengan sumber daya terbatas, seperti perangkat seluler atau lingkungan komputasi edge. Selain itu, berkurangnya kebutuhan komputasi selama pelatihan dapat menghasilkan penghematan energi yang besar dan jejak karbon yang lebih rendah, sejalan dengan semakin meningkatnya penekanan pada praktik AI yang berkelanjutan.

Tantangan dan Pertimbangan

Meskipun model KLH menawarkan manfaat yang menarik, penerapan dan penerapannya juga memiliki beberapa tantangan dan pertimbangan:

Ketidakstabilan Pelatihan: Model MoE diketahui lebih rentan terhadap ketidakstabilan pelatihan dibandingkan model padat. Masalah ini muncul dari sifat aktivasi pakar yang jarang dan bersyarat, yang dapat menimbulkan tantangan dalam propagasi gradien dan konvergensi. Teknik seperti router z-loss (Zoph et al., 2022) telah diusulkan untuk mengurangi ketidakstabilan ini, namun penelitian lebih lanjut masih diperlukan.
Penyempurnaan dan Overfitting: Model MoE cenderung lebih mudah melakukan overfit selama penyesuaian, terutama ketika tugas downstream memiliki kumpulan data yang relatif kecil. Perilaku ini disebabkan oleh peningkatan kapasitas dan ketersebaran model Kementerian Lingkungan Hidup, yang dapat menyebabkan spesialisasi yang berlebihan pada data pelatihan. Regularisasi yang cermat dan strategi penyempurnaan diperlukan untuk memitigasi masalah ini.
Persyaratan Memori: Meskipun model MoE dapat mengurangi biaya komputasi selama inferensi, model tersebut sering kali memiliki kebutuhan memori yang lebih tinggi dibandingkan model padat dengan ukuran serupa. Hal ini karena semua bobot pakar perlu dimuat ke dalam memori, meskipun hanya subset yang diaktifkan untuk setiap masukan. Keterbatasan memori dapat membatasi skalabilitas model MoE pada perangkat dengan sumber daya terbatas.
Penyeimbang beban: Untuk mencapai efisiensi komputasi yang optimal, sangat penting untuk menyeimbangkan beban antar pakar, memastikan bahwa tidak ada satu pakar pun yang kelebihan beban sementara pakar lainnya kurang dimanfaatkan. Penyeimbangan beban ini biasanya dicapai melalui kerugian tambahan selama pelatihan dan penyesuaian faktor kapasitas secara cermat, yang menentukan jumlah maksimum token yang dapat ditetapkan ke setiap pakar.
Komunikasi Overhead: Dalam skenario pelatihan dan inferensi terdistribusi, model KLH dapat menimbulkan overhead komunikasi tambahan karena kebutuhan untuk bertukar informasi aktivasi dan gradien antar pakar yang berada di perangkat atau akselerator berbeda. Strategi komunikasi yang efisien dan desain model yang sadar akan perangkat keras sangat penting untuk mengurangi biaya tambahan ini.

Terlepas dari tantangan-tantangan ini, potensi manfaat model KLH dalam memungkinkan model bahasa yang lebih besar dan lebih mumpuni telah mendorong upaya penelitian yang signifikan untuk mengatasi dan memitigasi permasalahan ini.

Contoh: Mixtral 8x7B dan GLaM

Untuk mengilustrasikan penerapan praktis MoE dalam model bahasa, mari kita perhatikan dua contoh penting: Mixtral 8x7B dan GLaM.

Mixtral 8x7B adalah varian MoE dari Model bahasa mistral, dikembangkan oleh Antropik. Terdiri dari delapan ahli, masing-masing dengan 7 miliar parameter, sehingga menghasilkan total 56 miliar parameter. Namun, selama inferensi, hanya dua pakar yang diaktifkan per token, sehingga secara efektif mengurangi biaya komputasi hingga setara dengan model padat 14 miliar parameter.

Mixtral 8x7B telah menunjukkan kinerja yang mengesankan, mengungguli model Llama dengan 70 miliar parameter sekaligus menawarkan waktu inferensi yang jauh lebih cepat. Versi Mixtral 8x7B yang disesuaikan dengan instruksi, yang disebut Mixtral-8x7B-Instruct-v0.1, juga telah dirilis, yang semakin meningkatkan kemampuannya dalam mengikuti instruksi bahasa alami.

Contoh penting lainnya adalah GLaM (Google Language Model), model MoE berskala besar yang dikembangkan oleh Google. GLaM menggunakan arsitektur transformator khusus dekoder dan dilatih pada kumpulan data token sebesar 1.6 triliun. Model ini mencapai performa yang mengesankan pada evaluasi beberapa pengambilan dan satu pengambilan, menyamai kualitas GPT-3 sekaligus hanya menggunakan sepertiga energi yang diperlukan untuk melatih GPT-3.

Keberhasilan GLaM dapat dikaitkan dengan arsitektur MoE yang efisien, yang memungkinkan pelatihan model dengan sejumlah besar parameter sambil mempertahankan persyaratan komputasi yang wajar. Model ini juga menunjukkan potensi model KLH menjadi lebih hemat energi dan ramah lingkungan dibandingkan dengan model padat lainnya.

Arsitektur Grok-1

CAMPURAN GROK AHLI

Grok-1 adalah model MoE berbasis transformator dengan arsitektur unik yang dirancang untuk memaksimalkan efisiensi dan kinerja. Mari selami spesifikasi utamanya:

parameter: Dengan 314 miliar parameter yang mengejutkan, Grok-1 adalah LLM terbuka terbesar hingga saat ini. Namun, berkat arsitektur MoE, hanya 25% bobot (sekitar 86 miliar parameter) yang aktif pada waktu tertentu, sehingga meningkatkan kemampuan pemrosesan.
Arsitektur: Grok-1 menggunakan arsitektur Campuran 8 Pakar, dengan setiap token diproses oleh dua pakar selama inferensi.
Lapisan: Model ini terdiri dari 64 lapisan transformator, masing-masing menggabungkan perhatian multihead dan blok padat.
Tokenisasi: Grok-1 menggunakan tokenizer SentencePiece dengan ukuran kosakata 131,072 token.
Penyematan dan Pengkodean Posisi: Model ini dilengkapi penyematan 6,144 dimensi dan menggunakan penyematan posisi putar, memungkinkan interpretasi data yang lebih dinamis dibandingkan dengan pengkodean posisi tetap tradisional.
Perhatian: Grok-1 menggunakan 48 kepala perhatian untuk kueri dan 8 kepala perhatian untuk kunci dan nilai, masing-masing berukuran 128.
Panjang Konteks: Model ini dapat memproses urutan hingga 8,192 token, memanfaatkan presisi bfloat16 untuk komputasi yang efisien.

Detail Kinerja dan Implementasi

Grok-1 telah menunjukkan kinerja yang mengesankan, mengungguli LLaMa 2 70B dan Mixtral 8x7B dengan skor MMLU 73%, menunjukkan efisiensi dan akurasinya di berbagai pengujian.

Namun, penting untuk dicatat bahwa Grok-1 memerlukan sumber daya GPU yang signifikan karena ukurannya yang besar. Implementasi saat ini dalam rilis sumber terbuka berfokus pada validasi kebenaran model dan menggunakan implementasi lapisan MoE yang tidak efisien untuk menghindari kebutuhan akan kernel khusus.

Meskipun demikian, model ini mendukung sharding aktivasi dan kuantisasi 8-bit, yang dapat mengoptimalkan kinerja dan mengurangi kebutuhan memori.

Dalam sebuah gerakan yang luar biasa, xAI telah merilis Grok-1 di bawah lisensi Apache 2.0, menjadikan bobot dan arsitekturnya dapat diakses oleh komunitas global untuk digunakan dan dikontribusikan.

Rilis sumber terbuka menyertakan repositori kode contoh JAX yang menunjukkan cara memuat dan menjalankan model Grok-1. Pengguna dapat mengunduh bobot pos pemeriksaan menggunakan klien torrent atau langsung melalui HuggingFace Hub, memfasilitasi akses mudah ke model inovatif ini.

Masa Depan Campuran Pakar dalam Model Bahasa

Seiring dengan meningkatnya permintaan akan model bahasa yang lebih besar dan lebih mumpuni, penerapan teknik MoE diperkirakan akan mendapatkan momentum lebih lanjut. Upaya penelitian yang sedang berlangsung difokuskan untuk mengatasi tantangan yang tersisa, seperti meningkatkan stabilitas pelatihan, mengurangi overfitting selama penyesuaian, dan mengoptimalkan kebutuhan memori dan komunikasi.

Salah satu arah yang menjanjikan adalah eksplorasi arsitektur MoE yang hierarkis, di mana setiap pakar terdiri dari beberapa sub-ahli. Pendekatan ini berpotensi memungkinkan skalabilitas dan efisiensi komputasi yang lebih besar sekaligus mempertahankan kekuatan ekspresif model besar.

Selain itu, pengembangan sistem perangkat keras dan perangkat lunak yang dioptimalkan untuk model Kementerian Lingkungan Hidup merupakan bidang penelitian yang aktif. Akselerator khusus dan kerangka pelatihan terdistribusi yang dirancang untuk secara efisien menangani pola komputasi model KLH yang renggang dan bersyarat dapat lebih meningkatkan kinerja dan skalabilitasnya.

Selain itu, integrasi teknik MoE dengan kemajuan lain dalam pemodelan bahasa, seperti mekanisme perhatian yang jarang, strategi tokenisasi yang efisien, dan representasi multi-modal, dapat menghasilkan model bahasa yang lebih kuat dan serbaguna yang mampu menangani berbagai tugas.

Kesimpulan

Teknik Mixture-of-Experts telah muncul sebagai alat yang ampuh dalam pencarian model bahasa yang lebih besar dan lebih mumpuni. Dengan mengaktifkan pakar secara selektif berdasarkan data masukan, model Kementerian Lingkungan Hidup menawarkan solusi yang menjanjikan terhadap tantangan komputasi yang terkait dengan peningkatan model padat. Meskipun masih ada tantangan yang harus diatasi, seperti ketidakstabilan pelatihan, overfitting, dan persyaratan memori, potensi manfaat model MoE dalam hal efisiensi komputasi, skalabilitas, dan kelestarian lingkungan menjadikannya bidang penelitian dan pengembangan yang menarik.

Ketika bidang pemrosesan bahasa alami terus mendorong batas-batas dari apa yang mungkin dilakukan, penerapan teknik MoE kemungkinan akan memainkan peran penting dalam memungkinkan model bahasa generasi berikutnya. Dengan menggabungkan MoE dengan kemajuan lain dalam arsitektur model, teknik pelatihan, dan optimalisasi perangkat keras, kita dapat mengharapkan model bahasa yang lebih kuat dan serbaguna yang benar-benar dapat memahami dan berkomunikasi dengan manusia secara alami dan lancar.

Topik-topik terkait:grok MemelukWajah Llama LLM mistral Campuran Ahli transformer

Berikutnya

AI GPT untuk Database PostgreSQL: Bisakah Berfungsi?

Jangan Miss

Yang Perlu Diketahui Tentang Superchip dan Arsitektur AI Blackwell Baru dari NVIDIA

Aayush Mittal

Saya telah menghabiskan lima tahun terakhir membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menakjubkan. Semangat dan keahlian saya telah membuat saya berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Keingintahuan saya yang berkelanjutan juga menarik saya ke Natural Language Processing, bidang yang ingin saya jelajahi lebih jauh.