AI 101
Munculnya Mixture-of-Experts: Bagaimana Model AI yang Sparis Membentuk Masa Depan Pembelajaran Mesin

Mixture-of-Experts (MoE) model adalah revolusi dalam cara kita menskalakan AI. Dengan mengaktifkan hanya subset komponen model pada waktu tertentu, MoEs menawarkan pendekatan baru untuk mengelola keseimbangan antara ukuran model dan efisiensi komputasi. Tidak seperti model tradisional yang menggunakan semua parameter untuk setiap input, MoEs mencapai jumlah parameter yang luar biasa sambil menjaga biaya inferensi dan pelatihan tetap terjangkau. Ini telah memicu gelombang penelitian dan pengembangan, menyebabkan perusahaan teknologi raksasa dan startup untuk berinvestasi besar-besaran dalam arsitektur MoE.
Bagaimana Mixture-of-Experts Model Bekerja
Pada intinya, model MoE terdiri dari beberapa sub-jaringan khusus yang disebut “ahli”, yang diawasi oleh mekanisme pengaturan yang memutuskan ahli mana yang harus menangani setiap input. Misalnya, kalimat yang dimasukkan ke dalam model bahasa mungkin hanya mengaktifkan dua dari delapan ahli, sehingga mengurangi beban komputasi secara drastis.
Konsep ini dibawa ke mainstream dengan Google’s Switch Transformer dan GLaM model, di mana ahli menggantikan lapisan feed-forward tradisional dalam Transformer. Switch Transformer, misalnya, mengarahkan token ke satu ahli per lapisan, sedangkan GLaM menggunakan pengaturan top-2 untuk kinerja yang lebih baik. Desain ini menunjukkan bahwa MoEs dapat mencocokkan atau mengungguli model padat seperti GPT-3 sambil menggunakan energi dan komputasi yang jauh lebih sedikit.
Inovasi kunci terletak pada komputasi kondisional. Alih-alih mengaktifkan seluruh model, MoEs mengaktifkan hanya bagian yang paling relevan, yang berarti bahwa model dengan miliaran atau bahkan triliunan parameter dapat berjalan dengan efisiensi model yang jauh lebih kecil. Ini memungkinkan peneliti untuk menskalakan kapasitas tanpa peningkatan komputasi yang linear, sebuah prestasi yang tidak dapat dicapai dengan metode penskalaan tradisional.

Aplikasi Dunia Nyata dari MoE
Model MoE telah membuat jejak mereka di berbagai domain. Google’s GLaM dan Switch Transformer menunjukkan hasil terbaik dalam pemodelan bahasa dengan biaya pelatihan dan inferensi yang lebih rendah. Microsoft’s Z-Code MoE beroperasi di alat Penerjemahnya, menangani lebih dari 100 bahasa dengan akurasi dan efisiensi yang lebih baik daripada model sebelumnya. Ini bukan hanya proyek penelitian—mereka memuat layanan langsung.
Dalam penglihatan komputer, arsitektur V-MoE Google telah meningkatkan akurasi klasifikasi pada benchmark seperti ImageNet, dan model LIMoE telah menunjukkan kinerja yang kuat dalam tugas multimodal yang melibatkan gambar dan teks. Kemampuan ahli untuk mengkhususkan diri—beberapa menangani teks, yang lain menangani gambar—menambahkan lapisan kemampuan baru ke sistem AI.
Sistem rekomendasi dan platform pembelajaran multi-tugas juga telah diuntungkan dari MoEs. Misalnya, mesin rekomendasi YouTube telah menggunakan arsitektur MoE-like untuk menangani tujuan seperti waktu tonton dan tingkat klik dengan lebih efisien. Dengan mengassign ahli yang berbeda untuk tugas atau perilaku pengguna yang berbeda, MoEs membantu membangun mesin personalisasi yang lebih kuat.
Kelebihan dan Tantangan
Kelebihan utama MoEs adalah efisiensi. Mereka memungkinkan model besar untuk dilatih dan diterapkan dengan biaya komputasi yang jauh lebih rendah. Misalnya, model Mixtral 8×7B Mistral AI memiliki 47B parameter total, tetapi hanya mengaktifkan 12,9B per token, memberinya efisiensi biaya seperti model 13B sambil bersaing dengan model seperti GPT-3.5 dalam kualitas.
MoEs juga mempromosikan spesialisasi. Karena ahli yang berbeda dapat belajar pola yang berbeda, model secara keseluruhan menjadi lebih baik dalam menangani input yang beragam. Ini terutama berguna dalam tugas multibahasa, multi-domain, atau multimodal di mana model padat satu-ukuran-semua mungkin underperform.
Namun, MoEs datang dengan tantangan teknis. Melatih mereka memerlukan keseimbangan yang cermat untuk memastikan bahwa semua ahli digunakan secara efektif. Beban memori adalah kekhawatiran lain—meskipun hanya sebagian kecil parameter yang aktif per inferensi, semua harus dimuat ke memori. Mendistribusikan komputasi secara efisien di seluruh GPU atau TPU tidaklah trivial dan telah memicu pengembangan kerangka kerja khusus seperti DeepSpeed Microsoft dan GShard Google.
Meskipun ada hambatan ini, manfaat kinerja dan biaya sangat besar sehingga MoEs sekarang dianggap sebagai komponen kritis dalam desain AI skala besar. Ketika lebih banyak alat dan infrastruktur matang, tantangan ini secara bertahap diatasi.
Bagaimana MoE Dibandingkan dengan Metode Penskalaan Lain
Penskalaan padat tradisional meningkatkan ukuran model dan komputasi secara proporsional. MoEs memecahkan linearitas ini dengan meningkatkan parameter total tanpa meningkatkan komputasi per input. Ini memungkinkan model dengan triliunan parameter untuk dilatih pada perangkat keras yang sebelumnya terbatas pada miliaran.
Dibandingkan dengan model ensembling, yang juga memperkenalkan spesialisasi tetapi memerlukan beberapa jalur maju penuh, MoEs jauh lebih efisien. Alih-alih menjalankan beberapa model secara paralel, MoEs menjalankan hanya satu—tetapi dengan keuntungan dari beberapa jalur ahli.
MoEs juga melengkapi strategi seperti penskalaan data pelatihan (misalnya, metode Chinchilla). Sementara Chinchilla menekankan menggunakan lebih banyak data dengan model yang lebih kecil, MoEs memperluas kapasitas model sambil menjaga komputasi tetap stabil, membuatnya ideal untuk kasus di mana komputasi adalah bottleneck.
Akhirnya, sementara teknik seperti pruning dan quantization mengurangi model pasca-pelatihan, MoEs meningkatkan kapasitas model selama pelatihan. Mereka bukanlah pengganti kompresi, tetapi alat ortogonal untuk pertumbuhan yang efisien.
Perusahaan yang Memimpin Revolusi MoE
Raksasa Teknologi
Google memelopori banyak penelitian MoE hari ini. Model Switch Transformer dan GLaM mereka menskalakan hingga 1,6T dan 1,2T parameter masing-masing. GLaM mencocokkan kinerja GPT-3 sambil menggunakan hanya sepertiga energi. Google juga menerapkan MoEs ke visi (V-MoE) dan tugas multimodal (LIMoE), sejalan dengan visi Pathways yang lebih luas untuk model AI universal.
Microsoft telah mengintegrasikan MoE ke produksi melalui model Z-Code di Microsoft Translator. Mereka juga mengembangkan DeepSpeed-MoE, memungkinkan pelatihan cepat dan inferensi latency rendah untuk model triliunan parameter. Kontribusi mereka termasuk algoritma pengaturan dan perpustakaan Tutel untuk komputasi MoE yang efisien.
Meta menjelajahi MoEs dalam model bahasa skala besar dan sistem rekomendasi. Model MoE 1,1T mereka menunjukkan bahwa mereka dapat mencocokkan kualitas model padat menggunakan 4× kurang komputasi. Sementara model LLaMA adalah model padat, penelitian Meta tentang MoE terus mempengaruhi komunitas yang lebih luas.
Amazon mendukung MoEs melalui platform SageMaker dan upaya internal. Mereka memfasilitasi pelatihan model Mixtral Mistral dan dikabarkan menggunakan MoEs dalam layanan seperti Alexa AI. Dokumentasi AWS secara aktif mempromosikan MoEs untuk pelatihan model skala besar.
Huawei dan BAAI di Tiongkok juga telah mengembangkan model MoE yang memecahkan rekor seperti PanGu-Σ (1.085T params). Ini menunjukkan potensi MoE dalam tugas bahasa dan multimodal serta menyoroti daya tarik globalnya.
Startup dan Tantangan
Mistral AI adalah poster anak untuk inovasi MoE dalam sumber terbuka. Model Mixtral 8×7B dan 8×22B mereka telah membuktikan bahwa MoEs dapat mengungguli model padat seperti LLaMA-2 70B sambil berjalan pada sebagian kecil biaya. Dengan lebih dari €600M dalam pendanaan, Mistral bertaruh besar pada arsitektur yang sparisis.
xAI, didirikan oleh Elon Musk, konon menjelajahi MoEs dalam model Grok mereka. Sementara detailnya terbatas, MoEs menawarkan cara bagi startup seperti xAI untuk bersaing dengan pemain yang lebih besar tanpa memerlukan komputasi besar.
Databricks, melalui akuisisi MosaicML, telah merilis DBRX, model MoE terbuka yang dirancang untuk efisiensi. Mereka juga menyediakan infrastruktur dan resep untuk pelatihan MoE, menurunkan hambatan untuk adopsi.
Pemain lain seperti Hugging Face telah mengintegrasikan dukungan MoE ke dalam perpustakaan mereka, membuatnya lebih mudah bagi pengembang untuk membangun model ini. Bahkan jika tidak membangun MoEs mereka sendiri, platform yang memungkinkan mereka adalah penting untuk ekosistem.
Kesimpulan
Model Mixture-of-Experts bukan hanya tren—mereka mewakili pergeseran fundamental dalam cara sistem AI dibangun dan diskalakan. Dengan mengaktifkan hanya bagian jaringan, MoEs menawarkan kekuatan model besar tanpa biaya yang terlalu besar. Ketika infrastruktur perangkat lunak dan algoritma pengaturan membaik, MoEs diposisikan untuk menjadi arsitektur default untuk AI multi-domain, multibahasa, dan multimodal.
Apakah Anda seorang peneliti, insinyur, atau investor, MoEs menawarkan wawasan ke masa depan di mana AI lebih kuat, efisien, dan adaptif dari sebelumnya.












