Kecerdasan Buatan

Model Mixture of Experts (MoE) 8x7B Terbaru dari Mistral AI

Diterbitkan

bulan 5 lalu

Desember 15, 2023

AI Mistral yang merupakan startup model sumber terbuka yang berbasis di Paris telah menantang norma dengan merilis model bahasa besar (LLM) terbarunya, MoE 8x7B, melalui sederhana tautan torrent. Hal ini kontras dengan pendekatan tradisional Google dengan rilis Gemini mereka, sehingga memicu perbincangan dan kegembiraan dalam komunitas AI.

Pendekatan Mistral AI terhadap rilis selalu tidak konvensional. Strategi mereka yang sering kali tidak disertakan dalam makalah, blog, atau siaran pers biasanya efektif dalam menarik perhatian komunitas AI.

Baru-baru ini, perusahaan mencapai prestasi yang luar biasa Penilaian $ 2 miliar setelah putaran pendanaan yang dipimpin oleh Andreessen Horowitz. Putaran pendanaan ini bersejarah, mencetak rekor dengan putaran awal senilai $118 juta, yang terbesar dalam sejarah Eropa. Selain keberhasilan pendanaan, keterlibatan aktif Mistral AI dalam diskusi seputar UU AI UE, mengadvokasi pengurangan regulasi dalam AI sumber terbuka.

Mengapa MoE 8x7B Menarik Perhatian

Digambarkan sebagai “GPT-4 yang diperkecil”, Mixtral 8x7B menggunakan kerangka Kerja Campuran Para Ahli (MoE) dengan delapan ahli. Setiap pakar memiliki 111B parameter, ditambah dengan 55B parameter perhatian bersama, sehingga menghasilkan total 166B parameter per model. Pilihan desain ini penting karena hanya memungkinkan dua ahli untuk terlibat dalam inferensi setiap token, menyoroti peralihan ke arah pemrosesan AI yang lebih efisien dan fokus.

Salah satu keunggulan utama Mixtral adalah kemampuannya mengelola konteks luas sebanyak 32,000 token, memberikan ruang lingkup yang luas untuk menangani tugas-tugas kompleks. Kemampuan multibahasa model ini mencakup dukungan kuat untuk bahasa Inggris, Prancis, Italia, Jerman, dan Spanyol, yang melayani komunitas pengembang global.

Pra-pelatihan Mixtral melibatkan data yang bersumber dari Web terbuka, dengan pendekatan pelatihan simultan untuk pakar dan router. Metode ini memastikan bahwa model tidak hanya memiliki ruang parameter yang luas tetapi juga disesuaikan dengan nuansa data yang sangat besar yang telah diekspos.

Mixtral 8x7B mencapai skor yang mengesankan

Campuran 8x7B mencapai skor yang mengesankan

Mixtral 8x7B mengungguli LLaMA 2 70B dan menyaingi GPT-3.5, terutama dalam tugas MBPP dengan tingkat keberhasilan 60.7%, jauh lebih tinggi dibandingkan rekan-rekannya. Bahkan dalam MT-Bench ketat yang dirancang untuk model yang mengikuti instruksi, Mixtral 8x7B mencapai skor yang mengesankan, hampir menyamai GPT-3.5

Memahami Kerangka Kerja Campuran Ahli (MoE).

Model Mixture of Experts (MoE), meskipun mendapatkan perhatian baru-baru ini karena dimasukkan ke dalam model bahasa canggih seperti MoE 8x7B dari Mistral AI, sebenarnya berakar pada konsep dasar yang sudah ada sejak beberapa tahun yang lalu. Mari kita meninjau kembali asal usul ide ini melalui makalah penelitian yang penting.

Konsep MoE

Mixture of Experts (MoE) mewakili perubahan paradigma dalam arsitektur jaringan saraf. Berbeda dengan model tradisional yang menggunakan jaringan tunggal dan homogen untuk memproses semua jenis data, KLH mengadopsi pendekatan yang lebih terspesialisasi dan modular. Ini terdiri dari beberapa jaringan 'ahli', masing-masing dirancang untuk menangani jenis data atau tugas tertentu, diawasi oleh 'jaringan gerbang' yang secara dinamis mengarahkan data masukan ke pakar yang paling tepat.

Lapisan Campuran Pakar (MoE) yang tertanam dalam model bahasa berulang (sumber)

Gambar di atas menyajikan tampilan tingkat tinggi dari lapisan MoE yang tertanam dalam model bahasa. Pada intinya, lapisan Kementerian Lingkungan Hidup terdiri dari beberapa sub-jaringan feed-forward, yang disebut 'ahli', yang masing-masing mempunyai potensi untuk mengkhususkan diri dalam memproses berbagai aspek data. Jaringan gerbang, yang disorot dalam diagram, menentukan kombinasi pakar mana yang dilibatkan untuk masukan tertentu. Aktivasi bersyarat ini memungkinkan jaringan untuk meningkatkan kapasitasnya secara signifikan tanpa lonjakan permintaan komputasi.

Fungsionalitas Lapisan MoE

Dalam praktiknya, jaringan gating mengevaluasi masukan (dilambangkan sebagai G(x) dalam diagram) dan memilih sekelompok ahli untuk memprosesnya. Seleksi ini dimodulasi oleh keluaran jaringan gating, yang secara efektif menentukan 'suara' atau kontribusi masing-masing pakar terhadap keluaran akhir. Misalnya, seperti yang ditunjukkan dalam diagram, hanya dua pakar yang dapat dipilih untuk menghitung keluaran untuk setiap token masukan tertentu, menjadikan proses efisien dengan memusatkan sumber daya komputasi di tempat yang paling membutuhkannya.

Encoder Transformator dengan Lapisan MoE (sumber)

Ilustrasi kedua di atas membandingkan encoder Transformer tradisional dengan encoder yang ditambah dengan lapisan MoE. Arsitektur Transformer, yang dikenal luas karena kemanjurannya dalam tugas-tugas yang berhubungan dengan bahasa, secara tradisional terdiri dari lapisan perhatian diri dan umpan maju yang ditumpuk secara berurutan. Pengenalan lapisan MoE menggantikan beberapa lapisan feed-forward, sehingga memungkinkan model untuk melakukan penskalaan sehubungan dengan kapasitas secara lebih efektif.

Dalam model yang diperbesar, lapisan MoE dibagi ke beberapa perangkat, sehingga menampilkan pendekatan model paralel. Hal ini penting ketika melakukan penskalaan ke model yang sangat besar, karena memungkinkan distribusi beban komputasi dan kebutuhan memori di seluruh cluster perangkat, seperti GPU atau TPU. Sharding ini penting untuk melatih dan menerapkan model dengan miliaran parameter secara efisien, sebagaimana dibuktikan dengan pelatihan model dengan ratusan miliar hingga lebih dari satu triliun parameter pada cluster komputasi skala besar.

Pendekatan Jarang MoE dengan Instruksi Tuning di LLM

Makalah berjudul “Campuran Pakar (MoE) yang Jarang untuk Pemodelan Bahasa yang Dapat Diskalakan” membahas pendekatan inovatif untuk meningkatkan Model Bahasa Besar (LLM) dengan mengintegrasikan arsitektur Campuran Pakar dengan teknik penyetelan instruksi.

Hal ini menyoroti tantangan umum di mana model Kementerian Lingkungan Hidup memiliki kinerja yang lebih buruk dibandingkan dengan model padat dengan kapasitas komputasi yang sama ketika disesuaikan untuk tugas-tugas tertentu karena perbedaan antara pra-pelatihan umum dan penyesuaian khusus tugas.

Penyetelan instruksi adalah metodologi pelatihan di mana model disempurnakan agar dapat mengikuti instruksi bahasa alami dengan lebih baik, sehingga secara efektif meningkatkan kinerja tugasnya. Makalah ini menunjukkan bahwa model MoE menunjukkan peningkatan yang signifikan bila dikombinasikan dengan penyesuaian instruksi, lebih baik dibandingkan model padat lainnya. Teknik ini menyelaraskan representasi model yang telah dilatih sebelumnya untuk mengikuti instruksi dengan lebih efektif, sehingga menghasilkan peningkatan performa yang signifikan.

Para peneliti melakukan penelitian pada tiga rangkaian percobaan, dan mengungkapkan bahwa model Kementerian Lingkungan Hidup pada awalnya berkinerja buruk dalam penyesuaian langsung pada tugas tertentu. Namun, ketika penyempurnaan instruksi diterapkan, model MoE unggul, terutama jika dilengkapi lebih lanjut dengan penyempurnaan tugas tertentu. Hal ini menunjukkan bahwa penyesuaian instruksi merupakan langkah penting bagi model Kementerian Pendidikan untuk mengungguli model padat pada tugas-tugas hilir.

Pengaruh penyetelan instruksi pada MOE

Hal ini juga memperkenalkan FLAN-MOE32B, sebuah model yang menunjukkan keberhasilan penerapan konsep-konsep ini. Khususnya, performanya mengungguli FLAN-PALM62B, model padat, pada tugas benchmark dan hanya menggunakan sepertiga sumber daya komputasi. Hal ini menunjukkan potensi model MoE yang jarang dikombinasikan dengan penyesuaian instruksi untuk menetapkan standar baru bagi efisiensi dan kinerja LLM.

Menerapkan Campuran Pakar dalam Skenario Dunia Nyata

Fleksibilitas model MoE menjadikannya ideal untuk berbagai aplikasi:

Pemrosesan Bahasa Alami (NLP): Model MoE dapat menangani nuansa dan kompleksitas bahasa manusia dengan lebih efektif, menjadikannya ideal untuk tugas-tugas NLP tingkat lanjut.
Pemrosesan Gambar dan Video: Dalam tugas-tugas yang memerlukan pemrosesan resolusi tinggi, KLH dapat mengelola berbagai aspek gambar atau bingkai video, sehingga meningkatkan kualitas dan kecepatan pemrosesan.
Solusi AI yang Dapat Disesuaikan: Dunia usaha dan peneliti dapat menyesuaikan model Kementerian Lingkungan Hidup untuk tugas-tugas tertentu, sehingga menghasilkan solusi AI yang lebih tepat sasaran dan efektif.

Tantangan dan Pertimbangan

Meskipun model KLH menawarkan banyak manfaat, model ini juga menghadirkan tantangan unik:

Kompleksitas dalam Pelatihan dan Penyetelan: Sifat model MoE yang terdistribusi dapat mempersulit proses pelatihan, memerlukan keseimbangan dan penyesuaian yang cermat dari para ahli dan jaringan gerbang.
Pengelolaan sumber daya: Mengelola sumber daya komputasi secara efisien di berbagai pakar sangat penting untuk memaksimalkan manfaat model KLH.

Memasukkan lapisan MoE ke dalam jaringan saraf, terutama dalam domain model bahasa, menawarkan jalur menuju penskalaan model ke ukuran yang sebelumnya tidak mungkin dilakukan karena kendala komputasi. Komputasi bersyarat yang dimungkinkan oleh lapisan MoE memungkinkan distribusi sumber daya komputasi yang lebih efisien, sehingga memungkinkan untuk melatih model yang lebih besar dan lebih mumpuni. Karena kami terus menuntut lebih banyak dari sistem AI kami, arsitektur seperti Transformer yang dilengkapi Kementerian Lingkungan Hidup kemungkinan akan menjadi standar untuk menangani tugas-tugas kompleks dan berskala besar di berbagai domain.

Topik-topik terkait:Gemini model bahasa besar mistral

Berikutnya

Sorotan dan Kontribusi Dari NeurIPS 2023

Jangan Miss

LucidDreamer: Pembuatan Teks-ke-3D dengan Ketelitian Tinggi melalui Pencocokan Skor Interval

Aayush Mittal

Saya telah menghabiskan lima tahun terakhir membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menakjubkan. Semangat dan keahlian saya telah membuat saya berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Keingintahuan saya yang berkelanjutan juga menarik saya ke Natural Language Processing, bidang yang ingin saya jelajahi lebih jauh.