Kecerdasan Buatan

BlackMamba: Campuran Pakar untuk Model Luar Angkasa Negara

Diterbitkan

1 bulan lalu

26 Maret, 2024

BlackMamba: Campuran Pakar untuk Model Luar Angkasa Negara

Pengembangan Model Bahasa Besar (LLM) yang dibangun dari model transformator khusus dekoder telah memainkan peran penting dalam mentransformasi domain Pemrosesan Bahasa Alami (NLP), serta memajukan beragam aplikasi pembelajaran mendalam termasuk penguatan pembelajaran, analisis deret waktu, pemrosesan gambar, dan banyak lagi. Namun, meskipun memiliki skalabilitas dan kinerja yang kuat, LLM yang dibangun dari model trafo decoder saja masih menghadapi kekurangan yang signifikan. Meskipun ekspresif, mekanisme perhatian dalam LLM turunan transformator memerlukan sumber daya komputasi yang tinggi selama inferensi dan pelatihan, sehingga memerlukan memori besar untuk panjang urutan dan FLOP kuadrat. Persyaratan komputasi yang tinggi ini membatasi panjang konteks model transformator, membuat tugas pembangkitan autoregresif menjadi mahal secara proporsional, dan menghambat pembelajaran dari aliran data berkelanjutan dan kemampuan untuk pemrosesan urutan yang benar-benar tidak terbatas.

Baru-baru ini, Model Luar Angkasa Negara (SSM) telah menunjukkan kemampuan dan kinerja yang luar biasa, bersaing dengan model arsitektur transformator dalam tolok ukur pemodelan skala besar sekaligus mencapai kompleksitas memori sebagai fungsi dari panjang urutan dan waktu linier. Selain itu, Mamba, State Space Model yang baru dirilis, telah menunjukkan kinerja luar biasa dalam berbagai pemodelan bahasa dan tugas pemrosesan urutan panjang. Pada saat yang sama, model Mixture of Expert (MoE) juga telah menunjukkan kinerja yang mengesankan sekaligus mengurangi latensi dan biaya komputasi inferensi secara signifikan, meskipun dengan mengorbankan penggunaan memori yang lebih besar. Berdasarkan model Mamba dan MoE, artikel ini akan membahas BlackMamba, sebuah arsitektur baru yang menggabungkan Model Ruang Negara Mamba dengan model MoE untuk memanfaatkan manfaat yang ditawarkan oleh kedua kerangka kerja tersebut. Eksperimen pada BlackMamba telah menunjukkan kemampuannya untuk mengungguli kerangka Mamba yang ada dan garis dasar transformator dalam pelatihan FLOP dan inferensi. Kinerja luar biasa dari kerangka BlackMamba menunjukkan bahwa ia dapat secara efektif menggabungkan kemampuan kerangka Mamba dan MoE, menawarkan inferensi yang cepat dan hemat biaya dari MoE dengan pembangkitan kompleksitas linier dari Mamba.

Artikel ini bertujuan untuk membahas kerangka BlackMamba secara mendalam. Kami mengeksplorasi mekanisme, metodologi, dan arsitektur kerangka kerja tersebut, serta perbandingannya dengan kerangka kerja pembuatan gambar dan video yang canggih. Mari kita mulai.

BlackMamba : Pengantar MoE untuk Model Antariksa Negara

Perkembangan Model Bahasa Besar (LLM), khususnya yang didasarkan pada arsitektur transformator decoder saja, telah mempengaruhi Pemrosesan Bahasa Alami (NLP) lapangan dan diperluas ke berbagai aplikasi pembelajaran mendalam, termasuk pembelajaran penguatan, analisis deret waktu, pemrosesan gambar, dan seterusnya. Meskipun demikian, meskipun memiliki skalabilitas dan kinerja yang kuat, LLM berbasis transformator khusus dekoder ini menghadapi tantangan besar. Mekanisme perhatian, fitur utama berbasis transformator LLMs, menuntut sumber daya komputasi yang luas untuk inferensi dan pelatihan. Hal ini melibatkan kebutuhan memori yang bertambah seiring dengan panjang urutan dan operasi komputasi (FLOP) yang meningkat secara kuadrat. Kebutuhan komputasi intensif seperti itu membatasi panjang konteks model, meningkatkan biaya tugas pembuatan autoregresif seiring dengan skala model, dan menghambat kemampuan model untuk belajar dari aliran data berkelanjutan atau rangkaian proses dengan panjang tak terbatas secara efisien.

Upaya signifikan telah dilakukan dalam beberapa tahun terakhir dalam upaya untuk mengatasi keterbatasan ini, dan perhatian telah dialihkan ke arah merancang alternatif arsitektur terhadap model transformator perhatian padat kanonik dengan model SSM dan MoE menjadi kandidat arsitektur yang paling menjanjikan. Manfaat utama yang didapat dengan lebih memilih Model Ruang Negara dibandingkan model arsitektur transformator adalah kompleksitas komputasi linier sehubungan dengan panjang urutan masukan yang ditawarkan oleh SSM dibandingkan dengan kompleksitas kuadrat yang ditawarkan oleh transformator. Secara teoritis, kompleksitas komputasi linier sehubungan dengan panjang urutan masukan memungkinkan State Space Model memproses urutan yang lebih besar daripada model arsitektur transformator untuk anggaran operasi FLOPS atau Floating-point tertentu per detik, dan membuat pembangkitan autoregresif konstan dalam komputasi tanpa cache KV. Model Ruang Negara yang dikembangkan baru-baru ini termasuk Mamba, RetNet, dan beberapa lainnya telah menunjukkan inferensi dan pelatihan urutan panjang yang efisien, bersama dengan kinerja tugas pemodelan bahasa kompetitif ke transformator dengan properti penskalaan serupa. Di sisi lain, arsitektur model Campuran Pakar mendapatkan popularitas sebagai alternatif transformator padat karena memfasilitasi pengurangan signifikan dalam inferensi dan pelatihan FLOP yang penting untuk mencapai kualitas yang sebanding dengan model padat. Model MoE (Mixture of Experts) beroperasi dengan mengaktifkan hanya sedikit pilihan dari total parameter selama satu forward pass. Mereka menggunakan fungsi perutean untuk menentukan 'ahli' mana yang dipanggil berdasarkan konteks tertentu. Pendekatan ini menciptakan pemisahan antara biaya komputasi inferensi dan jumlah total parameter, sehingga memungkinkan peningkatan kinerja dalam anggaran inferensi tetap, meskipun dengan peningkatan jumlah parameter dan kebutuhan memori yang lebih besar.

Kemajuan dalam arsitektur ini menawarkan manfaat penting dibandingkan trafo tradisional dan mewakili arah yang menarik untuk pengembangan lebih lanjut. Kami berpendapat bahwa mengintegrasikan peningkatan ini ke dalam model gabungan Mamba-MoE dapat secara signifikan mempercepat kemampuan dan efisiensi pemodelan bahasa melebihi model transformator standar. Keuntungan yang diantisipasi dari arsitektur Mamba-MoE dibandingkan dengan model trafo padat tradisional meliputi:

Mama: Mencapai kompleksitas komputasi linier relatif terhadap panjang urutan masukan untuk fase pelatihan dan inferensi. Hal ini memungkinkan pembuatan autoregresif terjadi dalam jangka waktu yang konstan dan dengan penggunaan memori yang konstan.

Kementerian Luar Negeri: Menawarkan kecepatan inferensi dan efisiensi komputasi pelatihan yang sebanding dengan model dasar yang lebih kecil dan padat, sekaligus mempertahankan tingkat kualitas model yang menyaingi model dengan jumlah parameter yang setara dengan versi yang lebih padat.

Oleh karena itu, penting untuk menyatakan bahwa model arsitektur transformator masih merupakan yang tercanggih, dan telah menunjukkan kinerja kuat yang konsisten dan luar biasa pada tugas pemodelan bahasa dan tugas pemrosesan urutan. Pada intinya, arsitektur transformator menggunakan perhatian mandiri yang melakukan perbandingan kuadrat semua-ke-semua kesamaan produk titik antara penyematan token yang berbeda secara berurutan, dan melakukan peta linier ke vektor keluaran. Model transformator terdiri dari blok perhatian mandiri yang ditumpuk di antara blok MLP atau Multi-Layer Perceptron yang selanjutnya terdiri dari MLP dua lapis dengan fungsi aktivasi tertentu.

BlackMamba: Arsitektur dan Metodologi

Model Luar Angkasa Negara

State Space Model termasuk dalam kelompok model urutan dengan kompleksitas linier sehubungan dengan panjang urutan masukan. Arsitektur State Space Models lebih selaras dengan Recurrent Neural Networks dan Convolutional Neural Networks dibandingkan arsitektur berbasis perhatian, dan terinspirasi dari sistem dinamis berkelanjutan yang memetakan fungsi 1 dimensi melalui ruang laten implisit. Sistem dinamis linier membuat komputasi paralel menjadi efisien menggunakan pemindaian asosiatif atau konvolusi. Dalam skenario praktis, sifat State Space Model yang berulang menjadi alasan mengapa Model ini masih diadopsi pada perangkat keras AI yang sangat paralel seperti GPU. Namun munculnya SSM seperti RWKV dan Mamba telah menggunakan kernel pemindaian paralel untuk memetakan operasi berulang secara efisien ke GPU, sehingga memfasilitasi pelatihan arsitektur baru dengan efisiensi yang sebanding dengan yang dicapai oleh model transformator.

Kompleksitas kuadrat yang melekat dalam kaitannya dengan panjang urutan dalam transformator adalah batasan umum yang menghambat penalaran dan pemahaman dalam konteks yang sangat panjang. Inovasi terbaru telah memperkenalkan gagasan untuk memperluas konteks, memungkinkan transformator untuk dilatih pada skala yang layak sebelum diterapkan pada konteks yang lebih panjang selama inferensi. Terlepas dari kemajuan ini, proses inferensi masih memerlukan sejumlah besar sumber daya komputasi dan memori, terutama untuk memelihara cache Nilai-Kunci (KV), sehingga menjadikannya upaya yang intensif sumber daya. Upaya penelitian baru-baru ini berfokus pada peningkatan kemampuan ekspresif model ruang negara dengan memasukkan mekanisme gerbang yang bergantung pada input, mirip dengan matriks Query, Key, Value (QKV) yang ditemukan dalam mekanisme perhatian.

Upaya ini bertujuan untuk mempertahankan perkembangan linier rekursi ruang negara, memungkinkan eksekusi yang efisien melalui proses konvolusi atau pemindaian selektif. Pendekatan ini secara signifikan mempersempit perbedaan kinerja dengan transformator dalam aplikasi praktis. Di antara kemajuan-kemajuan ini, Mamba menonjol sebagai model ruang angkasa yang mencerminkan tujuan penelitian sebelumnya, menunjukkan tingkat kinerja mengesankan yang sebanding dengan transformator pada skala hingga 2.8 miliar parameter. Hal ini dicapai dengan menerapkan gerbang yang bergantung pada input pada input rekursi model ruang negara (SSM), sambil memastikan komputasi yang efisien melalui penggunaan kernel pemindaian selektif yang dipesan lebih dahulu.

Campuran Model Pakar

Model Mixture of Expert (MoE) mencapai pemisahan antara biaya inferensi dan jumlah parameter total dengan mengaktifkan parameter secara selektif selama forward pass. Alih-alih menggunakan semua parameter, model ini mengarahkan token ke pakar Multilayer Perceptron (MLP) tertentu. Idealnya, setiap pakar dirancang untuk memproses jenis masukan tertentu, dengan mekanisme perutean, yang pada dasarnya adalah jaringan saraf kompak, yang menentukan pakar yang paling cocok untuk setiap token. Pendekatan ini bertujuan untuk mempertahankan kekuatan ekspresi komprehensif model dengan jumlah parameter yang setara dalam konfigurasi yang lebih padat, namun dengan tuntutan komputasi yang jauh lebih rendah. Biasanya, router adalah pemetaan lapisan linier dari token ke indeks pakar dengan masing-masing pakar hanya menjadi transformator standar Multilayer Perceptron. Namun, pengembang belum menemukan metode pelatihan optimal untuk router karena masalah penugasan pakar tidak dapat dibedakan, dan model Campuran Pakar sering kali mengalami kesulitan dalam penyeimbangan beban dan stabilitas pelatihan antara pakar yang berbeda untuk efisiensi perangkat keras.

Arsitektur

Pada intinya, BlackMamba menggunakan model transformator standar yang terdiri dari blok MLP yang disisipkan dan blok perhatian yang ditambahkan secara berurutan di sepanjang aliran sisa. Sekarang, sebagian besar model Mixture of Expert hanya mengganti blok perceptron multilapis dengan lapisan pakar yang dirutekan. Di sisi lain, kerangka BlackMamba tidak hanya menggantikan blok perceptron multilayer di transformator dengan lapisan ahli yang dirutekan, namun juga mengganti lapisan perhatian dengan lapisan Model Ruang Negara Mamba. Arsitektur kerangka BlackMamba ditunjukkan pada gambar berikut.

Pelatihan dan Kumpulan Data

Model BlackMamba dilatih pada lebih dari 300 miliar token pada kumpulan data khusus, dan menggunakan fungsi aktivasi SwiGLU untuk perceptron multilapis ahli. Kerangka kerja ini dilatih dengan 8 pakar, jumlah yang menurut pengembang merupakan keseimbangan dan keseimbangan yang tepat antara jejak memori dan biaya inferensi model. Kumpulan data khusus yang digunakan untuk melatih kerangka BlackMamba terdiri dari campuran kumpulan data sumber terbuka yang sudah ada termasuk Starcoder, SlimPajama, Pile, dan banyak lagi. Tabel berikut menunjukkan bobot masing-masing kumpulan data yang digunakan untuk pelatihan kerangka BlackMamba. Secara keseluruhan, ada 1.8 triliun token dalam kumpulan data.

BlackMamba : Hasil

Untuk memastikan perbandingan yang adil antara Mamba dan BlackMamba, pengembang telah melatih kedua model dengan parameter pelatihan yang sama pada data pelatihan yang sama. Kerangka kerja BlackMamba mampu mengungguli model Mamba dan transformator untuk ukuran model forward pass yang identik pada waktu inferensi serta melatih operasi Floating-point per detik. Gambar berikut menunjukkan waktu yang dibutuhkan untuk menghasilkan urutan dengan panjang tertentu secara autoregresif dari prompt satu token awal sebagai fungsi dari panjang urutan.

Selain itu, manfaat latensi dari model Mixture of Expert dan Mamba digabungkan dalam kerangka BlackMamba sehingga menghasilkan waktu inferensi yang jauh lebih cepat jika dibandingkan dengan model transformator, model Mamba murni, dan model MoE. Selain itu, keunggulan inferensi kerangka BlackMamba berbanding lurus dengan panjang rangkaian, menjadikan BlackMamba sangat efektif dalam pembuatan rangkaian panjang. Selanjutnya, gambar berikut mengilustrasikan jumlah token yang ditetapkan ke model BlackMamba dengan masing-masing 340 juta dan 640 juta parameter. Seperti yang dapat dilihat, sebagian besar lapisan menunjukkan keseimbangan ahli tingkat tinggi sebagai hasil dari peningkatan algoritma Sinkhorn yang diterapkan oleh model BlackMamba.

Tabel berikut mencakup skor evaluasi kerangka BlackMamba dibandingkan dengan berbagai model bahasa sumber terbuka yang telah dilatih sebelumnya. Seperti yang dapat diamati, kerangka BlackMamba mampu bersaing dan mengungguli sebagian besar kerangka kerja di semua lini dasar. Selain itu, perlu dicatat bahwa model yang mengungguli BlackMamba memiliki jumlah parameter yang jauh lebih tinggi, dan kesenjangan kinerja yang minimal, yang menunjukkan kemampuan kerangka BlackMamba dengan parameter yang lebih sedikit.

Final Thoughts

Pada artikel ini, kita telah membahas tentang BlackMamba, sebuah arsitektur baru yang menggabungkan Model Ruang Negara Mamba dengan model Campuran Pakar untuk mendapatkan manfaat yang ditawarkan oleh kedua kerangka kerja ini. Eksperimen pada BlackMamba telah menunjukkan bahwa kinerjanya mengungguli kerangka Mamba yang ada dan garis dasar transformator dalam pelatihan FLOP dan inferensi. Kinerja luar biasa dari kerangka BlackMamba menunjukkan bahwa ia mampu mewarisi dan menggabungkan kemampuan kerangka Mamba dan MoE dengan sangat baik karena menggabungkan inferensi murah dan cepat dari MoE dengan generasi kompleksitas linier dari Mamba. Kita telah membicarakan tentang bagaimana arsitektur kerangka BlackMamba mampu mengungguli Model Bahasa Besar yang terlatih, kerangka Mamba yang ada, dan model Campuran Pakar dalam hal pelatihan FLOP dan biaya inferensi. Selain itu, kerangka BlackMamba juga mewarisi generasi FLOP dan mengurangi pelatihan dari model Campuran Pakar dan kerangka Mamba secara bersamaan.

Berikutnya

Cara Mengidentifikasi Video Deepfake Seperti Pemeriksa Fakta

Jangan Miss

Bagaimana Berbagai Generasi Melihat Kecerdasan Buatan?

Kunal Kejriwal

"Seorang insinyur berdasarkan profesi, seorang penulis dengan hati". Kunal adalah seorang penulis teknis dengan kecintaan mendalam & pemahaman AI dan ML, berdedikasi untuk menyederhanakan konsep kompleks di bidang ini melalui dokumentasinya yang menarik dan informatif.