Kecerdasan buatan
GLM-130B: Model Bahasa Pra-Dilatih Bilingual Terbuka

Kerangka GLM-130B adalah model bahasa besar pra-dilatih bilingual dengan lebih dari 130 miliar parameter yang dapat menghasilkan output teks dalam bahasa Inggris dan Cina. Kerangka GLM-130B adalah upaya untuk membuka sumber model bahasa dengan skala lebih dari 100M parameter, dan membahas bagaimana kerangka dengan skala besar seperti itu dapat dilatih karena saat ini, melatih model dengan skala besar seperti itu sering mengalami masalah seperti divergensi dan lonjakan kerugian.
Dalam artikel ini, kita akan membahas kerangka GLM-130B, yang berusaha untuk merancang metode untuk melatih model bahasa besar dengan efektif dengan ratusan miliar parameter. Kita akan mempelajari lebih dalam tentang arsitektur dan proses pelatihan kerangka GLM-130B, serta pilihan desain yang tidak hanya membantu meningkatkan efisiensi, tetapi juga stabilitas. Eksperimen awal yang dilakukan untuk menguji kerja kerangka GLM-130B pada berbagai benchmark bahasa Inggris menghasilkan model GLM-130B yang outperform kerangka GPT-3 saat ini dengan margin yang cukup besar. Jadi, mari kita mulai dan jelajahi bagaimana kerangka GLM-130B menghasilkan hasil yang konsisten, akurat, dan stabil.
Pengenalan Kerangka GLM-130B
Model Bahasa Besar yang dapat beroperasi dalam pengaturan few-shot dan zero-shot, terutama yang dengan lebih dari 100 miliar parameter, menawarkan hukum penskalaan yang menarik, dan salah satu kerangka yang berkinerja terbaik adalah GPT-3. Namun, meskipun popularitas kerangka GPT-3 dan aplikasinya yang luas, proses pelatihan dan beberapa aspek kerangka GPT-3 itu sendiri belum transparan bagi masyarakat. Selain itu, secara empiris, mengenumerasi semua desain yang mungkin untuk melatih LLM dengan lebih dari 100M parameter secara komputasi tidak terjangkau, yang membuatnya lebih kritis untuk mengembangkan metode pra-pelatihan untuk kerangka LLM skala besar.
Poin di atas membuat berbagi kerja dan proses pelatihan kerangka LLM skala besar seperti GPT-3 sangat berharga, dan dengan mempertimbangkan kekhawatiran etika, kerangka GLM-130B adalah upaya untuk melatih model bahasa besar yang akurat dan terbuka dengan lebih dari 100M parameter. Selama prosesnya, tim pengembangan GLM-130B mengamati bahwa melatih kerangka LLM skala besar sering disertai dengan berbagai tantangan teknis dan teknik dalam hal stabilitas pra-pelatihan, efisiensi, dan konvergensi.
Lebih spesifik, GLM-130B adalah kerangka densitas bilingual dengan lebih dari 130M parameter, yang dilatih lebih dari 400M token pada cluster 96 node GPU NVIDIA DGX-A100 selama hampir dua bulan. Selain itu, bukan menggunakan arsitektur GPT-style, kerangka GLM-130B menggunakan algoritma Model Bahasa Umum (GLM) untuk memanfaatkan kelebihan perhatian bidireksional dan objek pelatihan pengisian kosong. Tabel berikut membandingkan kerangka GLM-130B dengan model lainnya dengan lebih dari 100M parameter, termasuk GPT, BLOOM-176B, dan OPT-175B.

Konsep teknik dan pengembangan yang terlibat dalam kerangka GLM-130B outperform hampir semua kerangka LLM skala besar, termasuk GPT-3 dan PaLM 540B dengan lebih dari 500M parameter, dalam banyak kasus dan di berbagai benchmark. Gambar berikut membandingkan kinerja kerangka GLM-130B dengan model lainnya dengan lebih dari 100M parameter, dan seperti yang terlihat, kerangka GLM-130B memiliki toksisitas dan bias generasi yang jauh lebih rendah daripada kerangka lainnya.

Akhirnya, GLM-130B dirancang untuk memungkinkan banyak pengembang melakukan penelitian pada kerangka dengan lebih dari 100M parameter, dan ada dua cara kerangka GLM-130B mencapai hal ini. Pertama, bukan menggunakan lebih dari 175M parameter seperti BLOOM dan OPT, kerangka GLM-130B menggunakan 130M parameter, karena ukuran model mendukung interferensi bahkan pada server A100 tunggal. Kedua, kebutuhan GPU untuk menjalankan kerangka GLM-130B lebih rendah dibandingkan dengan kerangka LLM lainnya, dan kerangka GLM-130B mencapai hal ini dengan mengkuantifikasi kerangka asli menjadi presisi INT4. Kuantisasi INT4 yang digunakan oleh kerangka GLM-130B meningkatkan kinerja sambil mempertahankan degradasi kinerja yang dapat diabaikan.
GLM-130B : Arsitektur
Bias induktif dari model pembelajaran mesin dijelaskan oleh arsitektur, dan tidak mengherankan ketika pengembang tidak dapat mengeksplorasi berbagai desain arsitektur untuk model bahasa besar karena keterjangkauan komputasi dan viabilitas. Dengan demikian, mari kita lihat arsitektur GLM-130B.
Kerangka LLM skala besar seperti PaLM, GPT, dan lainnya memiliki lebih dari 100M parameter dan dibangun di atas arsitektur decoder-only GPT-style konvensional untuk pemodelan bahasa autoregresif. Di sisi lain, kerangka GLM-130B menjelajahi kemungkinan menggunakan Model Bahasa Umum (GLM) bidireksional, yaitu model bahasa berbasis transformer yang bertujuan untuk memanfaatkan pengisian kosong autoregresif sebagai objek pelatihan, sebagai dasar. Secara singkat, untuk urutan teks yang diberikan, kerangka GLM mengambil sampel span teks yang kemudian digantikan dengan token mask tunggal.
Perhatian bidireksional dari Model Bahasa Umum pada konteks yang tidak rusak atau tidak termasker adalah yang membedakan kerangka GLM-130B dari pendekatan GPT-style yang menggunakan pendekatan unidireksional. Selain itu, untuk mendukung baik generasi dan pemahaman data, kerangka GLM menggabungkan dua strategi korupsi, masing-masing dengan token mask khusus.
- [MASK] : [MASK] adalah strategi korupsi yang menggunakan blank pendek dalam kalimat, panjangnya menambahkan hingga persentase tertentu dari input.
- [gMASK] : [gMASK] adalah strategi korupsi yang menggunakan blank acak di akhir kalimat dengan konteks awal.
Pendekatan yang diikuti oleh kerangka GLM memungkinkan kerangka untuk mencatat skor akurasi lebih dari 80% pada pemodelan bahasa LAMBADA zero-shot, dan outperform baik PaLM 540B dan kerangka GPT-3.

Normalisasi Lapisan
Salah satu tantangan besar yang dihadapi pengembang saat melatih kerangka LLM adalah ketidakstabilan pelatihan, dan menggunakan LN (Normalisasi Lapisan) yang tepat dapat membantu dalam pelatihan LLM. Kerangka GLM-130B menggunakan pendekatan Post-LN berkat kinerjanya pada tugas downstream.
FFNs dan Pengkodean Posisional
Jaringan Saraf Feedforward (FFNs) dan pengkodean posisional adalah dua pendekatan yang diadopsi oleh kerangka GLM-130B untuk memperkenalkan kinerja downstream yang tinggi dan stabilitas pelatihan.
Pengaturan Pra-Pelatihan
Objek pelatihan pra-pelatihan kerangka GLM-130B tidak hanya mencakup pembelajaran multi-tugas untuk sejumlah kecil token, tetapi juga mencakup pelatihan mandiri GLM untuk pengisian kosong autoregresif, dengan harapan bahwa pendekatan ini akan membantu kerangka GLM-130B dalam tugas downstream. Dengan demikian, pengaturan pra-pelatihan kerangka GLM-130B terlihat seperti berikut.
Pengisian Kosong Mandiri
Seperti yang telah disebutkan, kerangka GLM-130B menggunakan dua strategi korupsi, yaitu [MASK] dan [gMASK], dan salah satu strategi ini diterapkan secara independen pada setiap urutan pelatihan, satu per satu. Untuk mengisi blank, strategi [MASK] memasker span konsekutif dalam 30% dari urutan pelatihan, di mana panjang span menambahkan hingga 15% dari input, dan mengikuti distribusi Poisson. Untuk 70% sisanya dari urutan, prefiks dari setiap urutan dipertahankan sebagai konteks, dan strategi [gMASK] membantu memasker sisa urutan, dan panjang yang dimasker diambil sampel menggunakan distribusi Uniform.
Pelatihan Instruksi Multi-Tugas
Telah ditunjukkan bahwa mengikuti pendekatan pembelajaran multi-tugas untuk pra-pelatihan model dapat menghasilkan hasil yang lebih baik daripada fine-tuning, untuk meningkatkan transfer tugas dalam pengaturan zero-shot. Selanjutnya, kerangka GLM-130B mengusulkan untuk menggunakan berbagai dataset yang dipicu instruksi selama pra-pelatihan, termasuk generasi bahasa, pemahaman, dan ekstraksi informasi.
Dibandingkan dengan pendekatan lain untuk transfer tugas zero-shot yang menggunakan fine-tuning multi-tugas, pendekatan Pelatihan Instruksi Multi-Tugas yang diikuti oleh kerangka GLM-130B hanya mencakup 5% dari total token, dan itu ditetapkan selama fase pra-pelatihan dalam upaya untuk mencegah merusak kemampuan lain dari kerangka LLM atau dengan kata lain, generasi bebas tak bersyarat.
Strategi Paralel 3D
Ada dua praktik de facto untuk melatih model skala besar dengan miliaran parameter, paralelisme model tensor dan paralelisme data. Dalam upaya untuk meminimalkan utilitas GPU dan menangani kebutuhan GPU yang besar, kerangka GLM-130B mengimplementasikan strategi paralel 3D yang menggabungkan strategi paralelisme pipa dengan paralelisme tensor dan paralelisme data.
GLM-130B : Stabilitas Pelatihan
Stabilitas pelatihan adalah faktor penting dalam menentukan kualitas LLM, dan stabilitas pelatihan dipengaruhi secara signifikan tergantung pada jumlah token yang dilewati. Selain itu, sangat penting untuk membangun keseimbangan antara stabilitas dan efisiensi dalam hal format titik mengambang, mengingat keterbatasan komputasi. Misalnya, format titik mengambang presisi rendah meningkatkan efisiensi komputasi, tetapi sering menghasilkan keruntuhan pelatihan karena rentan terhadap kesalahan underflow dan overflow.
Presisi Campuran
Dalam upaya untuk meningkatkan akurasi pelatihan dan mengurangi penggunaan memori, kerangka GLM-130B mengikuti praktik umum dengan menggunakan presisi campuran, yaitu FP16 untuk kedua arah maju dan mundur, dan FP32 untuk kedua berat master dan keadaan pengoptimal. Seperti kerangka LLM populer lainnya, termasuk BLOOM-176B dan OPT-175B, fase pelatihan kerangka GLM-130B menggunakan strategi presisi campuran menghadapi lonjakan kerugian yang sering, dan frekuensi lonjakan kerugian cenderung meningkat seiring model terus dilatih. Selain itu, ada masalah besar yang dihadapi pengembang saat menskala transformer.

Pertama, skala nilai cabang utama transformer dapat sangat besar di lapisan yang lebih dalam saat menggunakan Pre-LN, dan dalam kerangka GLM-130B, hal ini diatasi dengan menggunakan DeepNorm berbasis Pre-LN, yang memastikan skala nilai tetap terikat sepanjang waktu. Kedua, saat model diperbesar, skor perhatian tumbuh hingga melebihi jangkauan FP16.
Pengurangan Gradien Lapisan Embedding atau EGS
Pengembang yang bekerja pada kerangka GLM-130B menemukan bahwa norma gradien dapat bertindak sebagai indikator informatif untuk keruntuhan pelatihan, dan keruntuhan pelatihan biasanya tertinggal oleh lonjakan norma gradien. Penyebab lonjakan ini adalah gradien abnormal dari lapisan embedding, dan pengembang mengamati bahwa dibandingkan dengan norma gradien lapisan lain, norma gradien lapisan embedding lebih besar beberapa kali lipat, dan juga cenderung berfluktuasi secara dramatis selama pelatihan awal kerangka. Model visi juga menghadapi masalah ini, dan diatasi dengan membekukan lapisan proyeksi patch. Namun, pendekatan yang sama tidak dapat diterapkan pada LLM karena dalam model bahasa, Anda tidak dapat membekukan lapisan proyeksi.

GLM-130B : Hasil dan Kinerja
Untuk mengevaluasi kinerja GLM-130B untuk tugas bahasa Inggris, kerangka ini mengimplementasikan pengaturan yang sama seperti kerangka LLM umum, termasuk PaLM dan GPT-3, dan karena GLM-130B adalah kerangka bilingual, kerangka ini juga dievaluasi di berbagai benchmark bahasa Cina. Kinerja kerangka GLM-130B akan diukur di berbagai benchmark, termasuk Pemodelan Bahasa, MMLU atau Pemahaman Bahasa Multitugas Masif, BIG-Bench atau Benchmark Di Luar Permainan Imitasi, dan CLUE atau Evaluasi Pemahaman Bahasa Cina. Jadi, mari kita mulai.
Pemodelan Bahasa
Pengujian benchmark pemodelan bahasa pada kerangka GLM-130B dilakukan di dua dataset: LAMBADA dan Pile.
Dataset LAMBADA digunakan untuk menguji kemampuan pemodelan kata terakhir dari LLM, dan kerangka GLM-130B mencapai skor akurasi zero-shot sebesar 80,2 dalam pengaturan bilingual, dan dalam perjalanan, menciptakan rekor benchmark baru pada dataset LAMBADA.
Di sisi lain, Pile adalah sebuah set pengujian yang terdiri dari serangkaian benchmark untuk model bahasa. Rata-rata, dibandingkan dengan GPT-3 dan Jurassic-1, kerangka GLM-130B menghasilkan kinerja terbaik pada 18 set pengujian yang dibagikan dalam hal BPBs terbobot. Hasil ini menunjukkan kemampuan bahasa yang kuat dari kerangka GLM-130B, dan hasilnya disertakan dalam tabel berikut.

MMLU atau Pemahaman Bahasa Multitugas Masif
MMLU atau Pemahaman Bahasa Multitugas Masif adalah benchmark yang beragam yang terdiri dari lebih dari 50 tugas menjawab pertanyaan pilihan ganda yang terkait dengan kecerdasan dan pengetahuan manusia, mulai dari tingkat sekolah menengah hingga tingkat ahli, dan dirilis setelah pengumpulan dataset Pile, dan dengan demikian, berfungsi sebagai pengujian yang ideal untuk mengevaluasi kemampuan pembelajaran few-shot dari LLM.

Seperti yang terlihat, dalam pengaturan few-shot (5-shot), kinerja kerangka GLM-130B mendekati kinerja model GPT-3 setelah melihat sekitar 300M token. Kinerja terus meningkat seiring pelatihan berlanjut, dan ketika pelatihan selesai, kerangka mencapai skor akurasi sebesar 44,8 setelah melihat total 400M token.
BIG-Bench atau Benchmark Di Luar Permainan Imitasi
BIG-Bench atau Benchmark Di Luar Permainan Imitasi tugas yang menantang menguji kemampuan model pada pengetahuan, penalaran, dan kesadaran. Seperti yang ditunjukkan dalam gambar berikut, dalam pengaturan zero-shot, kerangka GLM-130B outperform baik PaLM 540B dan GPT-3 175B, yang mungkin karena MIP dan perhatian konteks bidireksional untuk meningkatkan kinerja GLM-130B pada tugas yang tidak terlihat dalam pengaturan zero-shot. Selain itu, seiring dengan meningkatnya jumlah shot, kinerja kerangka GLM-130B juga meningkat, outperform kerangka GPT-3 secara konsisten.

CLUE atau Evaluasi Pemahaman Bahasa Cina
Kinerja zero-shot bahasa Cina dari kerangka GLM-130B dievaluasi pada tugas benchmark NLP yang mapan, termasuk CLUE dan FewCLUE, dan dibandingkan dengan 260B ERNIE Titan 3.0, model bahasa Cina terbesar yang ada. Seperti yang terlihat, kerangka GLM-130B secara konsisten outperform kerangka ERNIE Titan 3.0 260B pada 12 tugas yang berbeda, dan performa sekitar 260% lebih baik dari kerangka ERNIE pada dua dataset MRC abstrak.

Kesimpulan
Dalam artikel ini, kita telah membahas tentang GLM-130B, model bahasa besar pra-dilatih bilingual yang bertujuan untuk mempromosikan penelitian LLM yang inklusif. Arsitektur, teknik, dan upaya teknis bertujuan untuk memberikan komunitas AI wawasan yang lebih baik tentang arsitektur kerangka LLM, efisiensi pelatihan, stabilitas, objek pra-pelatihan, dan interferensi yang terjangkau.












