Connect with us

Kecerdasan buatan

GLM-130B: Sebuah Model Pra-Terlatih Bilingual Terbuka

mm

Kerangka GLM-130B adalah sebuah model bahasa besar pra-terlatih bilingual dengan lebih dari 130 miliar parameter yang dapat menghasilkan output teks dalam bahasa Inggris dan Tionghoa. Kerangka GLM-130B adalah upaya untuk membuka sumber model bahasa dengan skala lebih dari 100M parameter, dan membahas bagaimana kerangka seperti itu dapat pra-terlatih karena saat ini, melatih model dengan skala yang sangat besar sering kali mengalami masalah seperti divergensi dan lonjakan kerugian. 

Dalam artikel ini, kita akan membahas kerangka GLM-130B, yang berusaha untuk mengembangkan metode untuk secara efektif pra-terlatih model bahasa besar dengan ratusan miliar parameter. Kita akan lebih dalam mempelajari arsitektur dan proses pelatihan kerangka GLM-130B, serta pilihan desain yang tidak hanya membantu meningkatkan efisiensi, tetapi juga stabilitas. Eksperimen awal yang dilakukan untuk menguji kerja kerangka GLM-130B pada berbagai benchmark bahasa Inggris menghasilkan model GLM-130B yang outperform kerangka GPT-3 saat ini oleh margin yang cukup besar. Jadi, mari kita mulai, dan jelajahi bagaimana kerangka GLM-130B menghasilkan hasil yang konsisten, akurat, dan stabil. 

Pengenalan Kerangka GLM-130B

Model Bahasa Besar yang dapat beroperasi dalam pengaturan few-shot dan zero-shot, terutama yang dengan lebih dari 100 miliar parameter, menawarkan hukum skala yang menarik, di mana kerangka GPT-3 adalah salah satu kerangka yang berkinerja terbaik yang menghasilkan peningkatan kinerja yang cukup besar dibandingkan dengan pendahulunya, kerangka BERT. Namun, meskipun popularitas kerangka GPT-3 dan aplikasinya yang luas, proses pelatihan dan dalam beberapa cara, kerangka GPT-3 itu sendiri telah tidak transparan kepada publik. Selain itu, secara empiris menghitung semua desain yang mungkin untuk melatih LLM dengan lebih dari 100M parameter secara komputasi tidak terjangkau, yang membuatnya semakin kritis untuk mengembangkan metode pra-terlatih untuk kerangka LLM skala besar. 

Poin di atas membuat berbagi kerja dan proses pelatihan kerangka LLM skala besar seperti GPT-3 sangat berharga, dan dengan mempertimbangkan kekhawatiran etika, kerangka GLM-130B adalah upaya untuk pra-terlatih LLM yang akurat dan terbuka dengan lebih dari 100M parameter. Selama proses pengembangan, tim pengembang GLM-130B mengamati bahwa pra-terlatih kerangka LLM skala besar sering kali disertai dengan berbagai tantangan teknis dan kejuruan dalam hal stabilitas pra-terlatih, efisiensi, dan konvergensi. 

Lebih spesifik, GLM-130B adalah kerangka densitas bilingual yang berisi lebih dari 130M parameter, pra-terlatih pada 400M token pada cluster 96 node GPU NVIDIA DGX-A100 selama hampir dua bulan. Selain itu, bukan menggunakan arsitektur GPT gaya, kerangka GLM-130B menggunakan algoritma GLM atau General Language Model, sebuah model bahasa berbasis transformer yang bertujuan untuk memanfaatkan objek tujuan pengisian kosong autoregresif, dan kelebihan perhatian bidireksional. Tabel berikut membandingkan kerangka GLM-130B dengan model lain dengan lebih dari 100M parameter, termasuk GPT, BLOOM-176B, dan OPT-175B. 

Konsep rekayasa dan pengembangan yang terlibat dalam kerangka GLM-130B outperform hampir semua kerangka LLM skala besar, termasuk GPT-3 dan PaLM 540B dengan lebih dari 500M parameter dalam banyak kasus, dan di berbagai benchmark. Gambar berikut membandingkan kinerja kerangka GLM-130B dengan model dengan lebih dari 100M parameter, dan seperti yang dapat dilihat, kerangka GLM-130B memiliki toksisitas dan bias generasi yang jauh lebih rendah dibandingkan dengan kerangka lain. 

Akhirnya, GLM-130B dirancang untuk memungkinkan banyak pengembang melakukan studi pada kerangka dengan lebih dari 100M parameter, dan ada dua cara kerangka GLM-130B mencapai hal ini. Pertama, bukan menggunakan lebih dari 175M parameter seperti BLOOM dan OPT, kerangka GLM-130B menggunakan 130M parameter, karena ukuran model mendukung interferensi bahkan pada server A100 tunggal. Kedua, kebutuhan GPU untuk menjalankan kerangka GLM-130B lebih rendah dibandingkan dengan kerangka LLM lain, dan kerangka GLM-130B mencapai hal ini dengan mengkuantifikasi kerangka asli menjadi presisi INT4. Kuantisasi INT4 yang digunakan oleh kerangka GLM-130B meningkatkan kinerja sambil mempertahankan degradasi kinerja yang dapat diabaikan. 

GLM-130B : Arsitektur

Bias induktif dari model pembelajaran mesin digambarkan oleh arsitektur, dan tidak mengherankan ketika pengembang tidak dapat menjelajahi berbagai desain arsitektur untuk model bahasa besar, mengingat keterjangkauan dan viabilitas komputasi. Dengan demikian, mari kita lihat arsitektur GLM-130B. 

Kerangka LLM skala besar seperti PaLM, GPT, dan lainnya memiliki lebih dari 100M parameter, dan mereka dibangun pada arsitektur decoder-only GPT gaya konvensional untuk pemodelan bahasa autoregresif. Di sisi lain, kerangka GLM-130B menjelajahi kemungkinan menggunakan model bahasa umum bidireksional atau GLM, sebuah model bahasa berbasis transformer yang bertujuan untuk memanfaatkan pengisian kosong autoregresif sebagai objek tujuan pelatihan, sebagai dasar. Secara singkat, untuk sebuah urutan teks yang diberikan, kerangka GLM mengambil sampel span teks yang kemudian digantikan dengan token mask tunggal. 

Perhatian bidireksional dari Model Bahasa Umum pada konteks yang tidak rusak atau tidak termasker adalah apa yang membedakan kerangka GLM-130B dari pendekatan GPT gaya yang menggunakan pendekatan unidireksional. Selain itu, untuk mendukung baik generasi dan pemahaman data, kerangka GLM menggabungkan dua strategi kerusakan, masing-masing diindikasikan dengan token mask khusus. 

  • [MASK] : [MASK] adalah strategi kerusakan yang menggunakan blank pendek dalam kalimat, panjangnya menambahkan hingga persentase tertentu dari input. 
  • [gMASK] : [gMASK] adalah strategi kerusakan yang menggunakan blank acak panjang di akhir kalimat dengan konteks awal. 

Pendekatan yang diikuti oleh kerangka GLM memungkinkan kerangka untuk mencatat skor akurasi lebih dari 80% pada pemodelan bahasa LAMBADA zero-shot, dan outperform baik PaLM 540B dan kerangka GPT-3. 

Normalisasi Lapisan

Salah satu tantangan utama yang dihadapi pengembang saat melatih kerangka LLM adalah ketidakstabilan pelatihan, dan menggunakan normalisasi lapisan (LN) yang tepat mungkin membantu dalam pelatihan LLM. Kerangka GLM-130B menggunakan pendekatan Post-LN berkat kinerjanya pada tugas downstream. 

FFNs dan Pengkodean Posisional

Jaringan Saraf Berforeward atau FFNs dan pengkodean posisional adalah dua pendekatan yang diadopsi oleh kerangka GLM-130B untuk memperkenalkan kinerja downstream yang tinggi dan stabilitas pelatihan. 

Pengaturan Pra-Pelatihan

Tujuan pra-pelatihan kerangka GLM-130B tidak hanya mencakup pembelajaran multi-tugas untuk sejumlah kecil token, tetapi juga mencakup pembelajaran mandiri GLM untuk pengisian kosong autoregresif, dengan harapan bahwa pendekatan ini akan membantu kerangka GLM-130B dalam tugas downstream. Dengan demikian, pengaturan pra-pelatihan kerangka GLM-130B terlihat seperti berikut. 

Pengisian Kosong Mandiri

Seperti yang telah disebutkan, kerangka GLM-130B menggunakan dua strategi kerusakan, yaitu [MASK] dan [gMASK], dan salah satu strategi ini diterapkan secara independen pada setiap urutan pelatihan, satu per satu. Untuk mengisi kosong, strategi [MASK] memasker span konsekutif pada 30% urutan pelatihan, di mana panjang span menambahkan hingga 15% dari input, dan mengikuti distribusi Poisson. Untuk 70% urutan yang tersisa, awalan setiap urutan dipertahankan sebagai konteks, dan strategi [gMASK] membantu memasker sisa urutan, dan panjang yang dimasker kemudian diambil sampel menggunakan distribusi Seragam. 

Pra-Pelatihan Instruksi Multi-Tugas

Telah ditunjukkan bahwa mengikuti pendekatan pembelajaran multi-tugas untuk pra-pelatihan model dapat menghasilkan hasil yang lebih baik daripada fine-tuning, untuk meningkatkan transfer tugas dalam pengaturan zero-shot. Selanjutnya, kerangka GLM-130B mengusulkan untuk menggunakan berbagai dataset instruksi yang diprompt, termasuk generasi bahasa, pemahaman, dan ekstraksi informasi selama pra-pelatihan. 

Dibandingkan dengan pendekatan lain untuk transfer tugas zero-shot yang menggunakan fine-tuning multi-tugas yang diprompt, pendekatan Pra-Pelatihan Instruksi Multi-Tugas yang diikuti oleh kerangka GLM-130B hanya memerlukan 5% dari total token, dan itu ditetapkan selama fase pra-pelatihan dalam upaya untuk mencegah merusak kemampuan LLM lainnya atau dengan kata lain, generasi bebas tak bersyarat

Strategi Paralel 3D

Ada dua praktik de facto untuk melatih model besar dengan miliaran parameter, paralelisme model tensor dan paralelisme data. Dalam upaya untuk meminimalkan utilitas GPU, dan menangani kebutuhan GPU yang besar, kerangka GLM-130B mengimplementasikan strategi paralel 3D yang menggabungkan paralelisme model pipa dengan paralelisme tensor dan paralelisme data. 

GLM-130B : Stabilitas Pelatihan

Stabilitas pelatihan adalah faktor penting ketika menentukan kualitas LLM, dan stabilitas pelatihan dipengaruhi secara signifikan tergantung pada jumlah token yang dilalui. Selain itu, sangat penting untuk membangun keseimbangan antara stabilitas dan efisiensi dalam hal format titik mengambang, mengingat keterbatasan komputasi. Misalnya, format titik mengambang presisi rendah meningkatkan efisiensi komputasi, tetapi sering kali menghasilkan keruntuhan pelatihan karena rentan terhadap kesalahan underflow dan overflow. 

Presisi Campuran

Dalam upaya untuk meningkatkan akurasi pelatihan dan mengurangi penggunaan memori, kerangka GLM-130B mengikuti praktik umum menggunakan presisi campuran, yaitu FP16 untuk kedua forward dan backward, dan FP32 untuk kedua bobot master dan keadaan pengoptimasi. Seperti kerangka LLM populer lainnya, termasuk BLOOM-176B dan OPT-175B, fase pelatihan kerangka GLM-130B menggunakan strategi presisi campuran menghadapi lonjakan kerugian yang sering, dan frekuensi lonjakan kerugian cenderung meningkat seiring model terus dilatih. Selain itu, ada masalah besar yang dihadapi pengembang saat menskalakan transformer. 

Pertama, skala nilai cabang utama transformer dapat sangat besar pada lapisan yang lebih dalam saat menggunakan Pre-LN, dan pada kerangka GLM-130B, hal ini diatasi dengan menggunakan DeepNorm berbasis Pre-LN, yang memastikan skala nilai tetap terikat pada semua waktu. Kedua, saat model diperbesar, skor perhatian tumbuh hingga melebihi jangkauan FP16. 

Pengurangan Gradien Lapisan Embedding atau EGS

Pengembang yang bekerja pada kerangka GLM-130B mengidentifikasi bahwa norma gradien dapat bertindak sebagai indikator yang informatif untuk keruntuhan pelatihan, dan keruntuhan pelatihan biasanya tertinggal oleh lonjakan pada norma gradien. Penyebab lonjakan ini adalah gradien abnormal dari lapisan embedding, dan pengembang mengamati bahwa dibandingkan dengan norma gradien lapisan lain, norma gradien lapisan embedding lebih besar beberapa magnitudo, dan juga cenderung berfluktuasi secara dramatis selama pelatihan awal kerangka. Model visi juga menghadapi masalah ini, dan diatasi dengan membekukan lapisan proyeksi patch. Namun, pendekatan yang sama tidak dapat diterapkan pada LLM karena pada model bahasa, Anda tidak dapat membekukan lapisan proyeksi. 

GLM-130B : Hasil dan Kinerja

Untuk mengevaluasi kinerja GLM-130B untuk tugas bahasa Inggris, kerangka ini mengimplementasikan pengaturan yang sama seperti kerangka LLM umum, termasuk PaLM dan GPT-3, dan karena GLM-130B adalah kerangka bilingual, kerangka ini juga dievaluasi pada berbagai benchmark bahasa Tionghoa. Kinerja kerangka GLM-130B akan diukur pada beberapa benchmark, termasuk Pemodelan Bahasa, MMLU atau Pemahaman Bahasa Multitugas Masif, BIG-Bench atau Benchmark Di Luar Permainan Imitasi, dan CLUE atau Evaluasi Pemahaman Bahasa Tionghoa. Jadi, mari kita mulai. 

Pemodelan Bahasa

Pengujian benchmark pemodelan bahasa pada kerangka GLM-130B dilakukan pada dua dataset: LAMBADA dan Pile. 

Dataset LAMBADA digunakan untuk menguji kemampuan pemodelan kata terakhir LLM, dan kerangka GLM-130B mencapai skor akurasi zero-shot 80,2 dalam pengaturan bilingual, dan pada jalur, menetapkan rekor benchmark baru pada dataset LAMBADA. 

Di sisi lain, Pile adalah sebuah set tes yang terdiri dari serangkaian benchmark untuk model bahasa. Rata-rata, dibandingkan dengan GPT-3 dan Jurassic-1, kerangka GLM-130B menghasilkan kinerja terbaik pada 18 set tes yang dibagikan dalam hal BPBs terbobot. Hasil ini menunjukkan kemampuan bahasa yang kuat dari kerangka GLM-130B, dan hasilnya termasuk dalam tabel berikut. 

MMLU atau Pemahaman Bahasa Multitugas Masif

MMLU atau Pemahaman Bahasa Multitugas Masif adalah benchmark yang beragam yang terdiri dari lebih dari 50 tugas jawaban pertanyaan pilihan ganda yang terkait dengan kecerdasan manusia dan pengetahuan, mulai dari tingkat sekolah menengah hingga tingkat ahli, dan dirilis setelah penggunaan set tes Pile, dan oleh karena itu, berfungsi sebagai tes-benchmark ideal untuk mengevaluasi kemampuan pembelajaran few-shot dari LLM. 

Seperti yang dapat dilihat, dalam pengaturan few-shot (5-shot), kinerja kerangka GLM-130B mendekati kinerja model GPT-3 setelah melihat sekitar 300M token. Kinerja terus meningkat seiring pelatihan berlanjut, dan ketika pelatihan selesai, kerangka mencapai skor akurasi 44,8 setelah melihat total 400M token. 

BIG-Bench atau Benchmark Di Luar Permainan Imitasi

BIG-Bench atau Benchmark Di Luar Permainan Imitasi tugas-tugas yang menantang menguji kemampuan model pada pengetahuan, penalaran, dan kecerdasan umum. Seperti yang ditunjukkan pada gambar berikut, dalam pengaturan zero-shot, kerangka GLM-130B outperform baik PaLM 540B dan GPT-3 175B, yang mungkin karena MIP dan perhatian konteks bidireksional untuk meningkatkan kinerja GLM-130B pada tugas yang tidak terlihat dalam pengaturan zero-shot. Selain itu, seiring dengan peningkatan jumlah shot, kinerja kerangka GLM-130B juga meningkat, outperform kerangka GPT-3 secara konsisten. 

CLUE atau Evaluasi Pemahaman Bahasa Tionghoa

Kinerja zero-shot bahasa Tionghoa kerangka GLM-130B dievaluasi pada tugas benchmark NLP yang mapan, termasuk CLUE dan FewCLUE, dan dibandingkan dengan 260B ERNIE Titan 3.0, model bahasa Tionghoa terbesar yang ada. Seperti yang dapat dilihat, kerangka GLM-130B secara konsisten outperform kerangka 260B ERNIE Titan 3.0 pada 12 tugas yang berbeda, dan performa hampir 260% lebih baik dari kerangka ERNIE pada dua dataset MRC abstrak. 

Kesimpulan

Dalam artikel ini, kita telah membahas tentang GLM-130B, sebuah model bahasa besar pra-terlatih bilingual yang bertujuan untuk mempromosikan penelitian LLM yang inklusif. Arsitektur, rekayasa, dan upaya teknis bertujuan untuk memberikan komunitas AI wawasan yang lebih baik tentang arsitektur kerangka LLM, efisiensi pelatihan, stabilitas, tujuan pra-pelatihan, dan interferensi yang terjangkau. 

Seorang insinyur oleh profesi, seorang penulis oleh hati. Kunal adalah seorang penulis teknis dengan cinta yang mendalam & pemahaman tentang AI dan ML, yang didedikasikan untuk menyederhanakan konsep-konsep kompleks dalam bidang ini melalui dokumentasi yang menarik dan informatif.