potongan Model Bahasa Besar Berbasis Decoder: Panduan Lengkap - Unite.AI
Terhubung dengan kami

Kecerdasan Buatan

Model Bahasa Besar Berbasis Decoder: Panduan Lengkap

mm
Updated on
Model Bahasa Besar Berbasis Decoder: Panduan Lengkap

Model Bahasa Besar (LLM) telah merevolusi bidang pemrosesan bahasa alami (NLP) dengan menunjukkan kemampuan luar biasa dalam menghasilkan teks mirip manusia, menjawab pertanyaan, dan membantu berbagai tugas terkait bahasa. Inti dari model yang kuat ini terletak pada arsitektur transformator khusus dekoder, varian dari arsitektur transformator asli yang diusulkan dalam makalah penting “Perhatian Adalah Yang Anda Butuhkan” oleh Vaswani dkk.

Dalam panduan komprehensif ini, kita akan mengeksplorasi cara kerja LLM berbasis decoder, mempelajari blok bangunan mendasar, inovasi arsitektur, dan detail implementasi yang telah mendorong model ini ke garis depan penelitian dan aplikasi NLP.

Arsitektur Transformer: Penyegaran

Sebelum mendalami secara spesifik LLM berbasis dekoder, penting untuk meninjau kembali arsitektur transformator, yang menjadi landasan pembuatan model ini. Transformator memperkenalkan pendekatan baru pada pemodelan sekuens, hanya mengandalkan mekanisme perhatian untuk menangkap ketergantungan jangka panjang dalam data, tanpa memerlukan lapisan berulang atau konvolusional.

Arsitektur Transformer

Arsitektur Transformer

Arsitektur trafo asli terdiri dari dua komponen utama: encoder dan decoder. Encoder memproses urutan masukan dan menghasilkan representasi kontekstual, yang kemudian digunakan oleh decoder untuk menghasilkan urutan keluaran. Arsitektur ini awalnya dirancang untuk tugas-tugas terjemahan mesin, di mana encoder memproses kalimat masukan dalam bahasa sumber, dan decoder menghasilkan kalimat yang sesuai dalam bahasa target.

Perhatian Diri: Kunci Kesuksesan Transformer

Di jantung kota transformator terletak pada mekanisme perhatian diri, sebuah teknik ampuh yang memungkinkan model menimbang dan mengumpulkan informasi dari berbagai posisi dalam urutan masukan. Tidak seperti model urutan tradisional, yang memproses token masukan secara berurutan, perhatian mandiri memungkinkan model menangkap ketergantungan antara pasangan token apa pun, terlepas dari posisinya dalam urutan.

Perhatian multiquery

Perhatian multiquery

Operasi perhatian diri dapat dipecah menjadi tiga langkah utama:

  1. Proyeksi Kueri, Kunci, dan Nilai: Urutan masukan diproyeksikan menjadi tiga representasi terpisah: query (Q), kunci-kunci (K), dan nilai-nilai (V). Proyeksi ini diperoleh dengan mengalikan masukan dengan matriks bobot yang dipelajari.
  2. Perhitungan Skor Perhatian: Untuk setiap posisi dalam urutan masukan, skor perhatian dihitung dengan mengambil perkalian titik antara vektor kueri yang bersangkutan dan semua vektor kunci. Skor ini mewakili relevansi setiap posisi dengan posisi yang sedang diproses saat ini.
  3. Jumlah Nilai Tertimbang: Skor perhatian dinormalisasi menggunakan fungsi softmax, dan bobot perhatian yang dihasilkan digunakan untuk menghitung jumlah vektor nilai yang tertimbang, sehingga menghasilkan representasi keluaran untuk posisi saat ini.

Perhatian multi-kepala, suatu varian dari mekanisme perhatian diri, memungkinkan model untuk menangkap berbagai jenis hubungan dengan menghitung skor perhatian di berbagai “kepala” secara paralel, masing-masing dengan rangkaian proyeksi kueri, kunci, dan nilainya sendiri.

Varian dan Konfigurasi Arsitektur

Meskipun prinsip inti LLM berbasis dekoder tetap konsisten, para peneliti telah mengeksplorasi berbagai varian dan konfigurasi arsitektur untuk meningkatkan kinerja, efisiensi, dan kemampuan generalisasi. Di bagian ini, kita akan mempelajari berbagai pilihan arsitektur dan implikasinya.

Jenis Arsitektur

LLM berbasis decoder secara luas dapat diklasifikasikan menjadi tiga jenis utama: decoder-encoder, decoder kausal, dan decoder awalan. Setiap jenis arsitektur menunjukkan pola perhatian yang berbeda.

Arsitektur Encoder-Decoder

Berdasarkan model vanilla Transformer, arsitektur encoder-decoder terdiri dari dua tumpukan: encoder dan decoder. Pembuat enkode menggunakan lapisan perhatian mandiri multi-kepala yang bertumpuk untuk menyandikan urutan masukan dan menghasilkan representasi laten. Decoder kemudian melakukan perhatian silang pada representasi ini untuk menghasilkan urutan target. Meskipun efektif dalam berbagai tugas NLP, hanya sedikit LLM, seperti Flan-T5, adopsi arsitektur ini.

Arsitektur Decoder Kausal

Arsitektur decoder kausal menggabungkan topeng perhatian searah, yang memungkinkan setiap token masukan hanya memperhatikan token masa lalu dan token itu sendiri. Token input dan output diproses dalam decoder yang sama. Model terkenal seperti GPT-1, GPT-2, dan GPT-3 dibangun berdasarkan arsitektur ini, dengan GPT-3 menampilkan kemampuan pembelajaran dalam konteks yang luar biasa. Banyak LLM, termasuk OPT, BLOOM, dan Gopher, telah banyak mengadopsi decoder kausal.

Arsitektur Dekoder Awalan

Juga dikenal sebagai dekoder non-kausal, arsitektur dekoder awalan memodifikasi mekanisme penyembunyian dekoder kausal untuk mengaktifkan perhatian dua arah pada token awalan dan perhatian searah pada token yang dihasilkan. Seperti arsitektur encoder-decoder, decoder awalan dapat mengkodekan urutan awalan secara dua arah dan memprediksi token keluaran secara otomatis menggunakan parameter bersama. LLM berdasarkan decoder awalan termasuk GLM130B dan U-PaLM.

Ketiga tipe arsitektur dapat diperluas menggunakan campuran ahli (MoE) teknik penskalaan, yang secara jarang mengaktifkan subset bobot jaringan saraf untuk setiap masukan. Pendekatan ini telah diterapkan pada model seperti Switch Transformer dan GLaM, dengan peningkatan jumlah pakar atau ukuran parameter total yang menunjukkan peningkatan kinerja yang signifikan.

Transformator Khusus Dekoder: Merangkul Sifat Autoregresif

Meskipun arsitektur transformator asli dirancang untuk tugas-tugas urutan-ke-urutan seperti terjemahan mesin, banyak tugas NLP, seperti pemodelan bahasa dan pembuatan teks, dapat dibingkai sebagai masalah autoregresif, di mana model menghasilkan satu token pada satu waktu, dikondisikan pada token yang dihasilkan sebelumnya.

Masukkan trafo khusus dekoder, varian sederhana dari arsitektur trafo yang hanya mempertahankan komponen dekoder. Arsitektur ini sangat cocok untuk tugas autoregresif, karena menghasilkan token keluaran satu per satu, memanfaatkan token yang dibuat sebelumnya sebagai konteks masukan.

Perbedaan utama antara trafo khusus dekoder dan dekoder trafo asli terletak pada mekanisme perhatian mandiri. Dalam pengaturan khusus dekoder, operasi perhatian mandiri dimodifikasi untuk mencegah model memperhatikan token masa depan, sebuah properti yang dikenal sebagai kausalitas. Hal ini dicapai melalui teknik yang disebut “perhatian diri bertopeng,” di mana skor perhatian yang sesuai dengan posisi masa depan ditetapkan ke tak terhingga negatif, yang secara efektif menutupinya selama langkah normalisasi softmax.

Komponen Arsitektur LLM Berbasis Decoder

Meskipun prinsip inti perhatian diri dan perhatian diri terselubung tetap sama, LLM berbasis dekoder modern telah memperkenalkan beberapa inovasi arsitektur untuk meningkatkan kinerja, efisiensi, dan kemampuan generalisasi. Mari kita jelajahi beberapa komponen dan teknik utama yang digunakan dalam LLM mutakhir.

Representasi Masukan

Sebelum memproses urutan masukan, LLM berbasis decoder menggunakan teknik tokenisasi dan penyematan untuk mengubah teks mentah menjadi representasi numerik yang sesuai untuk model.

penyematan vektor

penyematan vektor

Tokenisasi: Proses tokenisasi mengubah teks masukan menjadi rangkaian token, yang dapat berupa kata, subkata, atau bahkan karakter individual, bergantung pada strategi tokenisasi yang digunakan. Teknik tokenisasi populer untuk LLM termasuk Byte-Pair Encoding (BPE), SentencePiece, dan WordPiece. Metode ini bertujuan untuk mencapai keseimbangan antara ukuran kosakata dan perincian representasi, sehingga memungkinkan model menangani kata-kata yang jarang atau di luar kosakata secara efektif.

Penyematan Token: Setelah tokenisasi, setiap token dipetakan ke representasi vektor padat yang disebut penyematan token. Penyematan ini dipelajari selama proses pelatihan dan menangkap hubungan semantik dan sintaksis antar token.

Penyematan Posisi: Model transformator memproses seluruh urutan masukan secara bersamaan, tidak memiliki gagasan yang melekat tentang posisi token yang ada dalam model berulang. Untuk menggabungkan informasi posisi, penyematan posisi ditambahkan ke penyematan token, memungkinkan model membedakan token berdasarkan posisinya dalam urutan. LLM awal menggunakan penyematan posisi tetap berdasarkan fungsi sinusoidal, sementara model yang lebih baru telah mengeksplorasi penyematan posisi yang dapat dipelajari atau teknik pengkodean posisi alternatif seperti penyematan posisi putar.

Blok Perhatian Multi-Kepala

Blok penyusun inti LLM berbasis dekoder adalah lapisan perhatian multi-kepala, yang melakukan operasi perhatian mandiri bertopeng yang dijelaskan sebelumnya. Lapisan-lapisan ini ditumpuk beberapa kali, dan masing-masing lapisan memperhatikan keluaran dari lapisan sebelumnya, sehingga memungkinkan model untuk menangkap dependensi dan representasi yang semakin kompleks.

Kepala Perhatian: Setiap lapisan perhatian multi-kepala terdiri dari beberapa “kepala perhatian”, yang masing-masing memiliki rangkaian proyeksi kueri, kunci, dan nilainya sendiri. Hal ini memungkinkan model untuk menangani berbagai aspek masukan secara bersamaan, menangkap beragam hubungan dan pola.

Koneksi Sisa dan Normalisasi Lapisan: Untuk memfasilitasi pelatihan jaringan dalam dan mengurangi masalah gradien hilang, LLM berbasis dekoder menggunakan koneksi sisa dan teknik normalisasi lapisan. Koneksi sisa menambahkan masukan lapisan ke keluarannya, memungkinkan gradien mengalir lebih mudah selama propagasi mundur. Normalisasi lapisan membantu menstabilkan aktivasi dan gradien, yang selanjutnya meningkatkan stabilitas dan kinerja pelatihan.

Lapisan Umpan-Maju

Selain lapisan perhatian multi-head, LLM berbasis dekoder menggabungkan lapisan feed-forward, yang menerapkan jaringan saraf feed-forward sederhana ke setiap posisi dalam urutan. Lapisan ini memperkenalkan non-linearitas dan memungkinkan model mempelajari representasi yang lebih kompleks.

Fungsi Aktivasi: Pilihan fungsi aktivasi di lapisan feed-forward dapat berdampak signifikan terhadap performa model. Meskipun LLM sebelumnya mengandalkan aktivasi ReLU yang banyak digunakan, model yang lebih baru telah mengadopsi fungsi aktivasi yang lebih canggih seperti Gaussian Error Linear Unit (GELU) atau aktivasi SwiGLU, yang telah menunjukkan peningkatan kinerja.

Perhatian Jarang dan Transformer yang Efisien

Meskipun mekanisme perhatian mandiri sangat kuat, mekanisme ini memiliki kompleksitas komputasi kuadrat sehubungan dengan panjang rangkaian, sehingga memerlukan biaya komputasi yang mahal untuk rangkaian yang panjang. Untuk mengatasi tantangan ini, beberapa teknik telah diusulkan untuk mengurangi kebutuhan komputasi dan memori untuk perhatian diri, memungkinkan pemrosesan urutan yang lebih panjang secara efisien.

Perhatian yang Jarang: Teknik perhatian renggang, seperti yang digunakan dalam model GPT-3, secara selektif memperhatikan subkumpulan posisi dalam urutan masukan, dibandingkan menghitung skor perhatian untuk semua posisi. Hal ini secara signifikan dapat mengurangi kompleksitas komputasi sekaligus mempertahankan kinerja yang wajar.

Perhatian Jendela Geser: Diperkenalkan dalam model Mistral 7B, perhatian jendela geser (SWA) adalah teknik sederhana namun efektif yang membatasi rentang perhatian setiap token ke ukuran jendela tetap. Pendekatan ini memanfaatkan kemampuan lapisan transformator untuk mengirimkan informasi melintasi beberapa lapisan, secara efektif meningkatkan rentang perhatian tanpa kompleksitas kuadrat dari perhatian mandiri penuh.

Cache Buffer Bergulir: Untuk lebih mengurangi kebutuhan memori, terutama untuk urutan yang panjang, model Mistral 7B menggunakan cache buffer bergulir. Teknik ini menyimpan dan menggunakan kembali vektor kunci dan nilai yang dihitung untuk ukuran jendela tetap, menghindari komputasi yang berlebihan dan meminimalkan penggunaan memori.

Perhatian Kueri yang Dikelompokkan: Diperkenalkan dalam model LLaMA 2, perhatian kueri yang dikelompokkan (GQA) adalah varian dari mekanisme perhatian multi-kueri yang membagi kepala perhatian menjadi beberapa kelompok, masing-masing kelompok berbagi matriks kunci dan nilai yang sama. Pendekatan ini mencapai keseimbangan antara efisiensi perhatian multi-kueri dan kinerja perhatian mandiri standar, memberikan waktu inferensi yang lebih baik sambil mempertahankan hasil berkualitas tinggi.

Perhatian kueri yang dikelompokkan

Perhatian kueri yang dikelompokkan

Ukuran dan Skala Model

Salah satu ciri khas LLM modern adalah skalanya, dengan jumlah parameter berkisar dari miliaran hingga ratusan miliar. Meningkatkan ukuran model telah menjadi faktor penting dalam mencapai performa canggih, karena model yang lebih besar dapat menangkap pola dan hubungan yang lebih kompleks dalam data.

Jumlah Parameter: Jumlah parameter dalam LLM berbasis decoder terutama ditentukan oleh dimensi penyematan (d_model), jumlah kepala perhatian (n_heads), jumlah lapisan (n_layers), dan ukuran kosakata (vocab_size). Misalnya, model GPT-3 memiliki 175 miliar parameter, dengan d_model = 12288, n_kepala = 96, n_lapisan = 96, dan ukuran_kosakata = 50257.

Model Paralelisme: Pelatihan dan penerapan model sebesar itu memerlukan sumber daya komputasi yang besar dan perangkat keras khusus. Untuk mengatasi tantangan ini, teknik paralelisme model telah diterapkan, di mana model dibagi menjadi beberapa GPU atau TPU, dengan masing-masing perangkat bertanggung jawab atas sebagian komputasi.

Gabungan Pakar: Pendekatan lain untuk menskalakan LLM adalah arsitektur campuran ahli (MoE), yang menggabungkan beberapa model pakar, masing-masing mengkhususkan diri pada subset data atau tugas tertentu. Model Mixtral 8x7B adalah contoh model MoE yang memanfaatkan Mistral 7B sebagai model dasarnya, mencapai kinerja unggul dengan tetap menjaga efisiensi komputasi.

Inferensi dan Pembuatan Teks

Salah satu kasus penggunaan utama LLM berbasis decoder adalah pembuatan teks, di mana model tersebut menghasilkan teks yang koheren dan terdengar alami berdasarkan perintah atau konteks tertentu.

Penguraian kode autoregresif: Selama inferensi, LLM berbasis decoder menghasilkan teks dengan cara autoregresif, memprediksi satu token pada satu waktu berdasarkan token yang dibuat sebelumnya dan perintah input. Proses ini berlanjut hingga kriteria penghentian yang telah ditentukan terpenuhi, seperti mencapai panjang urutan maksimum atau menghasilkan token akhir urutan.

Strategi Pengambilan Sampel: Untuk menghasilkan teks yang beragam dan realistis, berbagai strategi pengambilan sampel dapat digunakan, seperti pengambilan sampel top-k, pengambilan sampel top-p (juga dikenal sebagai pengambilan sampel inti), atau penskalaan suhu. Teknik-teknik ini mengontrol trade-off antara keragaman dan koherensi teks yang dihasilkan dengan menyesuaikan distribusi probabilitas pada kosakata.

Rekayasa Cepat: Kualitas dan spesifisitas perintah masukan dapat berdampak signifikan pada teks yang dihasilkan. Rekayasa cepat, seni menyusun perintah yang efektif, telah muncul sebagai aspek penting dalam memanfaatkan LLM untuk berbagai tugas, memungkinkan pengguna memandu proses pembuatan model dan mencapai keluaran yang diinginkan.

Decoding Manusia-dalam-Loop: Untuk lebih meningkatkan kualitas dan koherensi teks yang dihasilkan, teknik seperti Pembelajaran Penguatan dari Umpan Balik Manusia (RLHF) telah dipekerjakan. Dalam pendekatan ini, penilai manusia memberikan umpan balik pada teks yang dihasilkan model, yang kemudian digunakan untuk menyempurnakan model, secara efektif menyelaraskannya dengan preferensi manusia dan meningkatkan keluarannya.

Kemajuan dan Arah Masa Depan

Bidang LLM berbasis decoder berkembang pesat, dengan penelitian dan terobosan baru yang terus mendorong batas-batas pencapaian model ini. Berikut adalah beberapa kemajuan penting dan potensi arah masa depan:

Varian Transformator yang Efisien: Meskipun perhatian yang jarang dan perhatian jendela geser telah membuat kemajuan signifikan dalam meningkatkan efisiensi LLM berbasis decoder, para peneliti secara aktif mengeksplorasi arsitektur transformator alternatif dan mekanisme perhatian untuk lebih mengurangi kebutuhan komputasi sambil mempertahankan atau meningkatkan kinerja.

LLM multimodal: Memperluas kemampuan LLM di luar teks, model multimodal bertujuan untuk mengintegrasikan berbagai modalitas, seperti gambar, audio, atau video, ke dalam satu kerangka terpadu. Hal ini membuka kemungkinan menarik untuk aplikasi seperti pembuatan teks gambar, jawaban pertanyaan visual, dan pembuatan konten multimedia.

Generasi Terkendali: Mengaktifkan kontrol menyeluruh atas teks yang dihasilkan adalah arah yang menantang namun penting bagi LLM. Teknik seperti pembuatan teks terkontrol dan penyetelan cepat bertujuan untuk memberi pengguna kontrol yang lebih terperinci atas berbagai atribut teks yang dihasilkan, seperti gaya, nada, atau persyaratan konten tertentu.

Kesimpulan

LLM berbasis decoder telah muncul sebagai kekuatan transformatif di bidang pemrosesan bahasa alami, mendorong batas-batas dari apa yang mungkin dilakukan dengan generasi dan pemahaman bahasa. Dari awal yang sederhana sebagai varian arsitektur transformator yang disederhanakan, model ini telah berkembang menjadi sistem yang sangat canggih dan kuat, memanfaatkan teknik mutakhir dan inovasi arsitektur.

Saat kami terus mengeksplorasi dan memajukan LLM berbasis dekoder, kami berharap dapat menyaksikan pencapaian yang lebih luar biasa dalam tugas-tugas terkait bahasa, serta integrasi model ini ke dalam berbagai aplikasi dan domain. Namun, penting untuk mengatasi pertimbangan etis, tantangan interpretasi, dan potensi bias yang mungkin timbul dari penerapan model-model canggih ini secara luas.

Dengan tetap menjadi yang terdepan dalam penelitian, mendorong kolaborasi terbuka, dan menjaga komitmen kuat terhadap pengembangan AI yang bertanggung jawab, kita dapat membuka potensi penuh LLM berbasis decoder sambil memastikan LLM tersebut dikembangkan dan digunakan dengan cara yang aman, etis, dan bermanfaat bagi masyarakat. masyarakat.

Saya telah menghabiskan lima tahun terakhir membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menakjubkan. Semangat dan keahlian saya telah membuat saya berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Keingintahuan saya yang berkelanjutan juga menarik saya ke Natural Language Processing, bidang yang ingin saya jelajahi lebih jauh.