Kacerdasan buatan
Modél Basa Besar Berbasis Dekoder: Pituduh Lengkep
Modél Basa Gedé (LLMs) parantos ngarobihkeun widang pangolahan basa alami (NLP) ku nunjukkeun kamampuan anu luar biasa dina ngahasilkeun téks sapertos manusa, ngawalon patarosan, sareng ngabantosan rupa-rupa tugas anu aya hubunganana sareng basa. Dina inti ieu model kuat perenahna di arsitéktur trafo decoder-hijina, varian arsitéktur trafo asli anu diusulkeun dina kertas mani "Perhatian nyaéta Sadaya anu Anjeun Peryogikeun” ku Vaswani dkk.
Dina pituduh komprehensif ieu, urang bakal ngajalajah cara kerja jero LLM dumasar-dekoder, ngagali kana blok wangunan dasar, inovasi arsitéktur, sareng detil palaksanaan anu parantos ngajantenkeun modél-modél ieu ka payuneun panalungtikan sareng aplikasi NLP.
Arsitéktur Transformer: A Refresher
Sateuacan nyilem kana spésifik LLM berbasis dekoder, penting pisan pikeun ningali deui arsitektur trafo, pondasi pikeun ngawangun modél ieu. Trafo ngawanohkeun pendekatan novél kana modeling runtuyan, ngandelkeun solely on mékanisme perhatian pikeun néwak dependensi jarak jauh dina data, tanpa merlukeun lapisan ulang atawa convolutional.
Arsitéktur trafo asli diwangun ku dua komponén utama: encoder sareng decoder. Encoder ngolah runtuyan input sarta ngahasilkeun representasi kontekstualisasi, nu lajeng dikonsumsi ku decoder pikeun ngahasilkeun runtuyan kaluaran. Arsitéktur ieu mimitina dirancang pikeun tugas tarjamah mesin, dimana encoder ngolah kalimah input dina basa sumber, sarta decoder nu ngahasilkeun kalimah luyu dina basa target.
Perhatosan diri: Konci pikeun Kasuksésan Transformer
Di haté tina trafo perenahna mékanisme timer perhatian, téhnik kuat anu ngamungkinkeun modél beuratna sarta agrégat informasi tina posisi béda dina urutan input. Teu kawas model runtuyan tradisional, nu ngolah tokens input sequentially, timer perhatian ngamungkinkeun model pikeun nangkep dependensi antara sagala pasangan tokens, paduli posisi maranéhanana dina urutan.
Operasi timer perhatian bisa direcah jadi tilu hambalan utama:
- Patarosan, Key, jeung Projections Niley: Urutan input diproyeksikan kana tilu representasi anu misah: queries (Q), kenop (K), jeung nilai (V). Proyéksi ieu dicandak ku cara ngalikeun input sareng matriks beurat diajar.
- Perhatosan Skor Itungan: Pikeun unggal posisi dina urutan input, skor perhatian diitung ku cara nyokot produk titik antara véktor query pakait jeung sakabeh vektor konci. Skor ieu ngagambarkeun relevansi unggal posisi ka posisi ayeuna keur diolah.
- Jumlah Beurat Nilai: Skor perhatian dinormalisasi ngagunakeun fungsi softmax, sarta beurat perhatian anu dihasilkeun dipaké pikeun ngitung jumlah beurat tina vektor nilai, ngahasilkeun ngagambarkeun kaluaran pikeun posisi ayeuna.
Perhatian multi-head, varian mékanisme perhatian diri, ngamungkinkeun modél pikeun moto sababaraha jinis hubungan ku ngitung skor perhatian dina sababaraha "huluna” sacara paralel, masing-masing gaduh set patarosan, konci, sareng proyéksi nilai sorangan.
Varian Arsitéktur sarta Konfigurasi
Bari prinsip inti LLMs basis decoder tetep konsisten, peneliti geus ngajajah rupa varian arsitéktur jeung konfigurasi pikeun ngaronjatkeun kinerja, efisiensi, jeung kamampuhan generalisasi. Dina bagian ieu, urang bakal delve kana pilihan arsitéktur béda jeung implikasi maranéhanana.
Jinis Arsitéktur
LLMs basis decoder bisa sacara lega digolongkeun kana tilu tipe utama: encoder-decoder, kausal decoder, jeung awalan decoder. Unggal jinis arsitéktur nunjukkeun pola perhatian anu béda.
Arsitéktur Encoder-Decoder
Dumasar kana modél Vanilla Transformer, arsitéktur encoder-decoder diwangun ku dua tumpukan: encoder sareng decoder. Encoder ngagunakeun lapisan timer perhatian multi-sirah tumpuk pikeun encode urutan input sarta ngahasilkeun ngagambarkeun laten. decoder nu lajeng ngalakukeun cross-perhatian on Répréséntasi ieu pikeun ngahasilkeun runtuyan target. Bari éféktif dina sagala rupa tugas NLP, sababaraha LLMs, kayaning Flan-T5, ngadopsi arsitektur ieu.
Arsitéktur decoder kausal
Arsitéktur decoder kausal incorporates topeng perhatian unidirectional, sahingga unggal token input hadir ngan ka token kaliwat tur sorangan. Duanana token input sareng kaluaran diolah dina dekoder anu sami. model kasohor kawas GPT-1, GPT-2, sareng GPT-3 diwangun dina arsitéktur ieu, kalayan GPT-3 nunjukkeun kamampuan diajar dina-konteks anu luar biasa. Seueur LLM, kalebet OPT, BLOOM, sareng Gopher, parantos ngadopsi dekoder kausal.
Arsitéktur decoder awalan
Ogé katelah dekoder non-kausal, arsitéktur dekoder awalan ngarobih mékanisme masking dekoder kausal pikeun ngaktifkeun perhatian dua arah dina token awalan sareng perhatian saarah dina token anu dihasilkeun. Sapertos arsitéktur éncoder-decoder, dékoder awalan tiasa nangkodkeun sekuen awalan dua arah sareng ngaduga token kaluaran sacara autoregresif ngagunakeun parameter anu dibagikeun. LLM dumasar kana dekoder awalan kalebet GLM130B sareng U-PaLM.
Katiluna jinis arsitéktur tiasa diperpanjang nganggo campuran-ahli-ahli (MoE) téhnik skala, nu sparsely ngaktifkeun sawaréh ti beurat jaringan saraf pikeun tiap input. Pendekatan ieu parantos dianggo dina modél sapertos Switch Transformer sareng GLaM, kalayan ningkatkeun jumlah ahli atanapi ukuran parameter total nunjukkeun perbaikan kinerja anu signifikan.
Decoder-Ngan Transformer: Nangkeup Alam Autoregressive
Sedengkeun arsitéktur trafo aslina dirancang pikeun tugas runtuyan-ka-urutan kawas tarjamahan mesin, loba tugas NLP, kayaning modeling basa jeung generasi téks, bisa dipiguraan salaku masalah autoregressive, dimana model ngahasilkeun hiji token dina hiji waktu, conditioned on tokens dihasilkeun saméméhna.
Lebetkeun trafo ngan ukur dekoder, varian saderhana tina arsitektur trafo anu ngan ukur nahan komponén dekoder. Arsitéktur ieu utamana cocog pikeun tugas autoregressive, sabab dibangkitkeun token kaluaran hiji-hiji, leveraging tokens dihasilkeun saméméhna salaku konteks input.
Beda konci antara trafo ukur dekoder sareng dekoder trafo asli aya dina mékanisme perhatian diri. Dina setting decoder-hijina, operasi timer perhatian dirobah pikeun nyegah model ti attending tokens hareup, sipat katelah kausalitas. Ieu kahontal ngaliwatan téhnik nu disebut "masked timer perhatian," dimana skor perhatian pakait jeung posisi hareup disetel ka takterhingga négatip, éféktif masking aranjeunna kaluar salila hambalan normalisasi softmax.
Komponén Arsitéktur LLMs basis decoder
Bari prinsip inti perhatian diri jeung masked perhatian diri tetep sarua, LLMs basis decoder modern geus diwanohkeun sababaraha inovasi arsitéktur pikeun ngaronjatkeun kinerja, efisiensi, jeung kamampuhan generalisasi. Hayu urang ngajalajah sababaraha komponén konci sareng téknik anu dianggo dina LLM anu canggih.
Répréséntasi Input
Saméméh ngolah runtuyan input, LLMs basis decoder ngagunakeun tokenization na embedding téhnik pikeun ngarobah téks atah kana ngagambarkeun numerik cocog pikeun modél.
Tokenisasi: Prosés tokenization ngarobah téks input kana runtuyan tokens, nu bisa mangrupa kecap, subwords, atawa malah karakter individu, gumantung kana strategi tokenization padamelan. Téhnik tokenisasi populér pikeun LLM kalebet Byte-Pair Encoding (BPE), SentencePiece, sareng WordPiece. Métode ieu boga tujuan pikeun nyaimbangkeun antara ukuran kosakata jeung répréséntasi granularity, ngamungkinkeun modél pikeun nanganan kecap langka atawa kaluar-of-vocabulary éféktif.
Embeddings Token: Saatos tokenization, unggal token dipetakeun ka ngagambarkeun vektor padet disebut embedding token. Embeddings ieu diajar salila prosés latihan jeung néwak hubungan semantik jeung sintaksis antara tokens.
Embeddings Posisi: Modél trafo ngolah sakabéh runtuyan input sakaligus, kurang anggapan alamiah tina posisi token hadir dina model ngulang. Pikeun ngasupkeun informasi posisional, embeddings posisional ditambahkeun kana embeddings token, sahingga modél bisa ngabedakeun antara tokens dumasar kana posisi maranéhanana dina urutan. LLMs mimiti ngagunakeun émbeddings posisional tetep dumasar kana fungsi sinusoida, sedengkeun model nu leuwih anyar geus ngajajah embeddings posisional diajar atawa téhnik encoding posisional alternatif kawas embeddings posisi rotary.
Blok Perhatosan Multi-Kepala
Blok wangunan inti LLMs basis decoder mangrupakeun lapisan perhatian multi-sirah, nu ngalakukeun operasi timer perhatian masked ditétélakeun saméméhna. Lapisan-lapisan ieu ditumpuk sababaraha kali, kalayan unggal lapisan ngahadiran kaluaran lapisan samemehna, ngamungkinkeun model pikeun nangkep katergantungan sareng perwakilan anu langkung rumit.
Perhatosan Kepala: Unggal lapisan perhatian multi-sirah diwangun ku sababaraha "huluna perhatian," unggal kalawan set sorangan tina query, konci, sarta projections nilai. Hal ieu ngamungkinkeun modél pikeun ngahadiran aspék anu béda tina input sakaligus, nyandak hubungan sareng pola anu rupa-rupa.
Sambungan sésana jeung Normalisasi Lapisan: Pikeun ngagampangkeun palatihan jaringan jero sareng ngirangan masalah gradién anu ngaleungit, LLM berbasis dekoder nganggo sambungan sésa-sésa sareng téknik normalisasi lapisan. Koneksi sésa-sésa nambihan input lapisan kana kaluaranna, anu ngamungkinkeun gradién ngalir langkung gampang nalika backpropagation. Normalisasi lapisan mantuan pikeun nyaimbangkeun aktivasina sarta gradién, salajengna ngaronjatkeun stabilitas latihan jeung kinerja.
Feed-Teraskeun Lapisan
Salian lapisan perhatian multi-sirah, LLMs basis decoder ngasupkeun lapisan feed-hareup, nu nerapkeun jaringan neural feed-maju basajan pikeun tiap posisi dina urutan. Lapisan ieu ngenalkeun non-linearitas sareng ngaktifkeun modél diajar répréséntasi anu langkung kompleks.
Fungsi Aktivasina: Pilihan fungsi aktivasina dina lapisan feed-hareup nyata bisa mangaruhan kinerja model urang. Samentara LLMs saméméhna ngandelkeun aktivasina ReLU anu loba dipaké, modél nu leuwih anyar geus diadopsi pungsi aktivasina leuwih canggih kawas Gaussian Error Linear Unit (GELU) atawa aktivasina SwiGLU, nu geus ditémbongkeun ningkat kinerja.
Perhatian Jarang sareng Transformers Efisien
Bari mékanisme timer perhatian kuat, éta hadir kalawan pajeulitna komputasi kuadrat nu patali jeung panjang runtuyan, sahingga komputasi mahal pikeun runtuyan panjang. Pikeun ngatasi tantangan ieu, sababaraha téknik parantos diajukeun pikeun ngirangan syarat komputasi sareng mémori pikeun nengetan diri, ngamungkinkeun ngolah épisién tina sekuen anu langkung panjang.
Perhatosan jarang: Téhnik perhatian anu jarang, sapertos anu dianggo dina modél GPT-3, sacara selektif ngiringan sawaréh posisi dina sekuen input, tinimbang ngitung skor perhatian pikeun sadaya posisi. Ieu sacara signifikan tiasa ngirangan pajeulitna komputasi bari ngajaga kinerja anu lumrah.
Ngageser Jandela Perhatosan: Diwanohkeun dina modél Mistral 7B, sliding window attention (SWA) nyaéta téknik basajan tapi éféktif nu ngawatesan rentang perhatian unggal token ka ukuran jandela tetep. Pendekatan ieu ngamangpaatkeun kamampuan lapisan trafo pikeun ngirimkeun inpormasi dina sababaraha lapisan, sacara efektif ningkatkeun rentang perhatian tanpa pajeulitna kuadrat tina perhatian diri pinuh.
Rolling panyangga Cache: Jang meberkeun ngurangan sarat memori, hususna keur sekuen panjang, model Mistral 7B employs cache panyangga rolling. Téhnik ieu nyimpen sareng nganggo deui konci anu diitung sareng vektor nilai pikeun ukuran jandela anu tetep, ngahindarkeun komputasi anu kaleuleuwihan sareng ngaminimalkeun pamakean mémori.
Dikelompokeun Query Perhatosan: Diwanohkeun dina model LLaMA 2, dikelompokeun query perhatian (GQA) mangrupakeun varian mékanisme perhatian multi-query nu ngabagi sirah perhatian kana grup, unggal grup babagi hiji konci umum tur nilai matrix. Pendekatan ieu nyeken kasaimbangan antara efisiensi perhatian multi-query sareng kinerja perhatian diri standar, nyayogikeun waktos inferensi anu langkung saé bari ngajaga hasil anu kualitas luhur.