Kacerdasan buatan

Modél Basa Besar Berbasis Dekoder: Pituduh Lengkep

diropéa on April 27, 2024

Modél Basa Besar Berbasis Dekoder: Pituduh Lengkep

Modél Basa Gedé (LLMs) parantos ngarobihkeun widang pangolahan basa alami (NLP) ku nunjukkeun kamampuan anu luar biasa dina ngahasilkeun téks sapertos manusa, ngawalon patarosan, sareng ngabantosan rupa-rupa tugas anu aya hubunganana sareng basa. Dina inti ieu model kuat perenahna di arsitéktur trafo decoder-hijina, varian arsitéktur trafo asli anu diusulkeun dina kertas mani "Perhatian nyaéta Sadaya anu Anjeun Peryogikeun” ku Vaswani dkk.

Dina pituduh komprehensif ieu, urang bakal ngajalajah cara kerja jero LLM dumasar-dekoder, ngagali kana blok wangunan dasar, inovasi arsitéktur, sareng detil palaksanaan anu parantos ngajantenkeun modél-modél ieu ka payuneun panalungtikan sareng aplikasi NLP.

Arsitéktur Transformer: A Refresher

Sateuacan nyilem kana spésifik LLM berbasis dekoder, penting pisan pikeun ningali deui arsitektur trafo, pondasi pikeun ngawangun modél ieu. Trafo ngawanohkeun pendekatan novél kana modeling runtuyan, ngandelkeun solely on mékanisme perhatian pikeun néwak dependensi jarak jauh dina data, tanpa merlukeun lapisan ulang atawa convolutional.

Arsitéktur Transformers

Arsitéktur trafo asli diwangun ku dua komponén utama: encoder sareng decoder. Encoder ngolah runtuyan input sarta ngahasilkeun representasi kontekstualisasi, nu lajeng dikonsumsi ku decoder pikeun ngahasilkeun runtuyan kaluaran. Arsitéktur ieu mimitina dirancang pikeun tugas tarjamah mesin, dimana encoder ngolah kalimah input dina basa sumber, sarta decoder nu ngahasilkeun kalimah luyu dina basa target.

Perhatosan diri: Konci pikeun Kasuksésan Transformer

Di haté tina trafo perenahna mékanisme timer perhatian, téhnik kuat anu ngamungkinkeun modél beuratna sarta agrégat informasi tina posisi béda dina urutan input. Teu kawas model runtuyan tradisional, nu ngolah tokens input sequentially, timer perhatian ngamungkinkeun model pikeun nangkep dependensi antara sagala pasangan tokens, paduli posisi maranéhanana dina urutan.

perhatian multiquery

Operasi timer perhatian bisa direcah jadi tilu hambalan utama:

Patarosan, Key, jeung Projections Niley: Urutan input diproyeksikan kana tilu representasi anu misah: queries (Q), kenop (K), jeung nilai (V). Proyéksi ieu dicandak ku cara ngalikeun input sareng matriks beurat diajar.
Perhatosan Skor Itungan: Pikeun unggal posisi dina urutan input, skor perhatian diitung ku cara nyokot produk titik antara véktor query pakait jeung sakabeh vektor konci. Skor ieu ngagambarkeun relevansi unggal posisi ka posisi ayeuna keur diolah.
Jumlah Beurat Nilai: Skor perhatian dinormalisasi ngagunakeun fungsi softmax, sarta beurat perhatian anu dihasilkeun dipaké pikeun ngitung jumlah beurat tina vektor nilai, ngahasilkeun ngagambarkeun kaluaran pikeun posisi ayeuna.

Perhatian multi-head, varian mékanisme perhatian diri, ngamungkinkeun modél pikeun moto sababaraha jinis hubungan ku ngitung skor perhatian dina sababaraha "huluna” sacara paralel, masing-masing gaduh set patarosan, konci, sareng proyéksi nilai sorangan.

Varian Arsitéktur sarta Konfigurasi

Bari prinsip inti LLMs basis decoder tetep konsisten, peneliti geus ngajajah rupa varian arsitéktur jeung konfigurasi pikeun ngaronjatkeun kinerja, efisiensi, jeung kamampuhan generalisasi. Dina bagian ieu, urang bakal delve kana pilihan arsitéktur béda jeung implikasi maranéhanana.

Jinis Arsitéktur

LLMs basis decoder bisa sacara lega digolongkeun kana tilu tipe utama: encoder-decoder, kausal decoder, jeung awalan decoder. Unggal jinis arsitéktur nunjukkeun pola perhatian anu béda.

Arsitéktur Encoder-Decoder

Dumasar kana modél Vanilla Transformer, arsitéktur encoder-decoder diwangun ku dua tumpukan: encoder sareng decoder. Encoder ngagunakeun lapisan timer perhatian multi-sirah tumpuk pikeun encode urutan input sarta ngahasilkeun ngagambarkeun laten. decoder nu lajeng ngalakukeun cross-perhatian on Répréséntasi ieu pikeun ngahasilkeun runtuyan target. Bari éféktif dina sagala rupa tugas NLP, sababaraha LLMs, kayaning Flan-T5, ngadopsi arsitektur ieu.

Arsitéktur decoder kausal

Arsitéktur decoder kausal incorporates topeng perhatian unidirectional, sahingga unggal token input hadir ngan ka token kaliwat tur sorangan. Duanana token input sareng kaluaran diolah dina dekoder anu sami. model kasohor kawas GPT-1, GPT-2, sareng GPT-3 diwangun dina arsitéktur ieu, kalayan GPT-3 nunjukkeun kamampuan diajar dina-konteks anu luar biasa. Seueur LLM, kalebet OPT, BLOOM, sareng Gopher, parantos ngadopsi dekoder kausal.

Arsitéktur decoder awalan

Ogé katelah dekoder non-kausal, arsitéktur dekoder awalan ngarobih mékanisme masking dekoder kausal pikeun ngaktifkeun perhatian dua arah dina token awalan sareng perhatian saarah dina token anu dihasilkeun. Sapertos arsitéktur éncoder-decoder, dékoder awalan tiasa nangkodkeun sekuen awalan dua arah sareng ngaduga token kaluaran sacara autoregresif ngagunakeun parameter anu dibagikeun. LLM dumasar kana dekoder awalan kalebet GLM130B sareng U-PaLM.

Katiluna jinis arsitéktur tiasa diperpanjang nganggo campuran-ahli-ahli (MoE) téhnik skala, nu sparsely ngaktifkeun sawaréh ti beurat jaringan saraf pikeun tiap input. Pendekatan ieu parantos dianggo dina modél sapertos Switch Transformer sareng GLaM, kalayan ningkatkeun jumlah ahli atanapi ukuran parameter total nunjukkeun perbaikan kinerja anu signifikan.

Decoder-Ngan Transformer: Nangkeup Alam Autoregressive

Sedengkeun arsitéktur trafo aslina dirancang pikeun tugas runtuyan-ka-urutan kawas tarjamahan mesin, loba tugas NLP, kayaning modeling basa jeung generasi téks, bisa dipiguraan salaku masalah autoregressive, dimana model ngahasilkeun hiji token dina hiji waktu, conditioned on tokens dihasilkeun saméméhna.

Lebetkeun trafo ngan ukur dekoder, varian saderhana tina arsitektur trafo anu ngan ukur nahan komponén dekoder. Arsitéktur ieu utamana cocog pikeun tugas autoregressive, sabab dibangkitkeun token kaluaran hiji-hiji, leveraging tokens dihasilkeun saméméhna salaku konteks input.

Beda konci antara trafo ukur dekoder sareng dekoder trafo asli aya dina mékanisme perhatian diri. Dina setting decoder-hijina, operasi timer perhatian dirobah pikeun nyegah model ti attending tokens hareup, sipat katelah kausalitas. Ieu kahontal ngaliwatan téhnik nu disebut "masked timer perhatian," dimana skor perhatian pakait jeung posisi hareup disetel ka takterhingga négatip, éféktif masking aranjeunna kaluar salila hambalan normalisasi softmax.

Komponén Arsitéktur LLMs basis decoder

Bari prinsip inti perhatian diri jeung masked perhatian diri tetep sarua, LLMs basis decoder modern geus diwanohkeun sababaraha inovasi arsitéktur pikeun ngaronjatkeun kinerja, efisiensi, jeung kamampuhan generalisasi. Hayu urang ngajalajah sababaraha komponén konci sareng téknik anu dianggo dina LLM anu canggih.

Répréséntasi Input

Saméméh ngolah runtuyan input, LLMs basis decoder ngagunakeun tokenization na embedding téhnik pikeun ngarobah téks atah kana ngagambarkeun numerik cocog pikeun modél.

embedding vektor

Tokenisasi: Prosés tokenization ngarobah téks input kana runtuyan tokens, nu bisa mangrupa kecap, subwords, atawa malah karakter individu, gumantung kana strategi tokenization padamelan. Téhnik tokenisasi populér pikeun LLM kalebet Byte-Pair Encoding (BPE), SentencePiece, sareng WordPiece. Métode ieu boga tujuan pikeun nyaimbangkeun antara ukuran kosakata jeung répréséntasi granularity, ngamungkinkeun modél pikeun nanganan kecap langka atawa kaluar-of-vocabulary éféktif.

Embeddings Token: Saatos tokenization, unggal token dipetakeun ka ngagambarkeun vektor padet disebut embedding token. Embeddings ieu diajar salila prosés latihan jeung néwak hubungan semantik jeung sintaksis antara tokens.

Embeddings Posisi: Modél trafo ngolah sakabéh runtuyan input sakaligus, kurang anggapan alamiah tina posisi token hadir dina model ngulang. Pikeun ngasupkeun informasi posisional, embeddings posisional ditambahkeun kana embeddings token, sahingga modél bisa ngabedakeun antara tokens dumasar kana posisi maranéhanana dina urutan. LLMs mimiti ngagunakeun émbeddings posisional tetep dumasar kana fungsi sinusoida, sedengkeun model nu leuwih anyar geus ngajajah embeddings posisional diajar atawa téhnik encoding posisional alternatif kawas embeddings posisi rotary.

Blok Perhatosan Multi-Kepala

Blok wangunan inti LLMs basis decoder mangrupakeun lapisan perhatian multi-sirah, nu ngalakukeun operasi timer perhatian masked ditétélakeun saméméhna. Lapisan-lapisan ieu ditumpuk sababaraha kali, kalayan unggal lapisan ngahadiran kaluaran lapisan samemehna, ngamungkinkeun model pikeun nangkep katergantungan sareng perwakilan anu langkung rumit.

Perhatosan Kepala: Unggal lapisan perhatian multi-sirah diwangun ku sababaraha "huluna perhatian," unggal kalawan set sorangan tina query, konci, sarta projections nilai. Hal ieu ngamungkinkeun modél pikeun ngahadiran aspék anu béda tina input sakaligus, nyandak hubungan sareng pola anu rupa-rupa.

Sambungan sésana jeung Normalisasi Lapisan: Pikeun ngagampangkeun palatihan jaringan jero sareng ngirangan masalah gradién anu ngaleungit, LLM berbasis dekoder nganggo sambungan sésa-sésa sareng téknik normalisasi lapisan. Koneksi sésa-sésa nambihan input lapisan kana kaluaranna, anu ngamungkinkeun gradién ngalir langkung gampang nalika backpropagation. Normalisasi lapisan mantuan pikeun nyaimbangkeun aktivasina sarta gradién, salajengna ngaronjatkeun stabilitas latihan jeung kinerja.

Feed-Teraskeun Lapisan

Salian lapisan perhatian multi-sirah, LLMs basis decoder ngasupkeun lapisan feed-hareup, nu nerapkeun jaringan neural feed-maju basajan pikeun tiap posisi dina urutan. Lapisan ieu ngenalkeun non-linearitas sareng ngaktifkeun modél diajar répréséntasi anu langkung kompleks.

Fungsi Aktivasina: Pilihan fungsi aktivasina dina lapisan feed-hareup nyata bisa mangaruhan kinerja model urang. Samentara LLMs saméméhna ngandelkeun aktivasina ReLU anu loba dipaké, modél nu leuwih anyar geus diadopsi pungsi aktivasina leuwih canggih kawas Gaussian Error Linear Unit (GELU) atawa aktivasina SwiGLU, nu geus ditémbongkeun ningkat kinerja.

Perhatian Jarang sareng Transformers Efisien

Bari mékanisme timer perhatian kuat, éta hadir kalawan pajeulitna komputasi kuadrat nu patali jeung panjang runtuyan, sahingga komputasi mahal pikeun runtuyan panjang. Pikeun ngatasi tantangan ieu, sababaraha téknik parantos diajukeun pikeun ngirangan syarat komputasi sareng mémori pikeun nengetan diri, ngamungkinkeun ngolah épisién tina sekuen anu langkung panjang.

Perhatosan jarang: Téhnik perhatian anu jarang, sapertos anu dianggo dina modél GPT-3, sacara selektif ngiringan sawaréh posisi dina sekuen input, tinimbang ngitung skor perhatian pikeun sadaya posisi. Ieu sacara signifikan tiasa ngirangan pajeulitna komputasi bari ngajaga kinerja anu lumrah.

Ngageser Jandela Perhatosan: Diwanohkeun dina modél Mistral 7B, sliding window attention (SWA) nyaéta téknik basajan tapi éféktif nu ngawatesan rentang perhatian unggal token ka ukuran jandela tetep. Pendekatan ieu ngamangpaatkeun kamampuan lapisan trafo pikeun ngirimkeun inpormasi dina sababaraha lapisan, sacara efektif ningkatkeun rentang perhatian tanpa pajeulitna kuadrat tina perhatian diri pinuh.

Rolling panyangga Cache: Jang meberkeun ngurangan sarat memori, hususna keur sekuen panjang, model Mistral 7B employs cache panyangga rolling. Téhnik ieu nyimpen sareng nganggo deui konci anu diitung sareng vektor nilai pikeun ukuran jandela anu tetep, ngahindarkeun komputasi anu kaleuleuwihan sareng ngaminimalkeun pamakean mémori.

Dikelompokeun Query Perhatosan: Diwanohkeun dina model LLaMA 2, dikelompokeun query perhatian (GQA) mangrupakeun varian mékanisme perhatian multi-query nu ngabagi sirah perhatian kana grup, unggal grup babagi hiji konci umum tur nilai matrix. Pendekatan ieu nyeken kasaimbangan antara efisiensi perhatian multi-query sareng kinerja perhatian diri standar, nyayogikeun waktos inferensi anu langkung saé bari ngajaga hasil anu kualitas luhur.

Dikelompokeun-query perhatian

Ukuran Modél jeung Skala

Salah sahiji ciri anu nangtukeun LLM modéren nyaéta skala ageungna, kalayan jumlah parameter mimitian ti milyaran dugi ka ratusan milyar. Ngaronjatkeun ukuran model geus jadi faktor krusial dina ngahontal kinerja canggih, sabab model nu leuwih gede bisa nangkep pola nu leuwih kompleks jeung hubungan dina data.

Parameter Count: Jumlah parameter dina LLM basis decoder utamana ditangtukeun ku dimensi embedding (d_model), jumlah sirah perhatian (n_heads), jumlah lapisan (n_layers), sarta ukuran kosakata (vocab_size). Contona, model GPT-3 175 milyar parameter, jeung d_model = 12288, n_heads = 96, n_lapisan = 96, sarta vocab_size = 50257.

Model Paralélisme: Pelatihan sareng nyebarkeun modél masif sapertos peryogi sumber komputasi anu ageung sareng hardware khusus. Pikeun ngatasi tantangan ieu, téknik modél paralélisme parantos dianggo, dimana modélna dibagi kana sababaraha GPU atanapi TPU, kalayan masing-masing alat nanggungjawaban kana bagian tina komputasi.

Campuran-of-Ahli: Pendekatan séjén pikeun skala LLMs nyaéta arsitéktur campuran-of-ahli (MoE), nu ngagabungkeun sababaraha model ahli, unggal specializing dina sawaréh husus tina data atawa tugas. Modél Mixtral 8x7B mangrupa conto model MoE nu leverages Mistral 7B salaku modél dasarna, ngahontal prestasi anu unggul bari ngajaga efisiensi komputasi.

Inferensi jeung Téks Generasi

Salah sahiji kasus pamakéan primér LLMs basis decoder nyaéta generasi téks, dimana model ngahasilkeun téks koheren jeung alam-sounding dumasar kana ajakan atawa konteks dibikeun.

Autoregressive Decoding: Salila inferensi, LLMs basis decoder ngahasilkeun téks dina ragam autoregressive, ngaramal hiji token dina hiji waktu dumasar kana tokens dihasilkeun saméméhna jeung ajakan input. Prosés ieu dituluykeun nepi ka minuhan kriteria eureun nu geus ditangtukeun, kayaning ngahontal panjang runtuyan maksimum atawa ngahasilkeun hiji tungtung-of-urutan token.

Stratégi Sampling: Pikeun ngahasilkeun téks anu rupa-rupa jeung réalistis, rupa-rupa stratégi sampling bisa dipaké, saperti top-k sampling, top-p sampling (ogé katelah nucleus sampling), atawa skala suhu. Téhnik ieu ngadalikeun trade-off antara diversity jeung kohérénsi téks dihasilkeun ku nyaluyukeun sebaran probabiliti leuwih kosakata.

Téknik Ajakan: Kualitas sareng spésifisitas pituduh input tiasa mangaruhan sacara signifikan kana téks anu dihasilkeun. Rékayasa gancang, seni ngarajin pituduh anu épéktip, parantos muncul salaku aspék anu penting pikeun ngamangpaatkeun LLM pikeun sagala rupa tugas, ngamungkinkeun para pangguna pikeun nungtun prosés generasi modél sareng ngahontal kaluaran anu dipikahoyong.

Decoding Manusa-in-the-Loop: Pikeun leuwih ngaronjatkeun kualitas sarta kohérénsi téks dihasilkeun, téhnik kawas Panguatan Diajar tina Eupan Balik Manusa (RLHF) parantos padamelan. Dina pendekatan ieu, ratings manusa nyadiakeun eupan balik kana téks dihasilkeun model urang, nu lajeng dipaké pikeun fine-tune model, éféktif aligning eta kalawan preferensi manusa sarta ngaronjatkeun outputs na.

Kamajuan sareng Arah Ka hareup

Widang LLM berbasis decoder ngembang pesat, kalayan panilitian anyar sareng terobosan anu terus-terusan ngadorong wates naon anu tiasa dihontal ku modél ieu. Ieu sababaraha kamajuan anu penting sareng arah anu bakal datang:

Varian trafo efisien: Sedengkeun perhatian sparse jeung perhatian jandela ngageser geus nyieun strides signifikan dina ngaronjatkeun efisiensi LLMs basis decoder, peneliti aktip ngajajah arsitéktur trafo alternatif jeung mékanisme perhatian pikeun salajengna ngurangan syarat komputasi bari ngajaga atawa ngaronjatkeun kinerja.

Multimodal LLMs: Ngalegaan kamampuhan LLM saluareun téks, model multimodal boga tujuan pikeun ngahijikeun sababaraha modalitas, kayaning gambar, audio, atawa video, kana hiji kerangka tunggal. Ieu ngabuka kamungkinan anu pikaresepeun pikeun aplikasi sapertos captioning gambar, ngawalon patarosan visual, sareng generasi eusi multimedia.

Generasi anu tiasa dikontrol: Aktipkeun kontrol halus dina téks dihasilkeun mangrupakeun arah nangtang tapi penting pikeun LLMs. Téhnik sapertos ngahasilkeun téks anu dikontrol sareng tuning ajakan tujuanana pikeun masihan pangguna kontrol anu langkung rinci kana sababaraha atribut téks anu dihasilkeun, sapertos gaya, nada, atanapi syarat eusi khusus.

kacindekan

LLMs basis decoder geus mecenghul salaku kakuatan transformative dina widang ngolah basa alam, ngadorong wates naon mungkin jeung generasi basa jeung pamahaman. Ti mimiti hina maranéhna salaku varian saderhana tina arsitéktur trafo, model ieu geus robah jadi sistem kacida canggih tur kuat, leveraging téhnik motong-ujung jeung inovasi arsitéktur.

Nalika urang terus ngajalajah sareng ngamajukeun LLM berbasis dekoder, urang tiasa ngarep-ngarep pikeun nyaksian prestasi anu langkung luar biasa dina tugas-tugas anu aya hubunganana sareng basa, ogé integrasi model-model ieu kana rupa-rupa aplikasi sareng domain. Nanging, penting pisan pikeun ngémutan pertimbangan étika, tantangan interpretasi, sareng poténsi bias anu timbul tina panyebaran nyebar tina modél anu kuat ieu.

Ku tetep di payuneun panalungtikan, ngabina kolaborasi kabuka, sareng ngajaga komitmen anu kuat pikeun ngembangkeun AI anu tanggung jawab, urang tiasa muka konci poténsi pinuh ku LLM berbasis dekoder bari mastikeun aranjeunna dikembangkeun sareng dimanfaatkeun sacara aman, étika, sareng mangpaat pikeun masarakat.

Topik nu patali:DARAH decoder GPT-3 LLM PaLM Téknik gancang perhatian diri trafo

nepi salajengna

Powerhouse Ukuran Saku: Ngabuka Microsoft Phi-3, Modél Basa Anu Cocog dina Telepon Anjeun

Ulah Cik

Mini-Gemini: Pertambangan Poténsi Modél Basa Visi Multimodalitas

Aayush Mittal

Kuring parantos nyéépkeun lima taun ka pengker dina dunya Mesin Pembelajaran sareng Pembelajaran Jero anu pikaresepeun. Gairah sareng kaahlian kuring nyababkeun kuring nyumbang kana langkung ti 50 rupa-rupa proyék rékayasa software, kalayan fokus khusus dina AI / ML. Rasa panasaran kuring anu terus-terusan ogé parantos narik kuring kana Pangolahan Basa Alam, hiji widang anu kuring hoyong pisan pikeun ngajajah salajengna.