Intelliġenza Artifiċjali
Mudelli tal-Lingwa Kbar Ibbażati fuq Decoder: Gwida Sħiħa
Mudelli Kbar tal-Lingwa (LLMs) irrevoluzzjonaw il-qasam tal-ipproċessar tal-lingwa naturali (NLP) billi wrew kapaċitajiet notevoli fil-ġenerazzjoni ta 'test li jixbaħ lill-bniedem, iwieġeb mistoqsijiet, u jassistu f'firxa wiesgħa ta' kompiti relatati mal-lingwa. Fil-qalba ta 'dawn il-mudelli qawwija tinsab il- arkitettura tat-transformer ta' decoder biss, varjant tal-arkitettura oriġinali tat-transformer proposta fid-dokument seminali "L-attenzjoni hija kulma għandek bżonn” minn Vaswani et al.
F'din il-gwida komprensiva, se nesploraw il-ħidma ta 'ġewwa ta' LLMs ibbażati fuq id-decoder, billi nidħlu fil-blokki fundamentali tal-bini, l-innovazzjonijiet arkitettoniċi, u d-dettalji tal-implimentazzjoni li wasslu dawn il-mudelli fuq quddiem tar-riċerka u l-applikazzjonijiet tal-NLP.
L-Arkitettura tat-Transformer: Aġġornament
Qabel ma tgħaddas fl-ispeċifiċitajiet ta 'LLMs ibbażati fuq id-decoder, huwa essenzjali li terġa' tiġi studjata l-arkitettura tat-transformer, il-pedament li fuqhom huma mibnija dawn il-mudelli. It-transformer introduċa approċċ ġdid għall-immudellar tas-sekwenza, billi bbaża ruħu biss fuq mekkaniżmi ta 'attenzjoni biex jinqabdu dipendenzi fuq medda twila fid-dejta, mingħajr il-ħtieġa ta' saffi rikorrenti jew konvoluzzjonali.
L-arkitettura oriġinali tat-transformer tikkonsisti f'żewġ komponenti ewlenin: encoder u decoder. L-encoder jipproċessa s-sekwenza tad-dħul u jiġġenera rappreżentazzjoni kuntestwali, li mbagħad tiġi kkunsmata mid-decoder biex tipproduċi s-sekwenza tal-ħruġ. Din l-arkitettura kienet inizjalment iddisinjata għal kompiti ta 'traduzzjoni awtomatika, fejn l-encoder jipproċessa s-sentenza tal-input fil-lingwa tas-sors, u d-decoder jiġġenera s-sentenza korrispondenti fil-lingwa fil-mira.
Attenzjoni għal rasha: Iċ-Ċavetta għas-Suċċess tat-Transformer
Fil-qalba tal- transformer tinsab il-mekkaniżmu ta 'awto-attenzjoni, teknika qawwija li tippermetti lill-mudell jiżen u jaggrega informazzjoni minn pożizzjonijiet differenti fis-sekwenza ta' input. B'differenza mill-mudelli ta 'sekwenza tradizzjonali, li jipproċessaw it-tokens tad-dħul b'mod sekwenzjali, l-attenzjoni personali tippermetti lill-mudell jaqbad id-dipendenzi bejn kwalunkwe par ta' tokens, irrispettivament mill-pożizzjoni tagħhom fis-sekwenza.
L-operazzjoni ta 'awto-attenzjoni tista' tinqasam fi tliet passi ewlenin:
- Mistoqsija, Ewlenin, u Projezzjonijiet tal-Valur: Is-sekwenza tad-dħul hija proġettata fi tliet rappreżentazzjonijiet separati: mistoqsijiet (Q), ċwievet (K), u Valuri (V). Dawn il-projezzjonijiet jinkisbu billi l-input jiġi mmultiplikat b'matriċi tal-piż tgħallmu.
- Kalkolu ta' Punteġġ ta' Attenzjoni: Għal kull pożizzjoni fis-sekwenza tal-input, il-punteġġi tal-attenzjoni jiġu kkalkulati billi jittieħed il-prodott b'tikek bejn il-vettur tal-mistoqsija korrispondenti u l-vettori ewlenin kollha. Dawn il-punteġġi jirrappreżentaw ir-rilevanza ta' kull pożizzjoni għall-pożizzjoni attwali li qed tiġi pproċessata.
- Somma Peżata tal-Valuri: Il-punteġġi tal-attenzjoni huma normalizzati bl-użu ta 'funzjoni softmax, u l-piżijiet tal-attenzjoni li jirriżultaw huma użati biex tiġi kkalkulata somma peżata tal-vettori tal-valur, li jipproduċu r-rappreżentazzjoni tal-output għall-pożizzjoni attwali.
Attenzjoni multi-head, varjant tal-mekkaniżmu ta 'awto-attenzjoni, tippermetti lill-mudell jaqbad tipi differenti ta' relazzjonijiet billi jikkalkula punteġġi ta 'attenzjoni fuq diversi "kapijiet” b’mod parallel, kull wieħed bis-sett tiegħu ta’ projezzjonijiet ta’ query, key, u value.
Varjanti u Konfigurazzjonijiet Arkitettoniċi
Filwaqt li l-prinċipji ewlenin tal-LLMs ibbażati fuq id-decoder jibqgħu konsistenti, ir-riċerkaturi esploraw diversi varjanti u konfigurazzjonijiet arkitettoniċi biex itejbu l-prestazzjoni, l-effiċjenza u l-kapaċitajiet ta 'ġeneralizzazzjoni. F'din it-taqsima, ser nidħlu fl-għażliet arkitettoniċi differenti u l-implikazzjonijiet tagħhom.
Tipi ta' Arkitettura
LLMs ibbażati fuq decoder jistgħu jiġu kklassifikati b'mod wiesa 'fi tliet tipi ewlenin: encoder-decoder, decoder kawżali, u decoder tal-prefiss. Kull tip ta 'arkitettura juri mudelli distinti ta' attenzjoni.
Arkitettura Encoder-Decoder
Ibbażat fuq il-mudell vanilla Transformer, l-arkitettura tal-kodifikatur-decoder tikkonsisti f'żewġ munzelli: encoder u decoder. L-encoder juża saffi ta 'attenzjoni waħedha multi-head f'munzelli biex jikkodifika s-sekwenza tal-input u jiġġenera rappreżentazzjonijiet latenti. Id-decoder imbagħad iwettaq attenzjoni inkroċjata fuq dawn ir-rappreżentazzjonijiet biex jiġġenera s-sekwenza fil-mira. Filwaqt li huwa effettiv f'diversi kompiti NLP, ftit LLMs, bħal Flan-T5, tadotta din l-arkitettura.
Arkitettura tad-Decoder Kawżali
L-arkitettura tad-decoder kawżali tinkorpora maskra ta 'attenzjoni unidirezzjonali, li tippermetti li kull token ta' input jattendi biss tokens tal-passat u lilu nnifsu. Kemm it-tokens tad-dħul kif ukoll tal-ħruġ huma pproċessati fl-istess decoder. Mudelli notevoli bħal GPT-1, GPT-2, u GPT-3 huma mibnija fuq din l-arkitettura, b'GPT-3 juri kapaċitajiet notevoli ta' tagħlim fil-kuntest. Ħafna LLMs, inklużi OPT, BLOOM, u Gopher, adottaw b'mod wiesa 'decoders kawżali.
Arkitettura tad-Decoder tal-Prefiss
Magħruf ukoll bħala d-decoder mhux kawżali, l-arkitettura tad-decoder tal-prefiss timmodifika l-mekkaniżmu tal-masking tad-decoders kawżali biex tippermetti attenzjoni bidirezzjonali fuq tokens tal-prefiss u attenzjoni unidirezzjonali fuq tokens iġġenerati. Bħall-arkitettura tal-kodifikatur-decoder, id-decoder tal-prefiss jistgħu jikkodifikaw is-sekwenza tal-prefiss b'mod bidirezzjonali u jbassru t-tokens tal-ħruġ b'mod autoregressiv billi jużaw parametri kondiviżi. LLMs ibbażati fuq decoders tal-prefiss jinkludu GLM130B u U-PaLM.
It-tliet tipi ta 'arkitettura kollha jistgħu jiġu estiżi bl-użu tal- taħlita ta' esperti (MoE) teknika ta' skalar, li tattiva b'mod skars subsett ta' piżijiet tan-netwerk newrali għal kull input. Dan l-approċċ intuża f'mudelli bħal Switch Transformer u GLaM, biż-żieda fin-numru ta 'esperti jew id-daqs totali tal-parametri li juru titjib sinifikanti fil-prestazzjoni.
Decoder-Only Transformer: Tħaddan in-Natura Autoregressive
Filwaqt li l-arkitettura oriġinali tat-transformer kienet iddisinjata għal kompiti minn sekwenza għal sekwenza bħal traduzzjoni awtomatika, ħafna kompiti NLP, bħall-immudellar tal-lingwa u l-ġenerazzjoni tat-test, jistgħu jiġu inkwadrati bħala problemi autoregressivi, fejn il-mudell jiġġenera token wieħed kull darba, ikkundizzjonat fuq il- tokens iġġenerati qabel.
Daħħal it-transformer tad-decoder biss, varjant simplifikat tal-arkitettura tat-transformer li żżomm biss il-komponent tad-decoder. Din l-arkitettura hija partikolarment adattata għal ħidmiet awtoregressivi, peress li tiġġenera tokens ta 'output wieħed wieħed, billi tuża t-tokens iġġenerati qabel bħala kuntest ta' input.
Id-differenza ewlenija bejn it-transformer ta 'decoder biss u d-decoder tat-transformer oriġinali tinsab fil-mekkaniżmu ta' awto-attenzjoni. Fl-issettjar ta 'decoder biss, l-operazzjoni ta' awto-attenzjoni hija modifikata biex tevita li l-mudell jattendi tokens futuri, proprjetà magħrufa bħala kawżalità. Dan jinkiseb permezz ta 'teknika msejħa "awto-attenzjoni mgħottija", fejn punteġġi ta' attenzjoni li jikkorrispondu għal pożizzjonijiet futuri huma ssettjati għal infinità negattiv, u effettivament jaħbuhom matul il-pass ta 'normalizzazzjoni tas-softmax.
Komponenti arkitettoniċi ta 'LLMs Ibbażati fuq Decoder
Filwaqt li l-prinċipji ewlenin tal-awto-attenzjoni u l-awto-attenzjoni mgħottija jibqgħu l-istess, LLMs moderni bbażati fuq decoder introduċew diversi innovazzjonijiet arkitettoniċi biex itejbu l-prestazzjoni, l-effiċjenza u l-kapaċitajiet ta 'ġeneralizzazzjoni. Ejja nesploraw xi wħud mill-komponenti u t-tekniki ewlenin użati fl-LLMs avvanzati.
Rappreżentazzjoni tal-Input
Qabel ma jipproċessaw is-sekwenza tal-input, LLMs ibbażati fuq decoder jużaw tekniki ta 'tokenizzazzjoni u inkorporazzjoni biex jikkonvertu t-test mhux maħdum f'rappreżentazzjoni numerika adattata għall-mudell.
Tokenizzazzjoni: Il-proċess ta 'tokenizzazzjoni jikkonverti t-test tad-dħul f'sekwenza ta' tokens, li jistgħu jkunu kliem, subkliem, jew saħansitra karattri individwali, skont l-istrateġija ta 'tokenizzazzjoni użata. Tekniki ta 'tokenizzazzjoni popolari għal LLMs jinkludu Byte-Pair Encoding (BPE), SentencePiece, u WordPiece. Dawn il-metodi għandhom l-għan li jsibu bilanċ bejn id-daqs tal-vokabularju u l-granularità tar-rappreżentazzjoni, li jippermettu lill-mudell jimmaniġġja kliem rari jew barra mill-vokabularju b'mod effettiv.
Token Embeddings: Wara t-tokenizzazzjoni, kull token jiġi mmappjat għal rappreżentazzjoni densa tal-vettur imsejħa token embedding. Dawn l-inkorporazzjonijiet jitgħallmu matul il-proċess tat-taħriġ u jaqbdu relazzjonijiet semantiċi u sintattiċi bejn it-tokens.
Inkorporazzjoni Pożizzjonali: Mudelli tat-trasformaturi jipproċessaw is-sekwenza kollha tal-input simultanjament, nieqes mill-kunċett inerenti tal-pożizzjonijiet tat-tokens preżenti f'mudelli rikorrenti. Biex tinkorpora informazzjoni pożizzjonali, inkorporazzjonijiet pożizzjonali huma miżjuda mal-inkorporazzjonijiet tat-tokens, li jippermettu lill-mudell jiddistingwi bejn tokens ibbażati fuq il-pożizzjonijiet tagħhom fis-sekwenza. LLMs bikrija użaw inkorporazzjonijiet pożizzjonali fissi bbażati fuq funzjonijiet sinusojdali, filwaqt li mudelli aktar reċenti esploraw inkorporazzjonijiet pożizzjonali li jistgħu jitgħallmu jew tekniki alternattivi ta 'kodifikazzjoni pożizzjonali bħal inkorporazzjonijiet pożizzjonali rotatorji.
Blokki ta' Attenzjoni b'ħafna Kap
Il-blokki tal-bini tal-qalba tal-LLMs ibbażati fuq id-decoder huma saffi ta 'attenzjoni b'ħafna ras, li jwettqu l-operazzjoni ta' awto-attenzjoni mgħottija deskritta qabel. Dawn is-saffi huma f'munzelli diversi drabi, b'kull saff jattendi għall-output tas-saff ta 'qabel, li jippermetti lill-mudell jaqbad dipendenzi u rappreżentazzjonijiet dejjem aktar kumplessi.
Attenzjoni Kapijiet: Kull saff ta 'attenzjoni b'ħafna rjus jikkonsisti f'diversi "irjus ta' attenzjoni," kull wieħed bis-sett tiegħu stess ta 'projezzjonijiet ta' mistoqsija, ċavetta u valur. Dan jippermetti lill-mudell jattendi aspetti differenti tal-input fl-istess ħin, jaqbad relazzjonijiet u mudelli diversi.
Konnessjonijiet Residwu u Normalizzazzjoni tas-Saff: Biex jiffaċilitaw it-taħriġ ta 'netwerks profondi u ttaffi l-problema tal-gradjent li jgħibu, LLMs ibbażati fuq decoder jimpjegaw konnessjonijiet residwi u tekniki ta' normalizzazzjoni tas-saff. Konnessjonijiet residwi jżidu l-input ta 'saff għall-output tiegħu, li jippermettu gradjenti jiċċirkolaw aktar faċilment matul backpropagation. In-normalizzazzjoni tas-saff tgħin biex tistabbilizza l-attivazzjonijiet u l-gradjenti, ittejjeb aktar l-istabbiltà u l-prestazzjoni tat-taħriġ.
Saffi Feed-Forward
Minbarra saffi ta 'attenzjoni multi-head, LLMs ibbażati fuq decoder jinkorporaw saffi ta' feed-forward, li japplikaw netwerk newrali sempliċi feed-forward għal kull pożizzjoni fis-sekwenza. Dawn is-saffi jintroduċu non-linearitajiet u jippermettu lill-mudell jitgħallem rappreżentazzjonijiet aktar kumplessi.
Funzjonijiet ta' Attivazzjoni: L-għażla tal-funzjoni ta 'attivazzjoni fis-saffi ta' feed-forward tista 'tħalli impatt sinifikanti fuq il-prestazzjoni tal-mudell. Filwaqt li LLMs preċedenti kienu jiddependu fuq l-attivazzjoni ReLU użata ħafna, mudelli aktar reċenti adottaw funzjonijiet ta 'attivazzjoni aktar sofistikati bħall-Unità Lineari ta' Żball Gaussian (GELU) jew l-attivazzjoni SwiGLU, li wrew prestazzjoni mtejba.
Attenzjoni Skarsa u Transformers Effiċjenti
Filwaqt li l-mekkaniżmu ta 'awto-attenzjoni huwa b'saħħtu, jiġi b'kumplessità komputazzjonali kwadratika fir-rigward tat-tul tas-sekwenza, li jagħmilha komputazzjoni għali għal sekwenzi twal. Biex tiġi indirizzata din l-isfida, ġew proposti diversi tekniki biex inaqqsu r-rekwiżiti tal-komputazzjoni u tal-memorja tal-attenzjoni personali, li jippermettu l-ipproċessar effiċjenti ta 'sekwenzi itwal.
Attenzjoni Skarsa: Tekniki ta 'attenzjoni skarsa, bħal dik użata fil-mudell GPT-3, jattendu b'mod selettiv għal subsett ta' pożizzjonijiet fis-sekwenza tal-input, aktar milli jikkalkulaw punteġġi tal-attenzjoni għall-pożizzjonijiet kollha. Dan jista 'jnaqqas b'mod sinifikanti l-kumplessità tal-komputazzjoni filwaqt li jżomm prestazzjoni raġonevoli.
Attenzjoni Tieqa li Tiżżerżaq: Introdott fil-mudell Mistral 7B, l-attenzjoni tat-tieqa li tiżżerżaq (SWA) hija teknika sempliċi iżda effettiva li tirrestrinġi l-firxa ta 'attenzjoni ta' kull token għal daqs tat-tieqa fiss. Dan l-approċċ jisfrutta l-abbiltà tas-saffi tat-trasformaturi biex jittrasmettu informazzjoni fuq saffi multipli, u jżid b'mod effettiv il-firxa ta 'attenzjoni mingħajr il-kumplessità kwadratika ta' awto-attenzjoni sħiħa.
Rolling Buffer Cache: Biex ikompli jitnaqqsu r-rekwiżiti tal-memorja, speċjalment għal sekwenzi twal, il-mudell Mistral 7B jimpjega rolling buffer cache. Din it-teknika taħżen u tuża mill-ġdid iċ-ċavetta kkalkulata u l-vettori tal-valur għal daqs tat-tieqa fiss, tevita komputazzjonijiet żejda u timminimizza l-użu tal-memorja.
Attenzjoni Mistoqsija Raggruppata: Introdott fil-mudell LLaMA 2, l-attenzjoni tal-mistoqsija raggruppata (GQA) hija varjant tal-mekkaniżmu ta 'attenzjoni multi-query li jaqsam l-irjus tal-attenzjoni fi gruppi, kull grupp jaqsam matriċi ta' ċavetta u valur komuni. Dan l-approċċ jilħaq bilanċ bejn l-effiċjenza ta 'attenzjoni multi-query u l-prestazzjoni ta' awto-attenzjoni standard, li jipprovdi ħinijiet ta 'inferenza mtejba filwaqt li jżommu riżultati ta' kwalità għolja.