Inteligjenca artificiale
Modele të mëdha gjuhësore të bazuara në dekoder: Një udhëzues i plotë
Modele të mëdha gjuhësore (LLM) kanë revolucionarizuar fushën e përpunimit të gjuhës natyrore (NLP) duke demonstruar aftësi të jashtëzakonshme në gjenerimin e teksteve të ngjashme me njeriun, duke iu përgjigjur pyetjeve dhe duke ndihmuar me një gamë të gjerë detyrash të lidhura me gjuhën. Në thelb të këtyre modeleve të fuqishme qëndron Arkitektura e transformatorit vetëm me dekoder, një variant i arkitekturës origjinale të transformatorit të propozuar në punimin kryesor "Vëmendja është gjithçka që ju nevojitet” nga Vaswani et al.
Në këtë udhëzues gjithëpërfshirës, ne do të eksplorojmë funksionimin e brendshëm të LLM-ve të bazuara në dekoder, duke u thelluar në blloqet themelore të ndërtimit, risitë arkitekturore dhe detajet e zbatimit që i kanë çuar këto modele në ballë të kërkimit dhe aplikimeve NLP.
Arkitektura e Transformerit: Një Përmirësues
Përpara se të zhyteni në specifikat e LLM-ve të bazuara në dekoder, është thelbësore të rishikoni arkitekturën e transformatorit, themelin mbi të cilin janë ndërtuar këto modele. Transformatori prezantoi një qasje të re për modelimin e sekuencave, duke u mbështetur vetëm në mekanizmat e vëmendjes për të kapur varësitë me rreze të gjatë në të dhëna, pa pasur nevojë për shtresa të përsëritura ose konvolucionale.
Arkitektura origjinale e transformatorit përbëhet nga dy komponentë kryesorë: një kodues dhe një dekoder. Enkoderi përpunon sekuencën hyrëse dhe gjeneron një paraqitje të kontekstualizuar, e cila më pas konsumohet nga dekoderi për të prodhuar sekuencën e daljes. Kjo arkitekturë fillimisht u krijua për detyrat e përkthimit me makinë, ku koduesi përpunon fjalinë hyrëse në gjuhën burimore dhe dekoderi gjeneron fjalinë përkatëse në gjuhën e synuar.
Vetë-Vëmendja: Çelësi i suksesit të Transformer-it
Në zemër të transformator qëndron mekanizmi i vetë-vëmendjes, një teknikë e fuqishme që lejon modelin të peshojë dhe grumbullojë informacione nga pozicione të ndryshme në sekuencën hyrëse. Ndryshe nga modelet tradicionale të sekuencave, të cilat përpunojnë shenjat hyrëse në mënyrë sekuenciale, vëmendja ndaj vetes i mundëson modelit të kapë varësitë midis çdo çifti shenjash, pavarësisht nga pozicioni i tyre në sekuencë.
Operacioni i vetë-vëmendjes mund të ndahet në tre hapa kryesorë:
- Parashikimet e pyetjeve, kyçeve dhe vlerave: Sekuenca e hyrjes projektohet në tre paraqitje të veçanta: pyetje (P), çelësat (K), dhe vlerat (V). Këto projeksione fitohen duke shumëzuar hyrjen me matricat e peshës së mësuar.
- Llogaritja e rezultatit të vëmendjes: Për çdo pozicion në sekuencën e hyrjes, rezultatet e vëmendjes llogariten duke marrë produktin e pikës midis vektorit përkatës të pyetjes dhe të gjithë vektorëve kyç. Këto pikë përfaqësojnë rëndësinë e secilit pozicion me pozicionin aktual që përpunohet.
- Shuma e ponderuar e vlerave: Rezultatet e vëmendjes normalizohen duke përdorur një funksion softmax, dhe peshat e vëmendjes që rezultojnë përdoren për të llogaritur një shumë të ponderuar të vektorëve të vlerës, duke prodhuar paraqitjen e daljes për pozicionin aktual.
Vëmendja me shumë kokë, një variant i mekanizmit të vetë-vëmendjes, lejon modelin të kapë lloje të ndryshme marrëdhëniesh duke llogaritur rezultatet e vëmendjes në shumë "kokatParalelisht, secila me grupin e vet të projeksioneve të pyetjeve, çelësave dhe vlerave.
Variantet dhe konfigurimet arkitekturore
Ndërsa parimet thelbësore të LLM-ve të bazuara në dekoder mbeten të qëndrueshme, studiuesit kanë eksploruar variante dhe konfigurime të ndryshme arkitekturore për të përmirësuar performancën, efikasitetin dhe aftësitë e përgjithësimit. Në këtë seksion, ne do të thellojmë në zgjedhjet e ndryshme arkitekturore dhe implikimet e tyre.
Llojet e Arkitekturës
LLM-të e bazuara në dekoder mund të klasifikohen gjerësisht në tre lloje kryesore: kodues-dekoder, dekoder shkakësor dhe dekoder prefiks. Çdo lloj arkitekture shfaq modele të dallueshme të vëmendjes.
Arkitekturë Enkoder-Dekoder
Bazuar në modelin e transformatorit të vaniljes, arkitektura kodues-dekoder përbëhet nga dy rafte: një kodues dhe një dekoder. Enkoderi përdor shtresa të grumbulluara të vetë-vëmendjes me shumë koka për të koduar sekuencën hyrëse dhe për të gjeneruar paraqitje latente. Më pas dekoderi kryen vëmendje të kryqëzuar në këto paraqitje për të gjeneruar sekuencën e synuar. Ndërsa efektive në detyra të ndryshme NLP, pak LLM, si p.sh Flan-T5, adoptoni këtë arkitekturë.
Arkitektura e dekoderit shkakësor
Arkitektura e dekoderit shkakësor përfshin një maskë vëmendjeje të njëanshme, duke lejuar që çdo token hyrës të marrë pjesë vetëm te shenjat e kaluara dhe vetveten. Të dy shenjat hyrëse dhe dalëse përpunohen brenda të njëjtit dekoder. Modele të dukshme si GPT-1, GPT-2 dhe GPT-3 janë ndërtuar mbi këtë arkitekturë, me GPT-3 që shfaq aftësi të jashtëzakonshme të të mësuarit në kontekst. Shumë LLM, duke përfshirë OPT, BLOOM dhe Gopher, kanë adoptuar gjerësisht dekoderë shkakësorë.
Arkitektura e dekoderit të prefiksit
I njohur gjithashtu si dekoderi jo shkakësor, arkitektura e dekoderit të prefiksit modifikon mekanizmin e maskimit të dekoderëve shkakësorë për të mundësuar vëmendjen e dyanshme mbi shenjat e parashtesave dhe vëmendjen e njëanshme në shenjat e gjeneruara. Ashtu si arkitektura kodues-dekoder, dekoduesit e prefiksit mund të kodojnë sekuencën e prefiksit në mënyrë të dyanshme dhe të parashikojnë shenjat e daljes në mënyrë autoregresive duke përdorur parametra të përbashkët. LLM-të e bazuara në dekoderat e prefiksit përfshijnë GLM130B dhe U-PaLM.
Të tre llojet e arkitekturës mund të zgjerohen duke përdorur përzierja e ekspertëve (MM) Teknika e shkallëzimit, e cila aktivizon rrallë një nëngrup të peshave të rrjetit nervor për çdo hyrje. Kjo qasje është përdorur në modele si Switch Transformer dhe GLaM, me rritjen e numrit të ekspertëve ose madhësinë totale të parametrave që tregojnë përmirësime të rëndësishme të performancës.
Transformator vetëm me dekoder: Përqafimi i natyrës autoregresive
Ndërsa arkitektura origjinale e transformatorit ishte projektuar për detyra sekuencë në sekuencë si përkthimi me makinë, shumë detyra NLP, të tilla si modelimi i gjuhës dhe gjenerimi i tekstit, mund të inkuadrohen si probleme autoregresive, ku modeli gjeneron një shenjë në një kohë, të kushtëzuara nga argumentet e krijuara më parë.
Futni transformatorin vetëm për dekoderin, një variant i thjeshtuar i arkitekturës së transformatorit që ruan vetëm komponentin e dekoderit. Kjo arkitekturë është veçanërisht e përshtatshme për detyrat autoregresive, pasi gjeneron shenjat e daljes një nga një, duke shfrytëzuar tokenat e krijuar më parë si kontekst hyrës.
Dallimi kryesor midis transformatorit vetëm me dekoder dhe dekoderit origjinal të transformatorit qëndron në mekanizmin e vetë-vëmendjes. Në vendosjen vetëm për dekoder, funksioni i vetë-vëmendjes modifikohet për të parandaluar modelin të marrë pjesë në shenjat e ardhshme, një veti e njohur si shkakësi. Kjo arrihet përmes një teknike të quajtur "vetë-vëmendje e maskuar", ku rezultatet e vëmendjes që korrespondojnë me pozicionet e ardhshme vendosen në pafundësi negative, duke i maskuar ato në mënyrë efektive gjatë hapit të normalizimit të softmax.
Komponentët arkitekturorë të LLM-ve të bazuara në dekoder
Ndërsa parimet thelbësore të vetë-vëmendjes dhe vëmendjes së maskuar mbeten të njëjta, LLM-të moderne të bazuara në dekoder kanë prezantuar disa risi arkitekturore për të përmirësuar performancën, efikasitetin dhe aftësitë e përgjithësimit. Le të eksplorojmë disa nga komponentët dhe teknikat kryesore të përdorura në LLM-të më të fundit.
Përfaqësimi i hyrjes
Përpara përpunimit të sekuencës së hyrjes, LLM-të e bazuara në dekoder përdorin teknika tokenizimi dhe ngulitjeje për të kthyer tekstin e papërpunuar në një paraqitje numerike të përshtatshme për modelin.
Tokenization: Procesi i tokenizimit e konverton tekstin e hyrjes në një sekuencë shenjash, të cilat mund të jenë fjalë, nënfjalë, apo edhe karaktere individuale, në varësi të strategjisë së tonifikimit të përdorur. Teknikat e njohura të tokenizimit për LLM përfshijnë kodimin e çifteve byte (BPE), SentencePiece dhe WordPiece. Këto metoda synojnë të vendosin një ekuilibër midis madhësisë së fjalorit dhe shkallës së përfaqësimit, duke lejuar modelin të trajtojë në mënyrë efektive fjalët e rralla ose jashtë fjalorit.
Embeddings Token: Pas tokenizimit, çdo token është hartuar në një paraqitje të dendur vektoriale të quajtur një ngulitje e tokenit. Këto përfshirje mësohen gjatë procesit të trajnimit dhe kapin marrëdhëniet semantike dhe sintaksore midis shenjave.
Embeddings Pozicionale: Modelet e transformatorëve përpunojnë të gjithë sekuencën hyrëse në të njëjtën kohë, duke i munguar nocioni i qenësishëm i pozicioneve të shenjave të pranishme në modelet e përsëritura. Për të inkorporuar informacionin pozicional, futjet e pozicionit shtohen në vendosjet e shenjave, duke i lejuar modelit të dallojë midis shenjave bazuar në pozicionet e tyre në sekuencë. LLM-të e hershme përdorën ngulitje pozicionale fikse të bazuara në funksione sinusoidale, ndërsa modelet më të fundit kanë eksploruar ngulitje pozicionale të mësueshme ose teknika alternative të kodimit pozicional si ngulitje pozicionale rrotulluese.
Blloqe të vëmendjes me shumë kokë
Blloqet kryesore të ndërtimit të LLM-ve të bazuara në dekoder janë shtresa të vëmendjes me shumë koka, të cilat kryejnë operacionin e maskuar të vetë-vëmendjes të përshkruar më sipër. Këto shtresa grumbullohen disa herë, me secilën shtresë që merr pjesë në daljen e shtresës së mëparshme, duke lejuar modelin të kapë varësi dhe paraqitje gjithnjë e më komplekse.
Krerët e vëmendjes: Çdo shtresë e vëmendjes me shumë koka përbëhet nga "koka të vëmendjes" të shumta, secila me grupin e vet të projeksioneve të pyetjeve, çelësave dhe vlerave. Kjo i lejon modelit të marrë pjesë në aspekte të ndryshme të hyrjes në të njëjtën kohë, duke kapur marrëdhënie dhe modele të ndryshme.
Lidhjet e mbetura dhe Normalizimi i Shtresave: Për të lehtësuar trajnimin e rrjeteve të thella dhe për të zbutur problemin e zhdukjes së gradientit, LLM-të e bazuara në dekoder përdorin lidhjet e mbetura dhe teknikat e normalizimit të shtresave. Lidhjet e mbetura shtojnë hyrjen e një shtrese në daljen e saj, duke lejuar që gradientët të rrjedhin më lehtë gjatë përhapjes së pasme. Normalizimi i shtresave ndihmon në stabilizimin e aktivizimeve dhe gradientëve, duke përmirësuar më tej stabilitetin dhe performancën e stërvitjes.
Shtresat Feed-Forward
Përveç shtresave të vëmendjes me shumë koka, LLM-të e bazuara në dekoder inkorporojnë shtresa përpara, të cilat aplikojnë një rrjet nervor të thjeshtë përçues në çdo pozicion në sekuencë. Këto shtresa paraqesin jolinearitete dhe i mundësojnë modelit të mësojë paraqitje më komplekse.
Funksionet e aktivizimit: Zgjedhja e funksionit të aktivizimit në shtresat e furnizimit përpara mund të ndikojë ndjeshëm në performancën e modelit. Ndërsa LLM-të e mëparshme mbështeteshin në aktivizimin e përdorur gjerësisht të ReLU, modelet më të fundit kanë adoptuar funksione më të sofistikuara aktivizimi si Njësia Lineare e Gabimit Gaussian (GELU) ose aktivizimi SwiGLU, të cilat kanë treguar performancë të përmirësuar.
Vëmendje e rrallë dhe transformatorë efikasë
Ndërsa mekanizmi i vetë-vëmendjes është i fuqishëm, ai vjen me një kompleksitet kuadratik llogaritës në lidhje me gjatësinë e sekuencës, duke e bërë atë llogaritësisht të shtrenjtë për sekuenca të gjata. Për të adresuar këtë sfidë, janë propozuar disa teknika për të reduktuar kërkesat llogaritëse dhe memorien e vetë-vëmendjes, duke mundësuar përpunimin efikas të sekuencave më të gjata.
Vëmendje e rrallë: Teknikat e vëmendjes së rrallë, si ajo e përdorur në modelin GPT-3, ndjekin në mënyrë selektive një nëngrup pozicionesh në sekuencën hyrëse, në vend që të llogaritin rezultatet e vëmendjes për të gjitha pozicionet. Kjo mund të zvogëlojë ndjeshëm kompleksitetin llogaritës duke ruajtur performancën e arsyeshme.
Dritare rrëshqitëse Kujdes: E prezantuar në modelin Mistral 7B, vëmendja e dritares rrëshqitëse (SWA) është një teknikë e thjeshtë por efektive që kufizon hapësirën e vëmendjes së çdo token në një madhësi fikse të dritares. Kjo qasje shfrytëzon aftësinë e shtresave të transformatorit për të transmetuar informacione nëpër shtresa të shumta, duke rritur në mënyrë efektive hapësirën e vëmendjes pa kompleksitetin kuadratik të vetë-vëmendjes së plotë.
Rolling Buffer Cache: Për të reduktuar më tej kërkesat e memories, veçanërisht për sekuencat e gjata, modeli Mistral 7B përdor një memorie të memories rrotulluese. Kjo teknikë ruan dhe ripërdor vektorët e llogaritur të çelësit dhe vlerës për një madhësi fikse të dritares, duke shmangur llogaritjet e tepërta dhe duke minimizuar përdorimin e kujtesës.
Vëmendje e pyetjeve të grupuara: I prezantuar në modelin LLaMA 2, vëmendja e grupuar e pyetjeve (GQA) është një variant i mekanizmit të vëmendjes me shumë pyetje që ndan kokat e vëmendjes në grupe, secili grup ka një çelës të përbashkët dhe matricë vlerash. Kjo qasje vendos një ekuilibër midis efikasitetit të vëmendjes me shumë pyetje dhe performancës së vetë-vëmendjes standarde, duke siguruar kohë të përmirësuara të përfundimit duke ruajtur rezultate me cilësi të lartë.