Inteligjenca artificiale

Modele të mëdha gjuhësore të bazuara në dekoder: Një udhëzues i plotë

Përditësuar on Prill 27, 2024

Modele të mëdha gjuhësore të bazuara në dekoder: Një udhëzues i plotë

Modele të mëdha gjuhësore (LLM) kanë revolucionarizuar fushën e përpunimit të gjuhës natyrore (NLP) duke demonstruar aftësi të jashtëzakonshme në gjenerimin e teksteve të ngjashme me njeriun, duke iu përgjigjur pyetjeve dhe duke ndihmuar me një gamë të gjerë detyrash të lidhura me gjuhën. Në thelb të këtyre modeleve të fuqishme qëndron Arkitektura e transformatorit vetëm me dekoder, një variant i arkitekturës origjinale të transformatorit të propozuar në punimin kryesor "Vëmendja është gjithçka që ju nevojitet” nga Vaswani et al.

Në këtë udhëzues gjithëpërfshirës, ne do të eksplorojmë funksionimin e brendshëm të LLM-ve të bazuara në dekoder, duke u thelluar në blloqet themelore të ndërtimit, risitë arkitekturore dhe detajet e zbatimit që i kanë çuar këto modele në ballë të kërkimit dhe aplikimeve NLP.

Arkitektura e Transformerit: Një Përmirësues

Përpara se të zhyteni në specifikat e LLM-ve të bazuara në dekoder, është thelbësore të rishikoni arkitekturën e transformatorit, themelin mbi të cilin janë ndërtuar këto modele. Transformatori prezantoi një qasje të re për modelimin e sekuencave, duke u mbështetur vetëm në mekanizmat e vëmendjes për të kapur varësitë me rreze të gjatë në të dhëna, pa pasur nevojë për shtresa të përsëritura ose konvolucionale.

Arkitektura e transformatorëve

Arkitektura origjinale e transformatorit përbëhet nga dy komponentë kryesorë: një kodues dhe një dekoder. Enkoderi përpunon sekuencën hyrëse dhe gjeneron një paraqitje të kontekstualizuar, e cila më pas konsumohet nga dekoderi për të prodhuar sekuencën e daljes. Kjo arkitekturë fillimisht u krijua për detyrat e përkthimit me makinë, ku koduesi përpunon fjalinë hyrëse në gjuhën burimore dhe dekoderi gjeneron fjalinë përkatëse në gjuhën e synuar.

Vetë-Vëmendja: Çelësi i suksesit të Transformer-it

Në zemër të transformator qëndron mekanizmi i vetë-vëmendjes, një teknikë e fuqishme që lejon modelin të peshojë dhe grumbullojë informacione nga pozicione të ndryshme në sekuencën hyrëse. Ndryshe nga modelet tradicionale të sekuencave, të cilat përpunojnë shenjat hyrëse në mënyrë sekuenciale, vëmendja ndaj vetes i mundëson modelit të kapë varësitë midis çdo çifti shenjash, pavarësisht nga pozicioni i tyre në sekuencë.

Vëmendje multiquery

Operacioni i vetë-vëmendjes mund të ndahet në tre hapa kryesorë:

Parashikimet e pyetjeve, kyçeve dhe vlerave: Sekuenca e hyrjes projektohet në tre paraqitje të veçanta: pyetje (P), çelësat (K), dhe vlerat (V). Këto projeksione fitohen duke shumëzuar hyrjen me matricat e peshës së mësuar.
Llogaritja e rezultatit të vëmendjes: Për çdo pozicion në sekuencën e hyrjes, rezultatet e vëmendjes llogariten duke marrë produktin e pikës midis vektorit përkatës të pyetjes dhe të gjithë vektorëve kyç. Këto pikë përfaqësojnë rëndësinë e secilit pozicion me pozicionin aktual që përpunohet.
Shuma e ponderuar e vlerave: Rezultatet e vëmendjes normalizohen duke përdorur një funksion softmax, dhe peshat e vëmendjes që rezultojnë përdoren për të llogaritur një shumë të ponderuar të vektorëve të vlerës, duke prodhuar paraqitjen e daljes për pozicionin aktual.

Vëmendja me shumë kokë, një variant i mekanizmit të vetë-vëmendjes, lejon modelin të kapë lloje të ndryshme marrëdhëniesh duke llogaritur rezultatet e vëmendjes në shumë "kokatParalelisht, secila me grupin e vet të projeksioneve të pyetjeve, çelësave dhe vlerave.

Variantet dhe konfigurimet arkitekturore

Ndërsa parimet thelbësore të LLM-ve të bazuara në dekoder mbeten të qëndrueshme, studiuesit kanë eksploruar variante dhe konfigurime të ndryshme arkitekturore për të përmirësuar performancën, efikasitetin dhe aftësitë e përgjithësimit. Në këtë seksion, ne do të thellojmë në zgjedhjet e ndryshme arkitekturore dhe implikimet e tyre.

Llojet e Arkitekturës

LLM-të e bazuara në dekoder mund të klasifikohen gjerësisht në tre lloje kryesore: kodues-dekoder, dekoder shkakësor dhe dekoder prefiks. Çdo lloj arkitekture shfaq modele të dallueshme të vëmendjes.

Arkitekturë Enkoder-Dekoder

Bazuar në modelin e transformatorit të vaniljes, arkitektura kodues-dekoder përbëhet nga dy rafte: një kodues dhe një dekoder. Enkoderi përdor shtresa të grumbulluara të vetë-vëmendjes me shumë koka për të koduar sekuencën hyrëse dhe për të gjeneruar paraqitje latente. Më pas dekoderi kryen vëmendje të kryqëzuar në këto paraqitje për të gjeneruar sekuencën e synuar. Ndërsa efektive në detyra të ndryshme NLP, pak LLM, si p.sh Flan-T5, adoptoni këtë arkitekturë.

Arkitektura e dekoderit shkakësor

Arkitektura e dekoderit shkakësor përfshin një maskë vëmendjeje të njëanshme, duke lejuar që çdo token hyrës të marrë pjesë vetëm te shenjat e kaluara dhe vetveten. Të dy shenjat hyrëse dhe dalëse përpunohen brenda të njëjtit dekoder. Modele të dukshme si GPT-1, GPT-2 dhe GPT-3 janë ndërtuar mbi këtë arkitekturë, me GPT-3 që shfaq aftësi të jashtëzakonshme të të mësuarit në kontekst. Shumë LLM, duke përfshirë OPT, BLOOM dhe Gopher, kanë adoptuar gjerësisht dekoderë shkakësorë.

Arkitektura e dekoderit të prefiksit

I njohur gjithashtu si dekoderi jo shkakësor, arkitektura e dekoderit të prefiksit modifikon mekanizmin e maskimit të dekoderëve shkakësorë për të mundësuar vëmendjen e dyanshme mbi shenjat e parashtesave dhe vëmendjen e njëanshme në shenjat e gjeneruara. Ashtu si arkitektura kodues-dekoder, dekoduesit e prefiksit mund të kodojnë sekuencën e prefiksit në mënyrë të dyanshme dhe të parashikojnë shenjat e daljes në mënyrë autoregresive duke përdorur parametra të përbashkët. LLM-të e bazuara në dekoderat e prefiksit përfshijnë GLM130B dhe U-PaLM.

Të tre llojet e arkitekturës mund të zgjerohen duke përdorur përzierja e ekspertëve (MM) Teknika e shkallëzimit, e cila aktivizon rrallë një nëngrup të peshave të rrjetit nervor për çdo hyrje. Kjo qasje është përdorur në modele si Switch Transformer dhe GLaM, me rritjen e numrit të ekspertëve ose madhësinë totale të parametrave që tregojnë përmirësime të rëndësishme të performancës.

Transformator vetëm me dekoder: Përqafimi i natyrës autoregresive

Ndërsa arkitektura origjinale e transformatorit ishte projektuar për detyra sekuencë në sekuencë si përkthimi me makinë, shumë detyra NLP, të tilla si modelimi i gjuhës dhe gjenerimi i tekstit, mund të inkuadrohen si probleme autoregresive, ku modeli gjeneron një shenjë në një kohë, të kushtëzuara nga argumentet e krijuara më parë.

Futni transformatorin vetëm për dekoderin, një variant i thjeshtuar i arkitekturës së transformatorit që ruan vetëm komponentin e dekoderit. Kjo arkitekturë është veçanërisht e përshtatshme për detyrat autoregresive, pasi gjeneron shenjat e daljes një nga një, duke shfrytëzuar tokenat e krijuar më parë si kontekst hyrës.

Dallimi kryesor midis transformatorit vetëm me dekoder dhe dekoderit origjinal të transformatorit qëndron në mekanizmin e vetë-vëmendjes. Në vendosjen vetëm për dekoder, funksioni i vetë-vëmendjes modifikohet për të parandaluar modelin të marrë pjesë në shenjat e ardhshme, një veti e njohur si shkakësi. Kjo arrihet përmes një teknike të quajtur "vetë-vëmendje e maskuar", ku rezultatet e vëmendjes që korrespondojnë me pozicionet e ardhshme vendosen në pafundësi negative, duke i maskuar ato në mënyrë efektive gjatë hapit të normalizimit të softmax.

Komponentët arkitekturorë të LLM-ve të bazuara në dekoder

Ndërsa parimet thelbësore të vetë-vëmendjes dhe vëmendjes së maskuar mbeten të njëjta, LLM-të moderne të bazuara në dekoder kanë prezantuar disa risi arkitekturore për të përmirësuar performancën, efikasitetin dhe aftësitë e përgjithësimit. Le të eksplorojmë disa nga komponentët dhe teknikat kryesore të përdorura në LLM-të më të fundit.

Përfaqësimi i hyrjes

Përpara përpunimit të sekuencës së hyrjes, LLM-të e bazuara në dekoder përdorin teknika tokenizimi dhe ngulitjeje për të kthyer tekstin e papërpunuar në një paraqitje numerike të përshtatshme për modelin.

ngulitje vektoriale

Tokenization: Procesi i tokenizimit e konverton tekstin e hyrjes në një sekuencë shenjash, të cilat mund të jenë fjalë, nënfjalë, apo edhe karaktere individuale, në varësi të strategjisë së tonifikimit të përdorur. Teknikat e njohura të tokenizimit për LLM përfshijnë kodimin e çifteve byte (BPE), SentencePiece dhe WordPiece. Këto metoda synojnë të vendosin një ekuilibër midis madhësisë së fjalorit dhe shkallës së përfaqësimit, duke lejuar modelin të trajtojë në mënyrë efektive fjalët e rralla ose jashtë fjalorit.

Embeddings Token: Pas tokenizimit, çdo token është hartuar në një paraqitje të dendur vektoriale të quajtur një ngulitje e tokenit. Këto përfshirje mësohen gjatë procesit të trajnimit dhe kapin marrëdhëniet semantike dhe sintaksore midis shenjave.

Embeddings Pozicionale: Modelet e transformatorëve përpunojnë të gjithë sekuencën hyrëse në të njëjtën kohë, duke i munguar nocioni i qenësishëm i pozicioneve të shenjave të pranishme në modelet e përsëritura. Për të inkorporuar informacionin pozicional, futjet e pozicionit shtohen në vendosjet e shenjave, duke i lejuar modelit të dallojë midis shenjave bazuar në pozicionet e tyre në sekuencë. LLM-të e hershme përdorën ngulitje pozicionale fikse të bazuara në funksione sinusoidale, ndërsa modelet më të fundit kanë eksploruar ngulitje pozicionale të mësueshme ose teknika alternative të kodimit pozicional si ngulitje pozicionale rrotulluese.

Blloqe të vëmendjes me shumë kokë

Blloqet kryesore të ndërtimit të LLM-ve të bazuara në dekoder janë shtresa të vëmendjes me shumë koka, të cilat kryejnë operacionin e maskuar të vetë-vëmendjes të përshkruar më sipër. Këto shtresa grumbullohen disa herë, me secilën shtresë që merr pjesë në daljen e shtresës së mëparshme, duke lejuar modelin të kapë varësi dhe paraqitje gjithnjë e më komplekse.

Krerët e vëmendjes: Çdo shtresë e vëmendjes me shumë koka përbëhet nga "koka të vëmendjes" të shumta, secila me grupin e vet të projeksioneve të pyetjeve, çelësave dhe vlerave. Kjo i lejon modelit të marrë pjesë në aspekte të ndryshme të hyrjes në të njëjtën kohë, duke kapur marrëdhënie dhe modele të ndryshme.

Lidhjet e mbetura dhe Normalizimi i Shtresave: Për të lehtësuar trajnimin e rrjeteve të thella dhe për të zbutur problemin e zhdukjes së gradientit, LLM-të e bazuara në dekoder përdorin lidhjet e mbetura dhe teknikat e normalizimit të shtresave. Lidhjet e mbetura shtojnë hyrjen e një shtrese në daljen e saj, duke lejuar që gradientët të rrjedhin më lehtë gjatë përhapjes së pasme. Normalizimi i shtresave ndihmon në stabilizimin e aktivizimeve dhe gradientëve, duke përmirësuar më tej stabilitetin dhe performancën e stërvitjes.

Shtresat Feed-Forward

Përveç shtresave të vëmendjes me shumë koka, LLM-të e bazuara në dekoder inkorporojnë shtresa përpara, të cilat aplikojnë një rrjet nervor të thjeshtë përçues në çdo pozicion në sekuencë. Këto shtresa paraqesin jolinearitete dhe i mundësojnë modelit të mësojë paraqitje më komplekse.

Funksionet e aktivizimit: Zgjedhja e funksionit të aktivizimit në shtresat e furnizimit përpara mund të ndikojë ndjeshëm në performancën e modelit. Ndërsa LLM-të e mëparshme mbështeteshin në aktivizimin e përdorur gjerësisht të ReLU, modelet më të fundit kanë adoptuar funksione më të sofistikuara aktivizimi si Njësia Lineare e Gabimit Gaussian (GELU) ose aktivizimi SwiGLU, të cilat kanë treguar performancë të përmirësuar.

Vëmendje e rrallë dhe transformatorë efikasë

Ndërsa mekanizmi i vetë-vëmendjes është i fuqishëm, ai vjen me një kompleksitet kuadratik llogaritës në lidhje me gjatësinë e sekuencës, duke e bërë atë llogaritësisht të shtrenjtë për sekuenca të gjata. Për të adresuar këtë sfidë, janë propozuar disa teknika për të reduktuar kërkesat llogaritëse dhe memorien e vetë-vëmendjes, duke mundësuar përpunimin efikas të sekuencave më të gjata.

Vëmendje e rrallë: Teknikat e vëmendjes së rrallë, si ajo e përdorur në modelin GPT-3, ndjekin në mënyrë selektive një nëngrup pozicionesh në sekuencën hyrëse, në vend që të llogaritin rezultatet e vëmendjes për të gjitha pozicionet. Kjo mund të zvogëlojë ndjeshëm kompleksitetin llogaritës duke ruajtur performancën e arsyeshme.

Dritare rrëshqitëse Kujdes: E prezantuar në modelin Mistral 7B, vëmendja e dritares rrëshqitëse (SWA) është një teknikë e thjeshtë por efektive që kufizon hapësirën e vëmendjes së çdo token në një madhësi fikse të dritares. Kjo qasje shfrytëzon aftësinë e shtresave të transformatorit për të transmetuar informacione nëpër shtresa të shumta, duke rritur në mënyrë efektive hapësirën e vëmendjes pa kompleksitetin kuadratik të vetë-vëmendjes së plotë.

Rolling Buffer Cache: Për të reduktuar më tej kërkesat e memories, veçanërisht për sekuencat e gjata, modeli Mistral 7B përdor një memorie të memories rrotulluese. Kjo teknikë ruan dhe ripërdor vektorët e llogaritur të çelësit dhe vlerës për një madhësi fikse të dritares, duke shmangur llogaritjet e tepërta dhe duke minimizuar përdorimin e kujtesës.

Vëmendje e pyetjeve të grupuara: I prezantuar në modelin LLaMA 2, vëmendja e grupuar e pyetjeve (GQA) është një variant i mekanizmit të vëmendjes me shumë pyetje që ndan kokat e vëmendjes në grupe, secili grup ka një çelës të përbashkët dhe matricë vlerash. Kjo qasje vendos një ekuilibër midis efikasitetit të vëmendjes me shumë pyetje dhe performancës së vetë-vëmendjes standarde, duke siguruar kohë të përmirësuara të përfundimit duke ruajtur rezultate me cilësi të lartë.

Vëmendje e pyetjeve të grupuara

Madhësia dhe shkalla e modelit

Një nga karakteristikat përcaktuese të LLM-ve moderne është shkalla e tyre e plotë, me numrin e parametrave që varion nga miliarda në qindra miliarda. Rritja e madhësisë së modelit ka qenë një faktor vendimtar në arritjen e performancës më të fundit, pasi modelet më të mëdha mund të kapin modele dhe marrëdhënie më komplekse në të dhëna.

Numërimi i parametrave: Numri i parametrave në një LLM të bazuar në dekoder përcaktohet kryesisht nga dimensioni i futjes (d_model), numri i kokave të vëmendjes (n_heads), numri i shtresave (n_layers) dhe madhësia e fjalorit (vocab_size). Për shembull, modeli GPT-3 ka 175 miliardë parametra, me d_model = 12288, n_koka = 96, n_shtresa = 96dhe vocab_size = 50257.

Modeli i paralelizmit: Trajnimi dhe vendosja e modeleve të tilla masive kërkon burime të konsiderueshme llogaritëse dhe pajisje të specializuara. Për të kapërcyer këtë sfidë, janë përdorur teknika të paralelizmit të modelit, ku modeli ndahet në disa GPU ose TPU, me çdo pajisje përgjegjëse për një pjesë të llogaritjeve.

Përzierja e ekspertëve: Një tjetër qasje për shkallëzimin e LLM-ve është arkitektura e përzierjes së ekspertëve (MM), e cila kombinon modele të shumta ekspertësh, secili i specializuar në një nëngrup specifik të të dhënave ose detyrës. Modeli Mixtral 8x7B është një shembull i një modeli MM që shfrytëzon Mistral 7B si modeli i tij bazë, duke arritur performancë superiore duke ruajtur efikasitetin llogaritës.

Konkluzionet dhe Gjenerimi i Tekstit

Një nga rastet kryesore të përdorimit të LLM-ve të bazuara në dekoder është gjenerimi i tekstit, ku modeli gjeneron tekst koherent dhe me tingull natyral bazuar në një kërkesë ose kontekst të caktuar.

Dekodimi Autoregresiv: Gjatë konkluzionit, LLM-të e bazuara në dekoder gjenerojnë tekst në një mënyrë autoregresive, duke parashikuar një shenjë në një kohë bazuar në shenjat e krijuara më parë dhe në kërkesën e hyrjes. Ky proces vazhdon derisa të plotësohet një kriter i paracaktuar ndalimi, siç është arritja e një gjatësie maksimale të sekuencës ose gjenerimi i një tokeni në fund të sekuencës.

Strategjitë e kampionimit: Për të gjeneruar tekst të larmishëm dhe realist, mund të përdoren strategji të ndryshme kampionimi, të tilla si kampionimi top-k, kampionimi top-p (i njohur gjithashtu si kampionimi i bërthamës) ose shkallëzimi i temperaturës. Këto teknika kontrollojnë shkëmbimin midis diversitetit dhe koherencës së tekstit të krijuar duke rregulluar shpërndarjen e probabilitetit mbi fjalorin.

Inxhinieri e shpejtë: Cilësia dhe specifika e kërkesës së hyrjes mund të ndikojnë ndjeshëm në tekstin e krijuar. Inxhinieria e shpejtë, arti i krijimit të kërkesave efektive, është shfaqur si një aspekt thelbësor i përdorimit të LLM-ve për detyra të ndryshme, duke u mundësuar përdoruesve të udhëheqin procesin e gjenerimit të modelit dhe të arrijnë rezultatet e dëshiruara.

Dekodimi Human-in-the-Loop: Për të përmirësuar më tej cilësinë dhe koherencën e tekstit të krijuar, teknika si Përforcimi i të mësuarit nga reagimet njerëzore (RLHF) janë punësuar. Në këtë qasje, vlerësuesit njerëzorë japin reagime mbi tekstin e krijuar të modelit, i cili më pas përdoret për të rregulluar modelin, duke e përafruar në mënyrë efektive me preferencat njerëzore dhe duke përmirësuar rezultatet e tij.

Përparimet dhe drejtimet e së ardhmes

Fusha e LLM-ve të bazuara në dekoder po evoluon me shpejtësi, me kërkime dhe zbulime të reja që i shtyjnë vazhdimisht kufijtë e asaj që mund të arrijnë këto modele. Këtu janë disa përparime të dukshme dhe drejtime të mundshme në të ardhmen:

Variantet efikase të transformatorëve: Ndërsa vëmendja e rrallë dhe vëmendja e dritares rrëshqitëse kanë bërë hapa të rëndësishëm në përmirësimin e efikasitetit të LLM-ve të bazuara në dekoder, studiuesit po eksplorojnë në mënyrë aktive arkitekturat alternative të transformatorëve dhe mekanizmat e vëmendjes për të reduktuar më tej kërkesat llogaritëse duke ruajtur ose përmirësuar performancën.

LLM multimodale: Duke zgjeruar aftësitë e LLM-ve përtej tekstit, modelet multimodale synojnë të integrojnë modalitete të shumta, si imazhe, audio ose video, në një kornizë të vetme të unifikuar. Kjo hap mundësi emocionuese për aplikacione si titullimi i imazheve, përgjigjja vizuale e pyetjeve dhe gjenerimi i përmbajtjes multimediale.

Gjenerata e kontrollueshme: Mundësimi i kontrollit të hollësishëm mbi tekstin e krijuar është një drejtim sfidues, por i rëndësishëm për LLM-të. Teknikat si gjenerimi i kontrolluar i tekstit dhe akordimi i menjëhershëm synojnë t'u ofrojnë përdoruesve një kontroll më të hollësishëm mbi atributet e ndryshme të tekstit të krijuar, si stili, toni ose kërkesat specifike të përmbajtjes.

Përfundim

LLM-të e bazuara në dekoder janë shfaqur si një forcë transformuese në fushën e përpunimit të gjuhës natyrore, duke shtyrë kufijtë e asaj që është e mundur me gjenerimin dhe kuptimin e gjuhës. Nga fillimet e tyre modeste si një variant i thjeshtuar i arkitekturës së transformatorëve, këto modele kanë evoluar në sisteme shumë të sofistikuara dhe të fuqishme, duke shfrytëzuar teknikat e fundit dhe inovacionet arkitekturore.

Ndërsa vazhdojmë të eksplorojmë dhe avancojmë LLM-të e bazuara në dekoder, mund të presim të dëshmojmë arritje edhe më të jashtëzakonshme në detyrat që lidhen me gjuhën, si dhe integrimin e këtyre modeleve në një gamë të gjerë aplikacionesh dhe fushash. Megjithatë, është thelbësore të trajtohen konsideratat etike, sfidat e interpretueshmërisë dhe paragjykimet e mundshme që mund të lindin nga vendosja e gjerë e këtyre modeleve të fuqishme.

Duke qëndruar në krye të kërkimit, duke nxitur bashkëpunimin e hapur dhe duke mbajtur një përkushtim të fortë për zhvillimin e përgjegjshëm të AI, ne mund të zhbllokojmë potencialin e plotë të LLM-ve të bazuara në dekoder duke siguruar që ato zhvillohen dhe përdoren në një mënyrë të sigurt, etike dhe të dobishme për shoqërinë.

Temat e ngjashme:Bloom decoder GPT-3 LLM palme INXHINIERIKË E SHPEJTË vëmendje ndaj vetes transformatorët

E rradhes

Energjia me madhësi xhepi: Zbulimi i Phi-3 i Microsoft-it, modeli i gjuhës që përshtatet në telefonin tuaj

Mos e humbas

Mini-Binjakët: Minimi i potencialit të modeleve gjuhësore të vizionit me shumë modalitet

Aayush Mittal

Kam kaluar pesë vitet e fundit duke u zhytur në botën magjepsëse të Mësimit të Makinerisë dhe Mësimit të Thellë. Pasioni dhe ekspertiza ime më kanë shtyrë të kontribuoj në mbi 50 projekte të ndryshme inxhinierike softuerike, me një fokus të veçantë në AI/ML. Kurioziteti im i vazhdueshëm më ka tërhequr gjithashtu drejt Përpunimit të Gjuhëve Natyrore, një fushë që mezi pres ta eksploroj më tej.