Dirbtinis intelektas

Dekoderiu pagrįsti didelių kalbų modeliai: visas vadovas

Atnaujinta on Balandis 27, 2024

Dekoderiu pagrįsti didelių kalbų modeliai: visas vadovas

Dideli kalbų modeliai (LLM) sukėlė revoliuciją natūralios kalbos apdorojimo (NLP) srityje, pademonstruodamos nuostabius gebėjimus generuoti į žmogų panašų tekstą, atsakyti į klausimus ir padėti atlikti įvairias su kalba susijusias užduotis. Šių galingų modelių pagrindas yra Tik dekoderio transformatoriaus architektūra, originalios transformatoriaus architektūros variantas, pasiūlytas pradiniame darbe “Dėmesys yra viskas, ko jums reikia“, Vaswani ir kt.

Šiame išsamiame vadove mes išnagrinėsime vidinį dekoderiais pagrįstų LLM veikimą, gilinsimės į pagrindinius blokus, architektūrines naujoves ir įgyvendinimo detales, dėl kurių šie modeliai tapo NLP tyrimų ir taikomųjų programų priešakyje.

Transformatoriaus architektūra: atnaujinimas

Prieš pasineriant į dekoderiais pagrįstų LLM specifiką, būtina dar kartą peržiūrėti transformatorių architektūrą, pagrindą, ant kurio sukurti šie modeliai. Transformatorius pristatė naują sekos modeliavimo metodą, pasikliaujant vien dėmesio mechanizmais, kad būtų galima užfiksuoti ilgalaikes duomenų priklausomybes, nereikalaujant pasikartojančių ar konvoliucinių sluoksnių.

Transformatorių architektūra

Originali transformatoriaus architektūra susideda iš dviejų pagrindinių komponentų: kodavimo ir dekoderio. Kodavimo įrenginys apdoroja įvesties seką ir generuoja kontekstualizuotą atvaizdą, kurį vėliau naudoja dekoderis, kad sukurtų išvesties seką. Ši architektūra iš pradžių buvo sukurta mašininio vertimo užduotims, kai kodavimo priemonė apdoroja įvesties sakinį šaltinio kalba, o dekoderis generuoja atitinkamą sakinį tiksline kalba.

Dėmesys sau: raktas į transformatoriaus sėkmę

Širdyje transformatorius slypi dėmesio į save mechanizmas – galinga technika, leidžianti modeliui pasverti ir kaupti informaciją iš skirtingų įvesties sekos pozicijų. Skirtingai nuo tradicinių sekos modelių, kurie nuosekliai apdoroja įvesties žetonus, dėmesys į save leidžia modeliui užfiksuoti priklausomybes tarp bet kurios žetonų poros, nepaisant jų padėties sekoje.

Daugialypis dėmesys

Dėmesio į save operaciją galima suskirstyti į tris pagrindinius etapus:

Užklausos, rakto ir vertės prognozės: įvesties seka projektuojama į tris atskirus vaizdus: užklausos (Q), raktai (K) ir vertės (V). Šios projekcijos gaunamos padauginus įvestį iš išmoktų svorio matricų.
Dėmesio balo skaičiavimas: kiekvienoje įvesties sekos pozicijoje dėmesio balai apskaičiuojami imant taškinę sandaugą tarp atitinkamo užklausos vektoriaus ir visų pagrindinių vektorių. Šie balai parodo kiekvienos pozicijos atitikimą dabartinei apdorojamai pozicijai.
Svertinė verčių suma: dėmesio balai normalizuojami naudojant „softmax“ funkciją, o gauti dėmesio svoriai naudojami svertinei reikšmių vektorių sumai apskaičiuoti, sukuriant dabartinės padėties išvesties vaizdą.

Daugiagalvis dėmesys, dėmesio į save mechanizmo variantas, leidžia modeliui užfiksuoti įvairių tipų santykius, skaičiuojant dėmesio balus keliuose.vadovai“ lygiagrečiai, kiekvienas su savo užklausų, raktų ir vertės prognozių rinkiniu.

Architektūriniai variantai ir konfigūracijos

Nors pagrindiniai dekoderiais pagrįstų LLM principai išlieka nuoseklūs, mokslininkai ištyrė įvairius architektūrinius variantus ir konfigūracijas, kad pagerintų našumą, efektyvumą ir apibendrinimo galimybes. Šiame skyriuje mes pasigilinsime į skirtingus architektūrinius pasirinkimus ir jų pasekmes.

Architektūros tipai

Dekoderiais pagrįstus LLM galima iš esmės suskirstyti į tris pagrindinius tipus: kodavimo dekoderis, priežastinis dekoderis ir prefiksų dekoderis. Kiekvienam architektūros tipui būdingi skirtingi dėmesio modeliai.

Encoder-Decoder architektūra

Remiantis vanilės transformatoriaus modeliu, kodavimo-dekoderio architektūra susideda iš dviejų krūvų: kodavimo ir dekoderio. Kodavimo priemonė naudoja sukrautus kelių galvučių savęs dėmesio sluoksnius, kad užkoduotų įvesties seką ir generuotų latentinius vaizdus. Tada dekoderis atlieka kryžminį dėmesį į šias reprezentacijas, kad sukurtų tikslinę seką. Nors veiksmingos atliekant įvairias NLP užduotis, nedaug LLM, pvz Flan-T5, pritaikyti šią architektūrą.

Priežastinio dekoderio architektūra

Priežastinio dekoderio architektūroje yra vienakryptė dėmesio kaukė, leidžianti kiekvienam įvesties prieigos raktui atsižvelgti tik į ankstesnius prieigos raktus ir save. Tiek įvesties, tiek išvesties prieigos raktai apdorojami tame pačiame dekoderyje. Žymūs modeliai kaip GPT-1, GPT-2 ir GPT-3 yra sukurti remiantis šia architektūra, o GPT-3 demonstruoja puikias mokymosi kontekste galimybes. Daugelis LLM, įskaitant OPT, BLOOM ir Gopher, plačiai naudoja priežastinius dekoderius.

Priešdėlio dekoderio architektūra

Taip pat žinomas kaip nepriežastinis dekoderis, priešdėlių dekoderio architektūra modifikuoja priežastinių dekoderių maskavimo mechanizmą, kad būtų galima nukreipti dvikryptį dėmesį į priešdėlio prieigos raktus ir vienakryptį dėmesį į sugeneruotus prieigos raktus. Kaip ir kodavimo dekoderio architektūra, priešdėlių dekoderiai gali užkoduoti priešdėlių seką dviem kryptimis ir numatyti išvesties prieigos raktus automatiškai, naudodami bendrinamus parametrus. LLM, pagrįsti prefiksų dekoderiais, apima GLM130B ir U-PaLM.

Visi trys architektūros tipai gali būti išplėsti naudojant ekspertų mišinys (EM) mastelio keitimo technika, kuri retai suaktyvina kiekvienos įvesties neuroninio tinklo svorių poaibį. Šis metodas buvo taikomas tokiuose modeliuose kaip „Switch Transformer“ ir „GLaM“, nes didėja ekspertų skaičius arba bendras parametrų dydis rodo reikšmingus našumo patobulinimus.

Tik dekoderiui skirtas transformatorius: įtraukiantis į automatinę gamtą

Nors originali transformatoriaus architektūra buvo sukurta užduotims iš sekos į seką, pvz., mašininį vertimą, daugelis NLP užduočių, tokių kaip kalbos modeliavimas ir teksto generavimas, gali būti suformuluotos kaip autoregresyvios problemos, kai modelis generuoja vieną prieigos raktą vienu metu, atsižvelgiant į anksčiau sugeneruotų žetonų.

Įveskite tik dekoderio transformatorių – supaprastintą transformatoriaus architektūros variantą, kuriame išlaikomas tik dekoderio komponentas. Ši architektūra ypač gerai tinka autoregresinėms užduotims, nes ji generuoja išvesties žetonus po vieną, panaudodama anksčiau sugeneruotus žetonus kaip įvesties kontekstą.

Pagrindinis skirtumas tarp tik dekoderio transformatoriaus ir originalaus transformatoriaus dekoderio yra dėmesio į save mechanizme. Naudojant tik dekoderio nustatymą, dėmesio į save operacija yra modifikuojama, kad modelis negalėtų atsižvelgti į būsimus prieigos raktus, o tai yra savybė, žinoma kaip priežastinis ryšys. Tai pasiekiama naudojant metodą, vadinamą „užmaskuotu savęs dėmesiu“, kai dėmesio balai, atitinkantys būsimas pozicijas, nustatomi iki neigiamos begalybės, veiksmingai užmaskuojant juos atliekant „softmax“ normalizavimo veiksmą.

Dekoderiais pagrįstų LLM architektūriniai komponentai

Nors pagrindiniai dėmesio į save ir užmaskuoto dėmesio principai išlieka tie patys, šiuolaikiniai dekoderiais pagrįsti LLM įdiegė keletą architektūrinių naujovių, kad pagerintų našumą, efektyvumą ir apibendrinimo galimybes. Išnagrinėkime kai kuriuos pagrindinius komponentus ir metodus, naudojamus naujausiuose LLM.

Įvesties vaizdavimas

Prieš apdorodami įvesties seką, dekoderiu pagrįsti LLM taiko atpažinimo ir įterpimo metodus, kad neapdorotą tekstą paverstų modeliui tinkamu skaitiniu vaizdu.

vektoriaus įterpimas

Ženklinimas: Ženklinimo procesas paverčia įvesties tekstą į žetonų seką, kurią gali sudaryti žodžiai, požodžiai ar net atskiri simboliai, atsižvelgiant į naudojamą prieigos rakto strategiją. Populiarūs LLM atpažinimo būdai yra baitų poros kodavimas (BPE), sakinio piešinys ir Wordpiece. Šiais metodais siekiama rasti pusiausvyrą tarp žodyno dydžio ir vaizdavimo detalumo, leidžiant modeliui veiksmingai tvarkyti retus arba iš žodyno nepatenkamus žodžius.

Žetonų įterpimai: Po tokenizacijos kiekvienas atpažinimo ženklas susietas su tankiu vektoriniu vaizdu, vadinamu žetono įterpimu. Šie įterpimai išmokstami mokymo proceso metu ir užfiksuoja semantinius ir sintaksinius ryšius tarp žetonų.

Poziciniai įterpimai: Transformatorių modeliai apdoroja visą įvesties seką vienu metu, o pasikartojančiuose modeliuose nėra būdingos žetonų pozicijų sampratos. Kad būtų įtraukta padėties informacija, prie žetonų įterpimų pridedami padėties įterpimai, leidžiantys modeliui atskirti žetonus pagal jų pozicijas sekoje. Ankstyvieji LLM naudojo fiksuotus padėties įterpimus, pagrįstus sinusoidinėmis funkcijomis, o naujesni modeliai ištyrė išmokstamus padėties įterpimus arba alternatyvius padėties kodavimo būdus, pvz., Sukamąjį padėties įterpimą.

Daugiagalviai dėmesio blokai

Pagrindiniai dekoderių pagrindu veikiančių LLM blokai yra kelių galvų dėmesio sluoksniai, kurie atlieka anksčiau aprašytą užmaskuotą savęs dėmesio operaciją. Šie sluoksniai yra sukrauti kelis kartus, o kiekvienas sluoksnis rūpinasi ankstesnio sluoksnio išvestimi, todėl modelis gali užfiksuoti vis sudėtingesnes priklausomybes ir reprezentacijas.

Dėmesio vadovai: Kiekvienas kelių galvų dėmesio sluoksnis susideda iš kelių „dėmesio galvų“, kurių kiekviena turi savo užklausų, raktų ir vertės prognozių rinkinį. Tai leidžia modeliui vienu metu atsižvelgti į skirtingus įvesties aspektus, užfiksuojant įvairius santykius ir modelius.

Likusios jungtys ir sluoksnių normalizavimas: Siekdami palengvinti giliųjų tinklų mokymą ir sušvelninti nykstančią gradiento problemą, dekoderiais pagrįstos LLM naudoja liekamuosius ryšius ir sluoksnių normalizavimo metodus. Likusios jungtys prideda sluoksnio įvestį prie jo išvesties ir leidžia gradientams lengviau tekėti atgalinio dauginimo metu. Sluoksnio normalizavimas padeda stabilizuoti aktyvacijas ir nuolydžius, toliau gerinant treniruočių stabilumą ir našumą.

Sluoksniai, nukreipiantys pirmyn

Be kelių galvų dėmesio sluoksnių, dekoderio pagrindu veikiantys LLM apima ir pirmyn nukreiptus sluoksnius, kurie kiekvienai sekos vietai taiko paprastą nukreipimo į priekį neuroninį tinklą. Šie sluoksniai įveda netiesiškumą ir leidžia modeliui išmokti sudėtingesnius vaizdus.

Aktyvinimo funkcijos: aktyvinimo funkcijos pasirinkimas nukreipimo į priekį sluoksniuose gali labai paveikti modelio veikimą. Nors ankstesni LLM rėmėsi plačiai naudojamu ReLU aktyvavimu, naujesni modeliai naudojo sudėtingesnes aktyvinimo funkcijas, tokias kaip Gaussian Error Linear Unit (GELU) arba SwiGLU aktyvinimas, kurie parodė geresnį našumą.

Retas dėmesys ir efektyvūs transformatoriai

Nors dėmesio į save mechanizmas yra galingas, jis turi kvadratinį skaičiavimo sudėtingumą sekos ilgio atžvilgiu, todėl ilgų sekų skaičiavimas yra brangus. Siekiant išspręsti šį iššūkį, buvo pasiūlyta keletas metodų, skirtų sumažinti skaičiavimo ir atminties reikalavimus, susijusius su dėmesiu į save, o tai leidžia efektyviai apdoroti ilgesnes sekas.

Retas dėmesys: Reto dėmesio metodai, pvz., naudojami GPT-3 modelyje, selektyviai kreipiasi į pozicijų poaibį įvesties sekoje, o ne skaičiuoja visų pozicijų dėmesio balus. Tai gali žymiai sumažinti skaičiavimo sudėtingumą išlaikant pagrįstą našumą.

Stumdomas langas Dėmesio: Įdiegtas Mistral 7B modelyje, dėmesys slankiojančiam langui (SWA) yra paprastas, bet efektyvus būdas, apribojantis kiekvieno žetono dėmesį iki fiksuoto lango dydžio. Šis metodas išnaudoja transformatoriaus sluoksnių gebėjimą perduoti informaciją keliais sluoksniais, efektyviai padidindamas dėmesio trukmę be kvadratinio sudėtingumo visiško dėmesio sau.

Slenkančio buferio talpykla: Siekiant dar labiau sumažinti atminties poreikį, ypač ilgoms sekoms, Mistral 7B modelyje naudojama nuolatinė buferio talpykla. Ši technika išsaugo ir pakartotinai naudoja apskaičiuotus raktų ir reikšmių vektorius fiksuotam lango dydžiui, išvengiant perteklinių skaičiavimų ir sumažinant atminties naudojimą.

Sugrupuotos užklausos Dėmesio: LLaMA 2 modelyje pristatytas grupinis užklausos dėmesys (GQA) yra kelių užklausų dėmesio mechanizmo variantas, skirstantis dėmesio galvutes į grupes, kurių kiekviena turi bendrą raktų ir verčių matricą. Šiuo metodu pasiekiama pusiausvyra tarp kelių užklausų dėmesio efektyvumo ir standartinio dėmesio sau našumo, užtikrinamas geresnis išvadų laikas, išlaikant aukštos kokybės rezultatus.

Sugrupuotos užklausos dėmesys

Modelio dydis ir mastelio keitimas

Viena iš šiuolaikinių LLM savybių yra didžiulis jų mastas, o parametrų skaičius svyruoja nuo milijardų iki šimtų milijardų. Modelio dydžio padidinimas buvo labai svarbus veiksnys siekiant aukščiausio lygio našumo, nes didesni modeliai gali užfiksuoti sudėtingesnius duomenų modelius ir ryšius.

Parametrų skaičius: parametrų skaičių dekoderiu pagrįstoje LLM pirmiausia lemia įterpimo dimensija (d_model), dėmesio galvučių skaičius (n_heads), sluoksnių skaičius (n_layers) ir žodyno dydis (vocab_size). Pavyzdžiui, GPT-3 modelis turi 175 milijardus parametrų, su d_modelis = 12288, n_galvos = 96, n_sluoksnių = 96ir vocab_size = 50257.

Modelio lygiagretumas: Tokiems didžiuliams modeliams apmokyti ir diegti reikia didelių skaičiavimo išteklių ir specializuotos aparatinės įrangos. Siekiant įveikti šį iššūkį, buvo naudojami modelio lygiagretumo metodai, kai modelis yra padalintas į kelis GPU arba TPU, o kiekvienas įrenginys yra atsakingas už dalį skaičiavimų.

Ekspertų mišinys: Kitas LLM mastelio keitimo būdas yra ekspertų mišinio (MoE) architektūra, kuri sujungia kelis ekspertų modelius, kurių kiekvienas specializuojasi tam tikrame duomenų ar užduoties pogrupyje. „Mixtral 8x7B“ modelis yra MoE modelio pavyzdys, kuris išnaudoja Mistral 7B kaip bazinis modelis, užtikrinantis puikų našumą išlaikant skaičiavimo efektyvumą.

Išvados ir teksto generavimas

Vienas iš pagrindinių dekoderiais pagrįstų LLM naudojimo atvejų yra teksto generavimas, kai modelis generuoja nuoseklų ir natūraliai skambantį tekstą pagal nurodytą raginimą ar kontekstą.

Autoregresyvus dekodavimas: Išvados metu dekoderiu pagrįsti LLM generuoja tekstą autoregresiniu būdu, numatydami po vieną prieigos raktą pagal anksčiau sugeneruotus prieigos raktus ir įvesties raginimą. Šis procesas tęsiasi tol, kol įvykdomas iš anksto nustatytas sustabdymo kriterijus, pvz., pasiekiamas maksimalus sekos ilgis arba generuojamas sekos pabaigos ženklas.

Atrankos strategijos: norint sukurti įvairų ir tikrovišką tekstą, galima naudoti įvairias atrankos strategijas, tokias kaip top-k atranka, top-p atranka (taip pat žinoma kaip branduolio atranka) arba temperatūros mastelio keitimas. Šie metodai valdo kompromisą tarp sukurto teksto įvairovės ir nuoseklumo, koreguodami tikimybių pasiskirstymą pagal žodyną.

Greita inžinerija: įvesties raginimo kokybė ir specifiškumas gali labai paveikti sugeneruotą tekstą. Greita inžinerija, veiksmingų raginimų kūrimo menas, tapo itin svarbiu LLM panaudojimo įvairioms užduotims aspektu, leidžiančiu vartotojams vadovauti modelio kūrimo procesui ir pasiekti norimus rezultatus.

Žmogaus kilpoje dekodavimas: Norėdami toliau gerinti sukurto teksto kokybę ir nuoseklumą, naudokite tokius metodus kaip Mokymasis iš žmonių grįžtamojo ryšio sustiprinimas (RLHF) buvo įdarbinti. Taikydami šį metodą, vertintojai pateikia grįžtamąjį ryšį apie modelio sugeneruotą tekstą, kuris vėliau naudojamas modeliui patikslinti, efektyviai suderinant jį su žmogaus pageidavimais ir pagerinant jo rezultatus.

Pažanga ir ateities kryptys

Dekoderiais pagrįstų LLM sritis sparčiai vystosi, o nauji tyrimai ir atradimai nuolat plečia ribas, ką šie modeliai gali pasiekti. Štai keletas svarbių pažangų ir galimų ateities krypčių:

Veiksmingi transformatorių variantai: Nors mažas dėmesys ir dėmesys slankiojantiems langams padarė didelę pažangą gerinant dekoderiais pagrįstų LLM efektyvumą, mokslininkai aktyviai tiria alternatyvias transformatorių architektūras ir dėmesio mechanizmus, kad dar labiau sumažintų skaičiavimo reikalavimus, išlaikant arba pagerinant našumą.

Multimodaliniai LLM: Išplečiant LLM galimybes ne tik tekste, multimodaliniais modeliais siekiama integruoti kelis būdus, pvz., vaizdus, garsą ar vaizdo įrašą, į vieną vieningą sistemą. Tai atveria įdomių galimybių tokioms programoms kaip vaizdų antraštės, vaizdinis atsakymas į klausimus ir daugialypės terpės turinio generavimas.

Valdoma karta: Sukurto teksto smulkios kontrolės įgalinimas yra sudėtinga, bet svarbi LLM kryptis. Tokiais būdais kaip valdomas teksto generavimas ir greitas derinimas siekiama suteikti vartotojams detalesnę įvairių sugeneruoto teksto atributų, tokių kaip stilius, tonas ar specifiniai turinio reikalavimai, kontrolę.

Išvada

Dekoderiais pagrįstos LLM tapo transformuojančia jėga natūralios kalbos apdorojimo srityje, perkeldamos ribas to, kas įmanoma su kalbos generavimu ir supratimu. Nuo jų kuklios pradžios, kaip supaprastinto transformatoriaus architektūros varianto, šie modeliai išsivystė į labai sudėtingas ir galingas sistemas, panaudojančias pažangiausias technologijas ir architektūrines naujoves.

Toliau tyrinėdami ir tobulindami dekoderiais pagrįstus LLM, galime tikėtis dar didesnių pasiekimų atliekant su kalba susijusias užduotis, taip pat šių modelių integravimą į daugybę programų ir sričių. Tačiau labai svarbu atsižvelgti į etinius sumetimus, aiškinamumo problemas ir galimus šališkumus, kurie gali atsirasti dėl plačiai paplitusių šių galingų modelių.

Išlikdami mokslinių tyrimų priešakyje, skatindami atvirą bendradarbiavimą ir tvirtai įsipareigoję plėtoti atsakingą dirbtinį intelektą, galime išnaudoti visą dekoderiais pagrįstų LLM potencialą ir užtikrinti, kad jie būtų kuriami ir naudojami saugiai, etiškai ir naudingai. visuomenei.

Susijusios temos:BLOOM dekoderis GPT-3 LLM PALM SPECIALI INŽINERIJA dėmesys į save transformatoriai

Kitas

Kišeninio dydžio jėgainė: pristatomas „Microsoft Phi-3“ – kalbos modelis, tinkantis jūsų telefone

Nepraleiskite

Mini-Gemini: Multimodalumo vizijos kalbos modelių potencialo išnaudojimas

Aayush Mittal

Pastaruosius penkerius metus praleidau pasinerdamas į žavų mašininio mokymosi ir giluminio mokymosi pasaulį. Mano aistra ir patirtis paskatino mane prisidėti prie daugiau nei 50 įvairių programinės įrangos inžinerijos projektų, ypatingą dėmesį skiriant AI/ML. Mano nuolatinis smalsumas taip pat patraukė mane į natūralios kalbos apdorojimą – sritį, kurią noriu tyrinėti toliau.