Tehisintellekt

Dekoodripõhised suured keelemudelid: täielik juhend

Ajakohastatud on Aprill 27, 2024

Dekoodripõhised suured keelemudelid: täielik juhend

Suured keelemudelid (LLM-id) on muutnud loomuliku keele töötlemise (NLP) valdkonna, demonstreerides märkimisväärseid võimeid luua inimsarnast teksti, vastata küsimustele ja aidata paljudes keelega seotud ülesannetes. Nende võimsate mudelite tuumaks on ainult dekoodri trafo arhitektuur, algse trafoarhitektuuri variant, mis on välja pakutud algdokumendis "Tähelepanu on kõik, mida vajate” autor Vaswani jt.

Selles põhjalikus juhendis uurime dekoodripõhiste LLM-ide sisemist tööd, süvenedes põhilistesse ehitusplokkidesse, arhitektuurilistesse uuendustesse ja rakendusdetailidesse, mis on viinud need mudelid NLP-uuringute ja rakenduste esirinnas.

Transformeri arhitektuur: värskendus

Enne dekoodripõhiste LLM-ide eripäradesse sukeldumist on oluline uuesti läbi vaadata trafo arhitektuur, mis on nende mudelite aluseks. Trafo tutvustas järjestuse modelleerimisel uudset lähenemisviisi, tuginedes üksnes tähelepanumehhanismidele, et tabada andmete pikamaa sõltuvusi, ilma et oleks vaja korduvaid või konvolutsioonilisi kihte.

Transformerite arhitektuur

Algne trafo arhitektuur koosneb kahest põhikomponendist: kodeerijast ja dekoodrist. Kodeerija töötleb sisendjada ja genereerib kontekstipõhise esituse, mida dekooder seejärel väljundjada loomiseks kasutab. See arhitektuur oli algselt mõeldud masintõlkeülesannete jaoks, kus kodeerija töötleb lähtekeeles sisendlauset ja dekooder genereerib vastava lause sihtkeeles.

Enesetähelepanu: Transformeri edu võti

Keskmes trafo peitub enesetähelepanu mehhanismis, võimas tehnika, mis võimaldab mudelil kaaluda ja koondada teavet sisendjärjestuse erinevatest kohtadest. Erinevalt traditsioonilistest jadamudelitest, mis töötlevad sisendmärke järjestikku, võimaldab enesetähelepanu mudelil tabada sõltuvusi mis tahes märgipaari vahel, olenemata nende asukohast jadas.

Multiquery tähelepanu

Enesetähelepanu toimingu võib jagada kolmeks põhietapiks:

Päringu, võtme ja väärtuse prognoosid: sisendjada projitseeritakse kolmeks eraldi esituseks: päringud (Q), võtmed (K) ja väärtused (V). Need projektsioonid saadakse sisendi korrutamisel õpitud kaalumaatriksitega.
Tähelepanu skoori arvutamine: Sisestusjärjestuse iga positsiooni jaoks arvutatakse tähelepanu skoorid, võttes vastava päringuvektori ja kõigi võtmevektorite vahelise punktkorrutise. Need hinded näitavad iga positsiooni asjakohasust praeguse töödeldava positsiooni suhtes.
Väärtuste kaalutud summa: Tähelepanu skoorid normaliseeritakse funktsiooni softmax abil ja saadud tähelepanu kaalusid kasutatakse väärtusvektorite kaalutud summa arvutamiseks, mis annab praeguse asukoha väljundi.

Mitme peaga tähelepanu, enesetähelepanu mehhanismi variant, võimaldab mudelil tabada erinevat tüüpi suhteid, arvutades tähelepanu skoorid mitme "pea” paralleelselt, millest igaühel on oma päringu-, võtme- ja väärtusprognooside komplekt.

Arhitektuurivariandid ja konfiguratsioonid

Kuigi dekoodripõhiste LLM-ide põhiprintsiibid jäävad järjepidevaks, on teadlased uurinud erinevaid arhitektuurilisi variante ja konfiguratsioone, et parandada jõudlust, tõhusust ja üldistusvõimet. Selles jaotises käsitleme erinevaid arhitektuurilisi valikuid ja nende tagajärgi.

Arhitektuuri tüübid

Dekoodripõhised LLM-id võib laias laastus jagada kolme põhitüüpi: kodeerija-dekooder, põhjuslik dekooder ja eesliite dekooder. Igal arhitektuuritüübil on erinevad tähelepanumustrid.

Kodeerija-dekoodri arhitektuur

Vanilla Transformeri mudelil põhinev kodeerija-dekoodri arhitektuur koosneb kahest virust: kodeerijast ja dekoodrist. Kodeerija kasutab sisendjärjestuse kodeerimiseks ja varjatud esituste genereerimiseks virnastatud mitme peaga enesetähelepanu kihte. Seejärel pöörab dekooder nendele esitustele sihtjada genereerimiseks risttähelepanu. Kuigi tõhus erinevates NLP ülesannetes, vähesed LLM-id, nagu Flan-T5, võtke see arhitektuur kasutusele.

Põhjuslik dekoodri arhitektuur

Põhjusliku dekoodri arhitektuur sisaldab ühesuunalist tähelepanu maski, mis võimaldab igal sisendmärgil jälgida ainult varasemaid märke ja iseennast. Nii sisend- kui väljundmärke töödeldakse samas dekooderis. Märkimisväärsed mudelid nagu GPT-1, GPT-2 ja GPT-3 on üles ehitatud sellele arhitektuurile ning GPT-3 pakub märkimisväärseid kontekstis õppimise võimalusi. Paljud LLM-id, sealhulgas OPT, BLOOM ja Gopher, on laialdaselt kasutusele võtnud põhjuslikud dekoodrid.

Prefiksi dekoodri arhitektuur

Tuntud ka kui mittepõhjuslik dekooder, muudab prefiksi dekoodri arhitektuur põhjuslike dekoodrite maskeerimismehhanismi, et võimaldada kahesuunalist tähelepanu eesliidemärkidele ja ühesuunalist tähelepanu genereeritud märkidel. Sarnaselt kodeerija-dekoodri arhitektuuriga saavad prefiksi dekoodrid kodeerida eesliidete jada kahesuunaliselt ja ennustada väljundmärke autoregressiivselt, kasutades jagatud parameetreid. Prefiksi dekoodritel põhinevate LLM-ide hulka kuuluvad GLM130B ja U-PaLM.

Kõiki kolme arhitektuuritüüpi saab laiendada kasutades ekspertide segu (KKM) skaleerimistehnika, mis hõredalt aktiveerib iga sisendi jaoks närvivõrgu kaalude alamhulka. Seda lähenemisviisi on kasutatud sellistes mudelites nagu Switch Transformer ja GLaM, suurendades ekspertide arvu või parameetrite kogusuurust, mis näitab märkimisväärset jõudluse paranemist.

Ainult dekooderiga transformer: autoregressiivse looduse omaksvõtt

Kuigi trafo algne arhitektuur oli mõeldud järjestusest järjestusse ülesannete jaoks, nagu masintõlge, saab paljusid NLP-ülesandeid, nagu keele modelleerimine ja teksti genereerimine, kujundada autoregressiivsete probleemidena, kus mudel genereerib ühe märgi korraga, mis sõltub varem loodud märgid.

Sisestage ainult dekoodri trafo – trafo arhitektuuri lihtsustatud variant, mis säilitab ainult dekoodri komponendi. See arhitektuur sobib eriti hästi autoregressiivsete ülesannete jaoks, kuna see genereerib väljundmärke ükshaaval, kasutades sisendkontekstina varem genereeritud märke.

Peamine erinevus ainult dekoodriga trafo ja algse trafo dekoodri vahel seisneb enesetähelepanu mehhanismis. Ainult dekoodri seadistuses muudetakse enesetähelepanu toimingut, et takistada mudelil tulevaste žetoonidega tegelemist – seda omadust nimetatakse põhjuslikkuseks. See saavutatakse tehnika abil, mida nimetatakse "maskeeritud enesetähelepanuks", kus tulevastele positsioonidele vastavad tähelepanuskoorid seatakse negatiivsesse lõpmatusse, maskeerides need tõhusalt pehme max normaliseerimise etapi ajal.

Dekoodripõhiste LLM-ide arhitektuurilised komponendid

Kuigi enesetähelepanu ja maskeeritud enesetähelepanu põhiprintsiibid jäävad samaks, on kaasaegsed dekoodripõhised LLM-id kasutusele võtnud mitmeid arhitektuurilisi uuendusi, et parandada jõudlust, tõhusust ja üldistusvõimet. Uurime mõningaid põhikomponente ja tehnikaid, mida tipptasemel LLM-ides kasutatakse.

Sisend esitus

Enne sisendjärjestuse töötlemist kasutavad dekoodripõhised LLM-id tokeniseerimis- ja manustamistehnikaid, et teisendada toortekst mudelile sobivaks numbriliseks esituseks.

vektori manustamine

Tokeniseerimine: Tokeniseerimisprotsess teisendab sisendteksti märkide jadaks, milleks võivad olla sõnad, alamsõnad või isegi üksikud märgid, olenevalt kasutatavast märgistamisstrateegiast. LLM-ide populaarsed märgistamistehnikad hõlmavad baitpaari kodeerimist (BPE), SentencePiece ja WordPiece. Nende meetodite eesmärk on leida tasakaal sõnavara suuruse ja esituse detailsuse vahel, võimaldades mudelil haruldaste või sõnavaraväliste sõnadega tõhusalt hakkama saada.

Token Manused: pärast märgistamist kaardistatakse iga märk tiheda vektoresitusega, mida nimetatakse märgi manustamiseks. Neid manuseid õpitakse koolitusprotsessi käigus ja need püüavad märkide vahel semantilisi ja süntaktilisi seoseid.

Positsioonilised manused: Trafomudelid töötlevad kogu sisendjada üheaegselt, ilma korduvates mudelites esineva märgi positsioonide loomupärase mõisteta. Positsiooniteabe kaasamiseks lisatakse märgi manustele positsioonilised manused, mis võimaldavad mudelil eristada märke nende positsioonide alusel järjestuses. Varased LLM-id kasutasid fikseeritud positsioonilisi manuseid, mis põhinesid sinusoidaalsetel funktsioonidel, samas kui uuemad mudelid on uurinud õpitavaid positsioonilisi manuseid või alternatiivseid positsioonilise kodeerimise tehnikaid, nagu pöörlevad positsioonilised manustused.

Mitmepealised tähelepanuplokid

Dekoodripõhiste LLM-ide peamised ehitusplokid on mitme peaga tähelepanukihid, mis täidavad varem kirjeldatud maskeeritud enesetähelepanu toimingut. Need kihid on virnastatud mitu korda, kusjuures iga kiht tegeleb eelmise kihi väljundiga, võimaldades mudelil jäädvustada üha keerukamaid sõltuvusi ja esitusi.

Tähelepanu juhid: iga mitme peaga tähelepanukiht koosneb mitmest „tähelepanupeast”, millest igaühel on oma päringu-, võtme- ja väärtusprognooside komplekt. See võimaldab mudelil tegeleda sisendi erinevate aspektidega samaaegselt, jäädvustades erinevaid suhteid ja mustreid.

Jääkühendused ja kihi normaliseerimine: Sügavate võrkude väljaõppe hõlbustamiseks ja kaduva gradiendi probleemi leevendamiseks kasutavad dekoodripõhised LLM-id jääkühendusi ja kihtide normaliseerimise tehnikaid. Jääkühendused lisavad kihi sisendi selle väljundisse, võimaldades gradientidel tagasilevimise ajal kergemini voolata. Kihi normaliseerimine aitab stabiliseerida aktiveerimisi ja kaldeid, parandades veelgi treeningu stabiilsust ja jõudlust.

Kihid edasisuunas

Lisaks mitme peaga tähelepanukihtidele sisaldavad dekoodripõhised LLM-id edasisuunamiskihte, mis rakendavad jada igas positsioonis lihtsat edasisuunamisnärvivõrku. Need kihid toovad sisse mittelineaarsuse ja võimaldavad mudelil õppida keerukamaid esitusi.

Aktiveerimisfunktsioonid: Aktiveerimisfunktsiooni valik edasisuunamiskihtides võib oluliselt mõjutada mudeli jõudlust. Kui varasemad LLM-id tuginesid laialdaselt kasutatavale ReLU aktiveerimisele, siis uuemad mudelid on kasutusele võtnud keerukamad aktiveerimisfunktsioonid, nagu Gaussi vea lineaarne üksus (GELU) või SwiGLU aktiveerimine, mis on näidanud paremat jõudlust.

Vähene tähelepanu ja tõhusad transformaatorid

Kuigi enesetähelepanu mehhanism on võimas, on sellel jada pikkuse suhtes ruutarvuline keerukus, mistõttu on see pikkade jadade puhul arvutuslikult kulukas. Selle väljakutse lahendamiseks on välja pakutud mitmeid meetodeid enesetähelepanu arvutus- ja mälunõuete vähendamiseks, võimaldades pikemate jadade tõhusat töötlemist.

Vähene tähelepanu: hõreda tähelepanuga tehnikad, nagu näiteks GPT-3 mudelis kasutatav tehnika, tegelevad valikuliselt sisendjärjestuse positsioonide alamhulgaga, selle asemel, et arvutada kõigi positsioonide jaoks tähelepanupunkte. See võib märkimisväärselt vähendada arvutuslikku keerukust, säilitades samal ajal mõistliku jõudluse.

Lükandaken Tähelepanu: Mistral 7B mudelis kasutusele võetud libiseva akna tähelepanu (SWA) on lihtne, kuid tõhus tehnika, mis piirab iga märgi tähelepanuvõimet fikseeritud akna suurusega. See lähenemisviis kasutab trafo kihtide võimet edastada teavet mitme kihi vahel, suurendades tõhusalt tähelepanuvõimet ilma täieliku enesetähelepanu keerukuseta.

Rolling Buffer Cache: Mäluvajaduse edasiseks vähendamiseks, eriti pikkade jadade puhul, kasutab Mistral 7B mudel jooksvat puhvri vahemälu. See meetod salvestab ja taaskasutab arvutatud võtme- ja väärtusvektorid fikseeritud akna suuruse jaoks, vältides üleliigseid arvutusi ja minimeerides mälukasutust.

Rühmitatud päring Tähelepanu: LLaMA 2 mudelis kasutusele võetud rühmitatud päringu tähelepanu (GQA) on mitme päringuga tähelepanumehhanismi variant, mis jagab tähelepanupead rühmadesse, kusjuures igal rühmal on ühine võti ja väärtusmaatriks. See lähenemine loob tasakaalu mitme päringuga tähelepanu tõhususe ja standardse enesetähelepanu jõudluse vahel, pakkudes paremaid järeldusaegasid, säilitades samal ajal kvaliteetsed tulemused.

Rühmitatud päringu tähelepanu

Mudeli suurus ja skaleerimine

Kaasaegsete LLM-ide üheks iseloomulikuks tunnuseks on nende tohutu ulatus, mille parameetrite arv ulatub miljarditest sadade miljarditeni. Mudeli suuruse suurendamine on olnud ülioluline tegur tipptasemel jõudluse saavutamisel, kuna suuremad mudelid suudavad jäädvustada andmetes keerukamaid mustreid ja seoseid.

Parameetrite arv: parameetrite arvu dekoodril põhinevas LLM-is määrab peamiselt manustamismõõde (d_model), tähelepanupeade arv (n_heads), kihtide arv (n_layers) ja sõnavara suurus (vocab_size). Näiteks mudelil GPT-3 on 175 miljardit parameetrit d_mudel = 12288, n_pead = 96, n_kihti = 96ja sõna_suurus = 50257.

Mudeli paralleelsus: Selliste massiivsete mudelite väljaõpe ja juurutamine nõuavad märkimisväärseid arvutusressursse ja spetsiaalset riistvara. Selle väljakutse ületamiseks on kasutatud mudeli paralleelsuse tehnikaid, kus mudel on jagatud mitme GPU või TPU vahel, kusjuures iga seade vastutab osa arvutustest.

Ekspertide segu: Teine lähenemisviis LLM-ide skaleerimiseks on ekspertide seguarhitektuur (MoE), mis ühendab mitu ekspertmudelit, millest igaüks on spetsialiseerunud andmete või ülesande konkreetsele alamhulgale. Mudel Mixtral 8x7B on näide MoE mudelist, mis kasutab ära Mistral 7B baasmudelina, saavutades suurepärase jõudluse, säilitades samal ajal arvutusliku tõhususe.

Järeldused ja teksti genereerimine

Dekoodripõhiste LLM-ide üks peamisi kasutusjuhtumeid on teksti genereerimine, kus mudel genereerib ühtse ja loomuliku kõlaga teksti etteantud viipa või konteksti alusel.

Autoregressiivne dekodeerimine: järeldamise ajal genereerivad dekoodripõhised LLM-id teksti autoregressiivsel viisil, ennustades eelnevalt loodud märkide ja sisendviipa alusel ühe märgi korraga. See protsess jätkub seni, kuni on täidetud etteantud peatamiskriteerium, näiteks saavutatakse jada maksimaalne pikkus või genereeritakse jada lõpu tunnus.

Valimi moodustamise strateegiad: Mitmekesise ja realistliku teksti loomiseks saab kasutada erinevaid diskreetimisstrateegiaid, nagu top-k diskreetimine, top-p diskreetimine (tuntud ka kui tuuma proovivõtt) või temperatuuri skaleerimine. Need tehnikad kontrollivad kompromissi loodud teksti mitmekesisuse ja sidususe vahel, kohandades tõenäosusjaotust sõnavaras.

Kiire inseneritöö: sisestusviipa kvaliteet ja spetsiifilisus võivad loodud teksti oluliselt mõjutada. Kiire inseneritöö, tõhusate viipade loomise kunst, on kujunenud LLM-ide erinevate ülesannete elluviimise oluliseks aspektiks, võimaldades kasutajatel juhtida mudeli genereerimisprotsessi ja saavutada soovitud tulemusi.

Inimese ahelas dekodeerimine: Loodud teksti kvaliteedi ja sidususe edasiseks parandamiseks kasutage selliseid tehnikaid nagu Inimeste tagasisidest õppimise tugevdamine (RLHF) on tööle võetud. Selle lähenemisviisi puhul annavad inimeste hindajad tagasisidet mudeli loodud teksti kohta, mida seejärel kasutatakse mudeli peenhäälestamiseks, viies selle tõhusalt vastavusse inimese eelistustega ja parandades selle väljundeid.

Edusammud ja tulevikusuunad

Dekoodripõhiste LLM-ide valdkond areneb kiiresti ning uued uuringud ja läbimurded nihutavad pidevalt nende mudelite saavutamise piire. Siin on mõned märkimisväärsed edusammud ja võimalikud tulevikusuunad:

Tõhusad transformaatorivariandid: Kuigi vähene tähelepanu ja libisevate akende tähelepanu on teinud olulisi edusamme dekoodripõhiste LLM-ide tõhususe parandamisel, uurivad teadlased aktiivselt alternatiivseid trafoarhitektuure ja tähelepanumehhanisme, et veelgi vähendada arvutusnõudeid, säilitades või parandades samal ajal jõudlust.

Multimodaalsed LLM-id: laiendades LLM-ide võimalusi tekstist kaugemale, on multimodaalsete mudelite eesmärk integreerida mitu modaalsust, nagu pildid, heli või video, ühte ühtsesse raamistikku. See avab põnevad võimalused selliste rakenduste jaoks nagu piltide pealdised, visuaalne küsimustele vastamine ja multimeediumisisu genereerimine.

Kontrollitav põlvkond: LLM-ide jaoks on keerukas, kuid oluline suund loodud teksti üle täpse kontrolli võimaldamine. Sellised meetodid nagu kontrollitud teksti genereerimine ja kiire häälestamine püüavad pakkuda kasutajatele täpsemat kontrolli loodud teksti erinevate atribuutide (nt stiil, toon või konkreetsed sisunõuded) üle.

Järeldus

Dekoodril põhinevad LLM-id on loomuliku keele töötlemise valdkonnas kujunenud ümberkujundava jõuna, nihutades piire keele genereerimise ja mõistmisega. Alates oma tagasihoidlikust algusest trafoarhitektuuri lihtsustatud variandina on need mudelid arenenud väga keerukateks ja võimsateks süsteemideks, mis on võimendanud tipptasemel tehnikaid ja arhitektuurilisi uuendusi.

Kui jätkame dekoodripõhiste LLM-ide uurimist ja edendamist, võime oodata veelgi märkimisväärsemaid saavutusi keelega seotud ülesannete alal, samuti nende mudelite integreerimist paljude rakenduste ja valdkondadega. Siiski on ülioluline käsitleda eetilisi kaalutlusi, tõlgendatavuse probleeme ja võimalikke eelarvamusi, mis võivad tuleneda nende võimsate mudelite laialdasest kasutuselevõtust.

Püsides teadusuuringute esirinnas, soodustades avatud koostööd ja säilitades tugeva pühendumuse vastutustundlikule tehisintellekti arendamisele, saame avada dekoodripõhiste LLM-ide täieliku potentsiaali, tagades samas nende arendamise ja kasutamise ohutul, eetilisel ja kasulikul viisil. ühiskond.

Seotud teemad:BLOOM dekooder GPT-3 LLM PALM KIIRE INSENER enese tähelepanu trafod

Järgmisena

Taskusuurune jõujaam: Microsofti Phi-3, teie telefoni sobiva keelemudeli tutvustamine

Ära jäta

Mini-Gemini: Multimodaalsuse visioonikeelemudelite potentsiaali kaevandamine

Aayush Mittal

Olen viimased viis aastat veetnud masinõppe ja süvaõppe põnevasse maailma sukeldudes. Minu kirg ja teadmised on pannud mind panustama enam kui 50 erinevasse tarkvaratehnoloogia projekti, keskendudes eelkõige AI/ML-ile. Minu jätkuv uudishimu on tõmmanud mind ka loomuliku keele töötlemise poole, valdkonda, mida ma innukalt edasi uurin.

Ühendage.AI

Dekoodripõhised suured keelemudelid: täielik juhend

Tehisintellekt

Dekoodripõhised suured keelemudelid: täielik juhend

Sisukord