Umetna inteligenca

Modeli velikih jezikov na osnovi dekoderja: popoln vodnik

Posodobljeno on April 27, 2024

Modeli velikih jezikov na osnovi dekoderja: popoln vodnik

Veliki jezikovni modeli (LLM) so revolucionirali področje obdelave naravnega jezika (NLP) s prikazom izjemnih zmožnosti pri ustvarjanju besedila, podobnega človeku, odgovarjanju na vprašanja in pomoči pri širokem naboru opravil, povezanih z jezikom. V jedru teh močnih modelov je arhitektura transformatorja samo za dekoder, različica prvotne arhitekture transformatorja, predlagana v temeljnem dokumentu "Pozornost je vse, kar potrebujete” avtorja Vaswani et al.

V tem obsežnem vodniku bomo raziskali notranje delovanje LLM-jev, ki temeljijo na dekoderju, ter se poglobili v temeljne gradnike, arhitekturne inovacije in izvedbene podrobnosti, ki so te modele pognale v ospredje raziskav in aplikacij NLP.

Arhitektura transformatorja: osvežitev

Preden se potopite v posebnosti LLM-jev, ki temeljijo na dekoderju, je bistveno, da ponovno pregledate arhitekturo transformatorja, osnovo, na kateri so zgrajeni ti modeli. Transformator je uvedel nov pristop k modeliranju zaporedja, pri čemer se zanaša izključno na mehanizme pozornosti za zajemanje dolgotrajnih odvisnosti v podatkih, brez potrebe po ponavljajočih se ali konvolucijskih slojih.

Transformerjeva arhitektura

Prvotna arhitektura transformatorja je sestavljena iz dveh glavnih komponent: kodirnika in dekoderja. Kodirnik obdela vhodno zaporedje in ustvari kontekstualizirano predstavitev, ki jo nato porabi dekoder za izdelavo izhodnega zaporedja. Ta arhitektura je bila prvotno zasnovana za naloge strojnega prevajanja, kjer kodirnik obdela vhodni stavek v izvornem jeziku, dekodirnik pa ustvari ustrezen stavek v ciljnem jeziku.

Pozornost nase: ključ do uspeha Transformerja

V središču transformator leži mehanizem samopozornosti, zmogljiva tehnika, ki modelu omogoča tehtanje in združevanje informacij z različnih položajev v vhodnem zaporedju. Za razliko od tradicionalnih modelov zaporedja, ki vhodne žetone obdelujejo zaporedno, samopozornost omogoča modelu, da zajame odvisnosti med katerim koli parom žetonov, ne glede na njihov položaj v zaporedju.

Večpoizvedbena pozornost

Operacijo samopozornosti lahko razdelimo na tri glavne korake:

Projekcije poizvedbe, ključa in vrednosti: Vhodno zaporedje je projicirano v tri ločene predstavitve: poizvedbe (Q), tipke (K) in vrednosti (V). Te projekcije dobimo z množenjem vnosa z naučenimi matrikami uteži.
Izračun ocene pozornosti: Za vsako pozicijo v vhodnem zaporedju se ocene pozornosti izračunajo tako, da se vzame pikčasti produkt med ustreznim vektorjem poizvedbe in vsemi ključnimi vektorji. Ti rezultati predstavljajo pomembnost vsakega položaja glede na trenutni položaj, ki se obdeluje.
Ponderirana vsota vrednosti: Ocene pozornosti se normalizirajo s funkcijo softmax, nastale uteži pozornosti pa se uporabijo za izračun utežene vsote vektorjev vrednosti, ki ustvari izhodno predstavitev za trenutni položaj.

Večglavna pozornost, različica mehanizma samopozornosti, omogoča modelu, da zajame različne vrste odnosov z izračunavanjem rezultatov pozornosti v več "glave” vzporedno, vsak s svojim nizom projekcij poizvedbe, ključa in vrednosti.

Arhitekturne različice in konfiguracije

Čeprav osnovna načela LLM-jev, ki temeljijo na dekoderjih, ostajajo dosledna, so raziskovalci raziskali različne arhitekturne različice in konfiguracije za izboljšanje zmogljivosti, učinkovitosti in zmožnosti posploševanja. V tem razdelku se bomo poglobili v različne arhitekturne odločitve in njihove posledice.

Vrste arhitekture

LLM, ki temeljijo na dekoderju, lahko na splošno razvrstimo v tri glavne vrste: kodirnik-dekoder, vzročni dekoder in predponski dekoder. Vsak tip arhitekture kaže različne vzorce pozornosti.

Arhitektura kodirnika-dekoderja

Arhitektura kodirnika-dekoderja, ki temelji na vanilla Transformer modelu, je sestavljena iz dveh nizov: kodirnika in dekoderja. Kodirnik za kodiranje vhodnega zaporedja in generiranje latentnih predstavitev uporablja zložene plasti samopozornosti z več glavami. Dekoder nato izvede navzkrižno pozornost na teh predstavitvah, da ustvari ciljno zaporedje. Medtem ko je učinkovit pri različnih nalogah NLP, le nekaj LLM, kot npr Flan-T5, sprejmejo to arhitekturo.

Arhitektura vzročnega dekoderja

Arhitektura vzročnega dekoderja vključuje enosmerno masko pozornosti, ki vsakemu vhodnemu žetonu omogoča, da se posveti samo preteklim žetonom in sebi. Vhodni in izhodni žetoni se obdelujejo znotraj istega dekoderja. Pomembni modeli, kot je GPT-1, GPT-2 in GPT-3 so zgrajeni na tej arhitekturi, pri čemer GPT-3 prikazuje izjemne zmožnosti učenja v kontekstu. Številni LLM-ji, vključno z OPT, BLOOM in Gopher, so široko sprejeli vzročne dekoderje.

Arhitektura dekoderja predpone

Znana tudi kot ne-vzročni dekoder, arhitektura predponskega dekoderja spreminja maskirni mehanizem vzročnih dekoderjev, da omogoči dvosmerno pozornost preko predponskih žetonov in enosmerno pozornost na ustvarjene žetone. Tako kot arhitektura kodirnika-dekoderja lahko tudi dekodirniki predpon kodirajo zaporedje predpon dvosmerno in avtoregresivno predvidijo izhodne žetone z uporabo skupnih parametrov. LLM-ji, ki temeljijo na predponskih dekoderjih, vključujejo GLM130B in U-PaLM.

Vse tri tipe arhitekture je mogoče razširiti z uporabo mešanica strokovnjakov (MoE) tehniko skaliranja, ki redko aktivira podmnožico uteži nevronske mreže za vsak vhod. Ta pristop je bil uporabljen v modelih, kot sta Switch Transformer in GLaM, s povečanjem števila strokovnjakov ali celotne velikosti parametrov, kar kaže na znatne izboljšave zmogljivosti.

Transformator samo za dekoder: sprejemanje avtoregresivne narave

Medtem ko je bila prvotna transformatorska arhitektura zasnovana za naloge od zaporedja do zaporedja, kot je strojno prevajanje, je veliko nalog NLP, kot je jezikovno modeliranje in generiranje besedila, mogoče uokviriti kot avtoregresivne težave, kjer model ustvari en žeton naenkrat, odvisno od prej ustvarjenih žetonov.

Vnesite transformator samo za dekoder, poenostavljeno različico arhitekture transformatorja, ki ohranja samo komponento dekoderja. Ta arhitektura je še posebej primerna za avtoregresivne naloge, saj ustvarja izhodne žetone enega za drugim, pri čemer izkorišča predhodno ustvarjene žetone kot vhodni kontekst.

Ključna razlika med transformatorjem samo za dekoder in originalnim dekoderjem transformatorja je v mehanizmu samopozornosti. V nastavitvi samo za dekodirnik je operacija samopozornosti spremenjena tako, da modelu prepreči, da bi se posvetil prihodnjim žetonom, kar je lastnost, znana kot vzročnost. To se doseže s tehniko, imenovano »zamaskirana pozornost samega sebe«, kjer so rezultati pozornosti, ki ustrezajo prihodnjim položajem, nastavljeni na negativno neskončnost, kar jih med korakom normalizacije softmax učinkovito prikrije.

Arhitekturne komponente LLM-jev na osnovi dekoderjev

Medtem ko temeljni principi samopozornosti in prikrite samopozornosti ostajajo enaki, so sodobni LLM-ji, ki temeljijo na dekoderjih, uvedli več arhitekturnih inovacij za izboljšanje zmogljivosti, učinkovitosti in posplošitvenih zmogljivosti. Raziščimo nekaj ključnih komponent in tehnik, ki se uporabljajo v najsodobnejših LLM.

Predstavitev vnosa

Pred obdelavo vhodnega zaporedja LLM-ji, ki temeljijo na dekoderjih, uporabljajo tehnike tokenizacije in vdelave za pretvorbo neobdelanega besedila v numerično predstavitev, primerno za model.

vdelava vektorjev

Tokenizacija: Postopek tokenizacije pretvori vhodno besedilo v zaporedje žetonov, ki so lahko besede, podbesede ali celo posamezni znaki, odvisno od uporabljene strategije tokenizacije. Priljubljene tehnike tokenizacije za LLM vključujejo kodiranje bajtnih parov (BPE), SentencePiece in WordPiece. Cilj teh metod je doseči ravnovesje med velikostjo besedišča in razdrobljenostjo predstavitve, kar omogoča modelu učinkovito obravnavanje redkih besed ali besed, ki niso v besedišču.

Vdelave žetonov: Po tokenizaciji je vsak žeton preslikan v gosto vektorsko predstavitev, imenovano vdelava žetona. Teh vdelav se naučimo med procesom usposabljanja in zajamejo semantična in skladenjska razmerja med žetoni.

Pozicijske vdelave: Transformatorski modeli obdelujejo celotno vhodno zaporedje hkrati, pri čemer jim manjka inherentna predstava o položajih žetonov, ki so prisotni v ponavljajočih se modelih. Za vključitev pozicijskih informacij so vdelavam žetonov dodane pozicijske vdelave, kar omogoča modelu razlikovanje med žetoni na podlagi njihovih položajev v zaporedju. Zgodnji LLM-ji so uporabljali fiksne pozicijske vdelave, ki temeljijo na sinusnih funkcijah, medtem ko so novejši modeli raziskali učljive pozicijske vdelave ali alternativne tehnike pozicijskega kodiranja, kot so rotacijske pozicijske vdelave.

Bloki pozornosti z več glavami

Osrednji gradniki LLM-jev, ki temeljijo na dekoderjih, so plasti pozornosti z več glavami, ki izvajajo operacijo prikrite samopozornosti, opisano prej. Te plasti so večkrat zložene, pri čemer vsaka plast skrbi za rezultat prejšnje plasti, kar omogoča modelu, da zajame vse bolj zapletene odvisnosti in predstavitve.

Pozor Glave: Vsaka plast pozornosti z več glavami je sestavljena iz več "glav pozornosti", vsaka s svojim naborom poizvedb, ključev in projekcij vrednosti. To omogoča modelu, da se hkrati posveti različnim vidikom vnosa ter zajame različne odnose in vzorce.

Preostale povezave in normalizacija plasti: Da bi olajšali usposabljanje globokih omrežij in ublažili problem izginjajočega gradienta, LLM, ki temeljijo na dekoderju, uporabljajo preostale povezave in tehnike normalizacije plasti. Preostale povezave dodajo vhod sloja njegovemu izhodu, kar omogoča lažji pretok gradientov med širjenjem nazaj. Normalizacija plasti pomaga stabilizirati aktivacije in gradiente, kar dodatno izboljša stabilnost in učinkovitost vadbe.

Feed-Forward sloji

Poleg slojev pozornosti z več glavami LLM-ji, ki temeljijo na dekoderjih, vključujejo sloje za posredovanje podatkov, ki uporabljajo preprosto nevronsko mrežo za posredovanje podatkov na vsakem položaju v zaporedju. Te plasti uvajajo nelinearnosti in omogočajo modelu, da se nauči bolj zapletenih predstavitev.

Aktivacijske funkcije: Izbira aktivacijske funkcije v plasteh za posredovanje podatkov lahko znatno vpliva na zmogljivost modela. Medtem ko so se prejšnji LLM-ji zanašali na široko uporabljeno aktivacijo ReLU, so novejši modeli sprejeli bolj izpopolnjene aktivacijske funkcije, kot sta linearna enota Gaussove napake (GELU) ali aktivacija SwiGLU, ki sta pokazali izboljšano zmogljivost.

Redka pozornost in učinkoviti transformatorji

Čeprav je mehanizem samopozornosti močan, ima kvadratno računsko kompleksnost glede na dolžino zaporedja, zaradi česar je računsko drag za dolga zaporedja. Za reševanje tega izziva je bilo predlaganih več tehnik za zmanjšanje računalniških in pomnilniških zahtev samopozornosti, kar omogoča učinkovito obdelavo daljših zaporedij.

Redka pozornost: Tehnike redke pozornosti, kot je tista, uporabljena v modelu GPT-3, se selektivno posvetijo podmnožici položajev v vhodnem zaporedju, namesto da izračunajo ocene pozornosti za vse položaje. To lahko znatno zmanjša računsko kompleksnost, hkrati pa ohrani primerno zmogljivost.

Drsno okno Pozor: Pozornost drsnega okna (SWA), predstavljena v modelu Mistral 7B, je preprosta, a učinkovita tehnika, ki omeji razpon pozornosti vsakega žetona na fiksno velikost okna. Ta pristop izkorišča zmožnost transformatorskih plasti za prenos informacij preko več plasti, s čimer učinkovito poveča razpon pozornosti brez kvadratne zapletenosti popolne samopozornosti.

Rolling Buffer Cache: Za nadaljnje zmanjšanje zahtev po pomnilniku, zlasti za dolga zaporedja, model Mistral 7B uporablja tekoči medpomnilnik. Ta tehnika shrani in znova uporabi izračunane vektorje ključev in vrednosti za fiksno velikost okna, s čimer se izogne odvečnim izračunom in zmanjša uporabo pomnilnika.

Pozor na skupinsko poizvedbo: Predstavljena v modelu LLaMA 2 je pozornost združevanja poizvedb (GQA) različica mehanizma pozornosti z več poizvedbami, ki razdeli pozornost v skupine, pri čemer ima vsaka skupina skupni ključ in matriko vrednosti. Ta pristop vzpostavlja ravnovesje med učinkovitostjo pozornosti pri več poizvedbah in zmogljivostjo standardne pozornosti samega sebe, kar zagotavlja izboljšane čase sklepanja, hkrati pa ohranja visokokakovostne rezultate.

Pozornost na skupinsko poizvedbo

Velikost in skaliranje modela

Ena od opredeljujočih značilnosti sodobnih LLM je njihov sam obseg, s številom parametrov, ki segajo od milijard do sto milijard. Povečanje velikosti modela je bil ključni dejavnik pri doseganju najsodobnejše zmogljivosti, saj lahko večji modeli zajamejo bolj zapletene vzorce in razmerja v podatkih.

Število parametrov: Število parametrov v LLM, ki temelji na dekoderju, je primarno določeno z dimenzijo vdelave (d_model), številom glav pozornosti (n_heads), številom plasti (n_layers) in velikostjo besedišča (vocab_size). Na primer, model GPT-3 ima 175 milijard parametrov, s d_model = 12288, n_glav = 96, n_plasti = 96in velikost_vocab = 50257.

Paralelizem modela: Usposabljanje in uvajanje tako ogromnih modelov zahteva znatna računalniška sredstva in specializirano strojno opremo. Za premagovanje tega izziva so bile uporabljene tehnike paralelizma modelov, kjer je model razdeljen na več GPU-jev ali TPU-jev, pri čemer je vsaka naprava odgovorna za del izračunov.

Mešanica strokovnjakov: Drug pristop k skaliranju LLM-jev je arhitektura mešanice strokovnjakov (MoE), ki združuje več strokovnih modelov, od katerih je vsak specializiran za določeno podmnožico podatkov ali naloge. Model Mixtral 8x7B je primer modela MoE, ki izkorišča Mistral 7B kot osnovni model, ki dosega vrhunsko zmogljivost in hkrati ohranja računalniško učinkovitost.

Sklepanje in generiranje besedila

Eden od primarnih primerov uporabe LLM-jev, ki temeljijo na dekoderjih, je generiranje besedila, kjer model generira koherentno in naravno zveneče besedilo na podlagi danega poziva ali konteksta.

Avtoregresivno dekodiranje: Med sklepanjem LLM-ji, ki temeljijo na dekoderju, ustvarijo besedilo na avtoregresiven način, pri čemer predvidevajo en žeton naenkrat na podlagi predhodno ustvarjenih žetonov in vnosnega poziva. Ta postopek se nadaljuje, dokler ni izpolnjen vnaprej določeni kriterij zaustavitve, kot je doseganje največje dolžine zaporedja ali generiranje žetona konca zaporedja.

Strategije vzorčenja: Za ustvarjanje raznolikega in realističnega besedila je mogoče uporabiti različne strategije vzorčenja, kot je vzorčenje top-k, vzorčenje top-p (znano tudi kot jedrno vzorčenje) ali temperaturno skaliranje. Te tehnike nadzirajo kompromis med raznolikostjo in skladnostjo ustvarjenega besedila s prilagajanjem porazdelitve verjetnosti v besedišču.

Hiter inženiring: Kakovost in specifičnost vnosnega poziva lahko znatno vplivata na ustvarjeno besedilo. Prompt inženiring, umetnost oblikovanja učinkovitih pozivov, se je pojavil kot ključni vidik izkoriščanja LLM-jev za različne naloge, kar uporabnikom omogoča, da vodijo proces generiranja modela in dosegajo želene rezultate.

Človeško dekodiranje v zanki: Za nadaljnje izboljšanje kakovosti in koherentnosti ustvarjenega besedila se uporabljajo tehnike, kot je Okrepitveno učenje iz človeških povratnih informacij (RLHF) so bili zaposleni. Pri tem pristopu človeški ocenjevalci zagotovijo povratne informacije o ustvarjenem besedilu modela, ki se nato uporabi za natančno nastavitev modela, njegovo učinkovito uskladitev s človeškimi preferencami in izboljšanje njegovih rezultatov.

Napredek in prihodnje smeri

Področje LLM-jev, ki temeljijo na dekoderjih, se hitro razvija, z novimi raziskavami in odkritji, ki nenehno premikajo meje tega, kar lahko ti modeli dosežejo. Tukaj je nekaj opaznih napredkov in možnih prihodnjih usmeritev:

Učinkovite različice transformatorjev: Medtem ko sta redka pozornost in pozornost drsnega okna naredila pomemben napredek pri izboljšanju učinkovitosti LLM-jev, ki temeljijo na dekoderjih, raziskovalci aktivno raziskujejo alternativne arhitekture transformatorjev in mehanizme pozornosti za nadaljnje zmanjšanje računalniških zahtev ob ohranjanju ali izboljšanju zmogljivosti.

Multimodalni LLM: Večmodalni modeli z razširitvijo zmožnosti študija LLM izven besedila želijo integrirati več načinov, kot so slike, zvok ali video, v enoten poenoten okvir. To odpira vznemirljive možnosti za aplikacije, kot so podnapisi, vizualni odgovori na vprašanja in ustvarjanje večpredstavnostnih vsebin.

Nadzorovana generacija: Omogočanje natančnega nadzora nad ustvarjenim besedilom je zahtevna, a pomembna usmeritev za LLM. Tehnike, kot sta generiranje nadzorovanega besedila in takojšnje prilagajanje, želijo uporabnikom zagotoviti bolj natančen nadzor nad različnimi atributi ustvarjenega besedila, kot so slog, ton ali posebne zahteve glede vsebine.

zaključek

LLM-ji, ki temeljijo na dekoderjih, so se pojavili kot transformativna sila na področju obdelave naravnega jezika in premikajo meje možnega z ustvarjanjem in razumevanjem jezika. Od svojih skromnih začetkov kot poenostavljena različica arhitekture transformatorjev so se ti modeli razvili v visoko sofisticirane in zmogljive sisteme, ki izkoriščajo vrhunske tehnike in arhitekturne inovacije.

Ko nadaljujemo z raziskovanjem in napredovanjem LLM-jev, ki temeljijo na dekoderjih, lahko pričakujemo še več izjemnih dosežkov pri nalogah, povezanih z jezikom, kot tudi integracijo teh modelov v širok nabor aplikacij in domen. Vendar pa je ključnega pomena obravnavati etične vidike, izzive interpretacije in morebitne pristranskosti, ki lahko nastanejo zaradi široke uporabe teh zmogljivih modelov.

Če ostanemo v ospredju raziskav, spodbujamo odprto sodelovanje in ohranjamo močno zavezanost odgovornemu razvoju umetne inteligence, lahko sprostimo polni potencial LLM-jev, ki temeljijo na dekoderjih, hkrati pa zagotovimo, da so razviti in uporabljeni na varen, etičen in koristen način za družbe.

Sorodne teme:BLOOM dekoder GPT-3 LLM PaLM TAKOJŠNJI INŽENIRING samopazljivost transformatorji

Up Next

Powerhouse v žepni velikosti: razkrivamo Microsoftov Phi-3, jezikovni model, ki se prilega vašemu telefonu

Ne zamudite

Mini-Gemini: izkoriščanje potenciala večmodalnosti jezikovnih modelov vizije

Aayush Mittal

Zadnjih pet let sem se potopil v fascinanten svet strojnega in globokega učenja. Moja strast in strokovno znanje sta me pripeljala do tega, da sem prispeval k več kot 50 raznolikim projektom programskega inženiringa, s posebnim poudarkom na AI/ML. Moja nenehna radovednost me je pripeljala tudi do obdelave naravnega jezika, področja, ki ga želim nadalje raziskati.

Unite.AI

Modeli velikih jezikov na osnovi dekoderja: popoln vodnik

Umetna inteligenca

Modeli velikih jezikov na osnovi dekoderja: popoln vodnik

Kazalo vsebine

Arhitektura transformatorja: osvežitev

Pozornost nase: ključ do uspeha Transformerja