Inteligenta Artificiala

Modele de limbi mari bazate pe decodor: un ghid complet

Actualizat on Aprilie 27, 2024

Modele de limbi mari bazate pe decodor: un ghid complet

Modele de limbaj mari (LLM) au revoluționat domeniul prelucrării limbajului natural (NLP), demonstrând capacități remarcabile în generarea de text asemănător omului, răspunsul la întrebări și asistarea la o gamă largă de sarcini legate de limbaj. La baza acestor modele puternice se află Arhitectura transformatorului numai cu decodor, o variantă a arhitecturii originale a transformatorului propusă în lucrarea seminal „Atenția este tot ce aveți nevoie” de Vaswani et al.

În acest ghid cuprinzător, vom explora funcționarea interioară a LLM-urilor bazate pe decodor, aprofundând în blocurile fundamentale, inovațiile arhitecturale și detaliile de implementare care au propulsat aceste modele în prim-planul cercetării și aplicațiilor NLP.

Arhitectura transformatorului: o reîmprospătare

Înainte de a vă scufunda în specificul LLM-urilor bazate pe decodor, este esențial să revizuiți arhitectura transformatorului, fundația pe care sunt construite aceste modele. Transformatorul a introdus o abordare nouă a modelării secvențelor, bazându-se exclusiv pe mecanisme de atenție pentru a capta dependențe pe distanță lungă în date, fără a fi nevoie de straturi recurente sau convoluționale.

Arhitectura transformatoarelor

Arhitectura originală a transformatorului constă din două componente principale: un encoder și un decodor. Codificatorul procesează secvența de intrare și generează o reprezentare contextualizată, care este apoi consumată de decodor pentru a produce secvența de ieșire. Această arhitectură a fost concepută inițial pentru sarcini de traducere automată, în care codificatorul procesează propoziția de intrare în limba sursă, iar decodorul generează propoziția corespunzătoare în limba țintă.

Auto-atenție: cheia succesului lui Transformer

În inima casei transformator Constă mecanismul de auto-atenție, o tehnică puternică care permite modelului să cântărească și să agrega informații din diferite poziții în secvența de intrare. Spre deosebire de modelele tradiționale de secvențe, care procesează secvențial jetoanele de intrare, autoatenția permite modelului să capteze dependențele dintre orice pereche de jetoane, indiferent de poziția lor în secvență.

Atenție multiquery

Operația de autoatenție poate fi împărțită în trei etape principale:

Interogare, cheie și proiecții de valoare: Secvența de intrare este proiectată în trei reprezentări separate: interogări (Q), chei (K) și Valorile (V). Aceste proiecții sunt obținute prin înmulțirea intrării cu matrice de ponderi învățate.
Calcul scorului de atenție: Pentru fiecare poziție din secvența de intrare, scorurile de atenție sunt calculate luând produsul punctual dintre vectorul de interogare corespunzător și toți vectorii cheie. Aceste scoruri reprezintă relevanța fiecărei poziții pentru poziția curentă care este procesată.
Suma ponderată a valorilor: Scorurile de atenție sunt normalizate folosind o funcție softmax, iar ponderile de atenție rezultate sunt utilizate pentru a calcula o sumă ponderată a vectorilor de valoare, producând reprezentarea de ieșire pentru poziția curentă.

Atenția cu mai multe capete, o variantă a mecanismului de autoatenție, permite modelului să surprindă diferite tipuri de relații prin calculul scorurilor de atenție pe mai multe "capete” în paralel, fiecare cu propriul set de proiecții de interogare, cheie și valoare.

Variante și configurații arhitecturale

În timp ce principiile de bază ale LLM-urilor bazate pe decodor rămân consistente, cercetătorii au explorat diverse variante și configurații arhitecturale pentru a îmbunătăți performanța, eficiența și capacitățile de generalizare. În această secțiune, vom aprofunda în diferitele alegeri arhitecturale și implicațiile acestora.

Tipuri de arhitectură

LLM-urile bazate pe decodor pot fi clasificate pe scară largă în trei tipuri principale: decodor-codor, decodor cauzal și decodor de prefix. Fiecare tip de arhitectură prezintă modele distincte de atenție.

Arhitectura Encoder-Decoder

Pe baza modelului Vanilla Transformer, arhitectura codificatorului-decodor constă din două stive: un encoder și un decodor. Codificatorul folosește straturi de autoatenție multi-capete stivuite pentru a codifica secvența de intrare și a genera reprezentări latente. Decodorul efectuează apoi atenție încrucișată asupra acestor reprezentări pentru a genera secvența țintă. Deși eficient în diferite sarcini NLP, puține LLM, cum ar fi Flan-T5, adoptă această arhitectură.

Arhitectura decodorului cauzal

Arhitectura decodorului cauzal încorporează o mască de atenție unidirecțională, permițând fiecărui jeton de intrare să se ocupe doar de jetonele din trecut și de el însuși. Atât jetoanele de intrare, cât și de ieșire sunt procesate în același decodor. Modele notabile precum GPT-1, GPT-2 și GPT-3 sunt construite pe această arhitectură, GPT-3 prezentând capabilități remarcabile de învățare în context. Multe LLM, inclusiv OPT, BLOOM și Gopher, au adoptat pe scară largă decodoare cauzale.

Arhitectura decodorului de prefix

Cunoscută și sub denumirea de decodor non-caucal, arhitectura decodorului de prefix modifică mecanismul de mascare al decodoarelor cauzale pentru a permite atenția bidirecțională asupra jetoanelor de prefix și atenția unidirecțională asupra jetoanelor generate. La fel ca arhitectura codificator-decodor, decodificatoarele de prefix pot codifica secvența de prefix bidirecțional și pot prezice jetoanele de ieșire autoregresiv folosind parametrii partajați. LLM-urile bazate pe decodoare de prefix includ GLM130B și U-PaLM.

Toate cele trei tipuri de arhitectură pot fi extinse folosind amestec de experți (MoE) tehnică de scalare, care activează puțin un subset de greutăți ale rețelei neuronale pentru fiecare intrare. Această abordare a fost folosită în modele precum Switch Transformer și GLaM, creșterea numărului de experți sau mărimea totală a parametrilor arătând îmbunătățiri semnificative ale performanței.

Transformator numai pentru decodor: îmbrățișând natura autoregresivă

În timp ce arhitectura originală a transformatorului a fost proiectată pentru sarcini secvență-la-secvență, cum ar fi traducerea automată, multe sarcini NLP, cum ar fi modelarea limbajului și generarea de text, pot fi încadrate ca probleme autoregresive, în care modelul generează câte un jeton la un moment dat, condiționat de jetoane generate anterior.

Introduceți transformatorul doar pentru decodor, o variantă simplificată a arhitecturii transformatorului care păstrează doar componenta decodorului. Această arhitectură este deosebit de potrivită pentru sarcini autoregresive, deoarece generează jetoane de ieșire unul câte unul, valorificând jetoanele generate anterior ca context de intrare.

Diferența esențială dintre transformatorul numai cu decodor și decodorul transformator original constă în mecanismul de auto-atenție. În setarea doar pentru decodor, operațiunea de auto-atenție este modificată pentru a preveni modelul să se ocupe de jetoanele viitoare, o proprietate cunoscută sub numele de cauzalitate. Acest lucru se realizează printr-o tehnică numită „auto-atenție mascată”, în care scorurile de atenție corespunzătoare pozițiilor viitoare sunt setate la infinit negativ, maschându-le efectiv în timpul etapei de normalizare softmax.

Componentele arhitecturale ale LLM-urilor bazate pe decodor

În timp ce principiile de bază ale autoatenției și ale autoatenției mascate rămân aceleași, LLM-urile moderne bazate pe decodor au introdus mai multe inovații arhitecturale pentru a îmbunătăți performanța, eficiența și capacitățile de generalizare. Să explorăm câteva dintre componentele și tehnicile cheie folosite în LLM-urile de ultimă generație.

Reprezentarea intrării

Înainte de a procesa secvența de intrare, LLM-urile bazate pe decodor folosesc tehnici de tokenizare și încorporare pentru a converti textul brut într-o reprezentare numerică potrivită pentru model.

înglobare vectorială

tokenizarea: Procesul de tokenizare convertește textul introdus într-o secvență de simboluri, care pot fi cuvinte, subcuvinte sau chiar caractere individuale, în funcție de strategia de tokenizare utilizată. Tehnicile populare de tokenizare pentru LLM includ Byte-Pair Encoding (BPE), SentencePiece și WordPiece. Aceste metode urmăresc să atingă un echilibru între dimensiunea vocabularului și granularitatea reprezentării, permițând modelului să gestioneze eficient cuvintele rare sau în afara vocabularului.

Înglobări de jetoane: După tokenizare, fiecare jeton este mapat la o reprezentare vectorială densă numită încorporare a jetonului. Aceste înglobări sunt învățate în timpul procesului de formare și captează relațiile semantice și sintactice dintre jetoane.

Înglobări poziționale: Modelele transformatoare procesează întreaga secvență de intrare simultan, lipsind noțiunea inerentă a pozițiilor jetonelor prezente în modelele recurente. Pentru a încorpora informațiile de poziție, înglobările poziționale sunt adăugate înglobărilor de jetoane, permițând modelului să distingă între jetoane pe baza pozițiilor lor în secvență. LLM-urile timpurii au folosit înglobări poziționale fixe bazate pe funcții sinusoidale, în timp ce modelele mai recente au explorat înglobări poziționale care pot fi învățate sau tehnici alternative de codificare pozițională, cum ar fi înglobările poziționale rotative.

Blocuri de atenție cu mai multe capete

Elementele de bază ale LLM-urilor bazate pe decodor sunt straturi de atenție cu mai multe capete, care efectuează operația de auto-atenție mascată descrisă mai devreme. Aceste straturi sunt stivuite de mai multe ori, fiecare strat având în vedere rezultatul stratului anterior, permițând modelului să capteze dependențe și reprezentări din ce în ce mai complexe.

Atenție Cape: Fiecare strat de atenție cu mai multe capete este format din mai multe „capete de atenție”, fiecare cu propriul set de proiecții de interogare, cheie și valori. Acest lucru permite modelului să se ocupe de diferite aspecte ale intrării simultan, captând diverse relații și modele.

Conexiuni reziduale și normalizarea stratului: Pentru a facilita antrenamentul rețelelor adânci și a atenua problema gradientului care dispare, LLM-urile bazate pe decodor folosesc conexiuni reziduale și tehnici de normalizare a straturilor. Conexiunile reziduale adaugă intrarea unui strat la ieșirea acestuia, permițând gradienților să curgă mai ușor în timpul propagării inverse. Normalizarea straturilor ajută la stabilizarea activărilor și gradienților, îmbunătățind în continuare stabilitatea și performanța antrenamentului.

Straturi de feed-forward

Pe lângă straturile de atenție cu mai multe capete, LLM-urile bazate pe decodor încorporează straturi de feed-forward, care aplică o rețea neuronală simplă de feed-forward la fiecare poziție din secvență. Aceste straturi introduc neliniarități și permit modelului să învețe reprezentări mai complexe.

Funcții de activare: Alegerea funcției de activare în straturile de feed-forward poate avea un impact semnificativ asupra performanței modelului. În timp ce LLM-urile anterioare se bazau pe activarea ReLU, utilizată pe scară largă, modelele mai recente au adoptat funcții de activare mai sofisticate, cum ar fi unitatea liniară de eroare Gaussian (GELU) sau activarea SwiGLU, care au demonstrat performanțe îmbunătățite.

Atenție redusă și transformatoare eficiente

În timp ce mecanismul de auto-atenție este puternic, acesta vine cu o complexitate de calcul pătratică în ceea ce privește lungimea secvenței, ceea ce îl face costisitor din punct de vedere computațional pentru secvențele lungi. Pentru a face față acestei provocări, au fost propuse mai multe tehnici pentru a reduce cerințele de calcul și de memorie ale autoatenției, permițând procesarea eficientă a secvențelor mai lungi.

Atenție rară: Tehnicile de atenție redusă, cum ar fi cea folosită în modelul GPT-3, se ocupă selectiv de un subset de poziții din secvența de intrare, mai degrabă decât să calculeze scorurile de atenție pentru toate pozițiile. Acest lucru poate reduce semnificativ complexitatea de calcul, menținând în același timp o performanță rezonabilă.

Atenție fereastră glisantă: Introdusă în modelul Mistral 7B, atenția ferestrei glisante (SWA) este o tehnică simplă, dar eficientă, care restricționează durata de atenție a fiecărui jeton la o dimensiune fixă a ferestrei. Această abordare valorifică capacitatea straturilor transformatoare de a transmite informații pe mai multe straturi, crescând efectiv durata de atenție fără complexitatea pătratică a autoatenției depline.

Rolling Buffer Cache: Pentru a reduce și mai mult cerințele de memorie, în special pentru secvențele lungi, modelul Mistral 7B utilizează un cache-tampon rulant. Această tehnică stochează și reutiliza vectorii cheie și valoare calculate pentru o dimensiune fixă a ferestrei, evitând calculele redundante și minimizând utilizarea memoriei.

Interogare grupată Atenție: Introdus în modelul LLaMA 2, atenția grupată a interogării (GQA) este o variantă a mecanismului de atenție cu mai multe interogări care împarte capetele de atenție în grupuri, fiecare grup împărțind o cheie și o matrice de valori comune. Această abordare atinge un echilibru între eficiența atenției cu mai multe interogări și performanța autoatenției standard, oferind timpi de inferență îmbunătățiți, menținând în același timp rezultate de înaltă calitate.

Atenție la interogare grupată

Dimensiunea și scalarea modelului

Una dintre caracteristicile definitorii ale LLM-urilor moderne este amploarea lor, cu numărul de parametri variind de la miliarde la sute de miliarde. Creșterea dimensiunii modelului a fost un factor crucial în obținerea performanței de ultimă generație, deoarece modelele mai mari pot captura modele și relații mai complexe în date.

Număr de parametri: Numărul de parametri dintr-un LLM bazat pe decodor este determinat în primul rând de dimensiunea de încorporare (d_model), numărul de capete de atenție (n_heads), numărul de straturi (n_layers) și dimensiunea vocabularului (vocab_size). De exemplu, modelul GPT-3 are 175 de miliarde de parametri, cu d_model = 12288, n_capete = 96, n_straturi = 96, și vocab_size = 50257.

Paralelism de model: Antrenarea și implementarea unor astfel de modele masive necesită resurse de calcul substanțiale și hardware specializat. Pentru a depăși această provocare, s-au folosit tehnici de paralelism de model, în care modelul este împărțit în mai multe GPU-uri sau TPU-uri, fiecare dispozitiv fiind responsabil pentru o parte din calcule.

Amestecul de experți: O altă abordare a scalarii LLM-urilor este arhitectura mixture-of-experts (MoE), care combină mai multe modele de experți, fiecare specializat într-un anumit subset al datelor sau sarcinii. Modelul Mixtral 8x7B este un exemplu de model MoE care valorifică Mistral 7B ca model de bază, obținând performanțe superioare, menținând în același timp eficiența de calcul.

Inferență și generare de text

Unul dintre cazurile principale de utilizare a LLM-urilor bazate pe decodor este generarea de text, în care modelul generează text coerent și natural, pe baza unui prompt sau context dat.

Decodare autoregresivă: În timpul inferenței, LLM-urile bazate pe decodor generează text într-o manieră autoregresivă, prevăzând câte un jeton la un moment dat, pe baza simbolurilor generate anterior și a promptului de intrare. Acest proces continuă până când este îndeplinit un criteriu de oprire predeterminat, cum ar fi atingerea unei lungimi maxime a secvenței sau generarea unui simbol de sfârșit de secvență.

Strategii de eșantionare: Pentru a genera text divers și realist, pot fi folosite diverse strategii de eșantionare, cum ar fi eșantionarea top-k, eșantionarea top-p (cunoscută și ca eșantionare nucleu) sau scalarea temperaturii. Aceste tehnici controlează compromisul dintre diversitate și coerență a textului generat prin ajustarea distribuției probabilității asupra vocabularului.

Inginerie promptă: Calitatea și specificul promptului de introducere pot avea un impact semnificativ asupra textului generat. Ingineria promptă, arta de a crea indicații eficiente, a apărut ca un aspect crucial al utilizării LLM-urilor pentru diverse sarcini, permițând utilizatorilor să ghideze procesul de generare a modelului și să obțină rezultatele dorite.

Decodarea umană în buclă: Pentru a îmbunătăți și mai mult calitatea și coerența textului generat, tehnici precum Învățare de consolidare din feedbackul uman (RLHF) au fost angajați. În această abordare, evaluatorii umani oferă feedback cu privire la textul generat de model, care este apoi folosit pentru a ajusta modelul, aliniindu-l efectiv cu preferințele umane și îmbunătățindu-i rezultatele.

Progrese și direcții viitoare

Domeniul LLM-urilor bazate pe decodor evoluează rapid, cu noi cercetări și descoperiri împingând continuu limitele a ceea ce pot realiza aceste modele. Iată câteva progrese notabile și posibile direcții viitoare:

Variante eficiente de transformatoare: În timp ce atenția redusă și atenția ferestrei glisante au făcut progrese semnificative în îmbunătățirea eficienței LLM-urilor bazate pe decodor, cercetătorii explorează în mod activ arhitecturi alternative de transformatoare și mecanisme de atenție pentru a reduce și mai mult cerințele de calcul, menținând sau îmbunătățind în același timp performanța.

LLM-uri multimodale: extinzând capabilitățile LLM-urilor dincolo de text, modelele multimodale urmăresc să integreze mai multe modalități, cum ar fi imagini, audio sau video, într-un singur cadru unificat. Acest lucru deschide posibilități interesante pentru aplicații precum subtitrărea imaginilor, răspunsurile vizuale la întrebări și generarea de conținut multimedia.

Generație controlabilă: Activarea controlului fin asupra textului generat este o direcție provocatoare, dar importantă pentru LLM. Tehnici precum generarea controlată a textului și reglarea promptă au scopul de a oferi utilizatorilor un control mai granular asupra diferitelor atribute ale textului generat, cum ar fi stilul, tonul sau cerințele specifice de conținut.

Concluzie

LLM-urile bazate pe decodor au apărut ca o forță transformatoare în domeniul prelucrării limbajului natural, împingând granițele a ceea ce este posibil cu generarea și înțelegerea limbajului. De la începuturile lor umile ca o variantă simplificată a arhitecturii transformatoarelor, aceste modele au evoluat în sisteme extrem de sofisticate și puternice, valorificând tehnici de ultimă oră și inovații arhitecturale.

Pe măsură ce continuăm să explorăm și să progresăm LLM-uri bazate pe decodor, ne putem aștepta să asistăm la realizări și mai remarcabile în sarcinile legate de limbaj, precum și la integrarea acestor modele într-o gamă largă de aplicații și domenii. Cu toate acestea, este crucial să se abordeze considerentele etice, provocările de interpretabilitate și potențialele părtiniri care pot apărea din implementarea pe scară largă a acestor modele puternice.

Rămânând în fruntea cercetării, încurajând colaborarea deschisă și menținând un angajament puternic față de dezvoltarea responsabilă a AI, putem debloca întregul potențial al LLM-urilor bazate pe decodor, asigurându-ne în același timp că sunt dezvoltate și utilizate într-o manieră sigură, etică și benefică pentru societate.

Nu ratați

Mini-Gemeni: Exploatarea potențialului modelelor de limbaj de viziune multimodal

Aayush Mittal

Mi-am petrecut ultimii cinci ani scufundându-mă în lumea fascinantă a învățării automate și a învățării profunde. Pasiunea și expertiza mea m-au determinat să contribui la peste 50 de proiecte diverse de inginerie software, cu un accent deosebit pe AI/ML. Curiozitatea mea continuă m-a atras și către Procesarea limbajului natural, un domeniu pe care sunt dornic să îl explorez în continuare.

Unite.AI

Modele de limbi mari bazate pe decodor: un ghid complet

Inteligenta Artificiala

Modele de limbi mari bazate pe decodor: un ghid complet

Cuprins

Arhitectura transformatorului: o reîmprospătare

Auto-atenție: cheia succesului lui Transformer