Intel·ligència Artificial

Grans models de llenguatge basats en descodificadors: una guia completa

actualitzat on Abril 27, 2024

Grans models de llenguatge basats en descodificadors: una guia completa

Grans models lingüístics (LLM) han revolucionat el camp del processament del llenguatge natural (PNL) demostrant capacitats notables per generar text semblant als humans, respondre preguntes i ajudar amb una àmplia gamma de tasques relacionades amb el llenguatge. Al nucli d'aquests models potents hi ha el Arquitectura de transformador només descodificador, una variant de l'arquitectura original del transformador proposada en el document seminal "L'atenció és tot el que necessiteu” de Vaswani et al.

En aquesta guia completa, explorarem el funcionament intern dels LLM basats en descodificadors, aprofundint en els blocs de construcció fonamentals, les innovacions arquitectòniques i els detalls d'implementació que han impulsat aquests models a l'avantguarda de la investigació i les aplicacions de PNL.

L'arquitectura del transformador: una actualització

Abans de capbussar-se en les especificitats dels LLM basats en descodificadors, és essencial revisar l'arquitectura del transformador, la base sobre la qual es construeixen aquests models. El transformador va introduir un enfocament nou per al modelatge de seqüències, basant-se únicament en mecanismes d'atenció per capturar dependències de llarg abast a les dades, sense necessitat de capes recurrents o convolucionals.

Arquitectura de transformadors

L'arquitectura original del transformador consta de dos components principals: un codificador i un descodificador. El codificador processa la seqüència d'entrada i genera una representació contextualitzada, que després és consumida pel descodificador per produir la seqüència de sortida. Aquesta arquitectura es va dissenyar inicialment per a tasques de traducció automàtica, on el codificador processa la frase d'entrada en l'idioma d'origen i el descodificador genera la frase corresponent en l'idioma de destinació.

Autoatenció: la clau de l'èxit de Transformer

Al cor de la ciutat transformador rau el mecanisme d'autoatenció, una tècnica potent que permet al model ponderar i agregar informació des de diferents posicions de la seqüència d'entrada. A diferència dels models de seqüències tradicionals, que processen els testimonis d'entrada de manera seqüencial, l'autoatenció permet al model capturar dependències entre qualsevol parell de fitxes, independentment de la seva posició a la seqüència.

Atenció multiconsulta

L'operació d'autoatenció es pot dividir en tres passos principals:

Projeccions de consulta, clau i valor: La seqüència d'entrada es projecta en tres representacions separades: consultes (Q), claus (K) i valors (V). Aquestes projeccions s'obtenen multiplicant l'entrada amb matrius de pes apreses.
Càlcul de la puntuació d'atenció: Per a cada posició de la seqüència d'entrada, les puntuacions d'atenció es calculen prenent el producte escalat entre el vector de consulta corresponent i tots els vectors clau. Aquestes puntuacions representen la rellevància de cada posició per a la posició actual que s'està processant.
Suma ponderada de valors: Les puntuacions d'atenció es normalitzen mitjançant una funció softmax, i els pesos d'atenció resultants s'utilitzen per calcular una suma ponderada dels vectors de valor, produint la representació de sortida per a la posició actual.

L'atenció multicap, una variant del mecanisme d'autoatenció, permet al model capturar diferents tipus de relacions calculant puntuacions d'atenció en múltiples "caps” en paral·lel, cadascun amb el seu propi conjunt de projeccions de consulta, clau i valor.

Variants i configuracions arquitectòniques

Tot i que els principis bàsics dels LLM basats en descodificadors segueixen sent coherents, els investigadors han explorat diverses variants i configuracions arquitectòniques per millorar el rendiment, l'eficiència i les capacitats de generalització. En aquesta secció, aprofundirem en les diferents opcions arquitectòniques i les seves implicacions.

Tipus d'arquitectura

Els LLM basats en descodificadors es poden classificar àmpliament en tres tipus principals: codificador-descodificador, descodificador causal i descodificador de prefix. Cada tipus d'arquitectura presenta diferents patrons d'atenció.

Arquitectura de codificador-descodificador

Basada en el model Vanilla Transformer, l'arquitectura codificador-descodificador consta de dues piles: un codificador i un descodificador. El codificador utilitza capes d'autoatenció multicaps apilades per codificar la seqüència d'entrada i generar representacions latents. Aleshores, el descodificador realitza una atenció creuada en aquestes representacions per generar la seqüència objectiu. Tot i que eficaç en diverses tasques de PNL, pocs LLM, com ara Flan-T5, adopta aquesta arquitectura.

Arquitectura del descodificador causal

L'arquitectura del descodificador causal incorpora una màscara d'atenció unidireccional, que permet que cada testimoni d'entrada només atengui els testimonis passats i ell mateix. Tant els testimonis d'entrada com de sortida es processen dins del mateix descodificador. Models notables com GPT-1, GPT-2 i GPT-3 es basen en aquesta arquitectura, amb GPT-3 que mostra capacitats d'aprenentatge en context notables. Molts LLM, inclosos OPT, BLOOM i Gopher, han adoptat àmpliament descodificadors causals.

Arquitectura del descodificador de prefix

També conegut com a descodificador no causal, l'arquitectura del descodificador de prefix modifica el mecanisme d'emmascarament dels descodificadors causals per permetre l'atenció bidireccional sobre els fitxes de prefix i l'atenció unidireccional en els testimonis generats. Igual que l'arquitectura codificador-decodificador, els descodificadors de prefix poden codificar la seqüència de prefix bidireccionalment i predir els testimonis de sortida de manera autoregressiva mitjançant paràmetres compartits. Els LLM basats en descodificadors de prefix inclouen GLM130B i U-PaLM.

Els tres tipus d'arquitectura es poden ampliar amb el barreja d'experts (MoE) tècnica d'escalat, que activa escassament un subconjunt de pesos de la xarxa neuronal per a cada entrada. Aquest enfocament s'ha utilitzat en models com Switch Transformer i GLaM, amb l'augment del nombre d'experts o la mida total del paràmetre mostrant millores de rendiment importants.

Transformador només amb descodificador: abraçant la naturalesa autoregressiva

Tot i que l'arquitectura del transformador original es va dissenyar per a tasques de seqüència a seqüència com la traducció automàtica, moltes tasques de PNL, com ara el modelatge del llenguatge i la generació de text, es poden emmarcar com a problemes autoregressius, on el model genera un testimoni alhora, condicionat a la fitxes generades anteriorment.

Introduïu el transformador només descodificador, una variant simplificada de l'arquitectura del transformador que només conserva el component del descodificador. Aquesta arquitectura és especialment adequada per a tasques autoregressives, ja que genera fitxes de sortida un per un, aprofitant els testimonis generats anteriorment com a context d'entrada.

La diferència clau entre el transformador només descodificador i el descodificador original del transformador rau en el mecanisme d'autoatenció. En la configuració només del descodificador, l'operació d'autoatenció es modifica per evitar que el model atengui les fitxes futures, una propietat coneguda com a causalitat. Això s'aconsegueix mitjançant una tècnica anomenada "autoatenció emmascarada", on les puntuacions d'atenció corresponents a posicions futures s'estableixen a l'infinit negatiu, emmascarant-les de manera efectiva durant el pas de normalització softmax.

Components arquitectònics dels LLM basats en descodificadors

Tot i que els principis bàsics de l'autoatenció i l'autoatenció emmascarada segueixen sent els mateixos, els LLM moderns basats en descodificadors han introduït diverses innovacions arquitectòniques per millorar el rendiment, l'eficiència i les capacitats de generalització. Explorem alguns dels components i tècniques clau que s'utilitzen en els LLM d'última generació.

Representació d'entrada

Abans de processar la seqüència d'entrada, els LLM basats en descodificadors utilitzen tècniques de tokenització i incrustació per convertir el text en brut en una representació numèrica adequada per al model.

incrustació vectorial

Tokenització: El procés de tokenització converteix el text d'entrada en una seqüència de fitxes, que poden ser paraules, subparaules o fins i tot caràcters individuals, depenent de l'estratègia de tokenització emprada. Les tècniques de tokenització populars per a LLM inclouen la codificació de parells de bytes (BPE), SentencePiece i WordPiece. Aquests mètodes tenen com a objectiu aconseguir un equilibri entre la mida del vocabulari i la granularitat de la representació, permetent al model manejar paraules rares o fora del vocabulari de manera eficaç.

Incrustacions de testimonis: Després de la tokenització, cada testimoni s'assigna a una representació vectorial densa anomenada incrustació de testimonis. Aquestes incrustacions s'aprenen durant el procés d'entrenament i capturen relacions semàntiques i sintàctiques entre fitxes.

Incrustacions posicionals: Els models de transformador processen tota la seqüència d'entrada simultàniament, sense la noció inherent de les posicions de les fitxes presents en els models recurrents. Per incorporar informació posicional, s'afegeixen incrustacions posicionals a les incrustacions de fitxes, la qual cosa permet al model distingir entre fitxes en funció de les seves posicions a la seqüència. Els primers LLM utilitzaven incrustacions posicionals fixes basades en funcions sinusoïdals, mentre que els models més recents han explorat incrustacions posicionals aprendre o tècniques alternatives de codificació posicional com les incrustacions posicionals rotatives.

Blocs d'atenció multicapçal

Els blocs bàsics dels LLM basats en descodificadors són capes d'atenció multicaps, que realitzen l'operació d'autoatenció emmascarada descrita anteriorment. Aquestes capes s'apilen diverses vegades, amb cada capa atenent a la sortida de la capa anterior, cosa que permet al model capturar dependències i representacions cada cop més complexes.

Caps d'atenció: cada capa d'atenció de diversos capçals consta de diversos "caps d'atenció", cadascun amb el seu propi conjunt de projeccions de consulta, clau i valor. Això permet al model atendre diferents aspectes de l'entrada simultàniament, capturant relacions i patrons diversos.

Connexions residuals i normalització de capes: Per facilitar l'entrenament de xarxes profundes i mitigar el problema del gradient de desaparició, els LLM basats en descodificadors utilitzen connexions residuals i tècniques de normalització de capes. Les connexions residuals afegeixen l'entrada d'una capa a la seva sortida, permetent que els gradients flueixin més fàcilment durant la retropropagació. La normalització de capes ajuda a estabilitzar les activacions i els gradients, millorant encara més l'estabilitat i el rendiment de l'entrenament.

Capes d'alimentació cap endavant

A més de les capes d'atenció de diversos caps, els LLM basats en descodificadors incorporen capes d'alimentació anticipada, que apliquen una xarxa neuronal d'alimentació simple a cada posició de la seqüència. Aquestes capes introdueixen no linealitats i permeten que el model aprengui representacions més complexes.

Funcions d'activació: L'elecció de la funció d'activació a les capes de feed-forward pot afectar significativament el rendiment del model. Tot i que els LLM anteriors es basaven en l'activació ReLU àmpliament utilitzada, els models més recents han adoptat funcions d'activació més sofisticades com la unitat lineal d'error gaussià (GELU) o l'activació SwiGLU, que han mostrat un rendiment millorat.

Atenció escassa i transformadors eficients

Tot i que el mecanisme d'autoatenció és potent, ve amb una complexitat computacional quadràtica pel que fa a la longitud de la seqüència, cosa que la fa costosa computacionalment per a seqüències llargues. Per abordar aquest repte, s'han proposat diverses tècniques per reduir els requisits computacionals i de memòria de l'autoatenció, permetent un processament eficient de seqüències més llargues.

Atenció escassa: Les tècniques d'atenció escassa, com la que s'utilitza en el model GPT-3, atenen selectivament un subconjunt de posicions en la seqüència d'entrada, en lloc de calcular les puntuacions d'atenció per a totes les posicions. Això pot reduir significativament la complexitat computacional mantenint un rendiment raonable.

Atenció de la finestra corredissa: Introduït al model Mistral 7B, l'atenció de la finestra lliscant (SWA) és una tècnica senzilla però eficaç que restringeix l'amplitud d'atenció de cada testimoni a una mida de finestra fixa. Aquest enfocament aprofita la capacitat de les capes del transformador per transmetre informació a través de múltiples capes, augmentant eficaçment la capacitat d'atenció sense la complexitat quadràtica de l'autoatenció total.

Memòria cau de memòria intermèdia: Per reduir encara més els requisits de memòria, especialment per a seqüències llargues, el model Mistral 7B utilitza una memòria cau de memòria intermèdia. Aquesta tècnica emmagatzema i reutilitza els vectors de clau i valor calculats per a una mida de finestra fixa, evitant càlculs redundants i minimitzant l'ús de memòria.

Atenció de consultes agrupades: Introduït al model LLaMA 2, l'atenció de consulta agrupada (GQA) és una variant del mecanisme d'atenció de consultes múltiples que divideix els caps d'atenció en grups, cada grup compartint una clau i una matriu de valors comuns. Aquest enfocament aconsegueix un equilibri entre l'eficiència de l'atenció de múltiples consultes i el rendiment de l'autoatenció estàndard, proporcionant temps d'inferència millorats alhora que es mantenen resultats d'alta qualitat.

Atenció de consultes agrupades

Mida i escala del model

Una de les característiques definitòries dels LLM moderns és la seva gran escala, amb el nombre de paràmetres que oscil·la entre milers de milions i centenars de milers de milions. Augmentar la mida del model ha estat un factor crucial per aconseguir un rendiment d'última generació, ja que els models més grans poden capturar patrons i relacions més complexes a les dades.

Recompte de paràmetres: El nombre de paràmetres en un LLM basat en descodificadors està determinat principalment per la dimensió d'incrustació (d_model), el nombre de caps d'atenció (n_heads), el nombre de capes (n_layers) i la mida del vocabulari (vocab_size). Per exemple, el model GPT-3 té 175 mil milions de paràmetres, amb d_model = 12288, n_caps = 96, n_capes = 96i mida_vocab = 50257.

Paral·lelisme model: La formació i el desplegament de models tan massius requereixen recursos computacionals substancials i maquinari especialitzat. Per superar aquest repte, s'han emprat tècniques de paral·lelisme de models, on el model es divideix en diverses GPU o TPU, amb cada dispositiu responsable d'una part dels càlculs.

Mescla d'experts: Un altre enfocament per escalar els LLM és l'arquitectura de barreja d'experts (MoE), que combina diversos models experts, cadascun especialitzat en un subconjunt específic de dades o tasca. El model Mixtral 8x7B és un exemple de model MoE que aprofita el Mistral 7B com a model base, aconseguint un rendiment superior mantenint l'eficiència computacional.

Inferència i generació de textos

Un dels principals casos d'ús dels LLM basats en descodificadors és la generació de text, on el model genera text coherent i de so natural basat en una indicació o context determinat.

Decodificació autoregressiva: Durant la inferència, els LLM basats en descodificadors generen text d'una manera autoregressiva, predint un testimoni a la vegada basant-se en els testimonis generats anteriorment i l'indicador d'entrada. Aquest procés continua fins que es compleix un criteri d'aturada predeterminat, com ara assolir una longitud de seqüència màxima o generar un testimoni de final de seqüència.

Estratègies de mostreig: Per generar text divers i realista, es poden utilitzar diverses estratègies de mostreig, com ara el mostreig top-k, el mostreig top-p (també conegut com a mostreig de nucli) o l'escala de temperatura. Aquestes tècniques controlen el compromís entre diversitat i coherència del text generat ajustant la distribució de probabilitats sobre el vocabulari.

Enginyeria ràpida: La qualitat i l'especificitat de l'indicador d'entrada poden afectar significativament el text generat. L'enginyeria ràpida, l'art d'elaborar indicacions efectives, ha sorgit com un aspecte crucial per aprofitar els LLM per a diverses tasques, que permet als usuaris guiar el procés de generació del model i aconseguir els resultats desitjats.

Descodificació human-in-the-loop: Per millorar encara més la qualitat i la coherència del text generat, tècniques com Aprenentatge de reforç a partir de la retroalimentació humana (RLHF) han estat emprats. En aquest enfocament, els evaluadors humans proporcionen comentaris sobre el text generat del model, que després s'utilitza per afinar el model, alineant-lo de manera efectiva amb les preferències humanes i millorant-ne els resultats.

Avenços i orientacions futures

El camp dels LLM basats en descodificadors està evolucionant ràpidament, amb noves investigacions i avenços que impulsen contínuament els límits del que poden aconseguir aquests models. Aquests són alguns avenços notables i possibles direccions futures:

Variants de transformadors eficients: Si bé l'atenció escassa i l'atenció de la finestra lliscant han fet avenços significatius en la millora de l'eficiència dels LLM basats en descodificadors, els investigadors estan explorant activament arquitectures alternatives de transformadors i mecanismes d'atenció per reduir encara més els requisits computacionals mentre mantenen o milloren el rendiment.

LLM multimodals: Ampliant les capacitats dels LLM més enllà del text, els models multimodals tenen com a objectiu integrar múltiples modalitats, com ara imatges, àudio o vídeo, en un únic marc unificat. Això obre possibilitats interessants per a aplicacions com els subtítols d'imatges, les respostes visuals a preguntes i la generació de contingut multimèdia.

Generació controlable: habilitar un control detallat sobre el text generat és una direcció difícil però important per als LLM. Tècniques com la generació controlada de text i l'ajustament ràpid tenen com a objectiu proporcionar als usuaris un control més granular sobre diversos atributs del text generat, com ara l'estil, el to o els requisits de contingut específics.

Conclusió

Els LLM basats en descodificadors han sorgit com una força transformadora en el camp del processament del llenguatge natural, empenyent els límits del que és possible amb la generació i la comprensió del llenguatge. Des dels seus humils inicis com una variant simplificada de l'arquitectura del transformador, aquests models han evolucionat cap a sistemes molt sofisticats i potents, aprofitant tècniques d'avantguarda i innovacions arquitectòniques.

A mesura que continuem explorant i avançant en els LLM basats en descodificadors, podem esperar ser testimonis d'assoliments encara més notables en tasques relacionades amb l'idioma, així com la integració d'aquests models en una àmplia gamma d'aplicacions i dominis. Tanmateix, és crucial abordar les consideracions ètiques, els reptes d'interpretabilitat i els possibles biaixos que poden sorgir del desplegament generalitzat d'aquests potents models.

En mantenir-nos a l'avantguarda de la investigació, fomentar la col·laboració oberta i mantenir un fort compromís amb el desenvolupament responsable d'IA, podem desbloquejar tot el potencial dels LLM basats en descodificadors alhora que ens assegurem que es desenvolupin i s'utilitzin d'una manera segura, ètica i beneficiosa per a societat.

Temes relacionats:BLOOM descodificador GPT-3 LLM PALM ENGINYERIA RÀPID autoatenció transformadors

Fins a la propera

Powerhouse de mida de butxaca: presentant el Phi-3 de Microsoft, el model d'idioma que s'adapta al vostre telèfon

No et perdis

Mini-Gemini: Explorant el potencial dels models de llenguatge de visió multimodalitat

Aayush Mittal

He passat els últims cinc anys submergint-me en el fascinant món de l'aprenentatge automàtic i l'aprenentatge profund. La meva passió i experiència m'han portat a contribuir a més de 50 projectes diversos d'enginyeria de programari, amb un enfocament particular en IA/ML. La meva curiositat contínua també m'ha atret cap al processament del llenguatge natural, un camp que tinc ganes d'explorar més.

Unite.AI

Grans models de llenguatge basats en descodificadors: una guia completa

Intel·ligència Artificial

Grans models de llenguatge basats en descodificadors: una guia completa

Taula de continguts

L'arquitectura del transformador: una actualització

Autoatenció: la clau de l'èxit de Transformer