Intel·ligència Artificial

MPT-30B: MosaicML supera GPT-3 amb un nou LLM per superar els límits de la PNL

publicat

Fa mesos 10

Juliol 5, 2023

Imatge del bloc destacat-MPT-30B: MosaicML supera GPT-3 amb un nou LLM per superar els límits dels models lingüístics

MosaicML és un IA generativa empresa que ofereix solucions de desplegament i escalabilitat d'IA. El seu darrer model de gran llenguatge (LLM) MPT-30B està fent onades a la comunitat d'IA.

El viatge LLM de MosaicML va començar amb el llançament de MPT-7B (Mosaic Pretrained Transformer) el maig de 2023 que va incloure tres variants:

MPT-7B-StoryWriter-65k+ (per a la generació d'històries llargues)
MPT-7B-Instruct (per a les instruccions breus següents)
MPT-7B-Xat (per a la generació de diàlegs)

Els models van ser testimonis d'un èxit massiu a la comunitat de ML per la seva naturalesa de codi obert, la seva usabilitat comercial i la seva capacitat excepcional per gestionar finestres de context ampliades.

El més important, el model estava a la paritat i, en alguns casos, va superar els altres models comparables (LLAMA-7B, StableLM 7B, etc). Al juny, la sèrie MPT-7B s'havia descarregat més de 3 milions de vegades. El 22 de juny es va llançar MosaicML MPT-30B que va elevar encara més el llistó dels models de fundació de codi obert.

El MPT-30B: un LLM potent que supera el GPT-3

MPT-30B és un LLM basat en descodificadors de codi obert i amb llicència comercial que és més potent que GPT-3-175B amb només el 17% dels paràmetres GPT-3, és a dir, 30B. Supera GPT-3 en diverses tasques. Aquí teniu una comparació entre MPT-30B i GPT-3.

El MPT-30B: un LLM potent que supera la comparació GPT-3-GPT3-vs-MPT-30B

font

MPT-30B es basa en el model MPT-7B anterior. És computacionalment eficient entrenar en comparació amb models amb mides similars. Per exemple, LLaMA-30B va utilitzar aproximadament 1.44 vegades més pressupost de FLOP que MPT-30B, mentre que Falcon-40B tenia un pressupost de FLOP 1.27 vegades més gran que MPT-30B. Aquí teniu una il·lustració de la millora de MPT-30B en diverses tasques respecte al seu predecessor.

El MPT-30B: un LLM potent que supera la comparació GPT-3-MPT-30B-MPT-7B

font

Algunes característiques especials de MPT-30B són les següents:

Finestra de context de testimoni de 8k

La finestra de context als LLM fa referència al rang de fitxes que el model pot considerar abans de generar la sortida. MPT-30B tenia una finestra de context de 8000 fitxes en el moment de l'entrenament. Primer es va entrenar en fitxes 1T utilitzant seqüències de fitxes de 2k i després 50B fitxes addicionals de seqüències de fitxes de 8k (aproximadament Paraules 6000).

Suport ALiBi

Per explicar aquesta característica, considerem una pregunta:

Com pot entendre MPT-30B i fer prediccions per a seqüències més llargues que les que es van entrenar?

MPT-30B utilitza un Atenció amb biaixos lineals (ALiBi) tècnica per entendre seqüències més llargues i ampliar la finestra de context més enllà de fitxes de 8k durant l'ajustament o la inferència.

En lloc de calcular incrustacions posicionals en què assignem un vector a cada paraula de la seqüència, ALiBi calcula puntuacions d'atenció entre fitxes clau i consulta. Quan les fitxes de clau i de consulta estan juntes, la penalització és baixa però més alta en cas contrari. Com a resultat, el subjacent arquitectura del transformador es pot extrapolar a entrades de format llarg.

Inferència eficient i rendiment d'entrenament mitjançant FlashAttention

L'atenció, és a dir, centrar-se en les parts rellevants de la seqüència d'entrada, és un component crític dels transformadors, però pot ser lent i consumir memòria, especialment quan es processen seqüències de text llargues.

FlashAtenció és un enfocament proposat per investigadors de la Universitat de Cornell que aborda aquest problema per a MPT-30B. Mitjançant una tècnica anomenada mosaic, FlashAttention redueix el nombre de vegades que el model necessita llegir o escriure a la memòria, accelerant el processament. Per tant, el model utilitza la tècnica FlashAttention d'última generació i NVIDIA FasterTransformer biblioteca d'optimització per a una formació i inferència eficients.

Facilitat de formació i desplegament

Els desenvolupadors poden entrenar MPT-30B des de zero o utilitzar els punts de control de MosaicML per a desplegaments més ràpids. A més, es pot ajustar per a casos d'ús específics del domini en un conjunt de dades concret.

La mida del model es va triar per permetre un desplegament sense esforç en una única GPU, concretament 1xA100-80GB amb precisió de 16 bits o 1xA100-40GB amb precisió de 8 bits. Això vol dir que el model va ser dissenyat per adaptar-se a les limitacions de memòria d'aquestes GPU.

Capacitats de codificació

MPT-30B també ofereix capacitats de codificació excepcionals. HumanEval és un conjunt de dades publicat per OpenAI que conté 164 problemes de programació artesanals. Al conjunt de dades HumanEval, el model supera els models LLM creats per a aquest propòsit, com ara el StarCoder sèrie.

font

Variants afinades: MPT-30B-Instruct i MPT-30B-Chat

MPT-30B-Instruct

Els LLM s'utilitzen principalment per a instruccions com la resposta a preguntes, resum de text, traducció d'idiomes, etc. MPT-30B-Instruct és una variant comercialment utilitzable (manté la llicència comercial CC-By-SA-3.0) de MPT-30B ajustada específicament per a instruccions següents a les tasques. Per a l'ajustament, s'han utilitzat els següents conjunts de dades:

FLAN
P3
Paco
Dolly-15k

El conjunt de dades Dolly es va augmentar encara més amb Conjunt de dades útil i inofensiu d'Anthropic per a l'ajustament de les instruccions. A més, es va utilitzar una àmplia gamma de conjunts de dades per augmentar les dades, que són els següents:

Competència Matemàtiques
Grau Escola Matemàtiques
DialogSum
DuoRC
QASPER
QUALITAT
SummScreen
Aranya

MPT-30B-Xat

MPT-30B-Chat és una versió afinada de MPT-30B per a la generació de diàlegs. És un artefacte de recerca publicat sota la llicència CC-By-NC-SA-4.0, que només permet l'ús no comercial. El model es va ajustar amb diversos conjunts de dades d'idiomes, com ara:

Airoboros/GPT4-1.2
Sí
Camell
GPTeacher
Guanac
Conversacions llargues
Comparteix GPT
WizardLM

Els LLM comparteixen una gran part del multimilionaris de dòlars mercat generatiu d'IA, que ha experimentat un creixement enorme en poc temps després que ChatGPT revolucionés el panorama l'any passat. La família MPT és una part fonamental d'aquesta revolució. En un futur proper, podem esperar veure models de codi obert disponibles comercialment que siguin molt més potents i eficients que la família MPT.

Per obtenir les últimes notícies d'IA, visiteu unir.ai.