Intel·ligència Artificial

Podeu crear grans models de llenguatge com ChatGPT a meitat de cost?

publicat

Fa mesos 12

Pot 11, 2023

Grans models lingüístics (LLM) com GPT-3 i ChatGPT han revolucionat la IA oferint capacitats de comprensió del llenguatge natural i de generació de contingut. Però el seu desenvolupament té un preu alt que limita l'accessibilitat i la investigació posterior. Els investigadors estimen que la formació GPT-3 va costar a OpenAI $ 5 milions. No obstant això, Microsoft va reconèixer el potencial i va invertir $ 1 milions en 2019 i $ 10 milions el 2023 a l'empresa GPT-3 i ChatGPT d'OpenAI.

Els LLM són models d'aprenentatge automàtic formats en dades textuals extenses per a aplicacions de PNL. Es basen en l'arquitectura del transformador i utilitzen mecanismes d'atenció per a tasques de PNL com la resposta a preguntes, la traducció automàtica, l'anàlisi de sentiments, etc.

Sorgeix la pregunta: es pot augmentar l'eficiència d'aquests grans models alhora que es redueix el cost computacional i el temps d'entrenament?

Diversos enfocaments, com Xarxes Neuronals Progressives, Morfisme en xarxa, Paral·lelisme del model intracapa, herència del coneixement, etc., s'han desenvolupat per reduir el cost computacional de l'entrenament de xarxes neuronals. La novel · la LiGO L'enfocament (operador de creixement lineal) que parlarem és establir un nou punt de referència. Redueix a la meitat el cost computacional de la formació de LLM.

Abans de parlar d'aquesta tècnica, és essencial examinar els factors que contribueixen a l'elevat preu de fer LLM.

Cost de la construcció de grans models lingüístics

Les tres despeses principals per desenvolupar LLM són les següents:

1. Recursos Computacionals

La creació de LLM requereix recursos computacionals massius per formar-se en grans conjunts de dades. Han de processar milers de milions de paràmetres i aprendre patrons complexos a partir de dades textuals massives.

Inversió en maquinari especialitzat com ara unitats de processament gràfic (GPUs) i les unitats de processament de tensors (TPU) són necessàries per construir i entrenar LLM per aconseguir un rendiment d'última generació.

Per exemple, GPT-3 es va entrenar en a superordinador amb 10000 GPU de grau empresarial (H100 i A100) i 285,000 nuclis de CPU.

2. Consum d'energia

Els recursos computacionals intensius necessaris per construir LLM donen lloc a un consum d'energia important. Per exemple, es van entrenar 175 milions de paràmetres GPT-3 14.8 dies utilitzant 10,000 GPU V100, equivalent a 3.55 milions d'hores de GPU. Un nivell tan elevat de consum d'energia també té importants efectes ambientals.

3. Emmagatzematge i gestió de dades

Els LLM es formen en grans conjunts de dades. Per exemple, GPT-3 es va entrenar en un ampli corpus de textos dades, incloent Common Crawl, WebText2, Books1, Books2 i Wikipedia, entre altres fonts. Es requereix una inversió important en infraestructura per recollir, curar i emmagatzemar aquests conjunts de dades.

A més, es requereix emmagatzematge al núvol per a l'emmagatzematge de dades i experiència humana per al preprocessament de dades i el control de versions. A més, assegurar-vos que la vostra estratègia de dades compleix amb regulacions com el GDPR també augmenta el cost.

Tècnica LiGO: reduir a la meitat el cost de la construcció de grans models lingüístics

LiGO (Linear Growth Operator) és una nova tècnica desenvolupada per investigadors del MIT per reduir el cost computacional de la formació de LLM en un 50%. El mètode consisteix a inicialitzar els pesos dels models més grans a partir dels dels models més petits pre-entrenats, permetent l'escalat eficient de les xarxes neuronals.

Imatge del paper: Aprendre a fer créixer models pre-entrenats per a una formació eficient en transformadors

Yoon Kim, l'autor principal del document, diu:

"S'ha estimat que els models d'entrenament a l'escala del que es planteja la hipòtesi que s'executaran amb ChatGPT podrien necessitar milions de dòlars només per a una sola sessió d'entrenament. Podem millorar l'eficiència d'aquests mètodes d'entrenament, de manera que encara podem obtenir bons models en menys temps i per menys diners? Ens proposem fer-ho aprofitant models lingüístics més petits que s'han entrenat prèviament".

Aquest mètode manté els avantatges de rendiment dels models més grans amb un cost computacional i un temps d'entrenament reduïts en comparació amb l'entrenament d'un model gran des de zero. LiGO utilitza un operador de creixement lineal basat en dades que combina operadors de profunditat i amplada per obtenir un rendiment òptim.

El document va utilitzar diversos conjunts de dades per dur a terme experiments basats en text, inclòs el corpus de la Viquipèdia en anglès per entrenar models BERT i RoBERTa i el conjunt de dades C4 per entrenar GPT2.

L'experimentació de la tècnica LiGO va incloure el creixement de BERT-Small a BERT-Base, BERT-Base a BERT-Large, RoBERTaSmall a RoBERTa-Base, GPT2-Base a GPT2-Medium i CaiT-XS a CaiT-S.

Els investigadors van comparar el seu enfocament amb altres línies de base, com ara l'entrenament des de zero, l'entrenament progressiu, bert2BERT i KI.

La tècnica LiGO va oferir un 44.7% d'estalvi en FLOP (operacions de coma flotant per segon) i un 40.7% d'estalvi en temps de paret en comparació amb l'entrenament de BERT-Base des de zero mitjançant la reutilització del model BERT-Small. L'operador de creixement LiGO supera a StackBERT, MSLT, bert2BERT i KI en una formació eficient.

Beneficis d'utilitzar una tècnica d'optimització d'entrenament com LiGO

LiGO és un mètode d'entrenament de xarxes neuronals eficient que té diversos avantatges que s'enumeren a continuació:

1. Entrenament més ràpid

Com s'ha dit anteriorment, un entrenament més ràpid és el principal avantatge de la tècnica LiGO. Forma els LLM en la meitat del temps, augmentant la productivitat i reduint costos.

2. Eficient amb els recursos

LiGO és eficient amb els recursos, ja que minimitza el temps de paret i els FLOP, donant lloc a un enfocament més rendible i ecològic per entrenar models de transformadors grans.

3. Generalització

La tècnica LiGO ha millorat el rendiment tant dels transformadors del llenguatge com de la visió, suggerint que és una tècnica generalitzable que es pot aplicar a diverses tasques.

La creació de productes d'IA comercials és només una faceta de les despeses generals associades als sistemes d'IA. Un altre component important dels costos prové de les operacions diàries. Per exemple, costa a OpenAI aproximadament $700,000 cada dia per respondre consultes mitjançant ChatGPT. S'espera que els investigadors continuïn explorant enfocaments que fan que els LLM siguin rendibles durant la formació i siguin més accessibles en temps d'execució.

Per obtenir més contingut relacionat amb la IA, visiteu unir.ai.