Inteligência artificial

Você pode construir grandes modelos de linguagem como o ChatGPT pela metade do custo?

Publicado

meses 12 atrás

11 de maio de 2023

Modelos de linguagem grandes (LLMs) como GPT-3 e ChatGPT revolucionaram a IA ao oferecer recursos de compreensão de linguagem natural e geração de conteúdo. Mas seu desenvolvimento tem um preço alto, limitando a acessibilidade e pesquisas adicionais. Os pesquisadores estimam que o treinamento do GPT-3 custou ao OpenAI cerca de $ 5 milhões. Ainda assim, a Microsoft reconheceu o potencial e investiu US$ 1 bilhões em 2019 e US$ 10 bilhões em 2023 no empreendimento GPT-3 e ChatGPT da OpenAI.

LLMs são modelos de aprendizado de máquina treinados em extensos dados textuais para aplicações de PNL. Eles são baseados na arquitetura do transformador e utilizam mecanismos de atenção para tarefas de PNL, como resposta a perguntas, tradução automática, análise de sentimento, etc.

Surge a pergunta: a eficiência desses modelos grandes pode ser aumentada e, ao mesmo tempo, reduzir o custo computacional e o tempo de treinamento?

Várias abordagens, como Redes Neurais Progressivas, Morfismo de rede, paralelismo de modelo intra-camada, herança do conhecimento, etc., foram desenvolvidos para reduzir o custo computacional do treinamento de redes neurais. O romance LiGO (Operador de Crescimento Linear) que discutiremos é estabelecer um novo padrão de referência. Ele reduz pela metade o custo computacional de treinamento de LLMs.

Antes de discutir essa técnica, é essencial examinar os fatores que contribuem para o alto preço de fabricação de LLMs.

Custo de construção de grandes modelos de linguagem

Três despesas principais para o desenvolvimento de LLMs são as seguintes:

1. Recursos Computacionais

A construção de LLMs requer recursos computacionais maciços para treinar em grandes conjuntos de dados. Eles devem processar bilhões de parâmetros e aprender padrões complexos a partir de dados textuais maciços.

Investimento em hardware especializado, como Unidades de Processamento Gráfico (GPUs) e Tensor Processing Units (TPUs) é necessário para construir e treinar LLMs para alcançar desempenho de ponta.

Por exemplo, o GPT-3 foi treinado em um supercomputador com 10000 GPUs de nível empresarial (H100 e A100) e 285,000 núcleos de CPU.

2. Consumo de energia

Os recursos computacionais intensivos necessários para a construção de LLMs resultam em um consumo significativo de energia. Por exemplo, treinar 175 bilhões de parâmetros GPT-3 levou 14.8 dias usando 10,000 GPUs V100, equivalente a 3.55 milhões de horas de GPU. Um nível tão alto de consumo de energia também tem efeitos ambientais significativos.

3. Armazenamento e gerenciamento de dados

Os LLMs são treinados em grandes conjuntos de dados. Por exemplo, o GPT-3 foi treinado em um vasto corpus de dados,, incluindo Common Crawl, WebText2, Books1, Books2 e Wikipedia, entre outras fontes. É necessário um investimento significativo em infraestrutura para coletar, selecionar e armazenar esses conjuntos de dados.

Além disso, é necessário armazenamento em nuvem para armazenamento de dados e experiência humana para pré-processamento de dados e controle de versão. Além disso, garantir que sua estratégia de dados esteja em conformidade com regulamentações como GDPR também aumenta o custo.

Técnica LiGO: Reduza pela metade o custo de construção de grandes modelos de linguagem

LiGO (Linear Growth Operator) é uma nova técnica desenvolvida por pesquisadores do MIT para reduzir o custo computacional de treinamento de LLMs em 50%. O método envolve inicializar os pesos de modelos maiores daqueles de modelos pré-treinados menores, permitindo o escalonamento eficiente de redes neurais.

Imagem do jornal: Aprendendo a desenvolver modelos pré-treinados para treinamento eficiente de transformadores

Yoon-Kim, o autor sênior do artigo, diz:

“Estima-se que os modelos de treinamento na escala em que o ChatGPT supostamente funciona podem custar milhões de dólares apenas para uma única execução de treinamento. Podemos melhorar a eficiência desses métodos de treinamento, para que possamos obter bons modelos em menos tempo e por menos dinheiro? Propomos fazer isso aproveitando modelos de linguagem menores que foram treinados anteriormente.”

Esse método mantém os benefícios de desempenho de modelos maiores com custo computacional e tempo de treinamento reduzidos em comparação com o treinamento de um modelo grande do zero. O LiGO utiliza um operador de crescimento linear orientado por dados que combina operadores de profundidade e largura para um desempenho ideal.

O artigo utilizou vários conjuntos de dados para conduzir experimentos baseados em texto, incluindo o corpus da Wikipedia em inglês para treinar modelos BERT e RoBERTa e o conjunto de dados C4 para treinar GPT2.

A experimentação da técnica LiGO incluiu o crescimento de BERT-Small para BERT-Base, BERT-Base para BERT-Large, RoBERTaSmall para RoBERTa-Base, GPT2-Base para GPT2-Medium e CaiT-XS para CaiT-S.

Os pesquisadores compararam sua abordagem com várias outras linhas de base, incluindo treinamento do zero, treinamento progressivo, bert2BERT e KI.

A técnica LiGO ofereceu 44.7% de economia em FLOPs (operações de ponto flutuante por segundo) e 40.7% de economia no tempo de parede em comparação com o treinamento do BERT-Base do zero, reutilizando o modelo BERT-Small. O operador de crescimento LiGO supera StackBERT, MSLT, bert2BERT e KI em treinamento eficiente.

Benefícios de usar uma técnica de otimização de treinamento como o LiGO

O LiGO é um método de treinamento de rede neural eficiente que possui vários benefícios listados a seguir:

1. Treinamento mais rápido

Como afirmado anteriormente, o treinamento mais rápido é a principal vantagem da técnica LiGO. Ele treina LLMs na metade do tempo, aumentando a produtividade e reduzindo custos.

2. Recursos Eficientes

O LiGO é eficiente em termos de recursos, pois minimiza o tempo de parede e os FLOPs, levando a uma abordagem mais econômica e ecológica para treinar grandes modelos de transformadores.

3. Generalização

A técnica LiGO melhorou o desempenho dos transformadores de linguagem e visão, sugerindo que é uma técnica generalizável que pode ser aplicada a várias tarefas.

A construção de produtos comerciais de IA é apenas uma faceta das despesas gerais associadas aos sistemas de IA. Outro componente significativo dos custos vem das operações diárias. Por exemplo, custa à OpenAI cerca de $700,000 todos os dias para responder a perguntas usando ChatGPT. Espera-se que os pesquisadores continuem explorando abordagens que tornem os LLMs econômicos durante o treinamento e mais acessíveis em tempo de execução.

Para mais conteúdo relacionado à IA, visite uni-vos.ai.