Inteligência artificial
Você pode construir grandes modelos de linguagem como o ChatGPT pela metade do custo?
Modelos de linguagem grandes (LLMs) como GPT-3 e ChatGPT revolucionaram a IA ao oferecer recursos de compreensão de linguagem natural e geração de conteúdo. Mas seu desenvolvimento tem um preço alto, limitando a acessibilidade e pesquisas adicionais. Os pesquisadores estimam que o treinamento do GPT-3 custou ao OpenAI cerca de $ 5 milhões. Ainda assim, a Microsoft reconheceu o potencial e investiu US$ 1 bilhões em 2019 e US$ 10 bilhões em 2023 no empreendimento GPT-3 e ChatGPT da OpenAI.
LLMs são modelos de aprendizado de máquina treinados em extensos dados textuais para aplicações de PNL. Eles são baseados na arquitetura do transformador e utilizam mecanismos de atenção para tarefas de PNL, como resposta a perguntas, tradução automática, análise de sentimento, etc.
Surge a pergunta: a eficiência desses modelos grandes pode ser aumentada e, ao mesmo tempo, reduzir o custo computacional e o tempo de treinamento?
Várias abordagens, como Redes Neurais Progressivas, Morfismo de rede, paralelismo de modelo intra-camada, herança do conhecimento, etc., foram desenvolvidos para reduzir o custo computacional do treinamento de redes neurais. O romance LiGO (Operador de Crescimento Linear) que discutiremos é estabelecer um novo padrão de referência. Ele reduz pela metade o custo computacional de treinamento de LLMs.
Antes de discutir essa técnica, é essencial examinar os fatores que contribuem para o alto preço de fabricação de LLMs.
Custo de construção de grandes modelos de linguagem
Três despesas principais para o desenvolvimento de LLMs são as seguintes:
1. Recursos Computacionais
A construção de LLMs requer recursos computacionais maciços para treinar em grandes conjuntos de dados. Eles devem processar bilhões de parâmetros e aprender padrões complexos a partir de dados textuais maciços.
Investimento em hardware especializado, como Unidades de Processamento Gráfico (GPUs) e Tensor Processing Units (TPUs) é necessário para construir e treinar LLMs para alcançar desempenho de ponta.
Por exemplo, o GPT-3 foi treinado em um supercomputador com 10000 GPUs de nível empresarial (H100 e A100) e 285,000 núcleos de CPU.
2. Consumo de energia
Os recursos computacionais intensivos necessários para a construção de LLMs resultam em um consumo significativo de energia. Por exemplo, treinar 175 bilhões de parâmetros GPT-3 levou 14.8 dias usando 10,000 GPUs V100, equivalente a 3.55 milhões de horas de GPU. Um nível tão alto de consumo de energia também tem efeitos ambientais significativos.
3. Armazenamento e gerenciamento de dados
Os LLMs são treinados em grandes conjuntos de dados. Por exemplo, o GPT-3 foi treinado em um vasto corpus de dados,, incluindo Common Crawl, WebText2, Books1, Books2 e Wikipedia, entre outras fontes. É necessário um investimento significativo em infraestrutura para coletar, selecionar e armazenar esses conjuntos de dados.
Além disso, é necessário armazenamento em nuvem para armazenamento de dados e experiência humana para pré-processamento de dados e controle de versão. Além disso, garantir que sua estratégia de dados esteja em conformidade com regulamentações como GDPR também aumenta o custo.
Técnica LiGO: Reduza pela metade o custo de construção de grandes modelos de linguagem
LiGO (Linear Growth Operator) é uma nova técnica desenvolvida por pesquisadores do MIT para reduzir o custo computacional de treinamento de LLMs em 50%. O método envolve inicializar os pesos de modelos maiores daqueles de modelos pré-treinados menores, permitindo o escalonamento eficiente de redes neurais.
Yoon-Kim, o autor sênior do artigo, diz:
“Estima-se que os modelos de treinamento na escala em que o ChatGPT supostamente funciona podem custar milhões de dólares apenas para uma única execução de treinamento. Podemos melhorar a eficiência desses métodos de treinamento, para que possamos obter bons modelos em menos tempo e por menos dinheiro? Propomos fazer isso aproveitando modelos de linguagem menores que foram treinados anteriormente.”
Esse método mantém os benefícios de desempenho de modelos maiores com custo computacional e tempo de treinamento reduzidos em comparação com o treinamento de um modelo grande do zero. O LiGO utiliza um operador de crescimento linear orientado por dados que combina operadores de profundidade e largura para um desempenho ideal.
O artigo utilizou vários conjuntos de dados para conduzir experimentos baseados em texto, incluindo o corpus da Wikipedia em inglês para treinar modelos BERT e RoBERTa e o conjunto de dados C4 para treinar GPT2.
A experimentação da técnica LiGO incluiu o crescimento de BERT-Small para BERT-Base, BERT-Base para BERT-Large, RoBERTaSmall para RoBERTa-Base, GPT2-Base para GPT2-Medium e CaiT-XS para CaiT-S.
Os pesquisadores compararam sua abordagem com várias outras linhas de base, incluindo treinamento do zero, treinamento progressivo, bert2BERT e KI.
A técnica LiGO ofereceu 44.7% de economia em FLOPs (operações de ponto flutuante por segundo) e 40.7% de economia no tempo de parede em comparação com o treinamento do BERT-Base do zero, reutilizando o modelo BERT-Small. O operador de crescimento LiGO supera StackBERT, MSLT, bert2BERT e KI em treinamento eficiente.
Benefícios de usar uma técnica de otimização de treinamento como o LiGO
O LiGO é um método de treinamento de rede neural eficiente que possui vários benefícios listados a seguir:
1. Treinamento mais rápido
Como afirmado anteriormente, o treinamento mais rápido é a principal vantagem da técnica LiGO. Ele treina LLMs na metade do tempo, aumentando a produtividade e reduzindo custos.
2. Recursos Eficientes
O LiGO é eficiente em termos de recursos, pois minimiza o tempo de parede e os FLOPs, levando a uma abordagem mais econômica e ecológica para treinar grandes modelos de transformadores.
3. Generalização
A técnica LiGO melhorou o desempenho dos transformadores de linguagem e visão, sugerindo que é uma técnica generalizável que pode ser aplicada a várias tarefas.
A construção de produtos comerciais de IA é apenas uma faceta das despesas gerais associadas aos sistemas de IA. Outro componente significativo dos custos vem das operações diárias. Por exemplo, custa à OpenAI cerca de $700,000 todos os dias para responder a perguntas usando ChatGPT. Espera-se que os pesquisadores continuem explorando abordagens que tornem os LLMs econômicos durante o treinamento e mais acessíveis em tempo de execução.
Para mais conteúdo relacionado à IA, visite uni-vos.ai.