Inteligência artificial

O único guia que você precisa para ajustar o Llama 3 ou qualquer outro modelo de código aberto

Publicado 31 de julho de 2024

Aayush Mittal Mittal

GUIA DE AJUSTE FINO DE CÓDIGO ABERTO LLM PYTHON

O ajuste fino de modelos de linguagem grande (LLMs), como o Llama 3, envolve a adaptação de um modelo pré-treinado para tarefas específicas usando um conjunto de dados específico de domínio. Esse processo aproveita o conhecimento pré-existente do modelo, tornando-o eficiente e econômico em comparação ao treinamento do zero. Neste guia, percorreremos as etapas para ajustar o Llama 3 usando QLoRA (Quantized LoRA), um método com eficiência de parâmetros que minimiza o uso de memória e os custos computacionais.

Visão geral do ajuste fino

O ajuste fino envolve várias etapas principais:

Selecionando um modelo pré-treinado: escolha um modelo básico que se alinhe à arquitetura desejada.
Reunindo um conjunto de dados relevante: colete e pré-processe um conjunto de dados específico para sua tarefa.
Afinação: adapte o modelo usando o conjunto de dados para melhorar seu desempenho em tarefas específicas.
Avaliação : Avalie o modelo ajustado usando métricas qualitativas e quantitativas.

Conceitos e Técnicas

Ajustando modelos de linguagem grande

Ajuste fino completo

Ajuste fino completo atualiza todos os parâmetros do modelo, tornando-o específico para a nova tarefa. Este método requer recursos computacionais significativos e muitas vezes é impraticável para modelos muito grandes.

Ajuste fino com eficiência de parâmetros (PEFT)

O PEFT atualiza apenas um subconjunto dos parâmetros do modelo, reduzindo os requisitos de memória e o custo computacional. Esta técnica evita o esquecimento catastrófico e mantém o conhecimento geral do modelo.

Adaptação de baixo nível (LoRA) e LoRA quantizado (QLoRA)

LoRA ajusta apenas algumas matrizes de baixa classificação, enquanto QLoRA quantiza essas matrizes para reduzir ainda mais o consumo de memória.

Métodos de ajuste fino

Ajuste fino completo: envolve treinar todos os parâmetros do modelo no conjunto de dados específico da tarefa. Embora este método possa ser muito eficaz, também é computacionalmente caro e requer uma quantidade significativa de memória.
Ajuste fino eficiente de parâmetros (PEFT): o PEFT atualiza apenas um subconjunto dos parâmetros do modelo, tornando-o mais eficiente em termos de memória. Técnicas como Low-Rank Adaptation (LoRA) e Quantized LoRA (QLoRA) se enquadram nesta categoria.

O que é LoRA?

Comparando métodos de ajuste fino: QLORA aprimora LoRA com quantização de precisão de 4 bits e otimizadores paginados para gerenciamento de picos de memória

LoRA é um método de ajuste fino aprimorado onde, em vez de ajustar todos os pesos do modelo pré-treinado, duas matrizes menores que se aproximam da matriz maior são ajustadas. Essas matrizes constituem o adaptador LoRA. Este adaptador ajustado é então carregado no modelo pré-treinado e usado para inferência.

Principais vantagens do LoRA:

Eficiência de memória: LoRA reduz o consumo de memória ajustando apenas pequenas matrizes em vez de todo o modelo.
Reutilização: O modelo original permanece inalterado e vários adaptadores LoRA podem ser usados com ele, facilitando o manuseio de múltiplas tarefas com menores requisitos de memória.

O que é LoRA Quantizado (QLoRA)?

QLoRA leva LoRA um passo adiante ao quantizar os pesos dos adaptadores LoRA para diminuir a precisão (por exemplo, 4 bits em vez de 8 bits). Isso reduz ainda mais o uso de memória e os requisitos de armazenamento, mantendo um nível comparável de eficácia.

Principais vantagens do QLoRA:

Eficiência de memória ainda maior: Ao quantizar os pesos, o QLoRA reduz significativamente os requisitos de memória e armazenamento do modelo.
Mantém o desempenho: Apesar da precisão reduzida, o QLoRA mantém níveis de desempenho próximos aos dos modelos de precisão total.

Adaptação Específica da Tarefa

Durante o ajuste fino, os parâmetros do modelo são ajustados com base no novo conjunto de dados, ajudando-o a compreender melhor e a gerar conteúdo relevante para a tarefa específica. Este processo retém o conhecimento geral do idioma adquirido durante o pré-treinamento, ao mesmo tempo que adapta o modelo às nuances do domínio alvo.

Ajuste fino na prática

Ajuste fino completo vs. PEFT

Ajuste fino completo: envolve o treinamento de todo o modelo, o que pode ser caro do ponto de vista computacional e requer memória significativa.
PEFT (LoRA e QLoRA): ajusta apenas um subconjunto de parâmetros, reduzindo os requisitos de memória e evitando esquecimentos catastróficos, tornando-o uma alternativa mais eficiente.

Etapas de implementação

Ambiente de Configuração: Instale as bibliotecas necessárias e configure o ambiente de computação.
Carregar e pré-processar conjunto de dados: carregue o conjunto de dados e pré-processe-o em um formato adequado ao modelo.
Carregar modelo pré-treinado: carregue o modelo base com configurações de quantização se estiver usando QLoRA.
tokenization: tokenize o conjunto de dados para prepará-lo para treinamento.
Formação: ajuste o modelo usando o conjunto de dados preparado.
Avaliação : Avalie o desempenho do modelo em tarefas específicas usando métricas qualitativas e quantitativas.

Guia Steo by Step para ajuste fino LLM

Configurando o ambiente

Usaremos um notebook Jupyter para este tutorial. Plataformas como Kaggle, que oferece uso gratuito de GPU, ou Google Colab são ideais para realizar esses experimentos.

1. Instale as bibliotecas necessárias

Primeiro, certifique-se de ter as bibliotecas necessárias instaladas:

!pip install -qqq -U bitsandbytes transformers peft accelerate datasets scipy einops evaluate trl rouge_score</div>

2. Importe bibliotecas e configure o ambiente

import os
import torch
from datasets import load_dataset
from transformers import (
    AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, TrainingArguments, 
    pipeline, HfArgumentParser
)
from trl import ORPOConfig, ORPOTrainer, setup_chat_format, SFTTrainer
from tqdm import tqdm
import gc
import pandas as pd
import numpy as np
from huggingface_hub import interpreter_login

# Disable Weights and Biases logging
os.environ['WANDB_DISABLED'] = "true"
interpreter_login()

3. Carregue o conjunto de dados

Usaremos o conjunto de dados DialogSum para este tutorial:

Pré-processe o conjunto de dados de acordo com os requisitos do modelo, incluindo a aplicação de modelos apropriados e garantindo que o formato dos dados seja adequado para ajuste fino. (Abraçando o rosto)â <â < (DataCamp).

dataset_name = "neil-code/dialogsum-test"
dataset = load_dataset(dataset_name)

Inspecione a estrutura do conjunto de dados:

print(dataset['test'][0])

4. Crie a configuração BitsAndBytes

Para carregar o modelo no formato de 4 bits:

compute_dtype = getattr(torch, "float16")
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type='nf4',
    bnb_4bit_compute_dtype=compute_dtype,
    bnb_4bit_use_double_quant=False,
)

5. Carregue o modelo pré-treinado

Usando o modelo Phi-2 da Microsoft para este tutorial:

model_name = 'microsoft/phi-2'
device_map = {"": 0}
original_model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    device_map=device_map,
    quantization_config=bnb_config,
    trust_remote_code=True,
    use_auth_token=True
)

6. Tokenização

Configure o tokenizador:

tokenizer = AutoTokenizer.from_pretrained(
    model_name, 
    trust_remote_code=True, 
    padding_side="left", 
    add_eos_token=True, 
    add_bos_token=True, 
    use_fast=False
)
tokenizer.pad_token = tokenizer.eos_token

Ajuste fino do Llama 3 ou outros modelos

Ao ajustar modelos como o Llama 3 ou qualquer outro LLM de código aberto de última geração, há considerações e ajustes específicos necessários para garantir o desempenho ideal. Aqui estão as etapas detalhadas e os insights sobre como abordar isso para diferentes modelos, incluindo Llama 3, GPT-3 e Mistral.

5.1 Usando Lhama 3

Seleção de modelo:

Certifique-se de ter o identificador de modelo correto no hub do modelo Hugging Face. Por exemplo, o modelo Llama 3 pode ser identificado como meta-llama/Meta-Llama-3-8B no rosto abraçado.
Certifique-se de solicitar acesso e fazer login em sua conta Hugging Face, se necessário, para modelos como Llama 3 (Abraçando o rosto)â <â <

Tokenização:

Use o tokenizer apropriado para o Llama 3, garantindo que ele seja compatível com o modelo e ofereça suporte aos recursos necessários, como preenchimento e tokens especiais.

Memória e computação:

O ajuste fino de modelos grandes como o Llama 3 requer recursos computacionais significativos. Certifique-se de que seu ambiente, como uma configuração de GPU poderosa, possa lidar com os requisitos de memória e processamento. Garanta que o ambiente possa lidar com os requisitos de memória, que podem ser mitigados usando técnicas como QLoRA para reduzir o consumo de memória (Fóruns de abraços faciais)

Exemplo:

model_name = 'meta-llama/Meta-Llama-3-8B'
device_map = {"": 0}
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
)
original_model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    device_map=device_map,
    quantization_config=bnb_config,
    trust_remote_code=True,
    use_auth_token=True
)

Tokenização:

Dependendo do caso de uso específico e dos requisitos do modelo, garanta a configuração correta do tokenizer sem configurações redundantes. Por exemplo, use_fast=True é recomendado para melhor desempenho (Abraçando o rosto)â <â < (Pesos e preconceitos).

tokenizer = AutoTokenizer.from_pretrained(
    model_name, 
    trust_remote_code=True, 
    padding_side="left", 
    add_eos_token=True, 
    add_bos_token=True, 
    use_fast=False
)
tokenizer.pad_token = tokenizer.eos_token

5.2 Usando outros modelos populares (por exemplo, GPT-3, Mistral)

Seleção de modelo:

Para modelos como GPT-3 e Mistral, certifique-se de usar o nome e o identificador corretos do modelo Hugging Face ou de outras fontes.

Tokenização:

Semelhante ao Llama 3, certifique-se de que o tokenizer esteja configurado corretamente e seja compatível com o modelo.

Memória e computação:

Cada modelo pode ter requisitos de memória diferentes. Ajuste a configuração do seu ambiente de acordo.

Exemplo para GPT-3:

model_name = 'openai/gpt-3'
device_map = {"": 0}
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
)
original_model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    device_map=device_map,
    quantization_config=bnb_config,
    trust_remote_code=True,
    use_auth_token=True
)

Exemplo para Mistral:

model_name = 'mistral-7B'
device_map = {"": 0}
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
)
original_model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    device_map=device_map,
    quantization_config=bnb_config,
    trust_remote_code=True,
    use_auth_token=True
)

Considerações sobre tokenização: Cada modelo pode ter requisitos exclusivos de tokenização. Certifique-se de que o tokenizer corresponda ao modelo e esteja configurado corretamente.

Exemplo de tokenizador Llama 3:

tokenizer = AutoTokenizer.from_pretrained(
    model_name, 
    trust_remote_code=True, 
    padding_side="left", 
    add_eos_token=True, 
    add_bos_token=True, 
    use_fast=False
)
tokenizer.pad_token = tokenizer.eos_token

Exemplo de tokenizador GPT-3 e Mistral:

tokenizer = AutoTokenizer.from_pretrained(
    model_name, 
    use_fast=True
)

7. Teste o modelo com inferência zero-shot

Avalie o modelo base com um exemplo de entrada:

from transformers import set_seed

set_seed(42)
index = 10
prompt = dataset['test'][index]['dialogue']
formatted_prompt = f"Instruct: Summarize the following conversation.\n{prompt}\nOutput:\n"

# Generate output
def gen(model, prompt, max_length):
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    outputs = model.generate(**inputs, max_length=max_length)
    return tokenizer.batch_decode(outputs, skip_special_tokens=True)

res = gen(original_model, formatted_prompt, 100)
output = res[0].split('Output:\n')[1]

print(f'INPUT PROMPT:\n{formatted_prompt}')
print(f'MODEL GENERATION - ZERO SHOT:\n{output}')

8. Pré-processe o conjunto de dados

Converta pares de diálogo-resumo em prompts:

def create_prompt_formats(sample):
    blurb = "Below is an instruction that describes a task. Write a response that appropriately completes the request."
    instruction = "### Instruct: Summarize the below conversation."
    input_context = sample['dialogue']
    response = f"### Output:\n{sample['summary']}"
    end = "### End"
    
    parts = [blurb, instruction, input_context, response, end]
    formatted_prompt = "\n\n".join(parts)
    sample["text"] = formatted_prompt
    return sample

dataset = dataset.map(create_prompt_formats)

Tokenize o conjunto de dados formatado:

def preprocess_batch(batch, tokenizer, max_length):
    return tokenizer(batch["text"], max_length=max_length, truncation=True)

max_length = 1024
train_dataset = dataset["train"].map(lambda batch: preprocess_batch(batch, tokenizer, max_length), batched=True)
eval_dataset = dataset["validation"].map(lambda batch: preprocess_batch(batch, tokenizer, max_length), batched=True)

9. Prepare o modelo para QLoRA

Prepare o modelo para ajuste fino com eficiência de parâmetros:

original_model = prepare_model_for_kbit_training(original_model)

Hiperparâmetros e seu impacto

Os hiperparâmetros desempenham um papel crucial na otimização do desempenho do seu modelo. Aqui estão alguns hiperparâmetros principais a serem considerados:

Taxa de Aprendizagem: controla a velocidade com que o modelo atualiza seus parâmetros. Uma alta taxa de aprendizagem pode levar a uma convergência mais rápida, mas pode ultrapassar a solução ideal. Uma baixa taxa de aprendizagem garante uma convergência constante, mas pode exigir mais épocas.
Tamanho do batch: o número de amostras processadas antes do modelo atualizar seus parâmetros. Tamanhos de lote maiores podem melhorar a estabilidade, mas requerem mais memória. Tamanhos de lote menores podem gerar mais ruído no processo de treinamento.
Etapas de acumulação de gradiente: este parâmetro ajuda a simular lotes maiores acumulando gradientes em várias etapas antes de executar uma atualização de parâmetro.
Número de Épocas: o número de vezes que todo o conjunto de dados passa pelo modelo. Mais épocas podem melhorar o desempenho, mas podem levar ao overfitting se não forem gerenciadas adequadamente.
Decadência de peso: Técnica de regularização para evitar overfitting penalizando pesos grandes.
Agendador de Taxa de Aprendizagem: ajusta a taxa de aprendizagem durante o treinamento para melhorar o desempenho e a convergência.

Personalize a configuração de treinamento ajustando hiperparâmetros como taxa de aprendizagem, tamanho do lote e etapas de acumulação de gradiente com base no modelo específico e nos requisitos da tarefa. Por exemplo, os modelos Llama 3 podem exigir taxas de aprendizagem diferentes em comparação com modelos menores (Pesos e preconceitos)â <â < (GitHub)

Exemplo de configuração de treinamento

orpo_args = ORPOConfig(
learning_rate=8e-6,
lr_scheduler_type="linear",max_length=1024,max_prompt_length=512,
beta=0.1,per_device_train_batch_size=2,per_device_eval_batch_size=2,
gradient_accumulation_steps=4,optim="paged_adamw_8bit",num_train_epochs=1,
evaluation_strategy="steps",eval_steps=0.2,logging_steps=1,warmup_steps=10,
report_to="wandb",output_dir="./results/",)

10. Treine o modelo

Configure o treinador e comece a treinar:

trainer = ORPOTrainer(
model=original_model,
args=orpo_args,
train_dataset=train_dataset,
eval_dataset=eval_dataset,
tokenizer=tokenizer,)
trainer.train()
trainer.save_model("fine-tuned-llama-3")

Avaliando o modelo ajustado

Após o treinamento, avalie o desempenho do modelo usando métodos qualitativos e quantitativos.

1. Avaliação Humana

Compare os resumos gerados com os escritos por humanos para avaliar a qualidade.

2. Avaliação Quantitativa

Use métricas como ROUGE para avaliar o desempenho:

from rouge_score import rouge_scorer

scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)
scores = scorer.score(reference_summary, generated_summary)
print(scores)

Desafios e soluções comuns

1. Limitações de memória

O uso do QLoRA ajuda a mitigar problemas de memória ao quantizar os pesos dos modelos para 4 bits. Certifique-se de ter memória GPU suficiente para lidar com o tamanho do lote e do modelo.

2. Overfitting

Monitore as métricas de validação para evitar overfitting. Use técnicas como parada precoce e redução de peso.

3. Treinamento Lento

Otimize a velocidade de treinamento ajustando o tamanho do lote, a taxa de aprendizagem e usando o acúmulo de gradiente.

4. Qualidade de dados

Certifique-se de que seu conjunto de dados esteja limpo e bem pré-processado. A baixa qualidade dos dados pode impactar significativamente o desempenho do modelo.

Conclusão

O ajuste fino de LLMs usando QLoRA é uma maneira eficiente de adaptar grandes modelos pré-treinados a tarefas específicas com custos computacionais reduzidos. Seguindo este guia, você pode ajustar o PHI, o Llama 3 ou qualquer outro modelo de código aberto para obter alto desempenho em suas tarefas específicas.

Tópicos relacionados:Engenharia de IA Bits e Bytes Afinação Abraçando o rosto hiperparâmetros Ajuste fino de LLM Otimização do modelo quantização de modelo Modelos de código aberto python QLoRA transformadores

A seguir

Redefinindo a pesquisa: como os mecanismos de conversação emergentes superam LLMs desatualizados e mecanismos de pesquisa tradicionais sem contexto

Não Perca

IA na Olimpíada Internacional de Matemática: Como AlphaProof e AlphaGeometry 2 alcançaram o padrão de medalha de prata

Aayush Mittal

Passei os últimos cinco anos mergulhando no fascinante mundo do Machine Learning e Deep Learning. Minha paixão e experiência me levaram a contribuir para mais de 50 projetos diversos de engenharia de software, com foco particular em AI/ML. Minha curiosidade contínua também me atraiu para o Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.

Unir-se.AI

O único guia que você precisa para ajustar o Llama 3 ou qualquer outro modelo de código aberto

Visão geral do ajuste fino

Conceitos e Técnicas

Ajuste fino completo

Ajuste fino com eficiência de parâmetros (PEFT)

Adaptação de baixo nível (LoRA) e LoRA quantizado (QLoRA)

Métodos de ajuste fino

O que é LoRA?

Principais vantagens do LoRA:

O que é LoRA Quantizado (QLoRA)?

Principais vantagens do QLoRA:

Adaptação Específica da Tarefa

Ajuste fino na prática

Ajuste fino completo vs. PEFT

Etapas de implementação

Guia Steo by Step para ajuste fino LLM

Configurando o ambiente

1. Instale as bibliotecas necessárias

2. Importe bibliotecas e configure o ambiente

3. Carregue o conjunto de dados

4. Crie a configuração BitsAndBytes

5. Carregue o modelo pré-treinado

6. Tokenização

Ajuste fino do Llama 3 ou outros modelos

5.1 Usando Lhama 3

5.2 Usando outros modelos populares (por exemplo, GPT-3, Mistral)

7. Teste o modelo com inferência zero-shot

8. Pré-processe o conjunto de dados

Hiperparâmetros e seu impacto

Exemplo de configuração de treinamento

10. Treine o modelo

Avaliando o modelo ajustado

1. Avaliação Humana

2. Avaliação Quantitativa

Desafios e soluções comuns

1. Limitações de memória

2. Overfitting

3. Treinamento Lento

4. Qualidade de dados

Conclusão

Você pode gostar