Artificiell intelligens

Den enda guiden du behöver för att finjustera Llama 3 eller någon annan modell med öppen källkod

publicerade July 31, 2024

Aayush Mittal Mittal

FININSTÄLLNING ÖPPEN KÄLLA LLM PYTHONGUIDE

Att finjustera stora språkmodeller (LLM) som Llama 3 innebär att anpassa en förtränad modell till specifika uppgifter med hjälp av en domänspecifik datauppsättning. Denna process utnyttjar modellens redan existerande kunskap, vilket gör den effektiv och kostnadseffektiv jämfört med träning från grunden. I den här guiden går vi igenom stegen för att finjustera Llama 3 med QLoRA (Quantized LoRA), en parametereffektiv metod som minimerar minnesanvändning och beräkningskostnader.

Översikt över finjustering

Finjustering innefattar flera viktiga steg:

Välja en förutbildad modell: Välj en basmodell som passar din önskade arkitektur.
Samla in en relevant datauppsättning: Samla in och förbearbeta en datauppsättning som är specifik för din uppgift.
Finjustering: Anpassa modellen med hjälp av datamängden för att förbättra dess prestanda för specifika uppgifter.
Utvärdering: Bedöm den finjusterade modellen med både kvalitativa och kvantitativa mått.

Koncept och tekniker

Finjustera stora språkmodeller

Full finjustering

Full finjustering uppdaterar alla parametrar för modellen, vilket gör den specifik för den nya uppgiften. Denna metod kräver betydande beräkningsresurser och är ofta opraktisk för mycket stora modeller.

Parametereffektiv finjustering (PEFT)

PEFT uppdaterar endast en delmängd av modellens parametrar, vilket minskar minneskraven och beräkningskostnaderna. Denna teknik förhindrar katastrofal glömska och upprätthåller den allmänna kunskapen om modellen.

Low-Rank Adaptation (LoRA) och Quantized LoRA (QLoRA)

LoRA finjusterar endast ett fåtal lågrankade matriser, medan QLoRA kvantiserar dessa matriser för att minska minnesfotavtrycket ytterligare.

Finjusteringsmetoder

Full finjustering: Detta innebär att man tränar alla parametrar i modellen på den uppgiftsspecifika datamängden. Även om denna metod kan vara mycket effektiv, är den också beräkningsmässigt dyr och kräver betydande minne.
Parameter Effektiv finjustering (PEFT): PEFT uppdaterar endast en delmängd av modellens parametrar, vilket gör den mer minneseffektiv. Tekniker som Low-Rank Adaptation (LoRA) och Quantized LoRA (QLoRA) faller inom denna kategori.

Vad är LoRA?

Jämföra finjusteringsmetoder: QLORA förbättrar LoRA med 4-bitars precisionskvantisering och paged optimizers för hantering av minnesspik

LoRA är en förbättrad finjusteringsmetod där, istället för att finjustera alla vikter i den förtränade modellen, finjusteras två mindre matriser som approximerar den större matrisen. Dessa matriser utgör LoRA-adaptern. Denna finjusterade adapter laddas sedan in i den förtränade modellen och används för slutledning.

Viktiga fördelar med LoRA:

Minneseffektivitet: LoRA minskar minnesfotavtrycket genom att bara finjustera små matriser istället för hela modellen.
reus Förmåga: Den ursprungliga modellen förblir oförändrad och flera LoRA-adaptrar kan användas med den, vilket underlättar hanteringen av flera uppgifter med lägre minneskrav.

Vad är Quantized LoRA (QLoRA)?

QLoRA tar LoRA ett steg längre genom att kvantisera LoRA-adaptrarnas vikter till lägre precision (t.ex. 4-bitars istället för 8-bitars). Detta minskar ytterligare minnesanvändning och lagringskrav samtidigt som en jämförbar effektivitetsnivå bibehålls.

Viktiga fördelar med QLoRA:

Ännu större minneseffektivitet: Genom att kvantisera vikterna minskar QLoRA avsevärt modellens minnes- och lagringskrav.
Upprätthåller prestanda: Trots den minskade precisionen bibehåller QLoRA prestandanivåer nära den för fullprecisionsmodeller.

Uppgiftsspecifik anpassning

Under finjusteringen justeras modellens parametrar baserat på den nya datamängden, vilket hjälper den att bättre förstå och generera innehåll som är relevant för den specifika uppgiften. Denna process behåller de allmänna språkkunskaper som erhållits under förutbildningen samtidigt som modellen skräddarsys efter nyanserna i måldomänen.

Finjustering i praktiken

Full finjustering kontra PEFT

Full finjustering: Innebär att träna hela modellen, vilket kan vara beräkningsmässigt dyrt och kräver betydande minne.
PEFT (LoRA och QLoRA): Finjusterar endast en delmängd av parametrar, minskar minneskraven och förhindrar katastrofal glömning, vilket gör det till ett mer effektivt alternativ.

Implementeringssteg

Inställningsmiljö: Installera nödvändiga bibliotek och ställ in datormiljön.
Ladda och förbearbeta datauppsättning: Ladda datauppsättningen och förbearbeta den till ett format som passar modellen.
Ladda förtränad modell: Ladda basmodellen med kvantiseringskonfigurationer om du använder QLoRA.
tokenization: Tokenisera datasetet för att förbereda det för träning.
Utbildning: Finjustera modellen med den förberedda datamängden.
Utvärdering: Utvärdera modellens prestanda på specifika uppgifter med hjälp av kvalitativa och kvantitativa mått.

Steo för steg-guide till Fine Tune LLM

Ställa in miljön

Vi kommer att använda en Jupyter-anteckningsbok för den här handledningen. Plattformar som Kaggle, som erbjuder gratis GPU-användning, eller Google Colab är idealiska för att köra dessa experiment.

1. Installera nödvändiga bibliotek

Se först till att du har de nödvändiga biblioteken installerade:

!pip install -qqq -U bitsandbytes transformers peft accelerate datasets scipy einops evaluate trl rouge_score</div>

2. Importera bibliotek och ställ in miljön

import os
import torch
from datasets import load_dataset
from transformers import (
    AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, TrainingArguments, 
    pipeline, HfArgumentParser
)
from trl import ORPOConfig, ORPOTrainer, setup_chat_format, SFTTrainer
from tqdm import tqdm
import gc
import pandas as pd
import numpy as np
from huggingface_hub import interpreter_login

# Disable Weights and Biases logging
os.environ['WANDB_DISABLED'] = "true"
interpreter_login()

3. Ladda datamängden

Vi kommer att använda DialogSum-dataset för denna handledning:

Förbearbeta datasetet enligt modellens krav, inklusive att tillämpa lämpliga mallar och se till att dataformatet är lämpligt för finjustering (Kramande ansikte) (DataCamp).

dataset_name = "neil-code/dialogsum-test"
dataset = load_dataset(dataset_name)

Inspektera datasetstrukturen:

print(dataset['test'][0])

4. Skapa BitsAndBytes-konfiguration

Så här laddar du modellen i 4-bitarsformat:

compute_dtype = getattr(torch, "float16")
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type='nf4',
    bnb_4bit_compute_dtype=compute_dtype,
    bnb_4bit_use_double_quant=False,
)

5. Ladda den förtränade modellen

Använda Microsofts Phi-2-modell för denna handledning:

model_name = 'microsoft/phi-2'
device_map = {"": 0}
original_model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    device_map=device_map,
    quantization_config=bnb_config,
    trust_remote_code=True,
    use_auth_token=True
)

6. Tokenisering

Konfigurera tokenizern:

tokenizer = AutoTokenizer.from_pretrained(
    model_name, 
    trust_remote_code=True, 
    padding_side="left", 
    add_eos_token=True, 
    add_bos_token=True, 
    use_fast=False
)
tokenizer.pad_token = tokenizer.eos_token

Finjustera Llama 3 eller andra modeller

När du finjusterar modeller som Llama 3 eller andra toppmoderna LLM:er med öppen källkod krävs specifika överväganden och justeringar för att säkerställa optimal prestanda. Här är de detaljerade stegen och insikterna om hur du kan närma dig detta för olika modeller, inklusive Llama 3, GPT-3 och Mistral.

5.1 Använda Llama 3

Modellval:

Se till att du har rätt modellbeteckning från Hugging Face-modellhubben. Till exempel kan Llama 3-modellen identifieras som meta-llama/Meta-Llama-3-8B på Hugging Face.
Se till att begära åtkomst och logga in på ditt Hugging Face-konto om det behövs för modeller som Llama 3 (Kramande ansikte)

tokenization:

Använd lämplig tokenizer för Llama 3, se till att den är kompatibel med modellen och stöder nödvändiga funktioner som stoppning och speciella tokens.

Minne och beräkning:

Att finjustera stora modeller som Llama 3 kräver betydande beräkningsresurser. Se till att din miljö, till exempel en kraftfull GPU-installation, kan hantera minnes- och bearbetningskraven. Se till att miljön kan hantera minneskraven, vilket kan mildras genom att använda tekniker som QLoRA för att minska minnesavtrycket (Kramar ansikten Forum)

Exempelvis:

model_name = 'meta-llama/Meta-Llama-3-8B'
device_map = {"": 0}
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
)
original_model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    device_map=device_map,
    quantization_config=bnb_config,
    trust_remote_code=True,
    use_auth_token=True
)

tokenization:

Beroende på det specifika användningsfallet och modellkraven, säkerställ korrekt tokenizerkonfiguration utan redundanta inställningar. Till exempel, use_fast=True rekommenderas för bättre prestanda (Kramande ansikte) (Vikter och fördomar).

tokenizer = AutoTokenizer.from_pretrained(
    model_name, 
    trust_remote_code=True, 
    padding_side="left", 
    add_eos_token=True, 
    add_bos_token=True, 
    use_fast=False
)
tokenizer.pad_token = tokenizer.eos_token

5.2 Använda andra populära modeller (t.ex. GPT-3, Mistral)

Modellval:

För modeller som GPT-3 och Mistral, se till att du använder rätt modellnamn och identifierare från Hugging Face-modellhubben eller andra källor.

tokenization:

I likhet med Llama 3, se till att tokenizern är korrekt inställd och kompatibel med modellen.

Minne och beräkning:

Varje modell kan ha olika minneskrav. Justera din miljöinställning därefter.

Exempel för GPT-3:

model_name = 'openai/gpt-3'
device_map = {"": 0}
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
)
original_model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    device_map=device_map,
    quantization_config=bnb_config,
    trust_remote_code=True,
    use_auth_token=True
)

Exempel för Mistral:

model_name = 'mistral-7B'
device_map = {"": 0}
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
)
original_model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    device_map=device_map,
    quantization_config=bnb_config,
    trust_remote_code=True,
    use_auth_token=True
)

Tokeniseringsöverväganden: Varje modell kan ha unika tokeniseringskrav. Se till att tokenizern matchar modellen och är korrekt konfigurerad.

Exempel på Llama 3 Tokenizer:

tokenizer = AutoTokenizer.from_pretrained(
    model_name, 
    trust_remote_code=True, 
    padding_side="left", 
    add_eos_token=True, 
    add_bos_token=True, 
    use_fast=False
)
tokenizer.pad_token = tokenizer.eos_token

Exempel på GPT-3 och Mistral Tokenizer:

tokenizer = AutoTokenizer.from_pretrained(
    model_name, 
    use_fast=True
)

7. Testa modellen med Zero-Shot-inferencing

Utvärdera basmodellen med ett exempel:

from transformers import set_seed

set_seed(42)
index = 10
prompt = dataset['test'][index]['dialogue']
formatted_prompt = f"Instruct: Summarize the following conversation.\n{prompt}\nOutput:\n"

# Generate output
def gen(model, prompt, max_length):
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    outputs = model.generate(**inputs, max_length=max_length)
    return tokenizer.batch_decode(outputs, skip_special_tokens=True)

res = gen(original_model, formatted_prompt, 100)
output = res[0].split('Output:\n')[1]

print(f'INPUT PROMPT:\n{formatted_prompt}')
print(f'MODEL GENERATION - ZERO SHOT:\n{output}')

8. Förbearbeta datamängden

Konvertera dialog-sammanfattningspar till uppmaningar:

def create_prompt_formats(sample):
    blurb = "Below is an instruction that describes a task. Write a response that appropriately completes the request."
    instruction = "### Instruct: Summarize the below conversation."
    input_context = sample['dialogue']
    response = f"### Output:\n{sample['summary']}"
    end = "### End"
    
    parts = [blurb, instruction, input_context, response, end]
    formatted_prompt = "\n\n".join(parts)
    sample["text"] = formatted_prompt
    return sample

dataset = dataset.map(create_prompt_formats)

Tokenisera den formaterade datamängden:

def preprocess_batch(batch, tokenizer, max_length):
    return tokenizer(batch["text"], max_length=max_length, truncation=True)

max_length = 1024
train_dataset = dataset["train"].map(lambda batch: preprocess_batch(batch, tokenizer, max_length), batched=True)
eval_dataset = dataset["validation"].map(lambda batch: preprocess_batch(batch, tokenizer, max_length), batched=True)

9. Förbered modellen för QLoRA

Förbered modellen för parametereffektiv finjustering:

original_model = prepare_model_for_kbit_training(original_model)

Hyperparametrar och deras inverkan

Hyperparametrar spelar en avgörande roll för att optimera prestandan för din modell. Här är några viktiga hyperparametrar att tänka på:

Inlärningshastighet: Styr hastigheten med vilken modellen uppdaterar sina parametrar. En hög inlärningshastighet kan leda till snabbare konvergens men kan överskrida den optimala lösningen. En låg inlärningshastighet säkerställer stadig konvergens men kan kräva fler epoker.
Satsstorlek: Antalet prover som behandlas innan modellen uppdaterar sina parametrar. Större batchstorlekar kan förbättra stabiliteten men kräver mer minne. Mindre batchstorlekar kan leda till mer buller i träningsprocessen.
Gradientackumuleringssteg: Denna parameter hjälper till att simulera större batchstorlekar genom att ackumulera gradienter över flera steg innan en parameteruppdatering utförs.
Antal epoker: Antalet gånger hela datamängden passeras genom modellen. Fler epoker kan förbättra prestandan men kan leda till övermontering om de inte hanteras på rätt sätt.
Viktnedgång: Reguleringsteknik för att förhindra överanpassning genom att straffa stora vikter.
Inlärningshastighetsschemaläggare: Justerar inlärningshastigheten under träning för att förbättra prestanda och konvergens.

Anpassa träningskonfigurationen genom att justera hyperparametrar som inlärningshastighet, batchstorlek och gradientackumuleringssteg baserat på den specifika modellen och uppgiftskraven. Till exempel kan Llama 3-modeller kräva olika inlärningshastigheter jämfört med mindre modeller (Vikter och fördomar) (GitHub)â € <

Exempel på träningskonfiguration

orpo_args = ORPOConfig(
learning_rate=8e-6,
lr_scheduler_type="linear",max_length=1024,max_prompt_length=512,
beta=0.1,per_device_train_batch_size=2,per_device_eval_batch_size=2,
gradient_accumulation_steps=4,optim="paged_adamw_8bit",num_train_epochs=1,
evaluation_strategy="steps",eval_steps=0.2,logging_steps=1,warmup_steps=10,
report_to="wandb",output_dir="./results/",)

10. Träna modellen

Ställ in tränaren och börja träna:

trainer = ORPOTrainer(
model=original_model,
args=orpo_args,
train_dataset=train_dataset,
eval_dataset=eval_dataset,
tokenizer=tokenizer,)
trainer.train()
trainer.save_model("fine-tuned-llama-3")

Utvärdera den finjusterade modellen

Utvärdera efter utbildningen modellens prestanda med både kvalitativa och kvantitativa metoder.

1. Mänsklig utvärdering

Jämför de genererade sammanfattningarna med mänskliga för att bedöma kvaliteten.

2. Kvantitativ utvärdering

Använd mätvärden som ROUGE för att bedöma resultatet:

from rouge_score import rouge_scorer

scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)
scores = scorer.score(reference_summary, generated_summary)
print(scores)

Vanliga utmaningar och lösningar

1. Minnesbegränsningar

Att använda QLoRA hjälper till att lindra minnesproblem genom att kvantisera modellvikter till 4-bitars. Se till att du har tillräckligt med GPU-minne för att hantera din batchstorlek och modellstorlek.

2. Överanpassning

Övervaka valideringsmått för att förhindra överanpassning. Använd tekniker som tidig stopp och viktminskning.

3. Långsam träning

Optimera träningshastigheten genom att justera batchstorlek, inlärningshastighet och använda gradientackumulering.

4. Datakvalitet

Se till att din datauppsättning är ren och väl förbehandlad. Dålig datakvalitet kan avsevärt påverka modellens prestanda.

Slutsats

Att finjustera LLM med QLoRA är ett effektivt sätt att anpassa stora förtränade modeller till specifika uppgifter med minskade beräkningskostnader. Genom att följa den här guiden kan du finjustera PHI, Llama 3 eller någon annan modell med öppen källkod för att uppnå hög prestanda för dina specifika uppgifter.

Strax

Omdefiniering av sökning: Hur framväxande konversationsmotorer övervinner föråldrade LLM:er och kontextlösa traditionella sökmotorer

Missa inte

AI vid International Mathematical Olympiad: How AlphaProof and AlphaGeometry 2 Achieved Silver-Medal Standard

Aayush Mittal

Jag har ägnat de senaste fem åren åt att fördjupa mig i den fascinerande världen av Machine Learning och Deep Learning. Min passion och expertis har lett mig till att bidra till över 50 olika programvaruutvecklingsprojekt, med särskilt fokus på AI/ML. Min pågående nyfikenhet har också dragit mig mot Natural Language Processing, ett område som jag är ivrig att utforska vidare.

Unite.AI

Den enda guiden du behöver för att finjustera Llama 3 eller någon annan modell med öppen källkod

Översikt över finjustering

Koncept och tekniker

Full finjustering

Parametereffektiv finjustering (PEFT)

Low-Rank Adaptation (LoRA) och Quantized LoRA (QLoRA)

Finjusteringsmetoder

Vad är LoRA?

Viktiga fördelar med LoRA:

Vad är Quantized LoRA (QLoRA)?

Viktiga fördelar med QLoRA:

Uppgiftsspecifik anpassning

Finjustering i praktiken

Full finjustering kontra PEFT

Implementeringssteg

Steo för steg-guide till Fine Tune LLM

Ställa in miljön

1. Installera nödvändiga bibliotek

2. Importera bibliotek och ställ in miljön

3. Ladda datamängden

4. Skapa BitsAndBytes-konfiguration

5. Ladda den förtränade modellen

6. Tokenisering

Finjustera Llama 3 eller andra modeller

5.1 Använda Llama 3

5.2 Använda andra populära modeller (t.ex. GPT-3, Mistral)

7. Testa modellen med Zero-Shot-inferencing

8. Förbearbeta datamängden

Hyperparametrar och deras inverkan

Exempel på träningskonfiguration

10. Träna modellen

Utvärdera den finjusterade modellen

1. Mänsklig utvärdering

2. Kvantitativ utvärdering

Vanliga utmaningar och lösningar

1. Minnesbegränsningar

2. Överanpassning

3. Långsam träning

4. Datakvalitet

Slutsats

Du må gilla