Künstliche Intelligenz
Optimierung des Speichers für die Inferenz und Feinabstimmung großer Sprachmodelle
Große Sprachmodelle (LLMs) wie GPT-4, Bloom und LLaMA haben durch die Skalierung auf Milliarden von Parametern bemerkenswerte Fähigkeiten erreicht. Der Einsatz dieser umfangreichen Modelle zur Inferenz oder Feinabstimmung ist jedoch aufgrund ihres enormen Speicherbedarfs eine Herausforderung. In diesem technischen Blog werden wir Techniken zur Schätzung und Optimierung des Speicherverbrauchs während der LLM-Inferenz und Feinabstimmung über verschiedene Hardware-Setups hinweg untersuchen.
Speicheranforderungen verstehen
Der zum Laden eines LLM erforderliche Speicher wird hauptsächlich durch die Anzahl der Parameter und die numerische Genauigkeit bestimmt, die zum Speichern der Parameter verwendet wird. Eine einfache Faustregel lautet:
- Das Laden eines Modells mit X Milliarden Parametern erfordert ungefähr 4X GB von VRAM in 32-bit Float-Präzision
- Das Laden eines Modells mit X Milliarden Parametern erfordert ungefähr 2X GB von VRAM in 16-bit bfloat16/float16 Präzision
Das Laden des GPT-175-Modells mit 3B-Parametern würde beispielsweise etwa 350 GB VRAM in bfloat16-Genauigkeit erfordern. Derzeit bieten die größten kommerziell erhältlichen GPUs wie NVIDIA A100 und H100 nur 80 GB VRAM, was Tensorparallelitäts- und Modellparallelitätstechniken erfordert.
Während der Inferenz wird der Speicherbedarf von den Modellparametern und den erzeugten temporären Aktivierungstensoren dominiert. Eine grobe Schätzung für die maximale Speichernutzung während der Inferenz ist die Summe des zum Laden der Modellparameter erforderlichen Speichers und des Speichers für Aktivierungen.
Quantifizierung des Inferenzgedächtnisses
Quantifizieren wir den Speicherbedarf für die Inferenz mit dem OctoCode-Modell, das rund 15 Milliarden Parameter im bfloat16-Format (~ 31 GB) hat. Wir verwenden die Transformers-Bibliothek So laden Sie das Modell und generieren Text:
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
import torch
model = AutoModelForCausalLM.from_pretrained("bigcode/octocoder",
torch_dtype=torch.bfloat16,
device_map="auto",
pad_token_id=0)
tokenizer = AutoTokenizer.from_pretrained("bigcode/octocoder")
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)
prompt = "Question: Please write a Python function to convert bytes to gigabytes.\n\nAnswer:"
result = pipe(prompt, max_new_tokens=60)[0]["generated_text"][len(prompt):]
def bytes_to_gigabytes(bytes):
return bytes / 1024 / 1024 / 1024
bytes_to_gigabytes(torch.cuda.max_memory_allocated())
Ausgang:
29.0260648727417Die maximale GPU-Speichernutzung liegt bei etwa 29 GB, was unserer Schätzung von 31 GB für das Laden der Modellparameter im bfloat16-Format entspricht.
Optimierung des Inferenzgedächtnisses durch Quantisierung
Während bfloat16 die übliche Präzision ist, die für das Training von LLMs verwendet wird, haben Forscher herausgefunden, dass die Quantisierung der Modellgewichte auf Datentypen mit geringerer Präzision wie 8-Bit-Ganzzahlen (int8) oder 4-Bit-Ganzzahlen die Speichernutzung bei minimalem Genauigkeitsverlust für Inferenzaufgaben wie erheblich reduzieren kann Textgenerierung.
Sehen wir uns die Speichereinsparungen durch die 8-Bit- und 4-Bit-Quantisierung des OctoCode-Modells an:
</div>
# 8-bit quantization
model = AutoModelForCausalLM.from_pretrained("bigcode/octocoder", load_in_8bit=True,
pad_token_id=0)
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)
result = pipe(prompt, max_new_tokens=60)[0]["generated_text"][len(prompt):]
bytes_to_gigabytes(torch.cuda.max_memory_allocated())</pre>
Ausgang:
15.219234466552734# 4-bit quantization
model = AutoModelForCausalLM.from_pretrained("bigcode/octocoder", load_in_4bit=True,
low_cpu_mem_usage=True, pad_token_id=0)
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)
result = pipe(prompt, max_new_tokens=60)[0]["generated_text"][len(prompt):]
bytes_to_gigabytes(torch.cuda.max_memory_allocated())
Ausgang:
9.543574333190918Mit der 8-Bit-Quantisierung sinkt der Speicherbedarf von 31 GB auf 15 GB, während er mit der 4-Bit-Quantisierung weiter auf nur 9.5 GB reduziert wird! Dies ermöglicht die Ausführung des 15B-Parameter-OctoCode-Modells auf Consumer-GPUs wie der RTX 3090 (24 GB VRAM).
Beachten Sie jedoch, dass eine aggressivere Quantisierung wie 4-Bit manchmal zu einer Verschlechterung der Genauigkeit im Vergleich zu 8-Bit- oder Bfloat16-Präzision führen kann. Es gibt einen Kompromiss zwischen Speichereinsparungen und Genauigkeit, den Benutzer für ihren Anwendungsfall abwägen sollten.
Quantisierung ist eine leistungsstarke Technik, die die LLM-Bereitstellung in ressourcenbeschränkten Umgebungen wie Cloud-Instanzen, Edge-Geräten oder sogar Mobiltelefonen ermöglichen kann, indem sie den Speicherbedarf drastisch reduziert.
Schätzen des Speichers zur Feinabstimmung
Während die Quantisierung hauptsächlich für eine effiziente Inferenz verwendet wird, sind Techniken wie Tensorparallelität und Modellparallelität von entscheidender Bedeutung für die Verwaltung des Speicherbedarfs während des Trainings oder Feintuning großer Sprachmodelle.
Der Spitzenspeicherverbrauch während der Feinabstimmung ist in der Regel drei- bis viermal höher als bei der Inferenz aufgrund zusätzlicher Speicheranforderungen für:
- Farbverläufe
- Optimiererzustände
- Aktivierungen aus dem Vorwärtsdurchlauf werden für die Rückausbreitung gespeichert
Eine konservative Schätzung geht davon aus, dass die Feinabstimmung eines LLM mit X Milliarden Parametern etwa erfordert 4 * (2X) = 8X GB von VRAM in bfloat16-Präzision.
Beispielsweise würde die Feinabstimmung des 7B-Parameter-LLaMA-Modells ungefähr erforderlich sein 7 * 8 = 56 GB VRAM pro GPU in bfloat16-Präzision. Dies übersteigt die Speicherkapazität aktueller GPUs und erfordert verteilte Feinabstimmungstechniken.
Verteilte Feinabstimmungstechniken
Es wurden mehrere verteilte Feinabstimmungsmethoden vorgeschlagen, um GPU-Speicherbeschränkungen für große Modelle zu überwinden:
- Datenparallelität: Der klassische Datenparallelitätsansatz repliziert das gesamte Modell auf mehreren GPUs und teilt dabei die Trainingsdatenstapel auf und verteilt sie. Dies reduziert die Trainingszeit linear mit der Anzahl der GPUs, verringert jedoch nicht den Spitzenspeicherbedarf auf jeder GPU.
- ZeRO Stufe 3: Eine erweiterte Form der Datenparallelität, die die Modellparameter, Verläufe und Optimiererzustände auf GPUs verteilt. Es reduziert den Speicher im Vergleich zur klassischen Datenparallelität, indem während verschiedener Trainingsphasen nur die erforderlichen partitionierten Daten auf jeder GPU gespeichert werden.
- Tensorparallelität: Anstatt das Modell zu replizieren, unterteilt die Tensorparallelität die Modellparameter in Zeilen oder Spalten und verteilt sie auf GPUs. Jede GPU arbeitet mit einem partitionierten Satz von Parametern, Verläufen und Optimierungszuständen, was zu erheblichen Speichereinsparungen führt.
- Pipeline-Parallelität: Bei dieser Technik werden die Modellschichten auf verschiedene GPUs/Worker aufgeteilt, wobei jedes Gerät eine Teilmenge der Schichten ausführt. Aktivierungen werden zwischen Arbeitern weitergegeben, was die Speicherauslastung reduziert, aber den Kommunikationsaufwand erhöht.
Die Schätzung der Speichernutzung für diese verteilten Methoden ist nicht trivial, da die Verteilung von Parametern, Verläufen, Aktivierungen und Optimiererzuständen je nach Technik unterschiedlich ist. Darüber hinaus können verschiedene Komponenten wie der Transformatorkörper und der Sprachmodellierungskopf ein unterschiedliches Speicherzuweisungsverhalten aufweisen.
Die LLMem-Lösung
Forscher haben kürzlich vorgeschlagen LLMem, eine Lösung, die den GPU-Speicherverbrauch genau schätzt, wenn verteilte Feinabstimmungsmethoden auf LLMs über mehrere GPUs hinweg angewendet werden.
LLMem berücksichtigt Faktoren wie die Neukombination von Parametern vor der Berechnung (ZeRO Stufe 3), die Ausgabesammlung im Rückwärtsdurchlauf (Tensorparallelität) und die unterschiedlichen Speicherzuweisungsstrategien für den Transformatorkörper und den Sprachmodellierungskopf.
Experimentelle Ergebnisse zeigen, dass LLMem die maximale GPU-Speicherauslastung für die Feinabstimmung von LLMs auf einer einzelnen GPU mit Fehlerraten von bis zu 1.6 % schätzen kann und damit die durchschnittliche Fehlerrate des hochmodernen DNNMem von 42.6%. Bei der Anwendung verteilter Feinabstimmungsmethoden auf LLMs mit über einer Milliarde Parametern auf mehreren GPUs erreicht LLMem eine beeindruckende durchschnittliche Fehlerrate von 3.0%.









