Künstliche Intelligenz

Optimierung des Speichers für die Inferenz und Feinabstimmung von Large Language Modellen

Published May 2, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Memory for Large Language Model Inference

Große Sprachmodelle (LLMs) wie GPT-4, Bloom und LLaMA haben durch die Skalierung auf Milliarden von Parametern bemerkenswerte Fähigkeiten erlangt. Die Bereitstellung dieser massiven Modelle für Inferenz oder Feinabstimmung ist jedoch aufgrund ihrer enormen Speicheranforderungen herausfordernd. In diesem technischen Blog werden wir Techniken für die Schätzung und Optimierung des Speicherbedarfs während der LLM-Inferenz und -Feinabstimmung auf verschiedenen Hardware-Konfigurationen erkunden.

Verständnis der Speicheranforderungen

Der Speicher, der zum Laden eines LLM benötigt wird, wird hauptsächlich durch die Anzahl der Parameter und die numerische Genauigkeit bestimmt, die zum Speichern der Parameter verwendet wird. Eine einfache Faustregel lautet:

Das Laden eines Modells mit X Milliarden Parametern erfordert ungefähr 4X GB VRAM in 32-Bit-Float-Genauigkeit
Das Laden eines Modells mit X Milliarden Parametern erfordert ungefähr 2X GB VRAM in 16-Bit-bfloat16/Float16-Genauigkeit

Beispielsweise würde das Laden des 175-Milliarden-Parameter-GPT-3-Modells ungefähr 350 GB VRAM in bfloat16-Genauigkeit erfordern. Derzeit bieten die größten kommerziell verfügbaren GPUs wie die NVIDIA A100 und H100 nur 80 GB VRAM, was die Notwendigkeit von Techniken wie Tensor-Parallelismus und Modell-Parallelismus erfordert.

Während der Inferenz wird der Speicherbedarf von den Modellparametern und den temporären Aktivierungstensoren dominiert, die erzeugt werden. Eine hochrangige Schätzung für den Spitzen-Speicherbedarf während der Inferenz ist die Summe des Speichers, der zum Laden der Modellparameter und des Speichers für Aktivierungen erforderlich ist.

Quantifizierung des Inferenzspeichers

Lassen Sie uns den Speicherbedarf für die Inferenz mit dem OctoCode-Modell quantifizieren, das etwa 15 Milliarden Parameter in bfloat16-Format (~ 31 GB) hat. Wir verwenden die Transformers-Bibliothek, um das Modell zu laden und Text zu generieren:

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
import torch

model = AutoModelForCausalLM.from_pretrained("bigcode/octocoder",
torch_dtype=torch.bfloat16,
device_map="auto",
pad_token_id=0)
tokenizer = AutoTokenizer.from_pretrained("bigcode/octocoder")
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)

prompt = "Frage: Bitte schreiben Sie eine Python-Funktion, um Bytes in Gigabyte umzuwandeln.\n\nAntwort:"
result = pipe(prompt, max_new_tokens=60)[0]["generated_text"][len(prompt):]

def bytes_to_gigabytes(bytes):
return bytes / 1024 / 1024 / 1024

bytes_to_gigabytes(torch.cuda.max_memory_allocated())

Ausgabe:

29.0260648727417

Der Spitzen-GPU-Speicherbedarf beträgt etwa 29 GB, was unserer Schätzung von 31 GB für das Laden der Modellparameter im bfloat16-Format entspricht.

Optimierung des Inferenzspeichers mit Quantisierung

Während bfloat16 die übliche Genauigkeit für das Training von LLMs ist, haben Forscher festgestellt, dass die Quantisierung der Modellgewichte auf niedrigere Genauigkeitsdatentypen wie 8-Bit-Ganzzahlen (int8) oder 4-Bit-Ganzzahlen den Speicherbedarf erheblich reduzieren kann, während der Genauigkeitsverlust für Inferenzaufgaben wie Textgenerierung minimal bleibt.

Lassen Sie uns die Speichereinsparungen durch 8-Bit- und 4-Bit-Quantisierung des OctoCode-Modells sehen:

&amp;lt;/div&amp;gt;
# 8-Bit-Quantisierung
model = AutoModelForCausalLM.from_pretrained("bigcode/octocoder", load_in_8bit=True,
pad_token_id=0)
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)
result = pipe(prompt, max_new_tokens=60)[0]["generated_text"][len(prompt):]
bytes_to_gigabytes(torch.cuda.max_memory_allocated())&lt;/pre&gt;

Ausgabe:

15.219234466552734

# 4-Bit-Quantisierung
model = AutoModelForCausalLM.from_pretrained("bigcode/octocoder", load_in_4bit=True,
low_cpu_mem_usage=True, pad_token_id=0)
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)
result = pipe(prompt, max_new_tokens=60)[0]["generated_text"][len(prompt):]
bytes_to_gigabytes(torch.cuda.max_memory_allocated())

Ausgabe:

9.543574333190918

Mit 8-Bit-Quantisierung reduziert sich der Speicherbedarf von 31 GB auf 15 GB, während 4-Bit-Quantisierung ihn weiter auf 9,5 GB reduziert! Dies ermöglicht das Ausführen des 15-Milliarden-Parameter-OctoCode-Modells auf Consumer-GPUs wie der RTX 3090 (24 GB VRAM).

Es ist jedoch zu beachten, dass eine aggressivere Quantisierung wie 4-Bit manchmal zu einem Genauigkeitsverlust im Vergleich zu 8-Bit- oder bfloat16-Genauigkeit führen kann. Es gibt einen Kompromiss zwischen Speichereinsparungen und Genauigkeit, den Benutzer für ihren Anwendungsfall bewerten sollten.

Quantisierung ist eine leistungsstarke Technik, die die Bereitstellung von LLMs in ressourcenbeschränkten Umgebungen wie Cloud-Instanzen, Edge-Geräten oder sogar Mobiltelefonen ermöglichen kann, indem der Speicherbedarf erheblich reduziert wird.

Schätzung des Speichers für Feinabstimmung

Während Quantisierung hauptsächlich für effiziente Inferenz verwendet wird, sind Techniken wie Tensor-Parallelismus und Modell-Parallelismus für die Verwaltung des Speicherbedarfs während des Trainings oder der Feinabstimmung von großen Sprachmodellen von entscheidender Bedeutung.

Der Spitzen-Speicherbedarf während der Feinabstimmung ist typischerweise 3-4 Mal höher als bei der Inferenz aufgrund zusätzlicher Speicheranforderungen für:

Gradienten
Optimizer-Zustände
Aktivierungen aus dem Vorwärtsdurchlauf, die für die Rückwärtsverbreitung gespeichert werden

Eine konservative Schätzung ist, dass die Feinabstimmung eines LLM mit X Milliarden Parametern etwa 4 * (2X) = 8X GB VRAM in bfloat16-Genauigkeit erfordert.

Beispielsweise würde die Feinabstimmung des 7-Milliarden-Parameter-LLaMA-Modells etwa 7 * 8 = 56 GB VRAM pro GPU in bfloat16-Genauigkeit erfordern. Dies übersteigt die Speicherkapazität aktueller GPUs, was die Notwendigkeit verteilter Feinabstimmungstechniken erfordert.

Verteilte Feinabstimmungstechniken

Es wurden mehrere verteilte Feinabstimmungsmethoden vorgeschlagen, um die GPU-Speicherbeschränkungen für große Modelle zu überwinden:

Daten-Parallelismus: Der klassische Daten-Parallelismus-Ansatz repliziert das gesamte Modell auf mehrere GPUs, während die Trainingsdatenbatchs aufgeteilt und verteilt werden. Dies reduziert die Trainingszeit linear mit der Anzahl der GPUs, reduziert jedoch nicht den Spitzen-Speicherbedarf auf jeder GPU.
ZeRO Stage 3: Eine fortschrittliche Form des Daten-Parallelismus, die die Modellparameter, Gradienten und Optimizer-Zustände auf GPUs aufteilt. Dies reduziert den Speicher im Vergleich zum klassischen Daten-Parallelismus, indem nur die erforderlichen partitionierten Daten auf jeder GPU während verschiedenen Phasen des Trainings gespeichert werden.
Tensor-Parallelismus: Anstelle der Replikation des Modells teilt der Tensor-Parallelismus die Modellparameter in Zeilen oder Spalten auf und verteilt sie auf GPUs. Jede GPU arbeitet mit einem partitionierten Satz von Parametern, Gradienten und Optimizer-Zuständen, was zu erheblichen Speichereinsparungen führt.
Pipeline-Parallelismus: Diese Technik teilt die Modellschichten auf verschiedene GPUs/Arbeiter auf, wobei jeder Worker einen Teil der Schichten ausführt. Aktivierungen werden zwischen den Arbeitern übergeben, was den Spitzen-Speicherbedarf reduziert, aber die Kommunikationsüberheadzeit erhöht.

Die Schätzung des Speicherbedarfs für diese verteilten Methoden ist nicht trivial, da die Verteilung von Parametern, Gradienten, Aktivierungen und Optimizer-Zuständen je nach Technik variiert. Darüber hinaus können verschiedene Komponenten wie der Transformer-Körper und der Sprachmodell-Kopf unterschiedliche Speicherzuweisungsverhaltensweisen aufweisen.

Die LLMem-Lösung

Forscher haben kürzlich LLMem vorgeschlagen, eine Lösung, die den GPU-Speicherbedarf bei der Anwendung verteilter Feinabstimmungsmethoden auf LLMs auf mehreren GPUs genau schätzt.

Schätzung des GPU-Speicherbedarfs für die Feinabstimmung von vorgefertigten LLMs

LLMem berücksichtigt Faktoren wie die Rekombination von Parametern vor der Berechnung (ZeRO Stage 3), die Ausgabesammlung im Rückwärtsdurchlauf (Tensor-Parallelismus) und die unterschiedlichen Speicherzuweisungsstrategien für den Transformer-Körper und den Sprachmodell-Kopf.

Experimentelle Ergebnisse zeigen, dass LLMem den Spitzen-GPU-Speicherbedarf für die Feinabstimmung von LLMs auf einer einzelnen GPU mit einem Fehler von bis zu 1,6 % schätzen kann, was die durchschnittliche Fehlerrate von 42,6 % des aktuellen Standes der Technik DNNMem übertrifft. Wenn verteilte Feinabstimmungsmethoden auf LLMs mit über einer Milliarde Parametern auf mehreren GPUs angewendet werden, erreicht LLMem eine beeindruckende durchschnittliche Fehlerrate von 3,0 %.

Durch die genaue Schätzung des Speicherbedarfs im Voraus kann LLMem Benutzern helfen, die effizienteste verteilte Feinabstimmungsmethode auszuwählen, die Probleme mit dem Speicherbedarf vermeidet und die Trainingszeit minimiert.

Aufkommende Techniken

Während Quantisierung, Tensor-Parallelismus und Modell-Parallelismus etablierte Techniken sind, erforschen Forscher weiterhin neue Methoden, um die effiziente LLM-Trainings- und Bereitstellungsgrenzen zu erweitern.

LoRA und QLoRA: Diese Techniken beinhalten das Training eines kleineren Residual-Adapter-Moduls, um das vorgefertigte LLM mit neuen Kenntnissen zu aktualisieren, anstatt direkt die massive Anzahl von Parametern zu feinabstimmen. Dies kann zu erheblichen Speichereinsparungen führen, während die Leistung des Modells größtenteils erhalten bleibt.
FlashAttention: Der Selbst-Aufmerksamkeitsmechanismus ist ein Speicher- und Rechenflaschenhals in Transformer-Modellen. FlashAttention approximiert die Standard-Aufmerksamkeit mit linearer Komplexität, wodurch der Speicherbedarf von quadratisch auf linear im Eingabesequenzlänge reduziert wird.
Mixture-of-Experts: Dieser Ansatz leitet jeden Eingabedatensatz bedingt an ein spezialisiertes Expertenmodell weiter, anstatt ihn durch das gesamte Modell zu verarbeiten. Diese dynamische Spärlichkeit kann Speicher sparen, indem nur ein Teil der Experten für jeden Datensatz aktiviert wird.
Umgekehrte Modellchirurgie: Forscher haben die chirurgische Modellkomprimierung durch iteratives Entfernen weniger wichtiger Komponenten wie Aufmerksamkeitsköpfe erforscht, um Speicher/Geschwindigkeit gegen Genauigkeit zu tauschen.
Offloading: Schließlich können Techniken, die Parameter, Optimizer-Zustände oder Aktivierungen auf CPU-RAM oder Disk verlagern, den begrenzten GPU-Speicher für große Modelle ergänzen.

Diese hochmodernen Methoden veranschaulichen das lebendige Forschungsumfeld, das sich auf die Demokratisierung der effizienten LLM-Trainings- und Bereitstellung konzentriert.

Fazit

Die Speicheranforderungen von großen Sprachmodellen stellen eine erhebliche Herausforderung für ihre weitverbreitete Anwendung in realen Anwendungen dar. Durch das Verständnis von Speicherschätzungstechniken und die Nutzung von Quantisierung, verteilten Trainingsstrategien und aufkommenden Innovationen können wir LLM-Bereitstellungen auf ressourcenbeschränkten Geräten optimieren.

Werkzeuge wie LLMem ebnen den Weg für eine genaue Speicherschätzung, die es Benutzern ermöglicht, die effizienteste Feinabstimmungskonfiguration auszuwählen. Wenn sich die Hardware weiterentwickelt und die Forschung voranschreitet, können wir effizienteres LLM-Training und -Inferenz erwarten, was den Fortschritt in der natürlichen Sprachverarbeitung und künstlichen Intelligenz vorantreibt.

Das Finden des richtigen Gleichgewichts zwischen Modellkapazität, Genauigkeit und Ressourcenausnutzung wird für die Freigabe des vollen Potenzials von großen Sprachmodellen in verschiedenen Domänen und Anwendungsfällen von entscheidender Bedeutung sein. Durch die Nutzung von Speicheroptimierungstechniken kommen wir einem Zukunftsszenario näher, in dem state-of-the-art-Sprachkünstliche Intelligenz zugänglich, skalierbar und nachhaltig ist.

Aayush Mittal

Ich habe die letzten fünf Jahre damit verbracht, mich in die faszinierende Welt des Machine Learning und Deep Learning zu vertiefen. Meine Leidenschaft und mein Fachwissen haben mich dazu geführt, an über 50 verschiedenen Software-Entwicklungsprojekten mitzuwirken, mit einem besonderen Fokus auf KI/ML. Meine anhaltende Neugier hat mich auch zum Natural Language Processing hingezogen, ein Feld, das ich weiter erforschen möchte.

Unite.AI