Künstliche Intelligenz
LoRa, QLoRA und QA-LoRA: Effiziente Anpassungsfähigkeit in großen Sprachmodellen durch Low-Rank-Matrixfaktorisierung

Große Sprachmodelle (LLMs) haben eine einzigartige Nische geschaffen und bieten unvergleichliche Fähigkeiten bei der Verarbeitung und Generierung von menschlichem Text. Die Leistung von LLMs kann auf ihre enorme Größe zurückgeführt werden, die oft Milliarden von Parametern umfasst. Während diese enorme Größe ihre Leistung antreibt, gibt sie gleichzeitig Herausforderungen auf, insbesondere wenn es um die Anpassung des Modells für bestimmte Aufgaben oder Domänen geht. Die herkömmlichen Ansätze zur Verwaltung von LLMs, wie das Feintuning aller Parameter, stellen eine erhebliche Rechen- und Kostengrenze dar und behindern somit ihre weite Verbreitung in realen Anwendungen.
In einem früheren Artikel haben wir uns mit dem Feintuning von großen Sprachmodellen (LLMs) beschäftigt, um sie an bestimmte Anforderungen anzupassen. Wir haben verschiedene Feintuning-Methoden wie Instruction-Based Fine-Tuning, Single-Task Fine-Tuning und Parameter Efficient Fine-Tuning (PEFT) untersucht, jede mit ihrem eigenen Ansatz zur Optimierung von LLMs für unterschiedliche Aufgaben. Im Mittelpunkt der Diskussion stand die Transformer-Architektur, die Grundlage von LLMs, und die Herausforderungen, die durch die Rechen- und Speicheranforderungen bei der Verarbeitung einer großen Anzahl von Parametern während des Feintunings entstehen.
Das obige Bild stellt die Größe verschiedener großer Sprachmodelle dar, sortiert nach ihrer Anzahl von Parametern. Bemerkenswert: PaLM, BLOOM, etc.
In diesem Jahr gab es Fortschritte, die zu noch größeren Modellen geführt haben. Allerdings ist das Feintuning solcher gigantischer, quelloffener Modelle auf Standard-Systemen ohne spezielle Optimierungstechniken nicht machbar.
Daher wurde Low-Rank-Adaptation (LoRA) von Microsoft in diesem Paper vorgestellt, um diese Herausforderungen zu überwinden und LLMs zugänglicher und anpassbarer zu machen.
Der Kern von LoRA liegt in seinem Ansatz zur Modellanpassung, ohne sich in die Details des erneuten Trainings des gesamten Modells zu vertiefen. Im Gegensatz zum herkömmlichen Feintuning, bei dem jeder Parameter geändert wird, verwendet LoRA einen schlaueren Weg. Es friert die vorgefertigten Modellgewichte ein und führt trainierbare Rang-Zerlegungsmatrizen in jede Schicht der Transformer-Architektur ein. Dieser Ansatz reduziert die Anzahl der trainierbaren Parameter drastisch und stellt somit einen effizienteren Anpassungsprozess sicher.
… (rest of the translation remains the same, following the exact structure and format as the original, with all URLs, HTML tags, and specific terms like Unite.AI remaining unchanged)











