Künstliche Intelligenz

TensorRT-LLM: Ein umfassender Leitfaden zur Optimierung der Inferenz großer Sprachmodelle für maximale Leistung

Veröffentlicht September 13, 2024

Aayush Mittal mittal

TensorRT-LLM NVIDEA-Quantisierung, Operationsfusion, FP8-Präzision und Multi-GPU-Unterstützung

Da die Nachfrage nach großen Sprachmodellen (LLMs) weiter steigt, ist die Gewährleistung schneller, effizienter und skalierbarer Inferenz wichtiger denn je. NVIDIAs TensorRT-LLM stellt sich dieser Herausforderung, indem es eine Reihe leistungsstarker Tools und Optimierungen bereitstellt, die speziell für die LLM-Inferenz entwickelt wurden. TensorRT-LLM bietet eine beeindruckende Palette an Leistungsverbesserungen, wie Quantisierung, Kernelfusion, Batching während des Betriebs und Multi-GPU-Unterstützung. Diese Fortschritte ermöglichen Inferenzgeschwindigkeiten, die bis zu 8x schneller sind als bei herkömmlichen CPU-basierten Methoden, und verändern die Art und Weise, wie wir LLMs in der Produktion einsetzen.

In diesem umfassenden Handbuch werden alle Aspekte von TensorRT-LLM untersucht, von der Architektur und den wichtigsten Funktionen bis hin zu praktischen Beispielen für die Bereitstellung von Modellen. Egal, ob Sie KI-Ingenieur, Softwareentwickler oder Forscher sind, dieses Handbuch vermittelt Ihnen das Wissen, wie Sie TensorRT-LLM zur Optimierung der LLM-Inferenz auf NVIDIA-GPUs nutzen können.

Beschleunigen der LLM-Inferenz mit TensorRT-LLM

TensorRT-LLM bietet dramatische Verbesserungen bei der LLM-Inferenzleistung. Laut NVIDIAs Tests zeigen Anwendungen, die auf TensorRT basieren, bis zu 8x schnellerer Inferenzgeschwindigkeiten im Vergleich zu reinen CPU-Plattformen. Dies ist ein entscheidender Fortschritt bei Echtzeitanwendungen wie Chatbots, Empfehlungssystemen und autonomen Systemen, die schnelle Antworten erfordern.

Funktionsweise

TensorRT-LLM beschleunigt die Inferenz durch die Optimierung neuronaler Netzwerke während der Bereitstellung mithilfe von Techniken wie:

Quantisierung: Reduziert die Präzision von Gewichten und Aktivierungen, verkleinert die Modellgröße und verbessert die Inferenzgeschwindigkeit.
Schicht- und Tensorfusion: Fügt Operationen wie Aktivierungsfunktionen und Matrixmultiplikationen zu einer einzigen Operation zusammen.
Kernel-Tuning: Wählt optimale CUDA-Kernel für GPU-Berechnungen aus und reduziert so die Ausführungszeit.

Diese Optimierungen stellen sicher, dass Ihre LLM-Modelle auf einer breiten Palette von Bereitstellungsplattformen effizient funktionieren – von Hyperscale-Rechenzentren bis hin zu eingebetteten Systemen.

Optimieren der Inferenzleistung mit TensorRT

TensorRT basiert auf NVIDIAs CUDA-Parallelprogrammiermodell und bietet hochspezialisierte Optimierungen für die Inferenz auf NVIDIA-GPUs. Durch die Optimierung von Prozessen wie Quantisierung, Kernel-Tuning und Fusion von Tensoroperationen stellt TensorRT sicher, dass LLMs mit minimaler Latenz ausgeführt werden können.

Zu den wirksamsten Techniken gehören:

Quantisierung: Dadurch wird die numerische Präzision der Modellparameter bei gleichzeitiger Beibehaltung einer hohen Genauigkeit reduziert, wodurch die Inferenz effektiv beschleunigt wird.
Tensor Fusion: Durch die Zusammenführung mehrerer Operationen in einem einzigen CUDA-Kernel minimiert TensorRT den Speicheraufwand und erhöht den Durchsatz.
Automatische Kerneloptimierung: TensorRT wählt automatisch den besten Kernel für jede Operation aus und optimiert die Inferenz für eine bestimmte GPU.

Diese Techniken ermöglichen es TensorRT-LLM, die Inferenzleistung für Deep-Learning-Aufgaben wie die Verarbeitung natürlicher Sprache, Empfehlungsmaschinen und Echtzeit-Videoanalyse zu optimieren.

Beschleunigen von KI-Workloads mit TensorRT

TensorRT beschleunigt Deep-Learning-Workloads durch die Integration von Präzisionsoptimierungen wie INT8 und FP16. Diese Formate mit reduzierter Genauigkeit ermöglichen deutlich schnellere Inferenzen bei gleichbleibender Genauigkeit. Dies ist insbesondere bei Echtzeitanwendungen von Vorteil, bei denen eine geringe Latenz eine kritische Anforderung ist.

INT8 und FP16 Optimierungen sind besonders effektiv bei:

Video-Streaming: KI-basierte Videoverarbeitungsaufgaben wie die Objekterkennung profitieren von diesen Optimierungen, da die für die Bildverarbeitung benötigte Zeit reduziert wird.
Empfehlungssysteme: Durch die Beschleunigung der Inferenz für Modelle, die große Mengen Benutzerdaten verarbeiten, ermöglicht TensorRT eine Personalisierung in Echtzeit im großen Maßstab.
Natürliche Sprachverarbeitung (NLP): TensorRT verbessert die Geschwindigkeit von NLP-Aufgaben wie Textgenerierung, Übersetzung und Zusammenfassung und macht sie für Echtzeitanwendungen geeignet.

Bereitstellen, Ausführen und Skalieren mit NVIDIA Triton

Sobald Ihr Modell mit TensorRT-LLM optimiert wurde, können Sie es einfach bereitstellen, ausführen und skalieren mit NVIDIA Triton-Inferenzserver. Triton ist eine Open-Source-Software, die dynamisches Batching, Modell-Ensembles und hohen Durchsatz unterstützt. Es bietet eine flexible Umgebung für die Verwaltung von KI-Modellen im großen Maßstab.

Einige der wichtigsten Funktionen sind:

Gleichzeitige Modellausführung: Führen Sie mehrere Modelle gleichzeitig aus und maximieren Sie die GPU-Auslastung.
Dynamische Stapelverarbeitung: Kombiniert mehrere Inferenzanforderungen in einem Stapel, wodurch die Latenz reduziert und der Durchsatz erhöht wird.
Streaming-Audio-/Video-Eingänge: Unterstützt Eingabestreams in Echtzeitanwendungen wie Live-Videoanalyse oder Spracherkennungsdiensten.

Dies macht Triton zu einem wertvollen Tool für die Bereitstellung von TensorRT-LLM-optimierten Modellen in Produktionsumgebungen und gewährleistet eine hohe Skalierbarkeit und Effizienz.

Kernfunktionen von TensorRT-LLM für LLM-Inferenz

Open Source Python API

TensorRT-LLM bietet eine hochmodulare und Open-Source-Python-API, wodurch der Prozess der Definition, Optimierung und Ausführung von LLMs vereinfacht wird. Die API ermöglicht es Entwicklern, benutzerdefinierte LLMs zu erstellen oder vorgefertigte an ihre Bedürfnisse anzupassen, ohne dass umfassende Kenntnisse von CUDA oder Deep-Learning-Frameworks erforderlich sind.

In-Flight-Batching und Paged Attention

Eines der herausragenden Merkmale von TensorRT-LLM ist Batchverarbeitung während des Flugs, das die Textgenerierung durch die gleichzeitige Verarbeitung mehrerer Anfragen optimiert. Diese Funktion minimiert die Wartezeit und verbessert die GPU-Auslastung durch dynamische Batchverarbeitung von Sequenzen.

Zusätzlich Seitenweise Aufmerksamkeit stellt sicher, dass der Speicherverbrauch auch bei der Verarbeitung langer Eingabesequenzen gering bleibt. Anstatt für alle Token einen zusammenhängenden Speicher zuzuweisen, unterteilt Paged Attention den Speicher in „Seiten“, die dynamisch wiederverwendet werden können. Dies verhindert eine Speicherfragmentierung und verbessert die Effizienz.

Multi-GPU- und Multi-Node-Inferenz

Für größere Modelle oder komplexere Workloads unterstützt TensorRT-LLM Multi-GPU und Mehrknoten-Inferenz. Diese Funktion ermöglicht die Verteilung von Modellberechnungen auf mehrere GPUs oder Knoten, wodurch der Durchsatz verbessert und die Gesamtinferenzzeit verkürzt wird.

FP8-Unterstützung

Mit dem Aufkommen von FP8 (8-Bit-Gleitkomma) nutzt TensorRT-LLM die H100-GPUs von NVIDIA, um Modellgewichte für eine optimierte Inferenz in dieses Format zu konvertieren. FP8 ermöglicht einen geringeren Speicherverbrauch und schnellere Berechnungen, was insbesondere bei groß angelegten Bereitstellungen nützlich ist.

TensorRT-LLM-Architektur und -Komponenten

Wenn Sie die Architektur von TensorRT-LLM verstehen, können Sie dessen Funktionen für die LLM-Inferenz besser nutzen. Lassen Sie uns die wichtigsten Komponenten aufschlüsseln:

Modelldefinition

TensorRT-LLM ermöglicht Ihnen die Definition von LLMs mithilfe einer einfachen Python-API. Die API erstellt eine grafische Darstellung des Modells, wodurch die Verwaltung der komplexen Schichten von LLM-Architekturen wie GPT oder BERT einfacher wird.

Gewichtsbindungen

Vor dem Kompilieren des Modells müssen die Gewichte (oder Parameter) an das Netzwerk gebunden werden. Dieser Schritt stellt sicher, dass die Gewichte in die TensorRT-Engine eingebettet sind, was eine schnelle und effiziente Inferenz ermöglicht. TensorRT-LLM ermöglicht auch Gewichtsaktualisierungen nach der Kompilierung und bietet so Flexibilität für Modelle, die häufige Aktualisierungen benötigen.

Mustervergleich und -fusion

Operation Fusion ist ein weiteres leistungsstarkes Feature von TensorRT-LLM. Durch die Zusammenführung mehrerer Operationen (z. B. Matrixmultiplikationen mit Aktivierungsfunktionen) in einem einzigen CUDA-Kernel minimiert TensorRT den Overhead, der mit mehreren Kernelstarts verbunden ist. Dies reduziert Speicherübertragungen und beschleunigt die Inferenz.

Plugins

Um die Fähigkeiten von TensorRT zu erweitern, können Entwickler schreiben Plugins—benutzerdefinierte Kernel, die bestimmte Aufgaben ausführen, wie die Optimierung von Multi-Head-Attention-Blöcken. Zum Beispiel der Blitz-Achtung Das Plugin verbessert die Leistung von LLM-Aufmerksamkeitsebenen erheblich.

Benchmarks: Leistungssteigerungen bei TensorRT-LLM

TensorRT-LLM zeigt erhebliche Leistungssteigerungen für die LLM-Inferenz über verschiedene GPUs hinweg. Hier ist ein Vergleich der Inferenzgeschwindigkeit (gemessen in Token pro Sekunde) mit TensorRT-LLM über verschiedene NVIDIA-GPUs hinweg:

Modell	Präzision	Eingabe-/Ausgabelänge	H100 (80 GB)	A100 (80 GB)	L40S FP8
GPTJ 6B	FP8	128/128	34,955	11,206	6,998
GPTJ 6B	FP8	2048/128	2,800	1,354	747
LLaMA v2 7B	FP8	128/128	16,985	10,725	6,121
LLaMA v3 8B	FP8	128/128	16,708	12,085	8,273

Diese Benchmarks zeigen, dass TensorRT-LLM insbesondere bei längeren Sequenzen erhebliche Leistungsverbesserungen liefert.

Hands-On: Installieren und Erstellen von TensorRT-LLM

Schritt 1: Erstellen einer Containerumgebung

Zur einfacheren Verwendung stellt TensorRT-LLM Docker-Images bereit, um eine kontrollierte Umgebung zum Erstellen und Ausführen von Modellen zu erstellen.

docker build --pull \
             --target devel \
             --file docker/Dockerfile.multi \
             --tag tensorrt_llm/devel:latest .

Schritt 2: Ausführen des Containers

Führen Sie den Entwicklungscontainer mit Zugriff auf NVIDIA-GPUs aus:

docker run --rm -it \
           --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 --gpus=all \
           --volume ${PWD}:/code/tensorrt_llm \
           --workdir /code/tensorrt_llm \
           tensorrt_llm/devel:latest

Schritt 3: TensorRT-LLM aus dem Quellcode erstellen

Kompilieren Sie TensorRT-LLM im Container mit dem folgenden Befehl:

python3 ./scripts/build_wheel.py --trt_root /usr/local/tensorrt
pip install ./build/tensorrt_llm*.whl

Diese Option ist besonders nützlich, wenn Sie Kompatibilitätsprobleme im Zusammenhang mit Python-Abhängigkeiten vermeiden möchten oder wenn Sie sich auf die C++-Integration in Produktionssystemen konzentrieren. Sobald der Build abgeschlossen ist, finden Sie die kompilierten Bibliotheken für die C++-Laufzeit im cpp/build/tensorrt_llm Verzeichnis, bereit zur Integration in Ihre C++-Anwendungen.

Schritt 4: Verknüpfen Sie die TensorRT-LLM C++ Runtime

Wenn Sie TensorRT-LLM in Ihre C++-Projekte integrieren, stellen Sie sicher, dass die Include-Pfade Ihres Projekts auf das cpp/include Verzeichnis. Dieses enthält die stabilen, unterstützten API-Header. Die TensorRT-LLM-Bibliotheken werden als Teil Ihres C++-Kompilierungsprozesses verknüpft.

Beispielsweise könnte die CMake-Konfiguration Ihres Projekts Folgendes enthalten:

include_directories(${TENSORRT_LLM_PATH}/cpp/include)
link_directories(${TENSORRT_LLM_PATH}/cpp/build/tensorrt_llm)
target_link_libraries(your_project tensorrt_llm)

Diese Integration ermöglicht es Ihnen, die TensorRT-LLM-Optimierungen in Ihren benutzerdefinierten C++-Projekten zu nutzen und so selbst in Low-Level- oder Hochleistungsumgebungen eine effiziente Inferenz sicherzustellen.

Erweiterte TensorRT-LLM-Funktionen

TensorRT-LLM ist mehr als nur eine Optimierungsbibliothek; es enthält mehrere erweiterte Funktionen, die bei der Bewältigung groß angelegter LLM-Bereitstellungen helfen. Im Folgenden untersuchen wir einige dieser Funktionen im Detail:

1. Batchverarbeitung während des Flugs

Beim herkömmlichen Batching muss mit der Verarbeitung gewartet werden, bis ein Batch vollständig erfasst ist, was zu Verzögerungen führen kann. Batchverarbeitung während des Flugs ändert dies, indem die Inferenz für abgeschlossene Anfragen innerhalb eines Batches dynamisch gestartet wird, während weiterhin andere Anfragen erfasst werden. Dies verbessert den Gesamtdurchsatz, indem Leerlaufzeiten minimiert und die GPU-Auslastung verbessert werden.

Diese Funktion ist besonders wertvoll bei Echtzeitanwendungen wie Chatbots oder Sprachassistenten, bei denen die Reaktionszeit entscheidend ist.

2. Seitenweise Aufmerksamkeit

Seitenweise Aufmerksamkeit ist eine Speicheroptimierungstechnik für die Verarbeitung großer Eingabesequenzen. Anstatt zusammenhängenden Speicher für alle Token in einer Sequenz zu benötigen (was zu Speicherfragmentierung führen kann), ermöglicht Paged Attention dem Modell, Schlüsselwert-Cache-Daten in Speicherseiten aufzuteilen. Diese Seiten werden dynamisch nach Bedarf zugewiesen und freigegeben, wodurch die Speichernutzung optimiert wird.

Paged Attention ist entscheidend für die Handhabung großer Sequenzlängen und die Reduzierung des Speicheraufwands, insbesondere bei generativen Modellen wie GPT und LLaMA.

3. Benutzerdefinierte Plugins

TensorRT-LLM ermöglicht die Erweiterung der Funktionalität mit benutzerdefinierte Plugins. Plugins sind benutzerdefinierte Kernel, die bestimmte Optimierungen oder Vorgänge ermöglichen, die nicht von der Standardbibliothek von TensorRT abgedeckt werden.

So befasst sich beispielsweise die Blitz-Achtung Plugin ist ein bekannter benutzerdefinierter Kernel, der Multi-Head-Aufmerksamkeitsebenen in Transformer-basierten Modellen optimiert. Durch die Verwendung dieses Plugins können Entwickler die Aufmerksamkeitsberechnung – eine der ressourcenintensivsten Komponenten von LLMs – erheblich beschleunigen.

Um ein benutzerdefiniertes Plugin in Ihr TensorRT-LLM-Modell zu integrieren, können Sie einen benutzerdefinierten CUDA-Kernel schreiben und ihn bei TensorRT registrieren. Das Plugin wird während der Modellausführung aufgerufen und bietet maßgeschneiderte Leistungsverbesserungen.

4. FP8-Präzision auf NVIDIA H100

Mit FP8 PräzisionTensorRT-LLM nutzt die neuesten Hardware-Innovationen von NVIDIA im H100 Hopper ArchitekturFP8 reduziert den Speicherbedarf von LLMs, indem Gewichte und Aktivierungen in einem 8-Bit-Gleitkommaformat gespeichert werden, was zu schnelleren Berechnungen ohne große Einbußen bei der Genauigkeit führt. TensorRT-LLM kompiliert Modelle automatisch, um optimierte FP8-Kernel zu verwenden, was die Inferenzzeiten weiter beschleunigt.

Dies macht TensorRT-LLM zur idealen Wahl für groß angelegte Bereitstellungen, die erstklassige Leistung und Energieeffizienz erfordern.

Beispiel: Bereitstellen von TensorRT-LLM mit Triton Inference Server

Für Produktionsbereitstellungen: NVIDIAs Triton Inferenzserver bietet eine robuste Plattform für die Verwaltung von Modellen im großen Maßstab. In diesem Beispiel zeigen wir, wie man mit Triton ein TensorRT-LLM-optimiertes Modell bereitstellt.

Schritt 1: Einrichten des Modell-Repositorys

Erstellen Sie ein Modell-Repository für Triton, in dem Ihre TensorRT-LLM-Modelldateien gespeichert werden. Wenn Sie beispielsweise ein GPT2-Modell kompiliert haben, könnte Ihre Verzeichnisstruktur folgendermaßen aussehen:

mkdir -p model_repository/gpt2/1
cp ./trt_engine/gpt2_fp16.engine model_repository/gpt2/1/

Schritt 2: Erstellen Sie die Triton-Konfigurationsdatei

Im gleichen model_repository/gpt2/ Verzeichnis, erstellen Sie eine Konfigurationsdatei mit dem Namen config.pbtxt Dies teilt Triton mit, wie das Modell geladen und ausgeführt werden soll. Hier ist eine grundlegende Konfiguration für TensorRT-LLM:

name: "gpt2"
platform: "tensorrt_llm"
max_batch_size: 8

input [
  {
    name: "input_ids"
    data_type: TYPE_INT32
    dims: [-1]
  }
]

output [
  {
    name: "logits"
    data_type: TYPE_FP32
    dims: [-1, -1]
  }
]

Schritt 3: Triton Server starten

Verwenden Sie den folgenden Docker-Befehl, um Triton mit dem Modell-Repository zu starten:

docker run --rm --gpus all \
    -v $(pwd)/model_repository:/models \
    nvcr.io/nvidia/tritonserver:23.05-py3 \
    tritonserver --model-repository=/models

Schritt 4: Inferenzanfragen an Triton senden

Sobald der Triton-Server läuft, können Sie Inferenzanfragen über HTTP oder gRPC an ihn senden. Zum Beispiel mit curl So senden Sie eine Anfrage:

curl -X POST http://localhost:8000/v2/models/gpt2/infer -d '{
  "inputs": [
    {"name": "input_ids", "shape": [1, 128], "datatype": "INT32", "data": [[101, 234, 1243]]}
  ]
}'

Triton verarbeitet die Anfrage mithilfe der TensorRT-LLM-Engine und gibt die Protokolle als Ausgabe zurück.

Best Practices zur Optimierung der LLM-Inferenz mit TensorRT-LLM

Um die Leistungsfähigkeit von TensorRT-LLM voll auszuschöpfen, ist es wichtig, sowohl bei der Modelloptimierung als auch bei der Bereitstellung bewährte Methoden zu befolgen. Hier sind einige wichtige Tipps:

1. Profilieren Sie Ihr Modell vor der Optimierung

Bevor Sie Optimierungen wie Quantisierung oder Kernelfusion anwenden, verwenden Sie die Profiling-Tools von NVIDIA (wie Nsight Systems oder TensorRT Profiler), um die aktuellen Engpässe bei der Ausführung Ihres Modells zu verstehen. Auf diese Weise können Sie gezielt auf bestimmte Bereiche zur Verbesserung abzielen, was zu effektiveren Optimierungen führt.

2. Verwenden Sie gemischte Präzision für optimale Leistung

Bei der Optimierung von Modellen mit TensorRT-LLM Gemischte Präzision (eine Kombination aus FP16 und FP32) bietet eine deutliche Beschleunigung ohne großen Genauigkeitsverlust. Um das beste Gleichgewicht zwischen Geschwindigkeit und Genauigkeit zu erreichen, sollten Sie, sofern verfügbar, FP8 verwenden, insbesondere auf den H100-GPUs.

3. Nutzen Sie paginierte Aufmerksamkeit für große Sequenzen

Aktivieren Sie für Aufgaben mit langen Eingabesequenzen, wie z. B. Dokumentzusammenfassungen oder mehrstufige Konversationen, immer Seitenweise Aufmerksamkeit um die Speichernutzung zu optimieren. Dies reduziert den Speicheraufwand und verhindert Out-of-Memory-Fehler während der Inferenz.

4. Optimieren Sie die Parallelität für Multi-GPU-Setups

Beim Einsatz von LLMs über mehrere GPUs oder Knoten hinweg ist es wichtig, die Einstellungen für Tensorparallelität und Pipeline-Parallelität um sie an Ihre spezifische Arbeitslast anzupassen. Die richtige Konfiguration dieser Modi kann zu erheblichen Leistungsverbesserungen führen, indem die Rechenlast gleichmäßig auf die GPUs verteilt wird.

Fazit

TensorRT-LLM stellt einen Paradigmenwechsel bei der Optimierung und Bereitstellung großer Sprachmodelle dar. Mit seinen erweiterten Funktionen wie Quantisierung, Operationsfusion, FP8-Präzision und Multi-GPU-Unterstützung ermöglicht TensorRT-LLM, LLMs auf NVIDIA-GPUs schneller und effizienter auszuführen. Egal, ob Sie an Echtzeit-Chat-Anwendungen, Empfehlungssystemen oder groß angelegten Sprachmodellen arbeiten, TensorRT-LLM bietet die erforderlichen Tools, um die Leistungsgrenzen zu erweitern.

Dieser Leitfaden führte Sie durch die Einrichtung von TensorRT-LLM, die Optimierung von Modellen mit seiner Python-API, die Bereitstellung auf dem Triton Inference Server und die Anwendung bewährter Methoden für effiziente Inferenz. Mit TensorRT-LLM können Sie Ihre KI-Workloads beschleunigen, Latenzen reduzieren und skalierbare LLM-Lösungen für Produktionsumgebungen bereitstellen.

Weitere Informationen finden Sie im offiziellen TensorRT-LLM-Dokumentation und Triton Inference Server-Dokumentation.

Aayush Mittal

Ich habe die letzten fünf Jahre damit verbracht, in die faszinierende Welt des maschinellen Lernens und des Deep Learning einzutauchen. Meine Leidenschaft und mein Fachwissen haben dazu geführt, dass ich an über 50 verschiedenen Software-Engineering-Projekten mitgewirkt habe, mit besonderem Schwerpunkt auf KI/ML. Meine anhaltende Neugier hat mich auch zur Verarbeitung natürlicher Sprache geführt, einem Bereich, den ich gerne weiter erforschen möchte.

Unite.AI