Kunstig intelligens

TensorRT-LLM: A Comprehensive Guide to Optimizing Large Language Model Inference for Maximum Performance

Publisert

8 måneder siden

September 13, 2024

TensorRT-LLM NVIDEA kvantisering, operasjonsfusjon, FP8-presisjon og støtte for flere GPU

Ettersom etterspørselen etter store språkmodeller (LLM) fortsetter å øke, har det blitt viktigere enn noen gang å sikre rask, effektiv og skalerbar slutning. NVIDIA sine TensorRT-LLM går inn for å møte denne utfordringen ved å tilby et sett med kraftige verktøy og optimaliseringer spesielt utviklet for LLM-slutninger. TensorRT-LLM tilbyr en imponerende rekke ytelsesforbedringer, for eksempel kvantisering, kjernefusjon, batching under flyging og støtte for flere GPU. Disse fremskrittene gjør det mulig å oppnå slutningshastigheter opptil 8 ganger raskere enn tradisjonelle CPU-baserte metoder, og transformerer måten vi distribuerer LLM-er i produksjon.

Denne omfattende veiledningen vil utforske alle aspekter av TensorRT-LLM, fra arkitekturen og nøkkelfunksjonene til praktiske eksempler for distribusjon av modeller. Enten du er en AI-ingeniør, programvareutvikler eller forsker, vil denne veiledningen gi deg kunnskapen til å utnytte TensorRT-LLM for å optimalisere LLM-slutninger på NVIDIA GPUer.

Fremskynde LLM-inferens med TensorRT-LLM

TensorRT-LLM leverer dramatiske forbedringer i LLM-slutningsytelse. I følge NVIDIAs tester dukker applikasjoner basert på TensorRT opp til 8x raskere inferenshastigheter sammenlignet med CPU-bare plattformer. Dette er et avgjørende fremskritt i sanntidsapplikasjoner som chatbots, anbefalingssystemer og autonome systemer som krever raske svar.

Slik fungerer det

TensorRT-LLM øker slutningen ved å optimalisere nevrale nettverk under distribusjon ved å bruke teknikker som:

kvantisering: Reduserer presisjonen til vekter og aktiveringer, krymper modellstørrelsen og forbedrer slutningshastigheten.
Layer og Tensor Fusion: Slår sammen operasjoner som aktiveringsfunksjoner og matrisemultiplikasjoner til en enkelt operasjon.
Kjernetuning: Velger optimale CUDA-kjerner for GPU-beregning, noe som reduserer utførelsestiden.

Disse optimaliseringene sikrer at LLM-modellene dine yter effektivt på tvers av et bredt spekter av distribusjonsplattformer – fra hyperskalering av datasentre til innebygde systemer.

Optimalisering av slutningsytelse med TensorRT

Bygget på NVIDIAs CUDA-parallelle programmeringsmodell, gir TensorRT høyt spesialiserte optimaliseringer for slutninger om NVIDIA GPUer. Ved å strømlinjeforme prosesser som kvantisering, kjerneinnstilling og fusjon av tensoroperasjoner, sikrer TensorRT at LLM-er kan kjøre med minimal latens.

Noen av de mest effektive teknikkene inkluderer:

kvantisering: Dette reduserer den numeriske presisjonen til modellparametere samtidig som den opprettholder høy nøyaktighet, noe som effektivt øker slutningen.
Tensor Fusion: Ved å smelte sammen flere operasjoner til en enkelt CUDA-kjerne, minimerer TensorRT minneoverhead og øker gjennomstrømningen.
Kernel Auto-tuning: TensorRT velger automatisk den beste kjernen for hver operasjon, og optimaliserer inferens for en gitt GPU.

Disse teknikkene lar TensorRT-LLM optimere inferensytelse for dyplæringsoppgaver som naturlig språkbehandling, anbefalingsmotorer og sanntids videoanalyse.

Akselererer AI-arbeidsbelastninger med TensorRT

TensorRT akselererer arbeidsbelastninger for dyp læring ved å inkorporere presisjonsoptimaliseringer som f.eks INT8 og FP16. Disse reduserte presisjonsformatene gir betydelig raskere slutninger samtidig som nøyaktigheten opprettholdes. Dette er spesielt verdifullt i sanntidsapplikasjoner der lav latenstid er et kritisk krav.

INT8 og FP16 optimaliseringer er spesielt effektive i:

Video Streaming: AI-baserte videobehandlingsoppgaver, som objektdeteksjon, drar nytte av disse optimaliseringene ved å redusere tiden det tar å behandle bilder.
Anbefalingssystemer: Ved å akselerere inferens for modeller som behandler store mengder brukerdata, muliggjør TensorRT sanntids personalisering i stor skala.
Natural Language Processing (NLP): TensorRT forbedrer hastigheten på NLP-oppgaver som tekstgenerering, oversettelse og oppsummering, noe som gjør dem egnet for sanntidsapplikasjoner.

Distribuer, kjør og skaler med NVIDIA Triton

Når modellen din har blitt optimalisert med TensorRT-LLM, kan du enkelt distribuere, kjøre og skalere den ved å bruke NVIDIA Triton Inference Server. Triton er en åpen kildekode-programvare som støtter dynamisk batching, modellensembler og høy gjennomstrømning. Det gir et fleksibelt miljø for å administrere AI-modeller i stor skala.

Noen av hovedtrekkene er:

Samtidig modellutførelse: Kjør flere modeller samtidig, og maksimer GPU-utnyttelsen.
Dynamisk batching: Kombinerer flere slutningsforespørsler i én batch, reduserer ventetiden og øker gjennomstrømningen.
Streaming av lyd/videoinnganger: Støtter inndatastrømmer i sanntidsapplikasjoner, for eksempel live videoanalyse eller tale-til-tekst-tjenester.

Dette gjør Triton til et verdifullt verktøy for å distribuere TensorRT-LLM-optimaliserte modeller i produksjonsmiljøer, noe som sikrer høy skalerbarhet og effektivitet.

Kjernefunksjoner i TensorRT-LLM for LLM Inference

Open Source Python API

TensorRT-LLM gir en svært modulær og åpen kildekode Python API, som forenkler prosessen med å definere, optimalisere og utføre LLM-er. API-en gjør det mulig for utviklere å lage tilpassede LLM-er eller modifisere forhåndsbygde for å passe deres behov, uten å kreve inngående kunnskap om CUDA eller rammeverk for dyp læring.

In-Flight Batching og paged Attention

En av de fremtredende funksjonene til TensorRT-LLM er Batching under fly, som optimerer tekstgenerering ved å behandle flere forespørsler samtidig. Denne funksjonen minimerer ventetiden og forbedrer GPU-utnyttelsen ved dynamisk batching av sekvenser.

I tillegg Søket oppmerksomhet sikrer at minnebruken forblir lav selv når du behandler lange inndatasekvenser. I stedet for å tildele sammenhengende minne for alle tokens, bryter paged oppmerksomhet minnet i "sider" som kan gjenbrukes dynamisk, og forhindrer minnefragmentering og forbedrer effektiviteten.

Multi-GPU og Multi-Node Inference

For større modeller eller mer komplekse arbeidsbelastninger støtter TensorRT-LLM multi-GPU og multi-node slutning. Denne evnen tillater distribusjon av modellberegninger på tvers av flere GPUer eller noder, forbedrer gjennomstrømmingen og reduserer den totale inferenstiden.

FP8-støtte

Med ankomsten av FP8 (8-bits flytende punkt), TensorRT-LLM utnytter NVIDIAs H100 GPUer for å konvertere modellvekter til dette formatet for optimalisert slutning. FP8 muliggjør redusert minneforbruk og raskere beregning, spesielt nyttig i storskala distribusjoner.

TensorRT-LLM arkitektur og komponenter

Å forstå arkitekturen til TensorRT-LLM vil hjelpe deg å bedre utnytte mulighetene for LLM-slutninger. La oss bryte ned nøkkelkomponentene:

Modelldefinisjon

TensorRT-LLM lar deg definere LLM-er ved å bruke en enkel Python API. API-en konstruerer en grafrepresentasjon av modellen, noe som gjør det enklere å administrere de komplekse lagene som er involvert i LLM-arkitekturer som GPT eller BERT.

Vektbindinger

Før du kompilerer modellen, må vektene (eller parameterne) være bundet til nettverket. Dette trinnet sikrer at vektene er innebygd i TensorRT-motoren, noe som muliggjør rask og effektiv slutning. TensorRT-LLM tillater også vektoppdateringer etter kompilering, noe som gir fleksibilitet for modeller som trenger hyppige oppdateringer.

Mønstermatching og fusjon

Operasjon Fusion er en annen kraftig funksjon i TensorRT-LLM. Ved å smelte sammen flere operasjoner (f.eks. matrisemultiplikasjoner med aktiveringsfunksjoner) til en enkelt CUDA-kjerne, minimerer TensorRT overheaden forbundet med flere kjernelanseringer. Dette reduserer minneoverføringer og fremskynder inferens.

plugins

For å utvide TensorRTs muligheter kan utviklere skrive plugins– tilpassede kjerner som utfører spesifikke oppgaver som å optimalisere oppmerksomhetsblokker med flere hoder. For eksempel Flash-oppmerksomhet plugin forbedrer ytelsen til LLM oppmerksomhetslag betydelig.

Benchmarks: TensorRT-LLM ytelsesgevinster

TensorRT-LLM demonstrerer betydelige ytelsesgevinster for LLM-slutning på tvers av forskjellige GPUer. Her er en sammenligning av inferenshastighet (målt i tokens per sekund) ved bruk av TensorRT-LLM på tvers av forskjellige NVIDIA GPUer:

Modell	Precision	Inn-/utgangslengde	H100 (80 GB)	A100 (80 GB)	L40S FP8
GPTJ 6B	FP8	128/128	34,955	11,206	6,998
GPTJ 6B	FP8	2048/128	2,800	1,354	747
LLaMA v2 7B	FP8	128/128	16,985	10,725	6,121
LLaMA v3 8B	FP8	128/128	16,708	12,085	8,273

Disse referansene viser at TensorRT-LLM gir betydelige forbedringer i ytelse, spesielt for lengre sekvenser.

Hands-On: Installere og bygge TensorRT-LLM

Trinn 1: Lag et containermiljø

For enkel bruk, tilbyr TensorRT-LLM Docker-bilder for å skape et kontrollert miljø for å bygge og kjøre modeller.

docker build --pull \
             --target devel \
             --file docker/Dockerfile.multi \
             --tag tensorrt_llm/devel:latest .

Trinn 2: Kjør beholderen

Kjør utviklingsbeholderen med tilgang til NVIDIA GPUer:

docker run --rm -it \
           --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 --gpus=all \
           --volume ${PWD}:/code/tensorrt_llm \
           --workdir /code/tensorrt_llm \
           tensorrt_llm/devel:latest

Trinn 3: Bygg TensorRT-LLM fra kilden

Inne i beholderen, kompiler TensorRT-LLM med følgende kommando:

python3 ./scripts/build_wheel.py --trt_root /usr/local/tensorrt
pip install ./build/tensorrt_llm*.whl

Dette alternativet er spesielt nyttig når du vil unngå kompatibilitetsproblemer knyttet til Python-avhengigheter eller når du fokuserer på C++-integrasjon i produksjonssystemer. Når byggingen er fullført, vil du finne de kompilerte bibliotekene for C++-kjøretiden i cpp/build/tensorrt_llm katalog, klar for integrasjon med C++-applikasjonene dine.

Trinn 4: Koble til TensorRT-LLM C++ Runtime

Når du integrerer TensorRT-LLM i C++-prosjektene dine, sørg for at prosjektets inkluderer stier peker til cpp/include katalog. Denne inneholder de stabile, støttede API-overskriftene. TensorRT-LLM-bibliotekene er koblet sammen som en del av C++-kompileringsprosessen.

For eksempel kan prosjektets CMake-konfigurasjon inkludere:

include_directories(${TENSORRT_LLM_PATH}/cpp/include)
link_directories(${TENSORRT_LLM_PATH}/cpp/build/tensorrt_llm)
target_link_libraries(your_project tensorrt_llm)

Denne integrasjonen lar deg dra nytte av TensorRT-LLM-optimaliseringene i dine tilpassede C++-prosjekter, og sikrer effektiv slutning selv i miljøer med lavt nivå eller høy ytelse.

Avanserte TensorRT-LLM-funksjoner

TensorRT-LLM er mer enn bare et optimaliseringsbibliotek; den inkluderer flere avanserte funksjoner som hjelper til med å takle store LLM-implementeringer. Nedenfor utforsker vi noen av disse funksjonene i detalj:

1. Batching under fly

Tradisjonell batching innebærer å vente til en batch er fullstendig samlet før behandling, noe som kan føre til forsinkelser. Batching under fly endrer dette ved å dynamisk starte slutninger om fullførte forespørsler innenfor en batch mens du fortsatt samler inn andre forespørsler. Dette forbedrer den totale gjennomstrømningen ved å minimere inaktiv tid og forbedre GPU-utnyttelsen.

Denne funksjonen er spesielt verdifull i sanntidsapplikasjoner, som chatbots eller taleassistenter, der responstiden er kritisk.

2. Søket oppmerksomhet

Søket oppmerksomhet er en minneoptimaliseringsteknikk for å håndtere store inngangssekvenser. I stedet for å kreve sammenhengende minne for alle tokens i en sekvens (noe som kan føre til minnefragmentering), lar Paged Attention modellen dele opp nøkkelverdibufferdata i "sider" i minnet. Disse sidene tildeles dynamisk og frigjøres etter behov, og optimaliserer minnebruken.

Paged Attention er avgjørende for å håndtere store sekvenslengder og redusere minneoverhead, spesielt i generative modeller som GPT og LLaMA.

3. Egendefinerte plugins

TensorRT-LLM lar deg utvide funksjonaliteten med tilpassede plugins. Plugins er brukerdefinerte kjerner som muliggjør spesifikke optimaliseringer eller operasjoner som ikke dekkes av standard TensorRT-bibliotek.

For eksempel Flash-oppmerksomhet plugin er en velkjent tilpasset kjerne som optimaliserer multi-head oppmerksomhetslag i transformatorbaserte modeller. Ved å bruke denne plugin, kan utviklere oppnå betydelige hastigheter i oppmerksomhetsberegning – en av de mest ressurskrevende komponentene i LLM-er.

For å integrere en tilpasset plugin i TensorRT-LLM-modellen din, kan du skrive en tilpasset CUDA-kjerne og registrere den med TensorRT. Programtillegget vil bli påkalt under modellkjøring, og gir skreddersydde ytelsesforbedringer.

4. FP8 Precision på NVIDIA H100

Med FP8 presisjonTensorRT-LLM drar nytte av NVIDIAs siste maskinvareinnovasjoner innen H100 Hopper-arkitektur. FP8 reduserer minneavtrykket til LLM-er ved å lagre vekter og aktiveringer i et 8-bits flyttallformat, noe som resulterer i raskere beregning uten å ofre mye nøyaktighet. TensorRT-LLM kompilerer automatisk modeller for å bruke optimaliserte FP8-kjerner, og akselererer slutningstiden ytterligere.

Dette gjør TensorRT-LLM til et ideelt valg for storskala distribusjoner som krever toppytelse og energieffektivitet.

Eksempel: Implementering av TensorRT-LLM med Triton Inference Server

For produksjonsdistribusjoner, NVIDIAs Triton Inference Server gir en robust plattform for å administrere modeller i stor skala. I dette eksemplet vil vi demonstrere hvordan du distribuerer en TensorRT-LLM-optimalisert modell ved hjelp av Triton.

Trinn 1: Sett opp modelllageret

Opprett et modelllager for Triton, som vil lagre TensorRT-LLM-modellfilene dine. Hvis du for eksempel har kompilert en GPT2-modell, kan katalogstrukturen din se slik ut:

mkdir -p model_repository/gpt2/1
cp ./trt_engine/gpt2_fp16.engine model_repository/gpt2/1/

Trinn 2: Lag Triton-konfigurasjonsfilen

I den samme model_repository/gpt2/ katalog, opprett en konfigurasjonsfil med navnet config.pbtxt som forteller Triton hvordan du laster og kjører modellen. Her er en grunnleggende konfigurasjon for TensorRT-LLM:

name: "gpt2"
platform: "tensorrt_llm"
max_batch_size: 8
input [
  {
    name: "input_ids"
    data_type: TYPE_INT32
    dims: [-1]
  }
]
output [
  {
    name: "logits"
    data_type: TYPE_FP32
    dims: [-1, -1]
  }
]

Trinn 3: Start Triton Server

Bruk følgende Docker-kommando for å starte Triton med modelllageret:

docker run --rm --gpus all \
    -v $(pwd)/model_repository:/models \
    nvcr.io/nvidia/tritonserver:23.05-py3 \
    tritonserver --model-repository=/models

Trinn 4: Send slutningsforespørsler til Triton

Når Triton-serveren kjører, kan du sende slutningsforespørsler til den ved å bruke HTTP eller gRPC. For eksempel ved å bruke curl for å sende en forespørsel:

curl -X POST http://localhost:8000/v2/models/gpt2/infer -d '{
  "inputs": [
    {"name": "input_ids", "shape": [1, 128], "datatype": "INT32", "data": [[101, 234, 1243]]}
  ]
}'

Triton vil behandle forespørselen ved å bruke TensorRT-LLM-motoren og returnere logittene som utdata.

Beste praksis for optimalisering av LLM-slutninger med TensorRT-LLM

For å utnytte kraften til TensorRT-LLM fullt ut, er det viktig å følge beste praksis under både modelloptimalisering og distribusjon. Her er noen viktige tips:

1. Profiler modellen din før optimalisering

Før du bruker optimaliseringer som kvantisering eller kjernefusjon, bruk NVIDIAs profileringsverktøy (som Nsight Systems eller TensorRT Profiler) for å forstå de gjeldende flaskehalsene i modellens utførelse. Dette lar deg målrette mot spesifikke områder for forbedring, noe som fører til mer effektive optimaliseringer.

2. Bruk blandet presisjon for optimal ytelse

Ved optimalisering av modeller med TensorRT-LLM, bruk blandet presisjon (en kombinasjon av FP16 og FP32) gir en betydelig hastighet opp uten et stort tap i nøyaktighet. For den beste balansen mellom hastighet og nøyaktighet bør du vurdere å bruke FP8 der det er tilgjengelig, spesielt på H100 GPUene.

3. Utnytt siderettet oppmerksomhet for store sekvenser

For oppgaver som involverer lange inndatasekvenser, for eksempel dokumentoppsummering eller flersvingssamtaler, aktiver alltid Søket oppmerksomhet for å optimalisere minnebruken. Dette reduserer minneoverhead og forhindrer minnefeil under inferens.

4. Finjuster parallellismen for multi-GPU-oppsett

Når du distribuerer LLM-er på tvers av flere GPUer eller noder, er det viktig å finjustere innstillingene for tensorparallellisme og rørledningsparallellisme for å matche din spesifikke arbeidsmengde. Riktig konfigurering av disse modusene kan føre til betydelige ytelsesforbedringer ved å fordele beregningsbelastningen jevnt over GPUer.

Konklusjon

TensorRT-LLM representerer et paradigmeskifte i optimalisering og distribusjon av store språkmodeller. Med sine avanserte funksjoner som kvantisering, operasjonsfusjon, FP8-presisjon og multi-GPU-støtte, gjør TensorRT-LLM det mulig for LLM-er å kjøre raskere og mer effektivt på NVIDIA GPU-er. Enten du jobber med chat-applikasjoner i sanntid, anbefalingssystemer eller store språkmodeller, gir TensorRT-LLM verktøyene som trengs for å flytte grensene for ytelse.

Denne veiledningen ledet deg gjennom å sette opp TensorRT-LLM, optimalisere modeller med Python API, distribuere på Triton Inference Server og bruke beste praksis for effektiv inferens. Med TensorRT-LLM kan du akselerere AI-arbeidsmengdene dine, redusere ventetiden og levere skalerbare LLM-løsninger til produksjonsmiljøer.

For mer informasjon, se tjenestemannen TensorRT-LLM dokumentasjon og Triton Inference Server dokumentasjon.

Neste

Generative AI Blueprints: Redefinering the Future of Architecture

Ikke gå glipp av

DPAD-algoritme forbedrer hjerne-datamaskingrensesnitt, lovende fremskritt innen nevroteknologi

Aayush Mittal

Jeg har brukt de siste fem årene på å fordype meg i den fascinerende verdenen av maskinlæring og dyplæring. Min lidenskap og ekspertise har ført til at jeg har bidratt til over 50 ulike programvareprosjekter, med spesielt fokus på AI/ML. Min pågående nysgjerrighet har også trukket meg mot naturlig språkbehandling, et felt jeg er ivrig etter å utforske videre.

Unite.AI