Kunsmatige Intelligensie

TensorRT-LLM: 'n Omvattende gids vir die optimalisering van groottaalmodelafleidings vir maksimum prestasie

Gepubliseer

8 maande gelede

September 13, 2024

TensorRT-LLM NVIDEA kwantisering, werking samesmelting, FP8 presisie, en multi-GPU ondersteuning

Namate die vraag na groottaalmodelle (LLM's) aanhou styg, het die versekering van vinnige, doeltreffende en skaalbare afleidings belangriker as ooit geword. Die van NVIDIA TensorRT-LLM tree in om hierdie uitdaging aan te spreek deur 'n stel kragtige instrumente en optimaliserings te verskaf wat spesifiek ontwerp is vir LLM-afleiding. TensorRT-LLM bied 'n indrukwekkende reeks werkverrigtingverbeterings, soos kwantisering, kernsamesmelting, in-vlug bonding, en multi-GPU ondersteuning. Hierdie vooruitgang maak dit moontlik om afleidingsnelhede tot 8x vinniger as tradisionele SVE-gebaseerde metodes te bereik, wat die manier waarop ons LLM's in produksie ontplooi verander.

Hierdie omvattende gids sal alle aspekte van TensorRT-LLM verken, van sy argitektuur en sleutelkenmerke tot praktiese voorbeelde vir die ontplooiing van modelle. Of jy nou 'n KI-ingenieur, sagteware-ontwikkelaar of navorser is, hierdie gids sal jou die kennis gee om TensorRT-LLM te benut vir die optimalisering van LLM-afleiding oor NVIDIA GPU's.

Bespoedig LLM-afleiding met TensorRT-LLM

TensorRT-LLM lewer dramatiese verbeterings in LLM-afleidingsprestasie. Volgens NVIDIA se toetse verskyn toepassings wat op TensorRT gebaseer is 8x vinniger afleidingsnelhede in vergelyking met SVE-net platforms. Dit is 'n deurslaggewende vooruitgang in intydse toepassings soos kletsbotte, aanbevelingstelsels en outonome stelsels wat vinnige reaksies vereis.

Hoe werk dit?

TensorRT-LLM versnel afleiding deur neurale netwerke te optimaliseer tydens ontplooiing deur tegnieke soos:

kwantisering: Verminder die akkuraatheid van gewigte en aktiverings, krimp modelgrootte en verbeter afleidingspoed.
Laag en Tensor Fusion: Voeg bewerkings soos aktiveringsfunksies en matriksvermenigvuldiging saam in 'n enkele bewerking.
Kernel Tuning: Kies optimale CUDA-pitte vir GPU-berekening, wat die uitvoeringstyd verminder.

Hierdie optimalisering verseker dat jou LLM-modelle doeltreffend oor 'n wye reeks ontplooiingsplatforms werk—van hiperskaal datasentrums tot ingebedde stelsels.

Optimaliseer afleidingsprestasie met TensorRT

TensorRT is gebou op NVIDIA se CUDA-parallelle programmeringsmodel en bied hoogs gespesialiseerde optimaliserings vir afleidings oor NVIDIA GPU's. Deur prosesse soos kwantisering, kerninstelling en samesmelting van tensor-bewerkings te stroomlyn, verseker TensorRT dat LLM's met minimale latensie kan loop.

Sommige van die mees effektiewe tegnieke sluit in:

kwantisering: Dit verminder die numeriese akkuraatheid van modelparameters terwyl hoë akkuraatheid gehandhaaf word, wat afleiding effektief bespoedig.
Tensor Fusion: Deur veelvuldige bewerkings in 'n enkele CUDA-kern saam te voeg, verminder TensorRT geheue-bokoste en verhoog deurset.
Kernel Outo-tuning: TensorRT kies outomaties die beste kern vir elke bewerking, en optimaliseer afleiding vir 'n gegewe GPU.

Hierdie tegnieke stel TensorRT-LLM in staat om afleidingsprestasie vir diepleertake soos natuurlike taalverwerking, aanbevelingsenjins en intydse video-analise te optimaliseer.

Versnel KI-werkladings met TensorRT

TensorRT versnel diep leerwerkladings deur presisieoptimalisasies in te sluit soos INT8 en FP16. Hierdie formate met verminderde presisie maak voorsiening vir aansienlik vinniger afleiding terwyl akkuraatheid gehandhaaf word. Dit is veral waardevol in intydse toepassings waar lae latensie 'n kritieke vereiste is.

INT8 en FP16 optimalisering is veral effektief in:

Videostroom: KI-gebaseerde videoverwerkingstake, soos objekbespeuring, trek voordeel uit hierdie optimalisering deur die tyd wat dit neem om rame te verwerk, te verminder.
Aanbevelingstelsels: Deur afleiding te versnel vir modelle wat groot hoeveelhede gebruikersdata verwerk, maak TensorRT intydse verpersoonliking op skaal moontlik.
Natuurlike Taalverwerking (NLP): TensorRT verbeter die spoed van NLP-take soos teksgenerering, vertaling en opsomming, wat hulle geskik maak vir intydse toepassings.

Ontplooi, hardloop en skaal met NVIDIA Triton

Sodra jou model met TensorRT-LLM geoptimaliseer is, kan jy dit maklik ontplooi, hardloop en skaal met NVIDIA Triton Inference Server. Triton is 'n oopbronsagteware wat dinamiese groepering, modelensembles en hoë deurset ondersteun. Dit bied 'n buigsame omgewing vir die bestuur van KI-modelle op skaal.

Sommige van die belangrikste kenmerke sluit in:

Gelyktydige Modeluitvoering: Begin verskeie modelle gelyktydig, wat GPU-benutting maksimeer.
Dinamiese groepering: Kombineer veelvuldige afleidingsversoeke in een bondel, wat latensie verminder en deurset verhoog.
Stroom oudio/video-insette: Ondersteun invoerstrome in intydse toepassings, soos regstreekse video-analise of spraak-na-teks-dienste.

Dit maak Triton 'n waardevolle hulpmiddel vir die implementering van TensorRT-LLM-geoptimaliseerde modelle in produksie-omgewings, wat hoë skaalbaarheid en doeltreffendheid verseker.

Kernkenmerke van TensorRT-LLM vir LLM Inferensie

Open Source Python API

TensorRT-LLM bied 'n hoogs modulêre en oopbron Python API, vereenvoudig die proses om LLM's te definieer, te optimaliseer en uit te voer. Die API stel ontwikkelaars in staat om pasgemaakte LLM's te skep of voorafgeboude een te verander om by hul behoeftes te pas, sonder om 'n diepgaande kennis van CUDA of diepleerraamwerke te vereis.

In-Flight Batching en Blaai-aandag

Een van die uitstaande kenmerke van TensorRT-LLM is In-Flight Batching, wat teksgenerering optimaliseer deur verskeie versoeke gelyktydig te verwerk. Hierdie kenmerk verminder wagtyd en verbeter GPU-gebruik deur reekse dinamies te versamel.

Daarbenewens Aandag geblaai verseker dat geheuegebruik laag bly selfs wanneer lang invoerreekse verwerk word. In plaas daarvan om aaneenlopende geheue vir alle tekens toe te ken, breek geblaaide aandag geheue op in "bladsye" wat dinamies hergebruik kan word, wat geheuefragmentasie voorkom en doeltreffendheid verbeter.

Multi-GPU en Multi-Node Inferensie

Vir groter modelle of meer komplekse werkladings, ondersteun TensorRT-LLM multi-GPU en multi-node afleiding. Hierdie vermoë maak voorsiening vir die verspreiding van modelberekeninge oor verskeie GPU's of nodusse, wat deurset verbeter en algehele afleidingstyd verminder.

FP8 Ondersteuning

Met die koms van FP8 (8-bis drywende punt), TensorRT-LLM gebruik NVIDIA se H100 GPU's om modelgewigte in hierdie formaat om te skakel vir geoptimaliseerde afleiding. FP8 maak verminderde geheueverbruik en vinniger berekening moontlik, veral nuttig in grootskaalse ontplooiings.

TensorRT-LLM argitektuur en komponente

Om die argitektuur van TensorRT-LLM te verstaan, sal jou help om die vermoëns daarvan vir LLM-afleidings beter te benut. Kom ons breek die sleutelkomponente af:

Model Definisie

TensorRT-LLM laat jou toe om LLM's te definieer met behulp van 'n eenvoudige Python API. Die API konstrueer a grafiek voorstelling van die model, wat dit makliker maak om die komplekse lae betrokke by LLM-argitekture soos GPT of BERT te bestuur.

Gewigsbindings

Voordat die model saamgestel word, moet die gewigte (of parameters) aan die netwerk gebind word. Hierdie stap verseker dat die gewigte in die TensorRT-enjin ingebed is, wat 'n vinnige en doeltreffende afleiding moontlik maak. TensorRT-LLM maak ook voorsiening vir gewigopdaterings na samestelling, wat buigsaamheid toevoeg vir modelle wat gereelde opdaterings benodig.

Patroonpassing en samesmelting

Operasie Fusion is nog 'n kragtige kenmerk van TensorRT-LLM. Deur veelvuldige bewerkings (bv. matriksvermenigvuldigings met aktiveringsfunksies) in 'n enkele CUDA-kern saam te voeg, verminder TensorRT die bokoste wat met veelvuldige kernbekendstellings geassosieer word. Dit verminder geheue-oordragte en versnel afleiding.

proppe

Om TensorRT se vermoëns uit te brei, kan ontwikkelaars skryf plugins- pasgemaakte pitte wat spesifieke take verrig soos die optimalisering van meerkoppige aandagblokke. Byvoorbeeld, die Flits-aandag plugin verbeter die werkverrigting van LLM-aandaglae aansienlik.

Maatstawwe: TensorRT-LLM prestasiewinste

TensorRT-LLM toon aansienlike prestasiewinste vir LLM-afleiding oor verskeie GPU's. Hier is 'n vergelyking van afleidingsspoed (gemeet in tokens per sekonde) met behulp van TensorRT-LLM oor verskillende NVIDIA GPU's:

model	Presisie	Invoer / Uitset Lengte	H100 (80 GB)	A100 (80 GB)	L40S FP8
GPTJ 6B	FP8	128/128	34,955	11,206	6,998
GPTJ 6B	FP8	2048/128	2,800	1,354	747
LLaMA v2 7B	FP8	128/128	16,985	10,725	6,121
LLaMA v3 8B	FP8	128/128	16,708	12,085	8,273

Hierdie maatstawwe toon dat TensorRT-LLM aansienlike verbeterings in werkverrigting lewer, veral vir langer reekse.

Hands-On: Installeer en bou TensorRT-LLM

Stap 1: Skep 'n houer-omgewing

Vir gemak van gebruik, verskaf TensorRT-LLM Docker-beelde om 'n beheerde omgewing te skep vir die bou en bestuur van modelle.

docker build --pull \
             --target devel \
             --file docker/Dockerfile.multi \
             --tag tensorrt_llm/devel:latest .

Stap 2: Begin die houer

Begin die ontwikkelingshouer met toegang tot NVIDIA GPU's:

docker run --rm -it \
           --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 --gpus=all \
           --volume ${PWD}:/code/tensorrt_llm \
           --workdir /code/tensorrt_llm \
           tensorrt_llm/devel:latest

Stap 3: Bou TensorRT-LLM vanaf Bron

Binne die houer, stel TensorRT-LLM saam met die volgende opdrag:

python3 ./scripts/build_wheel.py --trt_root /usr/local/tensorrt
pip install ./build/tensorrt_llm*.whl

Hierdie opsie is veral nuttig wanneer u verenigbaarheidskwessies wat verband hou met Python-afhanklikhede wil vermy of wanneer u op C++-integrasie in produksiestelsels fokus. Sodra die bou voltooi is, sal jy die saamgestelde biblioteke vir die C++-looptyd in die cpp/build/tensorrt_llm gids, gereed vir integrasie met jou C++ toepassings.

Stap 4: Koppel die TensorRT-LLM C++ Runtime

Wanneer jy TensorRT-LLM in jou C++-projekte integreer, maak seker dat jou projek se paaie insluit na die cpp/include gids. Dit bevat die stabiele, ondersteunde API-opskrifte. Die TensorRT-LLM-biblioteke is gekoppel as deel van jou C++-samestellingsproses.

Byvoorbeeld, jou projek se CMake-konfigurasie kan die volgende insluit:

include_directories(${TENSORRT_LLM_PATH}/cpp/include)
link_directories(${TENSORRT_LLM_PATH}/cpp/build/tensorrt_llm)
target_link_libraries(your_project tensorrt_llm)

Hierdie integrasie laat jou toe om voordeel te trek uit die TensorRT-LLM-optimalisasies in jou pasgemaakte C++-projekte, wat doeltreffende afleiding verseker, selfs in laevlak- of hoëprestasie-omgewings.

Gevorderde TensorRT-LLM-kenmerke

TensorRT-LLM is meer as net 'n optimaliseringsbiblioteek; dit sluit verskeie gevorderde kenmerke in wat help om grootskaalse LLM-ontplooiings aan te pak. Hieronder ondersoek ons sommige van hierdie kenmerke in detail:

1. In-Flight Batching

Tradisionele groepering behels om te wag totdat 'n bondel volledig afgehaal is voor verwerking, wat vertragings kan veroorsaak. In-Flight Batching verander dit deur afleidings oor voltooide versoeke binne 'n bondel dinamies te begin terwyl ander versoeke steeds versamel word. Dit verbeter algehele deurset deur ledige tyd te verminder en GPU-gebruik te verbeter.

Hierdie kenmerk is veral waardevol in intydse toepassings, soos kletsbotte of stemassistente, waar reaksietyd krities is.

2. Aandag geblaai

Aandag geblaai is 'n geheue-optimeringstegniek vir die hantering van groot invoerreekse. In plaas daarvan om aaneenlopende geheue vir alle tekens in 'n volgorde te vereis (wat kan lei tot geheuefragmentasie), laat Paged Attention die model toe om sleutelwaarde-kasdata in "bladsye" van geheue te verdeel. Hierdie bladsye word dinamies toegewys en bevry soos nodig, wat geheuegebruik optimaliseer.

Paged Attention is van kritieke belang vir die hantering van groot reekslengtes en die vermindering van geheue-bokoste, veral in generatiewe modelle soos GPT en LLaMA.

3. Pasgemaakte inproppe

TensorRT-LLM laat jou toe om sy funksionaliteit uit te brei met persoonlike plugins. Inproppe is gebruiker-gedefinieerde pitte wat spesifieke optimalisering of bewerkings moontlik maak wat nie deur die standaard TensorRT-biblioteek gedek word nie.

Byvoorbeeld, die Flits-aandag plugin is 'n bekende pasgemaakte kern wat multi-kop aandag lae in transformator-gebaseerde modelle optimaliseer. Deur hierdie inprop te gebruik, kan ontwikkelaars aansienlike versnellings in aandagberekening behaal - een van die mees hulpbron-intensiewe komponente van LLM's.

Om 'n pasgemaakte inprop in jou TensorRT-LLM-model te integreer, kan jy 'n pasgemaakte CUDA-kern skryf en dit by TensorRT registreer. Die inprop sal tydens modeluitvoering aangeroep word, wat pasgemaakte prestasieverbeterings verskaf.

4. FP8 Precision op NVIDIA H100

Met FP8 presisie, TensorRT-LLM maak gebruik van NVIDIA se nuutste hardeware-innovasies in die H100 Hopper argitektuur. FP8 verminder die geheue-voetspoor van LLM's deur gewigte en aktiverings in 'n 8-bis drywende punt-formaat te stoor, wat lei tot vinniger berekening sonder om veel akkuraatheid in te boet. TensorRT-LLM stel outomaties modelle saam om geoptimaliseerde FP8-pitte te gebruik, wat afleidingstye verder versnel.

Dit maak TensorRT-LLM 'n ideale keuse vir grootskaalse ontplooiings wat top-vlak werkverrigting en energiedoeltreffendheid vereis.

Voorbeeld: Ontplooi TensorRT-LLM met Triton Inference Server

Vir produksie-ontplooiings, NVIDIA's Triton Inference Server bied 'n robuuste platform vir die bestuur van modelle op skaal. In hierdie voorbeeld sal ons demonstreer hoe om 'n TensorRT-LLM-geoptimaliseerde model te ontplooi met behulp van Triton.

Stap 1: Stel die modelbewaarplek op

Skep 'n modelbewaarplek vir Triton, wat jou TensorRT-LLM-modellêers sal stoor. Byvoorbeeld, as jy 'n GPT2-model saamgestel het, kan jou gidsstruktuur soos volg lyk:

mkdir -p model_repository/gpt2/1
cp ./trt_engine/gpt2_fp16.engine model_repository/gpt2/1/

Stap 2: Skep die Triton-konfigurasielêer

In dieselfde model_repository/gpt2/ gids, skep 'n konfigurasielêer met die naam config.pbtxt wat Triton vertel hoe om die model te laai en te laat loop. Hier is 'n basiese konfigurasie vir TensorRT-LLM:

name: "gpt2"
platform: "tensorrt_llm"
max_batch_size: 8
input [
  {
    name: "input_ids"
    data_type: TYPE_INT32
    dims: [-1]
  }
]
output [
  {
    name: "logits"
    data_type: TYPE_FP32
    dims: [-1, -1]
  }
]

Stap 3: Begin Triton Server

Gebruik die volgende Docker-opdrag om Triton met die modelbewaarplek te begin:

docker run --rm --gpus all \
    -v $(pwd)/model_repository:/models \
    nvcr.io/nvidia/tritonserver:23.05-py3 \
    tritonserver --model-repository=/models

Stap 4: Stuur afleidingsversoeke na Triton

Sodra die Triton-bediener aan die gang is, kan u afleidingsversoeke na dit stuur met behulp van HTTP of gRPC. Byvoorbeeld, die gebruik van curl om 'n versoek te stuur:

curl -X POST http://localhost:8000/v2/models/gpt2/infer -d '{
  "inputs": [
    {"name": "input_ids", "shape": [1, 128], "datatype": "INT32", "data": [[101, 234, 1243]]}
  ]
}'

Triton sal die versoek verwerk deur die TensorRT-LLM-enjin te gebruik en die logits as uitvoer terugstuur.

Beste praktyke vir die optimalisering van LLM-afleiding met TensorRT-LLM

Om die krag van TensorRT-LLM ten volle te benut, is dit belangrik om die beste praktyke te volg tydens beide modeloptimering en -ontplooiing. Hier is 'n paar sleutelwenke:

1. Profileer jou model voor optimering

Gebruik NVIDIA se profielinstrumente (soos Nsight Systems of TensorRT Profiler) om die huidige knelpunte in die uitvoering van jou model te verstaan voordat optimaliserings soos kwantisering of kernfusie toegepas word. Dit laat jou toe om spesifieke areas vir verbetering te rig, wat lei tot meer effektiewe optimalisering.

2. Gebruik gemengde presisie vir optimale prestasie

Wanneer modelle met TensorRT-LLM geoptimaliseer word, gebruik gemengde presisie ('n kombinasie van FP16 en FP32) bied 'n aansienlike versnelling sonder 'n groot verlies aan akkuraatheid. Vir die beste balans tussen spoed en akkuraatheid, oorweeg dit om FP8 te gebruik waar beskikbaar, veral op die H100 GPU's.

3. Maak gebruik van gebladderde aandag vir groot rye

Aktiveer altyd vir take wat lang invoerreekse behels, soos dokumentopsomming of multi-draai gesprekke Aandag geblaai om geheuegebruik te optimaliseer. Dit verminder geheue bokoste en voorkom uit-geheue foute tydens afleiding.

4. Verfyn parallelisme vir multi-GPU-opstellings

Wanneer LLM's oor verskeie GPU's of nodusse ontplooi word, is dit noodsaaklik om die instellings vir tensor parallelisme en pypleiding parallelisme om by jou spesifieke werklading te pas. Behoorlike konfigurasie van hierdie modusse kan lei tot aansienlike prestasieverbeterings deur die berekeningslading eweredig oor GPU's te versprei.

Gevolgtrekking

TensorRT-LLM verteenwoordig 'n paradigmaskuif in die optimalisering en implementering van groot taalmodelle. Met sy gevorderde kenmerke soos kwantisering, werkingsamesmelting, FP8-presisie en multi-GPU-ondersteuning, stel TensorRT-LLM LLM's in staat om vinniger en doeltreffender op NVIDIA GPU's te werk. Of jy nou aan intydse kletstoepassings, aanbevelingstelsels of grootskaalse taalmodelle werk, TensorRT-LLM verskaf die gereedskap wat nodig is om die grense van prestasie te verskuif.

Hierdie gids het jou gelei deur die opstel van TensorRT-LLM, die optimalisering van modelle met sy Python API, die implementering op Triton Inference Server, en die toepassing van beste praktyke vir doeltreffende afleiding. Met TensorRT-LLM kan jy jou KI-werkladings versnel, latensie verminder en skaalbare LLM-oplossings aan produksieomgewings lewer.

Vir verdere inligting, verwys na die amptenaar TensorRT-LLM dokumentasie en Triton Inference Server dokumentasie.

Generatiewe KI-bloudrukke: Herdefinieer die toekoms van argitektuur

Moenie mis nie

DPAD-algoritme verbeter brein-rekenaar-koppelvlakke, belowende vooruitgang in neurotegnologie

Aayush Mittal

Ek het die afgelope vyf jaar my verdiep in die fassinerende wêreld van Masjienleer en Deep Learning. My passie en kundigheid het daartoe gelei dat ek bygedra het tot meer as 50 diverse sagteware-ingenieursprojekte, met 'n spesifieke fokus op KI/ML. My voortdurende nuuskierigheid het my ook na natuurlike taalverwerking gelok, 'n veld wat ek gretig is om verder te verken.

Verenig.AI