Inteligența artificială

TensorRT-LLM: Un ghid cuprinzător pentru optimizarea inferenței modelului de limbă mare pentru performanță maximă

Publicat

în urmă 8 luni

13 Septembrie, 2024

Cuantificare TensorRT-LLM NVIDEA, fuziune operațională, precizie FP8 și suport pentru mai multe GPU

Pe măsură ce cererea de modele lingvistice mari (LLM) continuă să crească, asigurarea unei inferențe rapide, eficiente și scalabile a devenit mai crucială ca niciodată. NVIDIA TensorRT-LLM face un pas pentru a aborda această provocare oferind un set de instrumente puternice și optimizări concepute special pentru inferența LLM. TensorRT-LLM oferă o gamă impresionantă de îmbunătățiri ale performanței, cum ar fi cuantificarea, fuziunea nucleului, loturi în timpul zborului și suport pentru mai multe GPU. Aceste progrese fac posibilă obținerea unor viteze de inferență de până la 8 ori mai rapide decât metodele tradiționale bazate pe CPU, transformând modul în care implementăm LLM-urile în producție.

Acest ghid cuprinzător va explora toate aspectele TensorRT-LLM, de la arhitectura și caracteristicile cheie până la exemple practice pentru implementarea modelelor. Indiferent dacă sunteți inginer AI, dezvoltator de software sau cercetător, acest ghid vă va oferi cunoștințele necesare pentru a utiliza TensorRT-LLM pentru optimizarea inferenței LLM pe GPU-urile NVIDIA.

Accelerarea inferenței LLM cu TensorRT-LLM

TensorRT-LLM oferă îmbunătățiri dramatice ale performanței inferenței LLM. Conform testelor NVIDIA, aplicațiile bazate pe TensorRT apar la 8x mai rapid viteze de inferență în comparație cu platformele numai cu CPU. Acesta este un progres crucial în aplicațiile în timp real, cum ar fi chatbot-urile, sistemele de recomandare și sistemele autonome care necesită răspunsuri rapide.

Cum funcționează

TensorRT-LLM accelerează inferența prin optimizarea rețelelor neuronale în timpul implementării utilizând tehnici precum:

Eºantionare: Reduce precizia greutăților și activărilor, micșorând dimensiunea modelului și îmbunătățind viteza de inferență.
Fuziunea stratului și tensorului: Îmbină operațiuni precum funcțiile de activare și înmulțirile de matrice într-o singură operație.
Tuning Kernel: Selectează nucleele CUDA optime pentru calculul GPU, reducând timpul de execuție.

Aceste optimizări asigură că modelele dvs. LLM funcționează eficient pe o gamă largă de platforme de implementare, de la centre de date la scară largă până la sisteme încorporate.

Optimizarea performanței inferenței cu TensorRT

Construit pe modelul de programare paralelă CUDA de la NVIDIA, TensorRT oferă optimizări foarte specializate pentru inferența asupra GPU-urilor NVIDIA. Prin eficientizarea proceselor precum cuantizarea, reglarea nucleului și fuziunea operațiunilor tensorului, TensorRT asigură că LLM-urile pot rula cu o latență minimă.

Unele dintre cele mai eficiente tehnici includ:

Eºantionare: Acest lucru reduce precizia numerică a parametrilor modelului, menținând în același timp o precizie ridicată, accelerând efectiv inferența.
Tensor Fusion: Prin fuzionarea mai multor operațiuni într-un singur nucleu CUDA, TensorRT minimizează supraîncărcarea memoriei și crește debitul.
Reglare automată a nucleului: TensorRT selectează automat cel mai bun nucleu pentru fiecare operațiune, optimizând inferența pentru un anumit GPU.

Aceste tehnici permit TensorRT-LLM să optimizeze performanța de inferență pentru sarcini de învățare profundă, cum ar fi procesarea limbajului natural, motoarele de recomandare și analiza video în timp real.

Accelerarea sarcinilor de lucru AI cu TensorRT

TensorRT accelerează sarcinile de lucru de deep learning prin încorporarea unor optimizări de precizie, cum ar fi INT8 si FP16. Aceste formate cu precizie redusă permit o inferență semnificativ mai rapidă, păstrând în același timp precizia. Acest lucru este deosebit de valoros în aplicațiile în timp real unde latența scăzută este o cerință critică.

INT8 si FP16 optimizările sunt deosebit de eficiente în:

Video Streaming: sarcinile de procesare video bazate pe inteligență artificială, cum ar fi detectarea obiectelor, beneficiază de aceste optimizări prin reducerea timpului necesar procesării cadrelor.
Sisteme de recomandare: Prin accelerarea inferenței pentru modelele care procesează cantități mari de date de utilizator, TensorRT permite personalizarea în timp real la scară.
Procesarea limbajului natural (NLP): TensorRT îmbunătățește viteza sarcinilor NLP, cum ar fi generarea de text, traducerea și rezumarea, făcându-le potrivite pentru aplicații în timp real.

Implementați, rulați și scalați cu NVIDIA Triton

Odată ce modelul dvs. a fost optimizat cu TensorRT-LLM, îl puteți implementa, rula și scala cu ușurință folosind NVIDIA Triton Inference Server. Triton este un software open-source care acceptă loturi dinamice, ansambluri de modele și debit ridicat. Oferă un mediu flexibil pentru gestionarea modelelor AI la scară.

Unele dintre caracteristicile cheie includ:

Execuție simultană a modelului: rulați mai multe modele simultan, maximizând utilizarea GPU-ului.
Loturi dinamice: Combină solicitări multiple de inferență într-un singur lot, reducând latența și crescând debitul.
Intrări audio/video în flux: Acceptă fluxuri de intrare în aplicații în timp real, cum ar fi analiza video în direct sau serviciile de transmitere a vorbirii în text.

Acest lucru face din Triton un instrument valoros pentru implementarea modelelor optimizate TensorRT-LLM în medii de producție, asigurând scalabilitate și eficiență ridicate.

Caracteristicile de bază ale TensorRT-LLM pentru LLM Inference

Open Source Python API

TensorRT-LLM oferă un sistem extrem de modular și API-ul Python cu sursă deschisă, simplificând procesul de definire, optimizare și execuție LLM. API-ul le permite dezvoltatorilor să creeze LLM-uri personalizate sau să le modifice pe cele pre-construite pentru a se potrivi nevoilor lor, fără a necesita cunoștințe aprofundate despre CUDA sau cadrele de învățare profundă.

Loturi în zbor și atenție paginată

Una dintre caracteristicile remarcabile ale TensorRT-LLM este Loturi în timpul zborului, care optimizează generarea de text prin procesarea simultană a mai multor solicitări. Această caracteristică minimizează timpul de așteptare și îmbunătățește utilizarea GPU-ului prin gruparea dinamică a secvențelor.

În plus, Atenție paginată asigură că utilizarea memoriei rămâne scăzută chiar și atunci când procesează secvențe de intrare lungi. În loc să aloce memorie adiacentă pentru toate jetoanele, atenția paginată împarte memoria în „pagini” care pot fi reutilizate dinamic, prevenind fragmentarea memoriei și îmbunătățind eficiența.

Inferență cu mai multe GPU și cu mai multe noduri

Pentru modele mai mari sau sarcini de lucru mai complexe, TensorRT-LLM acceptă multi-GPU si inferență cu mai multe noduri. Această capacitate permite distribuirea calculelor modelului pe mai multe GPU-uri sau noduri, îmbunătățind randamentul și reducând timpul general de inferență.

Suport FP8

Odată cu apariția lui FP8 (virgulă mobilă de 8 biți), TensorRT-LLM folosește GPU-urile H100 de la NVIDIA pentru a converti greutățile modelului în acest format pentru inferență optimizată. FP8 permite un consum redus de memorie și un calcul mai rapid, util în special în implementările la scară largă.

Arhitectura și componentele TensorRT-LLM

Înțelegerea arhitecturii TensorRT-LLM vă va ajuta să utilizați mai bine capacitățile sale pentru inferența LLM. Să defalcăm componentele cheie:

Definiția modelului

TensorRT-LLM vă permite să definiți LLM-uri folosind un simplu API Python. API-ul construiește a reprezentare grafică a modelului, facilitând gestionarea straturilor complexe implicate în arhitecturile LLM precum GPT sau BERT.

Legături de greutate

Înainte de compilarea modelului, greutățile (sau parametrii) trebuie să fie legați de rețea. Acest pas asigură că greutățile sunt încorporate în motorul TensorRT, permițând o inferență rapidă și eficientă. TensorRT-LLM permite, de asemenea, actualizări de greutate după compilare, adăugând flexibilitate pentru modelele care necesită actualizări frecvente.

Potrivirea modelelor și fuziunea

Operațiunea Fusion este o altă caracteristică puternică a TensorRT-LLM. Prin fuzionarea mai multor operațiuni (de exemplu, înmulțiri de matrice cu funcții de activare) într-un singur nucleu CUDA, TensorRT minimizează suprasarcina asociată cu lansările multiple de nucleu. Acest lucru reduce transferurile de memorie și accelerează inferența.

Plugin-uri

Pentru a extinde capacitățile TensorRT, dezvoltatorii pot scrie Plugin-uri— nuclee personalizate care îndeplinesc sarcini specifice, cum ar fi optimizarea blocurilor de atenție cu mai multe capete. De exemplu, cel Flash-Atenție pluginul îmbunătățește semnificativ performanța straturilor de atenție LLM.

Puncte de referință: câștiguri de performanță TensorRT-LLM

TensorRT-LLM demonstrează câștiguri semnificative de performanță pentru inferența LLM pe diferite GPU-uri. Iată o comparație a vitezei de inferență (măsurată în jetoane pe secundă) folosind TensorRT-LLM pe diferite GPU-uri NVIDIA:

Modele Usi	Precizie	Lungime de intrare/ieșire	H100 (80 GB)	A100 (80 GB)	L40S FP8
GPTJ 6B	FP8	128/128	34,955	11,206	6,998
GPTJ 6B	FP8	2048/128	2,800	1,354	747
LLaMA v2 7B	FP8	128/128	16,985	10,725	6,121
LLaMA v3 8B	FP8	128/128	16,708	12,085	8,273

Aceste repere arată că TensorRT-LLM oferă îmbunătățiri substanțiale ale performanței, în special pentru secvențe mai lungi.

Practic: instalarea și construirea TensorRT-LLM

Pasul 1: Creați un mediu container

Pentru ușurință în utilizare, TensorRT-LLM oferă imagini Docker pentru a crea un mediu controlat pentru construirea și rularea modelelor.

docker build --pull \
             --target devel \
             --file docker/Dockerfile.multi \
             --tag tensorrt_llm/devel:latest .

Pasul 2: Rulați containerul

Rulați containerul de dezvoltare cu acces la GPU-urile NVIDIA:

docker run --rm -it \
           --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 --gpus=all \
           --volume ${PWD}:/code/tensorrt_llm \
           --workdir /code/tensorrt_llm \
           tensorrt_llm/devel:latest

Pasul 3: Construiți TensorRT-LLM din sursă

În interiorul containerului, compilați TensorRT-LLM cu următoarea comandă:

python3 ./scripts/build_wheel.py --trt_root /usr/local/tensorrt
pip install ./build/tensorrt_llm*.whl

Această opțiune este utilă în special atunci când doriți să evitați problemele de compatibilitate legate de dependențele Python sau când vă concentrați pe integrarea C++ în sistemele de producție. Odată ce construirea este finalizată, veți găsi bibliotecile compilate pentru runtime C++ în cpp/build/tensorrt_llm director, gata pentru integrare cu aplicațiile dvs. C++.

Pasul 4: Conectați TensorRT-LLM C++ Runtime

Când integrați TensorRT-LLM în proiectele dvs. C++, asigurați-vă că căile de includere ale proiectului dvs. indică către cpp/include director. Acesta conține anteturile API stabile și acceptate. Bibliotecile TensorRT-LLM sunt conectate ca parte a procesului de compilare C++.

De exemplu, configurația CMake a proiectului dvs. poate include:

include_directories(${TENSORRT_LLM_PATH}/cpp/include)
link_directories(${TENSORRT_LLM_PATH}/cpp/build/tensorrt_llm)
target_link_libraries(your_project tensorrt_llm)

Această integrare vă permite să profitați de optimizările TensorRT-LLM în proiectele dvs. personalizate C++, asigurând o inferență eficientă chiar și în medii de nivel scăzut sau de înaltă performanță.

Caracteristici avansate TensorRT-LLM

TensorRT-LLM este mai mult decât o simplă bibliotecă de optimizare; include câteva funcții avansate care ajută la abordarea implementărilor LLM la scară largă. Mai jos, explorăm câteva dintre aceste caracteristici în detaliu:

1. Loturi în timpul zborului

Loturile tradiționale implică așteptarea până când un lot este colectat complet înainte de procesare, ceea ce poate cauza întârzieri. Loturi în timpul zborului modifică acest lucru prin pornirea dinamică a inferenței asupra cererilor finalizate într-un lot, în timp ce colectează în continuare alte solicitări. Acest lucru îmbunătățește debitul general prin minimizarea timpului de inactivitate și îmbunătățirea utilizării GPU-ului.

Această caracteristică este deosebit de valoroasă în aplicațiile în timp real, cum ar fi chatbot-urile sau asistenții vocali, unde timpul de răspuns este critic.

2. Atenție paginată

Atenție paginată este o tehnică de optimizare a memoriei pentru manipularea secvențelor mari de intrare. În loc să necesite memorie adiacentă pentru toate token-urile dintr-o secvență (care poate duce la fragmentarea memoriei), Paged Attention permite modelului să împartă datele cache-cheie-valoare în „pagini” de memorie. Aceste pagini sunt alocate și eliberate dinamic după cum este necesar, optimizând utilizarea memoriei.

Atenția paginată este esențială pentru gestionarea lungimilor mari de secvențe și reducerea supraîncărcării de memorie, în special în modelele generative precum GPT și LLaMA.

3. Plugin-uri personalizate

TensorRT-LLM vă permite să-și extindeți funcționalitatea cu pluginuri personalizate. Pluginurile sunt nuclee definite de utilizator care permit optimizări sau operațiuni specifice care nu sunt acoperite de biblioteca standard TensorRT.

De exemplu, Flash-Atenție pluginul este un nucleu personalizat binecunoscut care optimizează straturi de atenție cu mai multe capete în modelele bazate pe Transformer. Folosind acest plugin, dezvoltatorii pot obține accelerări substanțiale în calculul atenției – una dintre cele mai mari componente ale LLM-urilor.

Pentru a integra un plugin personalizat în modelul dvs. TensorRT-LLM, puteți scrie un nucleu CUDA personalizat și îl puteți înregistra cu TensorRT. Pluginul va fi invocat în timpul execuției modelului, oferind îmbunătățiri personalizate de performanță.

4. FP8 Precision pe NVIDIA H100

cu Precizie FP8, TensorRT-LLM profită de cele mai recente inovații hardware ale NVIDIA în Arhitectură H100 Hopper. FP8 reduce amprenta de memorie a LLM-urilor prin stocarea greutăților și activărilor într-un format în virgulă mobilă de 8 biți, rezultând o calculare mai rapidă, fără a sacrifica prea multă precizie. TensorRT-LLM compilează automat modele pentru a utiliza nucleele FP8 optimizate, accelerând și mai mult timpii de inferență.

Acest lucru face ca TensorRT-LLM o alegere ideală pentru implementări la scară largă care necesită performanță de top și eficiență energetică.

Exemplu: Implementarea TensorRT-LLM cu Triton Inference Server

Pentru implementări de producție, NVIDIA Triton Inference Server oferă o platformă robustă pentru gestionarea modelelor la scară. În acest exemplu, vom demonstra cum să implementăm un model optimizat pentru TensorRT-LLM folosind Triton.

Pasul 1: Configurați depozitul de modele

Creați un depozit de modele pentru Triton, care va stoca fișierele de model TensorRT-LLM. De exemplu, dacă ați compilat un model GPT2, structura dvs. de directoare ar putea arăta astfel:

mkdir -p model_repository/gpt2/1
cp ./trt_engine/gpt2_fp16.engine model_repository/gpt2/1/

Pasul 2: Creați fișierul de configurare Triton

În același model_repository/gpt2/ director, creați un fișier de configurare numit config.pbtxt care îi spune lui Triton cum să încarce și să ruleze modelul. Iată o configurație de bază pentru TensorRT-LLM:

name: "gpt2"
platform: "tensorrt_llm"
max_batch_size: 8
input [
  {
    name: "input_ids"
    data_type: TYPE_INT32
    dims: [-1]
  }
]
output [
  {
    name: "logits"
    data_type: TYPE_FP32
    dims: [-1, -1]
  }
]

Pasul 3: Lansați Triton Server

Utilizați următoarea comandă Docker pentru a lansa Triton cu depozitul de modele:

docker run --rm --gpus all \
    -v $(pwd)/model_repository:/models \
    nvcr.io/nvidia/tritonserver:23.05-py3 \
    tritonserver --model-repository=/models

Pasul 4: Trimiteți cereri de concluzie către Triton

Odată ce serverul Triton rulează, îi puteți trimite cereri de inferență folosind HTTP sau gRPC. De exemplu, folosind curl pentru a trimite o cerere:

curl -X POST http://localhost:8000/v2/models/gpt2/infer -d '{
  "inputs": [
    {"name": "input_ids", "shape": [1, 128], "datatype": "INT32", "data": [[101, 234, 1243]]}
  ]
}'

Triton va procesa cererea folosind motorul TensorRT-LLM și va returna logit-urile ca ieșire.

Cele mai bune practici pentru optimizarea inferenței LLM cu TensorRT-LLM

Pentru a valorifica pe deplin puterea TensorRT-LLM, este important să urmați cele mai bune practici atât în timpul optimizării modelului, cât și al implementării. Iată câteva sfaturi cheie:

1. Profilați-vă modelul înainte de optimizare

Înainte de a aplica optimizări precum cuantizarea sau fuziunea nucleului, utilizați instrumentele de profilare ale NVIDIA (cum ar fi Nsight Systems sau TensorRT Profiler) pentru a înțelege blocajele actuale în execuția modelului dvs. Acest lucru vă permite să vizați anumite zone de îmbunătățire, ceea ce duce la optimizări mai eficiente.

2. Utilizați o precizie mixtă pentru o performanță optimă

La optimizarea modelelor cu TensorRT-LLM, folosind precizie mixtă (o combinație de FP16 și FP32) oferă o accelerare semnificativă fără o pierdere majoră a preciziei. Pentru cel mai bun echilibru între viteză și precizie, luați în considerare utilizarea FP8 acolo unde este disponibil, în special pe GPU-urile H100.

3. Valorificați atenția paginată pentru secvențe mari

Pentru sarcinile care implică secvențe lungi de introducere, cum ar fi rezumarea documentelor sau conversațiile cu mai multe rânduri, activați întotdeauna Atenție paginată pentru a optimiza utilizarea memoriei. Acest lucru reduce supraîncărcarea memoriei și previne erorile de lipsă de memorie în timpul inferenței.

4. Ajustați paralelismul pentru setările cu mai multe GPU

Când implementați LLM-uri pe mai multe GPU-uri sau noduri, este esențial să reglați setările pentru paralelism tensor si paralelismul conductelor pentru a se potrivi cu volumul dvs. de lucru specific. Configurarea corectă a acestor moduri poate duce la îmbunătățiri semnificative ale performanței prin distribuirea uniformă a sarcinii de calcul între GPU-uri.

Concluzie

TensorRT-LLM reprezintă o schimbare de paradigmă în optimizarea și implementarea modelelor de limbaj mari. Cu funcțiile sale avansate precum cuantizarea, fuziunea operațională, precizia FP8 și suportul pentru mai multe GPU, TensorRT-LLM permite LLM-urilor să ruleze mai rapid și mai eficient pe GPU-urile NVIDIA. Indiferent dacă lucrați la aplicații de chat în timp real, sisteme de recomandare sau modele de limbaj la scară largă, TensorRT-LLM oferă instrumentele necesare pentru a depăși limitele performanței.

Acest ghid v-a ghidat prin configurarea TensorRT-LLM, optimizarea modelelor cu API-ul său Python, implementarea pe Triton Inference Server și aplicarea celor mai bune practici pentru o inferență eficientă. Cu TensorRT-LLM, vă puteți accelera sarcinile de lucru AI, puteți reduce latența și puteți oferi soluții LLM scalabile pentru mediile de producție.

Pentru mai multe informații, consultați oficialul Documentația TensorRT-LLM si Documentația Triton Inference Server.

Urmeaza

Planuri AI generative: redefinirea viitorului arhitecturii

Nu ratați

Algoritmul DPAD îmbunătățește interfețele creier-calculator, promițătoare progrese în neurotehnologie

Aayush Mittal

Mi-am petrecut ultimii cinci ani scufundându-mă în lumea fascinantă a învățării automate și a învățării profunde. Pasiunea și expertiza mea m-au determinat să contribui la peste 50 de proiecte diverse de inginerie software, cu un accent deosebit pe AI/ML. Curiozitatea mea continuă m-a atras și către Procesarea limbajului natural, un domeniu pe care sunt dornic să îl explorez în continuare.

Unite.AI