Refresh

This website www.unite.ai/hi/tensorrt-llm-a-comprehensive-guide-to-optimizing-large-language-model-inference-for-maximum-performance/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

рд╣рдорд╕реЗ рдЬреБрдбреЗ

TensorRT-LLM: рдЕрдзрд┐рдХрддрдо рдкреНрд░рджрд░реНрд╢рди рдХреЗ рд▓рд┐рдП рдмрдбрд╝реЗ рднрд╛рд╖рд╛ рдореЙрдбрд▓ рдЕрдиреБрдорд╛рди рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рд╡реНрдпрд╛рдкрдХ рдЧрд╛рдЗрдб

Artificial Intelligence

TensorRT-LLM: рдЕрдзрд┐рдХрддрдо рдкреНрд░рджрд░реНрд╢рди рдХреЗ рд▓рд┐рдП рдмрдбрд╝реЗ рднрд╛рд╖рд╛ рдореЙрдбрд▓ рдЕрдиреБрдорд╛рди рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рд╡реНрдпрд╛рдкрдХ рдЧрд╛рдЗрдб

mm

рдкреНрд░рдХрд╛рд╢рд┐рдд

 on

TensorRT-LLM NVIDEA рдХреНрд╡рд╛рдВрдЯрд┐рдЬрд╝реЗрд╢рди, рдСрдкрд░реЗрд╢рди рдлрд╝реНрдпреВрдЬрд╝рди, FP8 рдкрд░рд┐рд╢реБрджреНрдзрддрд╛ рдФрд░ рдорд▓реНрдЯреА-GPU рд╕рдорд░реНрдерди

рдЪреВрдВрдХрд┐ рдмрдбрд╝реЗ рднрд╛рд╖рд╛ рдореЙрдбрд▓ (рдПрд▓рдПрд▓рдПрдо) рдХреА рдорд╛рдВрдЧ рд▓рдЧрд╛рддрд╛рд░ рдмрдврд╝ рд░рд╣реА рд╣реИ, рдЗрд╕рд▓рд┐рдП рддреЗрдЬрд╝, рдХреБрд╢рд▓ рдФрд░ рд╕реНрдХреЗрд▓реЗрдмрд▓ рдЕрдиреБрдорд╛рди рд╕реБрдирд┐рд╢реНрдЪрд┐рдд рдХрд░рдирд╛ рдкрд╣рд▓реЗ рд╕реЗ рдХрд╣реАрдВ рдЕрдзрд┐рдХ рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╣реЛ рдЧрдпрд╛ рд╣реИред TensorRT-рдПрд▓рдПрд▓рдПрдо рдПрд▓рдПрд▓рдПрдо рдЗрдВрдлрд╝рд░реЗрдВрд╕ рдХреЗ рд▓рд┐рдП рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рдбрд┐рдЬрд╝рд╛рдЗрди рдХрд┐рдП рдЧрдП рд╢рдХреНрддрд┐рд╢рд╛рд▓реА рдЯреВрд▓ рдФрд░ рдСрдкреНрдЯрд┐рдорд╛рдЗрдЬрд╝реЗрд╢рди рдХрд╛ рдПрдХ рд╕реЗрдЯ рдкреНрд░рджрд╛рди рдХрд░рдХреЗ рдЗрд╕ рдЪреБрдиреМрддреА рдХрд╛ рд╕рдорд╛рдзрд╛рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрджрдо рдЙрдард╛рдП рд╣реИрдВред TensorRT-LLM рдкреНрд░рджрд░реНрд╢рди рд╕реБрдзрд╛рд░реЛрдВ рдХреА рдПрдХ рдкреНрд░рднрд╛рд╡рд╢рд╛рд▓реА рд╢реНрд░реГрдВрдЦрд▓рд╛ рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИ, рдЬреИрд╕реЗ рдХрд┐ рдХреНрд╡рд╛рдВрдЯрд┐рдЬрд╝реЗрд╢рди, рдХрд░реНрдиреЗрд▓ рдлрд╝реНрдпреВрдЬрд╝рди, рдЗрди-рдлрд╝реНрд▓рд╛рдЗрдЯ рдмреИрдЪрд┐рдВрдЧ рдФрд░ рдорд▓реНрдЯреА-GPU рд╕рдорд░реНрдердиред рдпреЗ рдкреНрд░рдЧрддрд┐ рдкрд╛рд░рдВрдкрд░рд┐рдХ CPU-рдЖрдзрд╛рд░рд┐рдд рд╡рд┐рдзрд┐рдпреЛрдВ рдХреА рддреБрд▓рдирд╛ рдореЗрдВ 8 рдЧреБрдирд╛ рдЕрдзрд┐рдХ рддреЗрдЬрд╝ рдЕрдиреБрдорд╛рди рдЧрддрд┐ рдкреНрд░рд╛рдкреНрдд рдХрд░рдирд╛ рд╕рдВрднрд╡ рдмрдирд╛рддреА рд╣реИ, рдЬрд┐рд╕рд╕реЗ рд╣рдо рдЙрддреНрдкрд╛рджрди рдореЗрдВ LLM рдХреЛ рддреИрдирд╛рдд рдХрд░рдиреЗ рдХреЗ рддрд░реАрдХреЗ рдХреЛ рдмрджрд▓ рджреЗрддреЗ рд╣реИрдВред

рдпрд╣ рд╡реНрдпрд╛рдкрдХ рдЧрд╛рдЗрдб TensorRT-LLM рдХреЗ рд╕рднреА рдкрд╣рд▓реБрдУрдВ рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛рдПрдЧреА, рдЗрд╕рдХреА рд╡рд╛рд╕реНрддреБрдХрд▓рд╛ рдФрд░ рдкреНрд░рдореБрдЦ рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рд╕реЗ рд▓реЗрдХрд░ рдореЙрдбрд▓ рддреИрдирд╛рдд рдХрд░рдиреЗ рдХреЗ рд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ рдЙрджрд╛рд╣рд░рдгреЛрдВ рддрдХред рдЪрд╛рд╣реЗ рдЖрдк рдПрдХ AI рдЗрдВрдЬреАрдирд┐рдпрд░, рд╕реЙрдлрд╝реНрдЯрд╡реЗрдпрд░ рдбреЗрд╡рд▓рдкрд░ рдпрд╛ рд╢реЛрдзрдХрд░реНрддрд╛ рд╣реЛрдВ, рдпрд╣ рдЧрд╛рдЗрдб рдЖрдкрдХреЛ NVIDIA GPU рдкрд░ LLM рдЕрдиреБрдорд╛рди рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП TensorRT-LLM рдХрд╛ рд▓рд╛рдн рдЙрдард╛рдиреЗ рдХрд╛ рдЬреНрдЮрд╛рди рджреЗрдЧрд╛ред

TensorRT-LLM рдХреЗ рд╕рд╛рде LLM рдЕрдиреБрдорд╛рди рдХреЛ рдЧрддрд┐ рджреЗрдирд╛

TensorRT-LLM, LLM рдЗрдВрдлрд╝рд░реЗрдВрд╕ рдкреНрд░рджрд░реНрд╢рди рдореЗрдВ рдирд╛рдЯрдХреАрдп рд╕реБрдзрд╛рд░ рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИред NVIDIA рдХреЗ рдкрд░реАрдХреНрд╖рдгреЛрдВ рдХреЗ рдЕрдиреБрд╕рд╛рд░, TensorRT рдкрд░ рдЖрдзрд╛рд░рд┐рдд рдЕрдиреБрдкреНрд░рдпреЛрдЧ рджрд┐рдЦрд╛рддреЗ рд╣реИрдВ 8x рддреЗрдЬ рд╕реАрдкреАрдпреВ-рдУрдирд▓реА рдкреНрд▓реЗрдЯрдлрд╝реЙрд░реНрдо рдХреА рддреБрд▓рдирд╛ рдореЗрдВ рдЕрдиреБрдорд╛рди рд▓рдЧрд╛рдиреЗ рдХреА рдЧрддрд┐ред рдпрд╣ рдЪреИрдЯрдмреЙрдЯ, рдЕрдиреБрд╢рдВрд╕рд╛ рдкреНрд░рдгрд╛рд▓реА рдФрд░ рд╕реНрд╡рд╛рдпрддреНрдд рдкреНрд░рдгрд╛рд▓рд┐рдпреЛрдВ рдЬреИрд╕реЗ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╕рдордп рдХреЗ рдЕрдиреБрдкреНрд░рдпреЛрдЧреЛрдВ рдореЗрдВ рдПрдХ рдорд╣рддреНрд╡рдкреВрд░реНрдг рдкреНрд░рдЧрддрд┐ рд╣реИ, рдЬрд┐рдиреНрд╣реЗрдВ рддреНрд╡рд░рд┐рдд рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛рдУрдВ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реЛрддреА рд╣реИред

рдпрд╣ рдХрд╛рдо рдХрд┐рд╕ рдкреНрд░рдХрд╛рд░ рдХрд░рддрд╛ рд╣реИ

TensorRT-LLM рдирд┐рдореНрдирд▓рд┐рдЦрд┐рдд рддрдХрдиреАрдХреЛрдВ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдкрд░рд┐рдирд┐рдпреЛрдЬрди рдХреЗ рджреМрд░рд╛рди рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдХрд░рдХреЗ рдЕрдиреБрдорд╛рди рдХреЛ рдЧрддрд┐ рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИ:

  • рдкрд░рд┐рдорд╛рдгреАрдХрд░рдг: рднрд╛рд░ рдФрд░ рд╕рдХреНрд░рд┐рдпрдг рдХреА рд╕рдЯреАрдХрддрд╛ рдХреЛ рдХрдо рдХрд░рддрд╛ рд╣реИ, рдореЙрдбрд▓ рдХреЗ рдЖрдХрд╛рд░ рдХреЛ рдЫреЛрдЯрд╛ рдХрд░рддрд╛ рд╣реИ рдФрд░ рдЕрдиреБрдорд╛рди рдХреА рдЧрддрд┐ рдореЗрдВ рд╕реБрдзрд╛рд░ рдХрд░рддрд╛ рд╣реИред
  • рдкрд░рдд рдФрд░ рдЯреЗрдВрд╕рд░ рдлреНрдпреВрдЬрди: рд╕рдХреНрд░рд┐рдпрдг рдлрд╝рдВрдХреНрд╢рди рдФрд░ рдореИрдЯреНрд░рд┐рдХреНрд╕ рдЧреБрдгрди рдЬреИрд╕реЗ рдСрдкрд░реЗрд╢рдиреЛрдВ рдХреЛ рдПрдХрд▓ рдСрдкрд░реЗрд╢рди рдореЗрдВ рд╡рд┐рд▓рдп рдХрд░рддрд╛ рд╣реИред
  • рдХрд░реНрдиреЗрд▓ рдЯреНрдпреВрдирд┐рдВрдЧ: GPU рд╕рдВрдЧрдгрдирд╛ рдХреЗ рд▓рд┐рдП рдЗрд╖реНрдЯрддрдо CUDA рдХрд░реНрдиреЗрд▓ рдХрд╛ рдЪрдпрди рдХрд░рддрд╛ рд╣реИ, рдЬрд┐рд╕рд╕реЗ рдирд┐рд╖реНрдкрд╛рджрди рд╕рдордп рдХрдо рд╣реЛ рдЬрд╛рддрд╛ рд╣реИред

рдпреЗ рдЕрдиреБрдХреВрд▓рди рд╕реБрдирд┐рд╢реНрдЪрд┐рдд рдХрд░рддреЗ рд╣реИрдВ рдХрд┐ рдЖрдкрдХреЗ LLM рдореЙрдбрд▓ рд╣рд╛рдЗрдкрд░рд╕реНрдХреЗрд▓ рдбреЗрдЯрд╛ рд╕реЗрдВрдЯрд░ рд╕реЗ рд▓реЗрдХрд░ рдПрдореНрдмреЗрдбреЗрдб рд╕рд┐рд╕реНрдЯрдо рддрдХ, рдкрд░рд┐рдирд┐рдпреЛрдЬрди рдкреНрд▓реЗрдЯрдлрд╛рд░реНрдореЛрдВ рдХреА рдПрдХ рд╡рд┐рд╕реНрддреГрдд рд╢реНрд░реГрдВрдЦрд▓рд╛ рдореЗрдВ рдХреБрд╢рд▓рддрд╛рдкреВрд░реНрд╡рдХ рдкреНрд░рджрд░реНрд╢рди рдХрд░рддреЗ рд╣реИрдВред

TensorRT рдХреЗ рд╕рд╛рде рдЕрдиреБрдорд╛рди рдкреНрд░рджрд░реНрд╢рди рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдХрд░рдирд╛

NVIDIA рдХреЗ CUDA рд╕рдорд╛рдирд╛рдВрддрд░ рдкреНрд░реЛрдЧреНрд░рд╛рдорд┐рдВрдЧ рдореЙрдбрд▓ рдкрд░ рдирд┐рд░реНрдорд┐рдд, TensorRT NVIDIA GPU рдкрд░ рдЕрдиреБрдорд╛рди рдХреЗ рд▓рд┐рдП рдЕрддреНрдпрдзрд┐рдХ рд╡рд┐рд╢рд┐рд╖реНрдЯ рдЕрдиреБрдХреВрд▓рди рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИред рдХреНрд╡рд╛рдВрдЯрд┐рдЬрд╝реЗрд╢рди, рдХрд░реНрдиреЗрд▓ рдЯреНрдпреВрдирд┐рдВрдЧ рдФрд░ рдЯреЗрдВрд╕рд░ рд╕рдВрдЪрд╛рд▓рди рдХреЗ рдлрд╝реНрдпреВрдЬрд╝рди рдЬреИрд╕реА рдкреНрд░рдХреНрд░рд┐рдпрд╛рдУрдВ рдХреЛ рд╕реБрд╡реНрдпрд╡рд╕реНрдерд┐рдд рдХрд░рдХреЗ, TensorRT рд╕реБрдирд┐рд╢реНрдЪрд┐рдд рдХрд░рддрд╛ рд╣реИ рдХрд┐ LLM рдиреНрдпреВрдирддрдо рд╡рд┐рд▓рдВрдмрддрд╛ рдХреЗ рд╕рд╛рде рдЪрд▓ рд╕рдХреЗрдВред

рдХреБрдЫ рд╕рд░реНрд╡рд╛рдзрд┐рдХ рдкреНрд░рднрд╛рд╡реА рддрдХрдиреАрдХреЗрдВ рдЗрд╕ рдкреНрд░рдХрд╛рд░ рд╣реИрдВ:

  • рдкрд░рд┐рдорд╛рдгреАрдХрд░рдг: рдпрд╣ рдЙрдЪреНрдЪ рд╕рдЯреАрдХрддрд╛ рдмрдирд╛рдП рд░рдЦрддреЗ рд╣реБрдП рдореЙрдбрд▓ рдорд╛рдкрджрдВрдбреЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛рддреНрдордХ рдкрд░рд┐рд╢реБрджреНрдзрддрд╛ рдХреЛ рдХрдо рдХрд░рддрд╛ рд╣реИ, рдЬрд┐рд╕рд╕реЗ рдЕрдиреБрдорд╛рди рд▓рдЧрд╛рдиреЗ рдореЗрдВ рдкреНрд░рднрд╛рд╡реА рд░реВрдк рд╕реЗ рддреЗрдЬреА рдЖрддреА рд╣реИред
  • рдЯреЗрдВрд╕рд░ рдлреНрдпреВрдЬрдирдПрдХрд▓ CUDA рдХрд░реНрдиреЗрд▓ рдореЗрдВ рдХрдИ рдСрдкрд░реЗрд╢рдиреЛрдВ рдХреЛ рд╕рдореНрдорд┐рд▓рд┐рдд рдХрд░рдХреЗ, TensorRT рдореЗрдореЛрд░реА рдУрд╡рд░рд╣реЗрдб рдХреЛ рдХрдо рдХрд░рддрд╛ рд╣реИ рдФрд░ рдереНрд░реВрдкреБрдЯ рдХреЛ рдмрдврд╝рд╛рддрд╛ рд╣реИред
  • рдХрд░реНрдиреЗрд▓ рдСрдЯреЛ-рдЯреНрдпреВрдирд┐рдВрдЧTensorRT рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рд░реВрдк рд╕реЗ рдкреНрд░рддреНрдпреЗрдХ рдСрдкрд░реЗрд╢рди рдХреЗ рд▓рд┐рдП рд╕рд░реНрд╡реЛрддреНрддрдо рдХрд░реНрдиреЗрд▓ рдХрд╛ рдЪрдпрди рдХрд░рддрд╛ рд╣реИ, рддрдерд╛ рджрд┐рдП рдЧрдП GPU рдХреЗ рд▓рд┐рдП рдЕрдиреБрдорд╛рди рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдХрд░рддрд╛ рд╣реИред

рдпреЗ рддрдХрдиреАрдХреЗрдВ TensorRT-LLM рдХреЛ рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг, рдЕрдиреБрд╢рдВрд╕рд╛ рдЗрдВрдЬрди рдФрд░ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╕рдордп рд╡реАрдбрд┐рдпреЛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдЬреИрд╕реЗ рдЧрд╣рди рд╢рд┐рдХреНрд╖рдг рдХрд╛рд░реНрдпреЛрдВ рдХреЗ рд▓рд┐рдП рдЕрдиреБрдорд╛рди рдкреНрд░рджрд░реНрд╢рди рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдХрд░рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддреА рд╣реИрдВред

TensorRT рдХреЗ рд╕рд╛рде AI рдХрд╛рд░реНрдпрднрд╛рд░ рдореЗрдВ рддреЗрдЬреА рд▓рд╛рдирд╛

TensorRT рдЬреИрд╕реЗ рд╕рдЯреАрдХ рдЕрдиреБрдХреВрд▓рди рдХреЛ рд╢рд╛рдорд┐рд▓ рдХрд░рдХреЗ рдЧрд╣рди рд╢рд┐рдХреНрд╖рдг рдХрд╛рд░реНрдпрднрд╛рд░ рдХреЛ рдЧрддрд┐ рджреЗрддрд╛ рд╣реИ INT8 рдФрд░ FP16рдпреЗ рдХрдо-рд╕рдЯреАрдХрддрд╛ рд╡рд╛рд▓реЗ рдкреНрд░рд╛рд░реВрдк рд╕рдЯреАрдХрддрд╛ рдмрдирд╛рдП рд░рдЦрддреЗ рд╣реБрдП рдХрд╛рдлреА рддреЗрдЬреА рд╕реЗ рдЕрдиреБрдорд╛рди рд▓рдЧрд╛рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддреЗ рд╣реИрдВред рдпрд╣ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╕рдордп рдХреЗ рдЕрдиреБрдкреНрд░рдпреЛрдЧреЛрдВ рдореЗрдВ рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рдореВрд▓реНрдпрд╡рд╛рди рд╣реИ рдЬрд╣рд╛рдВ рдХрдо рд╡рд┐рд▓рдВрдмрддрд╛ рдПрдХ рдорд╣рддреНрд╡рдкреВрд░реНрдг рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИред

INT8 рдФрд░ FP16 рдЕрдиреБрдХреВрд▓рди рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рдирд┐рдореНрдирд▓рд┐рдЦрд┐рдд рдореЗрдВ рдкреНрд░рднрд╛рд╡реА рд╣реИрдВ:

  • рд╡реАрдбрд┐рдпреЛ рд╕реНрдЯреНрд░реАрдорд┐рдВрдЧAI-рдЖрдзрд╛рд░рд┐рдд рд╡реАрдбрд┐рдпреЛ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг рдХрд╛рд░реНрдп, рдЬреИрд╕реЗ рдСрдмреНрдЬреЗрдХреНрдЯ рдбрд┐рдЯреЗрдХреНрд╢рди, рдлрд╝реНрд░реЗрдо рдХреЛ рд╕рдВрд╕рд╛рдзрд┐рдд рдХрд░рдиреЗ рдореЗрдВ рд▓рдЧрдиреЗ рд╡рд╛рд▓реЗ рд╕рдордп рдХреЛ рдХрдо рдХрд░рдХреЗ рдЗрди рдЕрдиреБрдХреВрд▓рдиреЛрдВ рд╕реЗ рд▓рд╛рднрд╛рдиреНрд╡рд┐рдд рд╣реЛрддреЗ рд╣реИрдВред
  • рд╕рд┐рдлрд╛рд░рд┐рд╢ рдкреНрд░рдгрд╛рд▓реАрдмрдбрд╝реА рдорд╛рддреНрд░рд╛ рдореЗрдВ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рдбреЗрдЯрд╛ рдХреЛ рд╕рдВрд╕рд╛рдзрд┐рдд рдХрд░рдиреЗ рд╡рд╛рд▓реЗ рдореЙрдбрд▓ рдХреЗ рд▓рд┐рдП рдЕрдиреБрдорд╛рди рдХреЛ рддреЗрдЬ рдХрд░рдХреЗ, TensorRT рдмрдбрд╝реЗ рдкреИрдорд╛рдиреЗ рдкрд░ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╕рдордп рдХреЗ рдирд┐рдЬреАрдХрд░рдг рдХреЛ рд╕рдХреНрд╖рдо рдмрдирд╛рддрд╛ рд╣реИред
  • рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг (рдПрдирдПрд▓рдкреА)TensorRT рдкрд╛рда рдирд┐рд░реНрдорд╛рдг, рдЕрдиреБрд╡рд╛рдж рдФрд░ рд╕рд╛рд░рд╛рдВрд╢ рдЬреИрд╕реЗ NLP рдХрд╛рд░реНрдпреЛрдВ рдХреА рдЧрддрд┐ рдореЗрдВ рд╕реБрдзрд╛рд░ рдХрд░рддрд╛ рд╣реИ, рдЬрд┐рд╕рд╕реЗ рд╡реЗ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╕рдордп рдХреЗ рдЕрдиреБрдкреНрд░рдпреЛрдЧреЛрдВ рдХреЗ рд▓рд┐рдП рдЙрдкрдпреБрдХреНрдд рд╣реЛ рдЬрд╛рддреЗ рд╣реИрдВред

NVIDIA Triton рдХреЗ рд╕рд╛рде рддреИрдирд╛рдд рдХрд░реЗрдВ, рдЪрд▓рд╛рдПрдВ рдФрд░ рд╕реНрдХреЗрд▓ рдХрд░реЗрдВ

рдПрдХ рдмрд╛рд░ рдЬрдм рдЖрдкрдХрд╛ рдореЙрдбрд▓ TensorRT-LLM рдХреЗ рд╕рд╛рде рдЕрдиреБрдХреВрд▓рд┐рдд рд╣реЛ рдЬрд╛рддрд╛ рд╣реИ, рддреЛ рдЖрдк рдЗрд╕рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдЖрд╕рд╛рдиреА рд╕реЗ рдЗрд╕реЗ рддреИрдирд╛рдд, рдЪрд▓рд╛ рдФрд░ рд╕реНрдХреЗрд▓ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ NVIDIA рдЯреНрд░рд╛рдЗрдЯрди рдЕрдиреБрдорд╛рди рд╕рд░реНрд╡рд░рдЯреНрд░рд╛рдЗрдЯрди рдПрдХ рдУрдкрди-рд╕реЛрд░реНрд╕ рд╕реЙрдлрд╝реНрдЯрд╡реЗрдпрд░ рд╣реИ рдЬреЛ рдбрд╛рдпрдиреЗрдорд┐рдХ рдмреИрдЪрд┐рдВрдЧ, рдореЙрдбрд▓ рдПрдиреНрд╕реЗрдореНрдмрд▓ рдФрд░ рд╣рд╛рдИ рдереНрд░реВрдкреБрдЯ рдХрд╛ рд╕рдорд░реНрдерди рдХрд░рддрд╛ рд╣реИред рдпрд╣ рдмрдбрд╝реЗ рдкреИрдорд╛рдиреЗ рдкрд░ AI рдореЙрдбрд▓ рдХреЗ рдкреНрд░рдмрдВрдзрди рдХреЗ рд▓рд┐рдП рдПрдХ рд▓рдЪреАрд▓рд╛ рд╡рд╛рддрд╛рд╡рд░рдг рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИред

рдХреБрдЫ рдкреНрд░рдореБрдЦ рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдореЗрдВ рд╢рд╛рдорд┐рд▓ рд╣реИрдВ:

  • рд╕рдорд╡рд░реНрддреА рдореЙрдбрд▓ рдирд┐рд╖реНрдкрд╛рджрди: GPU рдЙрдкрдпреЛрдЧ рдХреЛ рдЕрдзрд┐рдХрддрдо рдХрд░рддреЗ рд╣реБрдП рдПрдХ рд╕рд╛рде рдХрдИ рдореЙрдбрд▓ рдЪрд▓рд╛рдПрдВред
  • рдЧрддрд┐рд╢реАрд▓ рдмреИрдЪрд┐рдВрдЧ: рдПрдХрд╛рдзрд┐рдХ рдЕрдиреБрдорд╛рди рдЕрдиреБрд░реЛрдзреЛрдВ рдХреЛ рдПрдХ рдмреИрдЪ рдореЗрдВ рд╕рдВрдпреЛрдЬрд┐рдд рдХрд░рддрд╛ рд╣реИ, рдЬрд┐рд╕рд╕реЗ рд╡рд┐рд▓рдВрдмрддрд╛ рдХрдо рд╣реЛрддреА рд╣реИ рдФрд░ рдереНрд░реВрдкреБрдЯ рдмрдврд╝рддрд╛ рд╣реИред
  • рд╕реНрдЯреНрд░реАрдорд┐рдВрдЧ рдСрдбрд┐рдпреЛ/рд╡реАрдбрд┐рдпреЛ рдЗрдирдкреБрдЯ: рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╕рдордп рдЕрдиреБрдкреНрд░рдпреЛрдЧреЛрдВ рдореЗрдВ рдЗрдирдкреБрдЯ рд╕реНрдЯреНрд░реАрдо рдХрд╛ рд╕рдорд░реНрдерди рдХрд░рддрд╛ рд╣реИ, рдЬреИрд╕реЗ рд▓рд╛рдЗрд╡ рд╡реАрдбрд┐рдпреЛ рдПрдирд╛рд▓рд┐рдЯрд┐рдХреНрд╕ рдпрд╛ рд╕реНрдкреАрдЪ-рдЯреВ-рдЯреЗрдХреНрд╕реНрдЯ рд╕реЗрд╡рд╛рдПрдВред

рдпрд╣ рдЯреНрд░рд╛рдЗрдЯреЙрди рдХреЛ рдЙрддреНрдкрд╛рджрди рд╡рд╛рддрд╛рд╡рд░рдг рдореЗрдВ TensorRT-LLM рдЕрдиреБрдХреВрд▓рд┐рдд рдореЙрдбрд▓реЛрдВ рдХреЛ рддреИрдирд╛рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдореВрд▓реНрдпрд╡рд╛рди рдЙрдкрдХрд░рдг рдмрдирд╛рддрд╛ рд╣реИ, рдЬреЛ рдЙрдЪреНрдЪ рдорд╛рдкрдиреАрдпрддрд╛ рдФрд░ рджрдХреНрд╖рддрд╛ рд╕реБрдирд┐рд╢реНрдЪрд┐рдд рдХрд░рддрд╛ рд╣реИред

рдПрд▓рдПрд▓рдПрдо рдЕрдиреБрдорд╛рди рдХреЗ рд▓рд┐рдП рдЯреЗрдВрд╕рд░рдЖрд░рдЯреА-рдПрд▓рдПрд▓рдПрдо рдХреА рдореБрдЦреНрдп рд╡рд┐рд╢реЗрд╖рддрд╛рдПрдВ

рдУрдкрди рд╕реЛрд░реНрд╕ рдкрд╛рдпрдерди рдПрдкреАрдЖрдИ

TensorRT-LLM рдПрдХ рдЕрддреНрдпрдзрд┐рдХ рдореЙрдбреНрдпреВрд▓рд░ рдФрд░ рдУрдкрди-рд╕реЛрд░реНрд╕ рдкрд╛рдпрдерди рдПрдкреАрдЖрдИ, рдПрд▓рдПрд▓рдПрдо рдХреЛ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рдиреЗ, рдЕрдиреБрдХреВрд▓рд┐рдд рдХрд░рдиреЗ рдФрд░ рдирд┐рд╖реНрдкрд╛рджрд┐рдд рдХрд░рдиреЗ рдХреА рдкреНрд░рдХреНрд░рд┐рдпрд╛ рдХреЛ рд╕рд░рд▓ рдмрдирд╛рддрд╛ рд╣реИред рдПрдкреАрдЖрдИ рдбреЗрд╡рд▓рдкрд░реНрд╕ рдХреЛ рдХрд╕реНрдЯрдо рдПрд▓рдПрд▓рдПрдо рдмрдирд╛рдиреЗ рдпрд╛ рдЕрдкрдиреА рдЖрд╡рд╢реНрдпрдХрддрд╛рдУрдВ рдХреЗ рдЕрдиреБрд░реВрдк рдкреВрд░реНрд╡-рдирд┐рд░реНрдорд┐рдд рдПрд▓рдПрд▓рдПрдо рдХреЛ рд╕рдВрд╢реЛрдзрд┐рдд рдХрд░рдиреЗ рдореЗрдВ рд╕рдХреНрд╖рдо рдмрдирд╛рддрд╛ рд╣реИ, рдмрд┐рдирд╛ рд╕реАрдпреВрдбреАрдП рдпрд╛ рдбреАрдк рд▓рд░реНрдирд┐рдВрдЧ рдлреНрд░реЗрдорд╡рд░реНрдХ рдХреЗ рдЧрд╣рди рдЬреНрдЮрд╛рди рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рдХреЗред

рдЗрди-рдлрд╝реНрд▓рд╛рдЗрдЯ рдмреИрдЪрд┐рдВрдЧ рдФрд░ рдкреЗрдЬреНрдб рдЕрдЯреЗрдВрд╢рди

TensorRT-LLM рдХреА рдПрдХ рдкреНрд░рдореБрдЦ рд╡рд┐рд╢реЗрд╖рддрд╛ рдпрд╣ рд╣реИ рдЗрди-рдлрд╝реНрд▓рд╛рдЗрдЯ рдмреИрдЪрд┐рдВрдЧ, рдЬреЛ рдПрдХ рд╕рд╛рде рдХрдИ рдЕрдиреБрд░реЛрдзреЛрдВ рдХреЛ рд╕рдВрд╕рд╛рдзрд┐рдд рдХрд░рдХреЗ рдкрд╛рда рдирд┐рд░реНрдорд╛рдг рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдХрд░рддрд╛ рд╣реИред рдпрд╣ рд╕реБрд╡рд┐рдзрд╛ рдкреНрд░рддреАрдХреНрд╖рд╛ рд╕рдордп рдХреЛ рдХрдо рдХрд░рддреА рд╣реИ рдФрд░ рдЕрдиреБрдХреНрд░рдореЛрдВ рдХреЛ рдЧрддрд┐рд╢реАрд▓ рд░реВрдк рд╕реЗ рдмреИрдЪ рдХрд░рдХреЗ GPU рдЙрдкрдпреЛрдЧ рдХреЛ рдмреЗрд╣рддрд░ рдмрдирд╛рддреА рд╣реИред

рдЗрд╕рдХреЗ рдЕрддрд┐рд░рд┐рдХреНрдд, рдкреГрд╖реНрдард╛рдВрдХрд┐рдд рдзреНрдпрд╛рди рдпрд╣ рд╕реБрдирд┐рд╢реНрдЪрд┐рдд рдХрд░рддрд╛ рд╣реИ рдХрд┐ рд▓рдВрдмреЗ рдЗрдирдкреБрдЯ рдЕрдиреБрдХреНрд░рдореЛрдВ рдХреЛ рд╕рдВрд╕рд╛рдзрд┐рдд рдХрд░рддреЗ рд╕рдордп рднреА рдореЗрдореЛрд░реА рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрдо рд░рд╣реЗред рд╕рднреА рдЯреЛрдХрди рдХреЗ рд▓рд┐рдП рд╕рдиреНрдирд┐рд╣рд┐рдд рдореЗрдореЛрд░реА рдЖрд╡рдВрдЯрд┐рдд рдХрд░рдиреЗ рдХреЗ рдмрдЬрд╛рдп, рдкреЗрдЬреНрдб рдЕрдЯреЗрдВрд╢рди рдореЗрдореЛрд░реА рдХреЛ "рдкреЗрдЬреЛрдВ" рдореЗрдВ рддреЛрдбрд╝ рджреЗрддрд╛ рд╣реИ рдЬрд┐рдиреНрд╣реЗрдВ рдЧрддрд┐рд╢реАрд▓ рд░реВрдк рд╕реЗ рдкреБрдирдГ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ, рдЬрд┐рд╕рд╕реЗ рдореЗрдореЛрд░реА рд╡рд┐рдЦрдВрдбрди рдХреЛ рд░реЛрдХрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ рдФрд░ рджрдХреНрд╖рддрд╛ рдореЗрдВ рд╕реБрдзрд╛рд░ рд╣реЛрддрд╛ рд╣реИред

рдорд▓реНрдЯреА-рдЬреАрдкреАрдпреВ рдФрд░ рдорд▓реНрдЯреА-рдиреЛрдб рдЗрдВрдлреНрд░реЗрдВрд╕

рдмрдбрд╝реЗ рдореЙрдбрд▓ рдпрд╛ рдЕрдзрд┐рдХ рдЬрдЯрд┐рд▓ рдХрд╛рд░реНрдпрднрд╛рд░ рдХреЗ рд▓рд┐рдП, TensorRT-LLM рд╕рдорд░реНрдерди рдХрд░рддрд╛ рд╣реИ рдмрд╣реБ GPU рдФрд░ рдмрд╣реБ-рдиреЛрдб рдЕрдиреБрдорд╛рдирдпрд╣ рдХреНрд╖рдорддрд╛ рдХрдИ GPU рдпрд╛ рдиреЛрдбреНрд╕ рдореЗрдВ рдореЙрдбрд▓ рдХрдВрдкреНрдпреВрдЯреЗрд╢рдВрд╕ рдХреЗ рд╡рд┐рддрд░рдг рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддреА рд╣реИ, рдЬрд┐рд╕рд╕реЗ рдереНрд░реВрдкреБрдЯ рдореЗрдВ рд╕реБрдзрд╛рд░ рд╣реЛрддрд╛ рд╣реИ рдФрд░ рд╕рдордЧреНрд░ рдЕрдиреБрдорд╛рди рд╕рдордп рдХрдо рд╣реЛ рдЬрд╛рддрд╛ рд╣реИред

FP8 рд╕рдорд░реНрдерди

рдХреЗ рдЖрдЧрдорди рдХреЗ рд╕рд╛рде FP8 (8-рдмрд┐рдЯ рдлрд╝реНрд▓реЛрдЯрд┐рдВрдЧ рдкреЙрдЗрдВрдЯ), TensorRT-LLM NVIDIA рдХреЗ H100 GPU рдХрд╛ рд▓рд╛рдн рдЙрдард╛рддрд╛ рд╣реИ рддрд╛рдХрд┐ рдореЙрдбрд▓ рд╡рдЬрд╝рди рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдЕрдиреБрдорд╛рди рдХреЗ рд▓рд┐рдП рдЗрд╕ рдлрд╝реЙрд░реНрдореЗрдЯ рдореЗрдВ рдкрд░рд┐рд╡рд░реНрддрд┐рдд рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХреЗред FP8 рдореЗрдореЛрд░реА рдЦрдкрдд рдХреЛ рдХрдо рдХрд░рддрд╛ рд╣реИ рдФрд░ рддреЗрдЬрд╝ рдЧрдгрдирд╛ рдХрд░рддрд╛ рд╣реИ, рдЬреЛ рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рдмрдбрд╝реЗ рдкреИрдорд╛рдиреЗ рдкрд░ рддреИрдирд╛рддреА рдореЗрдВ рдЙрдкрдпреЛрдЧреА рд╣реИред

TensorRT-LLM рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░ рдФрд░ рдШрдЯрдХ

TensorRT-LLM рдХреА рд╡рд╛рд╕реНрддреБрдХрд▓рд╛ рдХреЛ рд╕рдордЭрдиреЗ рд╕реЗ рдЖрдкрдХреЛ LLM рдЕрдиреБрдорд╛рди рдХреЗ рд▓рд┐рдП рдЗрд╕рдХреА рдХреНрд╖рдорддрд╛рдУрдВ рдХрд╛ рдмреЗрд╣рддрд░ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдореЗрдВ рдорджрдж рдорд┐рд▓реЗрдЧреАред рдЖрдЗрдП рдореБрдЦреНрдп рдШрдЯрдХреЛрдВ рдХреЛ рддреЛрдбрд╝реЗрдВ:

рдореЙрдбрд▓ рдкрд░рд┐рднрд╛рд╖рд╛

TensorRT-LLM рдЖрдкрдХреЛ рд╕рд░рд▓ рдкрд╛рдпрдерди API рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ LLM рдХреЛ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИред API рдПрдХ рдирд┐рд░реНрдорд╛рдг рдХрд░рддрд╛ рд╣реИ рдЧреНрд░рд╛рдл рдкреНрд░рддрд┐рдирд┐рдзрд┐рддреНрд╡ рдореЙрдбрд▓ рдХрд╛, GPT рдпрд╛ BERT рдЬреИрд╕реЗ LLM рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░ рдореЗрдВ рд╢рд╛рдорд┐рд▓ рдЬрдЯрд┐рд▓ рдкрд░рддреЛрдВ рдХреЛ рдкреНрд░рдмрдВрдзрд┐рдд рдХрд░рдирд╛ рдЖрд╕рд╛рди рдмрдирд╛рддрд╛ рд╣реИред

рд╡рдЬрди рдмрдВрдзрди

рдореЙрдбрд▓ рдХреЛ рд╕рдВрдХрд▓рд┐рдд рдХрд░рдиреЗ рд╕реЗ рдкрд╣рд▓реЗ, рднрд╛рд░ (рдпрд╛ рдкреИрд░рд╛рдореАрдЯрд░) рдХреЛ рдиреЗрдЯрд╡рд░реНрдХ рд╕реЗ рдмрд╛рдВрдзрд╛ рдЬрд╛рдирд╛ рдЪрд╛рд╣рд┐рдПред рдпрд╣ рдХрджрдо рд╕реБрдирд┐рд╢реНрдЪрд┐рдд рдХрд░рддрд╛ рд╣реИ рдХрд┐ рднрд╛рд░ TensorRT рдЗрдВрдЬрди рдХреЗ рднреАрддрд░ рдПрдореНрдмреЗрдбреЗрдб рд╣реИрдВ, рдЬрд┐рд╕рд╕реЗ рддреЗрдЬрд╝ рдФрд░ рдХреБрд╢рд▓ рдЕрдиреБрдорд╛рди рд▓рдЧрд╛рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред TensorRT-LLM рд╕рдВрдХрд▓рди рдХреЗ рдмрд╛рдж рднрд╛рд░ рдЕрдкрдбреЗрдЯ рдХрд░рдиреЗ рдХреА рднреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИ, рдЬрд┐рд╕рд╕реЗ рдЙрди рдореЙрдбрд▓реЛрдВ рдХреЗ рд▓рд┐рдП рд▓рдЪреАрд▓рд╛рдкрди рдмрдврд╝рддрд╛ рд╣реИ рдЬрд┐рдиреНрд╣реЗрдВ рдмрд╛рд░-рдмрд╛рд░ рдЕрдкрдбреЗрдЯ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реЛрддреА рд╣реИред

рдкреИрдЯрд░реНрди рдорд┐рд▓рд╛рди рдФрд░ рд╕рдВрд▓рдпрди

рдСрдкрд░реЗрд╢рди рдлреНрдпреВрдЬрди TensorRT-LLM рдХреА рдПрдХ рдФрд░ рд╢рдХреНрддрд┐рд╢рд╛рд▓реА рд╡рд┐рд╢реЗрд╖рддрд╛ рд╣реИред рдПрдХ рд╣реА CUDA рдХрд░реНрдиреЗрд▓ рдореЗрдВ рдХрдИ рдСрдкрд░реЗрд╢рди (рдЬреИрд╕реЗ, рдореИрдЯреНрд░рд┐рдХреНрд╕ рдЧреБрдгрди рдХреЛ рд╕рдХреНрд░рд┐рдпрдг рдлрд╝рдВрдХреНрд╢рди рдХреЗ рд╕рд╛рде) рдХреЛ рдЬреЛрдбрд╝рдХрд░, TensorRT рдХрдИ рдХрд░реНрдиреЗрд▓ рд▓реЙрдиреНрдЪ рд╕реЗ рдЬреБрдбрд╝реЗ рдУрд╡рд░рд╣реЗрдб рдХреЛ рдХрдо рдХрд░рддрд╛ рд╣реИред рдпрд╣ рдореЗрдореЛрд░реА рдЯреНрд░рд╛рдВрд╕рдлрд╝рд░ рдХреЛ рдХрдо рдХрд░рддрд╛ рд╣реИ рдФрд░ рдЕрдиреБрдорд╛рди рдХреЛ рдЧрддрд┐ рджреЗрддрд╛ рд╣реИред

рдкреНрд▓рдЧрдЗрдиреНрд╕

TensorRT рдХреА рдХреНрд╖рдорддрд╛рдУрдВ рдХрд╛ рд╡рд┐рд╕реНрддрд╛рд░ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдбреЗрд╡рд▓рдкрд░реНрд╕ рд▓рд┐рдЦ рд╕рдХрддреЗ рд╣реИрдВ pluginsтАФрдХрд╕реНрдЯрдо рдХрд░реНрдиреЗрд▓ рдЬреЛ рдорд▓реНрдЯреА-рд╣реЗрдб рдЕрдЯреЗрдВрд╢рди рдмреНрд▓реЙрдХ рдХреЛ рдСрдкреНрдЯрд┐рдорд╛рдЗрдЬрд╝ рдХрд░рдиреЗ рдЬреИрд╕реЗ рд╡рд┐рд╢рд┐рд╖реНрдЯ рдХрд╛рд░реНрдп рдХрд░рддреЗ рд╣реИрдВред рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдлреНрд▓реИрд╢-рдзреНрдпрд╛рди рдкреНрд▓рдЧрдЗрди рдПрд▓рдПрд▓рдПрдо рдзреНрдпрд╛рди рдкрд░рддреЛрдВ рдХреЗ рдкреНрд░рджрд░реНрд╢рди рдореЗрдВ рдХрд╛рдлреА рд╕реБрдзрд╛рд░ рдХрд░рддрд╛ рд╣реИред

рдмреЗрдВрдЪрдорд╛рд░реНрдХ: TensorRT-LLM рдкреНрд░рджрд░реНрд╢рди рд▓рд╛рдн

TensorRT-LLM рд╡рд┐рднрд┐рдиреНрди GPU рдореЗрдВ LLM рдЕрдиреБрдорд╛рди рдХреЗ рд▓рд┐рдП рдорд╣рддреНрд╡рдкреВрд░реНрдг рдкреНрд░рджрд░реНрд╢рди рд▓рд╛рдн рдкреНрд░рджрд░реНрд╢рд┐рдд рдХрд░рддрд╛ рд╣реИред рдпрд╣рд╛рдБ рд╡рд┐рднрд┐рдиреНрди NVIDIA GPU рдореЗрдВ TensorRT-LLM рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдЕрдиреБрдорд╛рди рдЧрддрд┐ (рдкреНрд░рддрд┐ рд╕реЗрдХрдВрдб рдЯреЛрдХрди рдореЗрдВ рдорд╛рдкреА рдЧрдИ) рдХреА рддреБрд▓рдирд╛ рджреА рдЧрдИ рд╣реИ:

рдЖрджрд░реНрд╢ рд╢реБрджреНрдзрддрд╛ рдЗрдирдкреБрдЯ/рдЖрдЙрдЯрдкреБрдЯ рд▓рдВрдмрд╛рдИ рдПрдЪ100 (80рдЬреАрдмреА) рдП100 (80 рдЬреАрдмреА) рдПрд▓40рдПрд╕ рдПрдлрдкреА8
рдЬреАрдкреАрдЯреАрдЬреЗ 6рдмреА FP8 128/128 34,955 11,206 6,998
рдЬреАрдкреАрдЯреАрдЬреЗ 6рдмреА FP8 2048/128 2,800 1,354 747
рдПрд▓рдПрд▓рдПрдПрдордП v2 7рдмреА FP8 128/128 16,985 10,725 6,121
рдПрд▓рдПрд▓рдПрдПрдордП v3 8рдмреА FP8 128/128 16,708 12,085 8,273

рдпреЗ рдорд╛рдирдХ рджрд░реНрд╢рд╛рддреЗ рд╣реИрдВ рдХрд┐ TensorRT-LLM рдкреНрд░рджрд░реНрд╢рди рдореЗрдВ рдкрд░реНрдпрд╛рдкреНрдд рд╕реБрдзрд╛рд░ рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИ, рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рд▓рдВрдмреЗ рдЕрдиреБрдХреНрд░рдореЛрдВ рдХреЗ рд▓рд┐рдПред

рд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ: TensorRT-LLM рдХреЛ рд╕реНрдерд╛рдкрд┐рдд рдХрд░рдирд╛ рдФрд░ рдмрдирд╛рдирд╛

рдЪрд░рдг 1: рдХрдВрдЯреЗрдирд░ рд╡рд╛рддрд╛рд╡рд░рдг рдмрдирд╛рдПрдБ

рдЙрдкрдпреЛрдЧ рдореЗрдВ рдЖрд╕рд╛рдиреА рдХреЗ рд▓рд┐рдП, TensorRT-LLM рдореЙрдбрд▓ рдмрдирд╛рдиреЗ рдФрд░ рдЪрд▓рд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдирд┐рдпрдВрддреНрд░рд┐рдд рд╡рд╛рддрд╛рд╡рд░рдг рдмрдирд╛рдиреЗ рд╣реЗрддреБ Docker рдЫрд╡рд┐рдпрд╛рдВ рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИред

docker build --pull \
             --target devel \
             --file docker/Dockerfile.multi \
             --tag tensorrt_llm/devel:latest .


рдЪрд░рдг 2: рдХрдВрдЯреЗрдирд░ рдЪрд▓рд╛рдПрдБ

NVIDIA GPU рддрдХ рдкрд╣реБрдВрдЪ рдХреЗ рд╕рд╛рде рд╡рд┐рдХрд╛рд╕ рдХрдВрдЯреЗрдирд░ рдЪрд▓рд╛рдПрдВ:

docker run --rm -it \
           --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 --gpus=all \
           --volume ${PWD}:/code/tensorrt_llm \
           --workdir /code/tensorrt_llm \
           tensorrt_llm/devel:latest

рдЪрд░рдг 3: рд╕реНрд░реЛрдд рд╕реЗ TensorRT-LLM рдмрдирд╛рдПрдБ

рдХрдВрдЯреЗрдирд░ рдХреЗ рдЕрдВрджрд░, TensorRT-LLM рдХреЛ рдирд┐рдореНрдирд▓рд┐рдЦрд┐рдд рдХрдорд╛рдВрдб рдХреЗ рд╕рд╛рде рд╕рдВрдХрд▓рд┐рдд рдХрд░реЗрдВ:

python3 ./scripts/build_wheel.py --trt_root /usr/local/tensorrt
pip install ./build/tensorrt_llm*.whl

рдпрд╣ рд╡рд┐рдХрд▓реНрдк рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рддрдм рдЙрдкрдпреЛрдЧреА рд╣реЛрддрд╛ рд╣реИ рдЬрдм рдЖрдк рдкрд╛рдпрдерди рдирд┐рд░реНрднрд░рддрд╛ рд╕реЗ рд╕рдВрдмрдВрдзрд┐рдд рд╕рдВрдЧрддрддрд╛ рд╕рдорд╕реНрдпрд╛рдУрдВ рд╕реЗ рдмрдЪрдирд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВ рдпрд╛ рдЙрддреНрдкрд╛рджрди рдкреНрд░рдгрд╛рд▓рд┐рдпреЛрдВ рдореЗрдВ C++ рдПрдХреАрдХрд░рдг рдкрд░ рдзреНрдпрд╛рди рдХреЗрдВрджреНрд░рд┐рдд рдХрд░рдирд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВред рдПрдХ рдмрд╛рд░ рдмрд┐рд▓реНрдб рдкреВрд░рд╛ рд╣реЛ рдЬрд╛рдиреЗ рдкрд░, рдЖрдкрдХреЛ C++ рд░рдирдЯрд╛рдЗрдо рдХреЗ рд▓рд┐рдП рд╕рдВрдХрд▓рд┐рдд рд▓рд╛рдЗрдмреНрд░реЗрд░реАрдЬрд╝ рдорд┐рд▓реЗрдВрдЧреА cpp/build/tensorrt_llm рдирд┐рд░реНрджреЗрд╢рд┐рдХрд╛, рдЖрдкрдХреЗ C++ рдЕрдиреБрдкреНрд░рдпреЛрдЧреЛрдВ рдХреЗ рд╕рд╛рде рдПрдХреАрдХрд░рдг рдХреЗ рд▓рд┐рдП рддреИрдпрд╛рд░ рд╣реИред

рдЪрд░рдг 4: TensorRT-LLM C++ рд░рдирдЯрд╛рдЗрдо рдХреЛ рд▓рд┐рдВрдХ рдХрд░реЗрдВ

TensorRT-LLM рдХреЛ рдЕрдкрдиреЗ C++ рдкреНрд░реЛрдЬреЗрдХреНрдЯ рдореЗрдВ рдПрдХреАрдХреГрдд рдХрд░рддреЗ рд╕рдордп, рд╕реБрдирд┐рд╢реНрдЪрд┐рдд рдХрд░реЗрдВ рдХрд┐ рдЖрдкрдХреЗ рдкреНрд░реЛрдЬреЗрдХреНрдЯ рдХреЗ рд╕рдореНрдорд┐рд▓рд┐рдд рдкрде рдирд┐рдореНрди рдХреА рдУрд░ рдЗрдВрдЧрд┐рдд рдХрд░рддреЗ рд╣реИрдВ: cpp/include рдирд┐рд░реНрджреЗрд╢рд┐рдХрд╛ред рдЗрд╕рдореЗрдВ рд╕реНрдерд┐рд░, рд╕рдорд░реНрдерд┐рдд API рд╣реЗрдбрд░ рд╢рд╛рдорд┐рд▓ рд╣реИрдВред TensorRT-LLM рд▓рд╛рдЗрдмреНрд░реЗрд░реА рдЖрдкрдХреЗ C++ рд╕рдВрдХрд▓рди рдкреНрд░рдХреНрд░рд┐рдпрд╛ рдХреЗ рднрд╛рдЧ рдХреЗ рд░реВрдк рдореЗрдВ рд▓рд┐рдВрдХ рдХреА рдЧрдИ рд╣реИрдВред

рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдЖрдкрдХреЗ рдкреНрд░реЛрдЬреЗрдХреНрдЯ рдХреЗ CMake рдХреЙрдиреНрдлрд╝рд┐рдЧрд░реЗрд╢рди рдореЗрдВ рдирд┐рдореНрдирд▓рд┐рдЦрд┐рдд рд╢рд╛рдорд┐рд▓ рд╣реЛ рд╕рдХрддреЗ рд╣реИрдВ:

include_directories(${TENSORRT_LLM_PATH}/cpp/include)
link_directories(${TENSORRT_LLM_PATH}/cpp/build/tensorrt_llm)
target_link_libraries(your_project tensorrt_llm)

рдпрд╣ рдПрдХреАрдХрд░рдг рдЖрдкрдХреЛ рдЕрдкрдиреЗ рдХрд╕реНрдЯрдо C++ рдкреНрд░реЛрдЬреЗрдХреНрдЯреНрд╕ рдореЗрдВ TensorRT-LLM рдЕрдиреБрдХреВрд▓рди рдХрд╛ рд▓рд╛рдн рдЙрдард╛рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИ, рдЬрд┐рд╕рд╕реЗ рдирд┐рдореНрди-рд╕реНрддрд░ рдпрд╛ рдЙрдЪреНрдЪ-рдкреНрд░рджрд░реНрд╢рди рд╡рд╛рддрд╛рд╡рд░рдг рдореЗрдВ рднреА рдХреБрд╢рд▓ рдЕрдиреБрдорд╛рди рд╕реБрдирд┐рд╢реНрдЪрд┐рдд рд╣реЛрддрд╛ рд╣реИред

рдЙрдиреНрдирдд TensorRT-LLM рд╡рд┐рд╢реЗрд╖рддрд╛рдПрдБ

TensorRT-LLM рд╕рд┐рд░реНрдлрд╝ рдПрдХ рдСрдкреНрдЯрд┐рдорд╛рдЗрдЬрд╝реЗрд╢рди рд▓рд╛рдЗрдмреНрд░реЗрд░реА рд╕реЗ рдХрд╣реАрдВ рдЬрд╝реНрдпрд╛рджрд╛ рд╣реИ; рдЗрд╕рдореЗрдВ рдХрдИ рдЙрдиреНрдирдд рд╕реБрд╡рд┐рдзрд╛рдПрдБ рд╢рд╛рдорд┐рд▓ рд╣реИрдВ рдЬреЛ рдмрдбрд╝реЗ рдкреИрдорд╛рдиреЗ рдкрд░ LLM рдкрд░рд┐рдирд┐рдпреЛрдЬрди рд╕реЗ рдирд┐рдкрдЯрдиреЗ рдореЗрдВ рдорджрдж рдХрд░рддреА рд╣реИрдВред рдиреАрдЪреЗ, рд╣рдо рдЗрдирдореЗрдВ рд╕реЗ рдХреБрдЫ рд╕реБрд╡рд┐рдзрд╛рдУрдВ рдХрд╛ рд╡рд┐рд╕реНрддрд╛рд░ рд╕реЗ рдкрддрд╛ рд▓рдЧрд╛рддреЗ рд╣реИрдВ:

1. рдЗрди-рдлрд╝реНрд▓рд╛рдЗрдЯ рдмреИрдЪрд┐рдВрдЧ

рдкрд╛рд░рдВрдкрд░рд┐рдХ рдмреИрдЪрд┐рдВрдЧ рдореЗрдВ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг рд╕реЗ рдкрд╣рд▓реЗ рдмреИрдЪ рдХреЗ рдкреВрд░реА рддрд░рд╣ рд╕реЗ рдПрдХрддреНрд░ рд╣реЛ рдЬрд╛рдиреЗ рддрдХ рдкреНрд░рддреАрдХреНрд╖рд╛ рдХреА рдЬрд╛рддреА рд╣реИ, рдЬрд┐рд╕рд╕реЗ рджреЗрд░реА рд╣реЛ рд╕рдХрддреА рд╣реИред рдЗрди-рдлрд╝реНрд▓рд╛рдЗрдЯ рдмреИрдЪрд┐рдВрдЧ рдмреИрдЪ рдХреЗ рднреАрддрд░ рдкреВрд░реНрдг рдХрд┐рдП рдЧрдП рдЕрдиреБрд░реЛрдзреЛрдВ рдкрд░ рдЧрддрд┐рд╢реАрд▓ рд░реВрдк рд╕реЗ рдЕрдиреБрдорд╛рди рд▓рдЧрд╛рдирд╛ рд╢реБрд░реВ рдХрд░рдХреЗ рдЗрд╕реЗ рдмрджрд▓рддрд╛ рд╣реИ рдЬрдмрдХрд┐ рдЕрднреА рднреА рдЕрдиреНрдп рдЕрдиреБрд░реЛрдзреЛрдВ рдХреЛ рдПрдХрддреНрд░рд┐рдд рдХрд░рддрд╛ рд╣реИред рдпрд╣ рдирд┐рд╖реНрдХреНрд░рд┐рдп рд╕рдордп рдХреЛ рдХрдо рдХрд░рдХреЗ рдФрд░ GPU рдЙрдкрдпреЛрдЧ рдХреЛ рдмрдврд╝рд╛рдХрд░ рд╕рдордЧреНрд░ рдереНрд░реВрдкреБрдЯ рдореЗрдВ рд╕реБрдзрд╛рд░ рдХрд░рддрд╛ рд╣реИред

рдпрд╣ рд╕реБрд╡рд┐рдзрд╛ рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╕рдордп рдЕрдиреБрдкреНрд░рдпреЛрдЧреЛрдВ рдореЗрдВ рдореВрд▓реНрдпрд╡рд╛рди рд╣реИ, рдЬреИрд╕реЗ рдХрд┐ рдЪреИрдЯрдмреЙрдЯ рдпрд╛ рд╡реЙрдпрд╕ рдЕрд╕рд┐рд╕реНрдЯреЗрдВрдЯ, рдЬрд╣рд╛рдВ рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ рд╕рдордп рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╣реИред

2. рдкреГрд╖реНрдард╛рдВрдХрд┐рдд рдзреНрдпрд╛рди

рдкреГрд╖реНрдард╛рдВрдХрд┐рдд рдзреНрдпрд╛рди рдмрдбрд╝реЗ рдЗрдирдкреБрдЯ рдЕрдиреБрдХреНрд░рдореЛрдВ рдХреЛ рд╕рдВрднрд╛рд▓рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдореЗрдореЛрд░реА рдСрдкреНрдЯрд┐рдорд╛рдЗрдЬрд╝реЗрд╢рди рддрдХрдиреАрдХ рд╣реИред рдЕрдиреБрдХреНрд░рдо рдореЗрдВ рд╕рднреА рдЯреЛрдХрди рдХреЗ рд▓рд┐рдП рдирд┐рд░рдВрддрд░ рдореЗрдореЛрд░реА рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рдХреЗ рдмрдЬрд╛рдп (рдЬрд┐рд╕рд╕реЗ рдореЗрдореЛрд░реА рд╡рд┐рдЦрдВрдбрди рд╣реЛ рд╕рдХрддрд╛ рд╣реИ), рдкреЗрдЬреНрдб рдЕрдЯреЗрдВрд╢рди рдореЙрдбрд▓ рдХреЛ рдХреБрдВрдЬреА-рдореВрд▓реНрдп рдХреИрд╢ рдбреЗрдЯрд╛ рдХреЛ рдореЗрдореЛрд░реА рдХреЗ "рдкреЗрдЬреЛрдВ" рдореЗрдВ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд░рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИред рдЗрди рдкреГрд╖реНрдареЛрдВ рдХреЛ рдЖрд╡рд╢реНрдпрдХрддрд╛рдиреБрд╕рд╛рд░ рдЧрддрд┐рд╢реАрд▓ рд░реВрдк рд╕реЗ рдЖрд╡рдВрдЯрд┐рдд рдФрд░ рдореБрдХреНрдд рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ, рдЬрд┐рд╕рд╕реЗ рдореЗрдореЛрд░реА рдЙрдкрдпреЛрдЧ рдЕрдиреБрдХреВрд▓рд┐рдд рд╣реЛрддрд╛ рд╣реИред

рдкреГрд╖реНрдард╛рдВрдХрд┐рдд рдзреНрдпрд╛рди (рдкреЗрдЬреНрдб рдЕрдЯреЗрдВрд╢рди) рдмрдбрд╝реА рдЕрдиреБрдХреНрд░рдо рд▓рдВрдмрд╛рдИ рдХреЛ рд╕рдВрднрд╛рд▓рдиреЗ рдФрд░ рдореЗрдореЛрд░реА рдУрд╡рд░рд╣реЗрдб рдХреЛ рдХрдо рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╣реИ, рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ GPT рдФрд░ LLaMA рдЬреИрд╕реЗ рдЬрдирд░реЗрдЯрд┐рд╡ рдореЙрдбрд▓ рдореЗрдВред

3. рдХрд╕реНрдЯрдо рдкреНрд▓рдЧрдЗрдиреНрд╕

TensorRT-LLM рдЖрдкрдХреЛ рдЗрд╕рдХреА рдХрд╛рд░реНрдпрдХреНрд╖рдорддрд╛ рдмрдврд╝рд╛рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИ рдХрд╕реНрдЯрдо рдкреНрд▓рдЧрдЗрдиреНрд╕рдкреНрд▓рдЧрдЗрдиреНрд╕ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛-рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░реНрдиреЗрд▓ рд╣реИрдВ рдЬреЛ рд╡рд┐рд╢рд┐рд╖реНрдЯ рдЕрдиреБрдХреВрд▓рди рдпрд╛ рд╕рдВрдЪрд╛рд▓рди рдХреЛ рд╕рдХреНрд╖рдо рдХрд░рддреЗ рд╣реИрдВ рдЬреЛ рдорд╛рдирдХ TensorRT рд▓рд╛рдЗрдмреНрд░реЗрд░реА рджреНрд╡рд╛рд░рд╛ рдХрд╡рд░ рдирд╣реАрдВ рдХрд┐рдП рдЬрд╛рддреЗ рд╣реИрдВред

рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдлреНрд▓реИрд╢-рдзреНрдпрд╛рди рдкреНрд▓рдЧрдЗрди рдПрдХ рдкреНрд░рд╕рд┐рджреНрдз рдХрд╕реНрдЯрдо рдХрд░реНрдиреЗрд▓ рд╣реИ рдЬреЛ рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░-рдЖрдзрд╛рд░рд┐рдд рдореЙрдбрд▓ рдореЗрдВ рдорд▓реНрдЯреА-рд╣реЗрдб рдЕрдЯреЗрдВрд╢рди рд▓реЗрдпрд░реНрд╕ рдХреЛ рдСрдкреНрдЯрд┐рдорд╛рдЗрдЬрд╝ рдХрд░рддрд╛ рд╣реИред рдЗрд╕ рдкреНрд▓рдЧрдЗрди рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ, рдбреЗрд╡рд▓рдкрд░реНрд╕ рдзреНрдпрд╛рди рдЧрдгрдирд╛ рдореЗрдВ рдкрд░реНрдпрд╛рдкреНрдд рдЧрддрд┐ рдкреНрд░рд╛рдкреНрдд рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ - рдПрд▓рдПрд▓рдПрдо рдХреЗ рд╕рдмрд╕реЗ рдЕрдзрд┐рдХ рд╕рдВрд╕рд╛рдзрди-рдЧрд╣рди рдШрдЯрдХреЛрдВ рдореЗрдВ рд╕реЗ рдПрдХред

рдЕрдкрдиреЗ TensorRT-LLM рдореЙрдбрд▓ рдореЗрдВ рдХрд╕реНрдЯрдо рдкреНрд▓рдЧрдЗрди рдХреЛ рдПрдХреАрдХреГрдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдЖрдк рдПрдХ рдХрд╕реНрдЯрдо CUDA рдХрд░реНрдиреЗрд▓ рд▓рд┐рдЦ рд╕рдХрддреЗ рд╣реИрдВ рдФрд░ рдЗрд╕реЗ TensorRT рдХреЗ рд╕рд╛рде рдкрдВрдЬреАрдХреГрдд рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред рдореЙрдбрд▓ рдирд┐рд╖реНрдкрд╛рджрди рдХреЗ рджреМрд░рд╛рди рдкреНрд▓рдЧрдЗрди рдХреЛ рд▓рд╛рдЧреВ рдХрд┐рдпрд╛ рдЬрд╛рдПрдЧрд╛, рдЬреЛ рдЕрдиреБрд░реВрдк рдкреНрд░рджрд░реНрд╢рди рд╕реБрдзрд╛рд░ рдкреНрд░рджрд╛рди рдХрд░реЗрдЧрд╛ред

4. NVIDIA H8 рдкрд░ FP100 рдкрд░рд┐рд╢реБрджреНрдзрддрд╛

- рдПрдлрдкреА8 рдкрд░рд┐рд╢реБрджреНрдзрддрд╛TensorRT-LLM NVIDIA рдХреЗ рдирд╡реАрдирддрдо рд╣рд╛рд░реНрдбрд╡реЗрдпрд░ рдирд╡рд╛рдЪрд╛рд░реЛрдВ рдХрд╛ рд▓рд╛рдн рдЙрдард╛рддрд╛ рд╣реИ H100 рд╣реВрдкрд░ рд╡рд╛рд╕реНрддреБрдХрд▓рд╛. FP8 8-рдмрд┐рдЯ рдлрд╝реНрд▓реЛрдЯрд┐рдВрдЧ-рдкреЙрдЗрдВрдЯ рдлрд╝реЙрд░реНрдореЗрдЯ рдореЗрдВ рд╡рдЬрд╝рди рдФрд░ рд╕рдХреНрд░рд┐рдпрдг рд╕рдВрдЧреНрд░рд╣реАрдд рдХрд░рдХреЗ LLMs рдХреЗ рдореЗрдореЛрд░реА рдлрд╝реБрдЯрдкреНрд░рд┐рдВрдЯ рдХреЛ рдХрдо рдХрд░рддрд╛ рд╣реИ, рдЬрд┐рд╕рдХреЗ рдкрд░рд┐рдгрд╛рдорд╕реНрд╡рд░реВрдк рдмрд╣реБрдд рдЕрдзрд┐рдХ рд╕рдЯреАрдХрддрд╛ рдХрд╛ рддреНрдпрд╛рдЧ рдХрд┐рдП рдмрд┐рдирд╛ рддреЗрдЬрд╝ рдЧрдгрдирд╛ рд╣реЛрддреА рд╣реИред TensorRT-LLM рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рд░реВрдк рд╕реЗ рдЕрдиреБрдХреВрд▓рд┐рдд FP8 рдХрд░реНрдиреЗрд▓ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдореЙрдбрд▓ рд╕рдВрдХрд▓рд┐рдд рдХрд░рддрд╛ рд╣реИ, рдЬрд┐рд╕рд╕реЗ рдЕрдиреБрдорд╛рди рд▓рдЧрд╛рдиреЗ рдХрд╛ рд╕рдордп рдФрд░ рддреЗрдЬрд╝ рд╣реЛ рдЬрд╛рддрд╛ рд╣реИред

рдпрд╣ TensorRT-LLM рдХреЛ рд╢реАрд░реНрд╖-рд╕реНрддрд░реАрдп рдкреНрд░рджрд░реНрд╢рди рдФрд░ рдКрд░реНрдЬрд╛ рджрдХреНрд╖рддрд╛ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╡рд╛рд▓реЗ рдмрдбрд╝реЗ рдкреИрдорд╛рдиреЗ рдкрд░ рдкрд░рд┐рдирд┐рдпреЛрдЬрди рдХреЗ рд▓рд┐рдП рдПрдХ рдЖрджрд░реНрд╢ рд╡рд┐рдХрд▓реНрдк рдмрдирд╛рддрд╛ рд╣реИред

рдЙрджрд╛рд╣рд░рдг: рдЯреНрд░рд╛рдЗрдЯрди рдЗрдирдлреНрд░реЗрдВрд╕ рд╕рд░реНрд╡рд░ рдХреЗ рд╕рд╛рде TensorRT-LLM рдХреА рддреИрдирд╛рддреА

рдЙрддреНрдкрд╛рджрди рдкрд░рд┐рдирд┐рдпреЛрдЬрди рдХреЗ рд▓рд┐рдП, NVIDIA рдХрд╛ рдЯреНрд░рд╛рдЗрдЯрди рдЕрдиреБрдорд╛рди рд╕рд░реНрд╡рд░ рдмрдбрд╝реЗ рдкреИрдорд╛рдиреЗ рдкрд░ рдореЙрдбрд▓ рдХреЗ рдкреНрд░рдмрдВрдзрди рдХреЗ рд▓рд┐рдП рдПрдХ рдордЬрдмреВрдд рдордВрдЪ рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИред рдЗрд╕ рдЙрджрд╛рд╣рд░рдг рдореЗрдВ, рд╣рдо рдкреНрд░рджрд░реНрд╢рд┐рдд рдХрд░реЗрдВрдЧреЗ рдХрд┐ рдЯреНрд░рд╛рдЗрдЯрди рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ TensorRT-LLM-рдЕрдиреБрдХреВрд▓рд┐рдд рдореЙрдбрд▓ рдХреЛ рдХреИрд╕реЗ рддреИрдирд╛рдд рдХрд┐рдпрд╛ рдЬрд╛рдПред

рдЪрд░рдг 1: рдореЙрдбрд▓ рд░рд┐рдкреЙрдЬрд┐рдЯрд░реА рд╕реЗрдЯ рдЕрдк рдХрд░реЗрдВ

рдЯреНрд░рд╛рдЗрдЯрди рдХреЗ рд▓рд┐рдП рдПрдХ рдореЙрдбрд▓ рд░рд┐рдкреЙрдЬрд┐рдЯрд░реА рдмрдирд╛рдПрдВ, рдЬреЛ рдЖрдкрдХреА TensorRT-LLM рдореЙрдбрд▓ рдлрд╝рд╛рдЗрд▓реЛрдВ рдХреЛ рд╕рдВрдЧреНрд░рд╣реАрдд рдХрд░реЗрдЧрд╛ред рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдпрджрд┐ рдЖрдкрдиреЗ GPT2 рдореЙрдбрд▓ рд╕рдВрдХрд▓рд┐рдд рдХрд┐рдпрд╛ рд╣реИ, рддреЛ рдЖрдкрдХреА рдирд┐рд░реНрджреЗрд╢рд┐рдХрд╛ рд╕рдВрд░рдЪрдирд╛ рдЗрд╕ рддрд░рд╣ рджрд┐рдЦ рд╕рдХрддреА рд╣реИ:

mkdir -p model_repository/gpt2/1
cp ./trt_engine/gpt2_fp16.engine model_repository/gpt2/1/

рдЪрд░рдг 2: рдЯреНрд░рд╛рдЗрдЯрди рдХреЙрдиреНрдлрд╝рд┐рдЧрд░реЗрд╢рди рдлрд╝рд╛рдЗрд▓ рдмрдирд╛рдПрдБ

рдЙрд╕реА рдореЗрдВ model_repository/gpt2/ рдирд┐рд░реНрджреЗрд╢рд┐рдХрд╛ рдореЗрдВ, рдирд╛рдо рд╕реЗ рдПрдХ рдХреЙрдиреНрдлрд╝рд┐рдЧрд░реЗрд╢рди рдлрд╝рд╛рдЗрд▓ рдмрдирд╛рдПрдБ config.pbtxt рдЬреЛ рдЯреНрд░рд╛рдЗрдЯрди рдХреЛ рдмрддрд╛рддрд╛ рд╣реИ рдХрд┐ рдореЙрдбрд▓ рдХреЛ рдХреИрд╕реЗ рд▓реЛрдб рдФрд░ рдЪрд▓рд╛рдирд╛ рд╣реИред рдпрд╣рд╛рдБ TensorRT-LLM рдХреЗ рд▓рд┐рдП рдПрдХ рдмреБрдирд┐рдпрд╛рджреА рдХреЙрдиреНрдлрд╝рд┐рдЧрд░реЗрд╢рди рд╣реИ:

name: "gpt2"
platform: "tensorrt_llm"
max_batch_size: 8

input [
  {
    name: "input_ids"
    data_type: TYPE_INT32
    dims: [-1]
  }
]

output [
  {
    name: "logits"
    data_type: TYPE_FP32
    dims: [-1, -1]
  }
]

рдЪрд░рдг 3: рдЯреНрд░рд╛рдЗрдЯрди рд╕рд░реНрд╡рд░ рд▓реЙрдиреНрдЪ рдХрд░реЗрдВ

рдореЙрдбрд▓ рд░рд┐рдкреЛрдЬрд┐рдЯрд░реА рдХреЗ рд╕рд╛рде рдЯреНрд░рд╛рдЗрдЯрди рдХреЛ рд▓реЙрдиреНрдЪ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдирд┐рдореНрдирд▓рд┐рдЦрд┐рдд рдбреЙрдХрд░ рдХрдорд╛рдВрдб рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░реЗрдВ:

docker run --rm --gpus all \
    -v $(pwd)/model_repository:/models \
    nvcr.io/nvidia/tritonserver:23.05-py3 \
    tritonserver --model-repository=/models

рдЪрд░рдг 4: рдЯреНрд░рд╛рдЗрдЯрди рдХреЛ рдЕрдиреБрдорд╛рди рдЕрдиреБрд░реЛрдз рднреЗрдЬреЗрдВ

рдПрдХ рдмрд╛рд░ рдЬрдм рдЯреНрд░рд╛рдЗрдЯрди рд╕рд░реНрд╡рд░ рдЪрд╛рд▓реВ рд╣реЛ рдЬрд╛рддрд╛ рд╣реИ, рддреЛ рдЖрдк HTTP рдпрд╛ gRPC рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдЗрд╕реЗ рдЕрдиреБрдорд╛рди рдЕрдиреБрд░реЛрдз рднреЗрдЬ рд╕рдХрддреЗ рд╣реИрдВред рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, curl рдЕрдиреБрд░реЛрдз рднреЗрдЬрдиреЗ рдХреЗ рд▓рд┐рдП:

curl -X POST http://localhost:8000/v2/models/gpt2/infer -d '{
  "inputs": [
    {"name": "input_ids", "shape": [1, 128], "datatype": "INT32", "data": [[101, 234, 1243]]}
  ]
}'

рдЯреНрд░рд╛рдЗрдЯреЙрди, рдЯреЗрдиреНрд╕рд░рдЖрд░рдЯреА-рдПрд▓рдПрд▓рдПрдо рдЗрдВрдЬрди рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдЕрдиреБрд░реЛрдз рдХреЛ рд╕рдВрд╕рд╛рдзрд┐рдд рдХрд░реЗрдЧрд╛ рдФрд░ рдЖрдЙрдЯрдкреБрдЯ рдХреЗ рд░реВрдк рдореЗрдВ рд▓реЙрдЧрд┐рдЯ рд▓реМрдЯрд╛рдПрдЧрд╛ред

TensorRT-LLM рдХреЗ рд╕рд╛рде LLM рдЕрдиреБрдорд╛рди рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рд╕рд░реНрд╡реЛрддреНрддрдо рдЕрднреНрдпрд╛рд╕

TensorRT-LLM рдХреА рд╢рдХреНрддрд┐ рдХрд╛ рдкреВрд░рд╛ рд▓рд╛рдн рдЙрдард╛рдиреЗ рдХреЗ рд▓рд┐рдП, рдореЙрдбрд▓ рдЕрдиреБрдХреВрд▓рди рдФрд░ рдкрд░рд┐рдирд┐рдпреЛрдЬрди рджреЛрдиреЛрдВ рдХреЗ рджреМрд░рд╛рди рд╕рд░реНрд╡реЛрддреНрддрдо рдкреНрд░рдерд╛рдУрдВ рдХрд╛ рдкрд╛рд▓рди рдХрд░рдирд╛ рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╣реИред рдпрд╣рд╛рдБ рдХреБрдЫ рдореБрдЦреНрдп рд╕реБрдЭрд╛рд╡ рджрд┐рдП рдЧрдП рд╣реИрдВ:

1. рдЕрдиреБрдХреВрд▓рди рд╕реЗ рдкрд╣рд▓реЗ рдЕрдкрдиреЗ рдореЙрдбрд▓ рдХреА рд░реВрдкрд░реЗрдЦрд╛ рддреИрдпрд╛рд░ рдХрд░реЗрдВ

рдХреНрд╡рд╛рдВрдЯрд╛рдЗрдЬреЗрд╢рди рдпрд╛ рдХрд░реНрдиреЗрд▓ рдлрд╝реНрдпреВрдЬрд╝рди рдЬреИрд╕реЗ рдЕрдиреБрдХреВрд▓рди рд▓рд╛рдЧреВ рдХрд░рдиреЗ рд╕реЗ рдкрд╣рд▓реЗ, рдЕрдкрдиреЗ рдореЙрдбрд▓ рдХреЗ рдирд┐рд╖реНрдкрд╛рджрди рдореЗрдВ рдореМрдЬреВрджрд╛ рдмрд╛рдзрд╛рдУрдВ рдХреЛ рд╕рдордЭрдиреЗ рдХреЗ рд▓рд┐рдП NVIDIA рдХреЗ рдкреНрд░реЛрдлрд╛рдЗрд▓рд┐рдВрдЧ рдЯреВрд▓ (рдЬреИрд╕реЗ Nsight Systems рдпрд╛ TensorRT Profiler) рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░реЗрдВред рдпрд╣ рдЖрдкрдХреЛ рд╕реБрдзрд╛рд░ рдХреЗ рд▓рд┐рдП рд╡рд┐рд╢рд┐рд╖реНрдЯ рдХреНрд╖реЗрддреНрд░реЛрдВ рдХреЛ рд▓рдХреНрд╖рд┐рдд рдХрд░рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИ, рдЬрд┐рд╕рд╕реЗ рдЕрдзрд┐рдХ рдкреНрд░рднрд╛рд╡реА рдЕрдиреБрдХреВрд▓рди рдкреНрд░рд╛рдкреНрдд рд╣реЛрддрд╛ рд╣реИред

2. рдЗрд╖реНрдЯрддрдо рдкреНрд░рджрд░реНрд╢рди рдХреЗ рд▓рд┐рдП рдорд┐рд╢реНрд░рд┐рдд рдкрд░рд┐рд╢реБрджреНрдзрддрд╛ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░реЗрдВ

TensorRT-LLM рдХреЗ рд╕рд╛рде рдореЙрдбрд▓ рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдХрд░рддреЗ рд╕рдордп, рдорд┐рд╢реНрд░рд┐рдд рдкрд░рд┐рд╢реБрджреНрдзрддрд╛ (FP16 рдФрд░ FP32 рдХрд╛ рд╕рдВрдпреЛрдЬрди) рд╕рдЯреАрдХрддрд╛ рдореЗрдВ рдмрдбрд╝реА рдХрдореА рдХреЗ рдмрд┐рдирд╛ рдорд╣рддреНрд╡рдкреВрд░реНрдг рдЧрддрд┐-рд╡реГрджреНрдзрд┐ рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИред рдЧрддрд┐ рдФрд░ рд╕рдЯреАрдХрддрд╛ рдХреЗ рдмреАрдЪ рд╕рд░реНрд╡реЛрддреНрддрдо рд╕рдВрддреБрд▓рди рдХреЗ рд▓рд┐рдП, рдЬрд╣рд╛рдБ рдЙрдкрд▓рдмреНрдз рд╣реЛ, FP8 рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдкрд░ рд╡рд┐рдЪрд╛рд░ рдХрд░реЗрдВ, рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ H100 GPU рдкрд░ред

3. рдмрдбрд╝реЗ рдЕрдиреБрдХреНрд░рдореЛрдВ рдХреЗ рд▓рд┐рдП рдкреГрд╖реНрдард╛рдВрдХрд┐рдд рдзреНрдпрд╛рди рдХрд╛ рд▓рд╛рдн рдЙрдард╛рдПрдБ

рдРрд╕реЗ рдХрд╛рд░реНрдпреЛрдВ рдХреЗ рд▓рд┐рдП рдЬрд┐рдирдореЗрдВ рд▓рдВрдмреЗ рдЗрдирдкреБрдЯ рдЕрдиреБрдХреНрд░рдо рд╢рд╛рдорд┐рд▓ рд╣реЛрддреЗ рд╣реИрдВ, рдЬреИрд╕реЗ рдХрд┐ рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рд╕рд╛рд░рд╛рдВрд╢ рдпрд╛ рдмрд╣реБ-рдЯрд░реНрди рд╡рд╛рд░реНрддрд╛рд▓рд╛рдк, рд╣рдореЗрд╢рд╛ рд╕рдХреНрд╖рдо рдХрд░реЗрдВ рдкреГрд╖реНрдард╛рдВрдХрд┐рдд рдзреНрдпрд╛рди рдореЗрдореЛрд░реА рдЙрдкрдпреЛрдЧ рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдПред рдпрд╣ рдореЗрдореЛрд░реА рдУрд╡рд░рд╣реЗрдб рдХреЛ рдХрдо рдХрд░рддрд╛ рд╣реИ рдФрд░ рдЕрдиреБрдорд╛рди рдХреЗ рджреМрд░рд╛рди рдЖрдЙрдЯ-рдСрдл-рдореЗрдореЛрд░реА рддреНрд░реБрдЯрд┐рдпреЛрдВ рдХреЛ рд░реЛрдХрддрд╛ рд╣реИред

4. рдорд▓реНрдЯреА-GPU рд╕реЗрдЯрдЕрдк рдХреЗ рд▓рд┐рдП рд╕рдорд╛рдирд╛рдВрддрд░рддрд╛ рдХреЛ рдареАрдХ рдХрд░реЗрдВ

рдХрдИ GPU рдпрд╛ рдиреЛрдбреНрд╕ рдкрд░ LLMs рддреИрдирд╛рдд рдХрд░рддреЗ рд╕рдордп, рд╕реЗрдЯрд┐рдВрдЧреНрд╕ рдХреЛ рдареАрдХ рдХрд░рдирд╛ рдЖрд╡рд╢реНрдпрдХ рд╣реИ рдЯреЗрдВрд╕рд░ рд╕рдорд╛рдирддрд╛ рдФрд░ рдкрд╛рдЗрдкрд▓рд╛рдЗрди рд╕рдорд╛рдирддрд╛ рдЖрдкрдХреЗ рд╡рд┐рд╢рд┐рд╖реНрдЯ рдХрд╛рд░реНрдпрднрд╛рд░ рд╕реЗ рдореЗрд▓ рдЦрд╛рдиреЗ рдХреЗ рд▓рд┐рдПред рдЗрди рдореЛрдб рдХреЛ рдЙрдЪрд┐рдд рд░реВрдк рд╕реЗ рдХреЙрдиреНрдлрд╝рд┐рдЧрд░ рдХрд░рдиреЗ рд╕реЗ GPU рдореЗрдВ рдХрдореНрдкреНрдпреВрдЯреЗрд╢рдирд▓ рд▓реЛрдб рдХреЛ рд╕рдорд╛рди рд░реВрдк рд╕реЗ рд╡рд┐рддрд░рд┐рдд рдХрд░рдХреЗ рдорд╣рддреНрд╡рдкреВрд░реНрдг рдкреНрд░рджрд░реНрд╢рди рд╕реБрдзрд╛рд░ рд╣реЛ рд╕рдХрддрд╛ рд╣реИред

рдирд┐рд╖реНрдХрд░реНрд╖

TensorRT-LLM рдмрдбрд╝реЗ рднрд╛рд╖рд╛ рдореЙрдбрд▓ рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдХрд░рдиреЗ рдФрд░ рддреИрдирд╛рдд рдХрд░рдиреЗ рдореЗрдВ рдПрдХ рдЖрджрд░реНрд╢ рдмрджрд▓рд╛рд╡ рдХрд╛ рдкреНрд░рддрд┐рдирд┐рдзрд┐рддреНрд╡ рдХрд░рддрд╛ рд╣реИред рдХреНрд╡рд╛рдВрдЯрд┐рдЬрд╝реЗрд╢рди, рдСрдкрд░реЗрд╢рди рдлрд╝реНрдпреВрдЬрд╝рди, FP8 рдкрд░рд┐рд╢реБрджреНрдзрддрд╛ рдФрд░ рдорд▓реНрдЯреА-GPU рд╕рдорд░реНрдерди рдЬреИрд╕реА рдЕрдкрдиреА рдЙрдиреНрдирдд рд╕реБрд╡рд┐рдзрд╛рдУрдВ рдХреЗ рд╕рд╛рде, TensorRT-LLM LLM рдХреЛ NVIDIA GPU рдкрд░ рддреЗрдЬрд╝реА рд╕реЗ рдФрд░ рдЕрдзрд┐рдХ рдХреБрд╢рд▓рддрд╛ рд╕реЗ рдЪрд▓рд╛рдиреЗ рдореЗрдВ рд╕рдХреНрд╖рдо рдмрдирд╛рддрд╛ рд╣реИред рдЪрд╛рд╣реЗ рдЖрдк рд░реАрдпрд▓-рдЯрд╛рдЗрдо рдЪреИрдЯ рдПрдкреНрд▓рд┐рдХреЗрд╢рди, рдЕрдиреБрд╢рдВрд╕рд╛ рдкреНрд░рдгрд╛рд▓реА рдпрд╛ рдмрдбрд╝реЗ рдкреИрдорд╛рдиреЗ рдкрд░ рднрд╛рд╖рд╛ рдореЙрдбрд▓ рдкрд░ рдХрд╛рдо рдХрд░ рд░рд╣реЗ рд╣реЛрдВ, TensorRT-LLM рдкреНрд░рджрд░реНрд╢рди рдХреА рд╕реАрдорд╛рдУрдВ рдХреЛ рдЖрдЧреЗ рдмрдврд╝рд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдЖрд╡рд╢реНрдпрдХ рдЙрдкрдХрд░рдг рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИред

рдЗрд╕ рдЧрд╛рдЗрдб рдореЗрдВ рдЖрдкрдХреЛ TensorRT-LLM рдХреЛ рд╕реЗрдЯ рдЕрдк рдХрд░рдиреЗ, рдЗрд╕рдХреЗ Python API рдХреЗ рд╕рд╛рде рдореЙрдбрд▓ рдХреЛ рдСрдкреНрдЯрд┐рдорд╛рдЗрдЬрд╝ рдХрд░рдиреЗ, Triton Inference Server рдкрд░ рддреИрдирд╛рдд рдХрд░рдиреЗ рдФрд░ рдХреБрд╢рд▓ рдЕрдиреБрдорд╛рди рдХреЗ рд▓рд┐рдП рд╕рд░реНрд╡реЛрддреНрддрдо рдЕрднреНрдпрд╛рд╕ рд▓рд╛рдЧреВ рдХрд░рдиреЗ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдмрддрд╛рдпрд╛ рдЧрдпрд╛ рд╣реИред TensorRT-LLM рдХреЗ рд╕рд╛рде, рдЖрдк рдЕрдкрдиреЗ AI рд╡рд░реНрдХрд▓реЛрдб рдХреЛ рддреЗрдЬрд╝ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ, рд╡рд┐рд▓рдВрдмрддрд╛ рдХреЛ рдХрдо рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ рдФрд░ рдЙрддреНрдкрд╛рджрди рд╡рд╛рддрд╛рд╡рд░рдг рдореЗрдВ рд╕реНрдХреЗрд▓реЗрдмрд▓ LLM рд╕рдорд╛рдзрд╛рди рдкреНрд░рджрд╛рди рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред

рдЕрдзрд┐рдХ рдЬрд╛рдирдХрд╛рд░реА рдХреЗ рд▓рд┐рдП рдЖрдзрд┐рдХрд╛рд░рд┐рдХ рд╡реЗрдмрд╕рд╛рдЗрдЯ рджреЗрдЦреЗрдВ TensorRT-LLM рджрд╕реНрддрд╛рд╡реЗрдЬрд╝реАрдХрд░рдг рдФрд░ рдЯреНрд░рд╛рдЗрдЯрди рдЗрдВрдлрд░реЗрдВрд╕ рд╕рд░реНрд╡рд░ рджрд╕реНрддрд╛рд╡реЗрдЬрд╝реАрдХрд░рдг.

рдореИрдВрдиреЗ рдкрд┐рдЫрд▓реЗ рдкрд╛рдВрдЪ рд╕рд╛рд▓ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдФрд░ рдбреАрдк рд▓рд░реНрдирд┐рдВрдЧ рдХреА рдЖрдХрд░реНрд╖рдХ рджреБрдирд┐рдпрд╛ рдореЗрдВ рдбреВрдмрдиреЗ рдореЗрдВ рдмрд┐рддрд╛рдП рд╣реИрдВред рдореЗрд░реЗ рдЬреБрдиреВрди рдФрд░ рд╡рд┐рд╢реЗрд╖рдЬреНрдЮрддрд╛ рдиреЗ рдореБрдЭреЗ рдПрдЖрдИ/рдПрдордПрд▓ рдкрд░ рд╡рд┐рд╢реЗрд╖ рдзреНрдпрд╛рди рджреЗрдиреЗ рдХреЗ рд╕рд╛рде 50 рд╕реЗ рдЕрдзрд┐рдХ рд╡рд┐рд╡рд┐рдз рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рдЗрдВрдЬреАрдирд┐рдпрд░рд┐рдВрдЧ рдкрд░рд┐рдпреЛрдЬрдирд╛рдУрдВ рдореЗрдВ рдпреЛрдЧрджрд╛рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдкреНрд░реЗрд░рд┐рдд рдХрд┐рдпрд╛ рд╣реИред рдореЗрд░реА рдирд┐рд░рдВрддрд░ рдЬрд┐рдЬреНрдЮрд╛рд╕рд╛ рдиреЗ рдореБрдЭреЗ рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг рдХреА рдУрд░ рднреА рдЖрдХрд░реНрд╖рд┐рдд рдХрд┐рдпрд╛ рд╣реИ, рдПрдХ рдРрд╕рд╛ рдХреНрд╖реЗрддреНрд░ рдЬрд┐рд╕реЗ рдореИрдВ рдФрд░ рдЕрдзрд┐рдХ рдЬрд╛рдирдиреЗ рдХреЗ рд▓рд┐рдП рдЙрддреНрд╕реБрдХ рд╣реВрдВред