Artificial Intelligence
TensorRT-LLM: рдЕрдзрд┐рдХрддрдо рдкреНрд░рджрд░реНрд╢рди рдХреЗ рд▓рд┐рдП рдмрдбрд╝реЗ рднрд╛рд╖рд╛ рдореЙрдбрд▓ рдЕрдиреБрдорд╛рди рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рд╡реНрдпрд╛рдкрдХ рдЧрд╛рдЗрдб

рдЪреВрдВрдХрд┐ рдмрдбрд╝реЗ рднрд╛рд╖рд╛ рдореЙрдбрд▓ (рдПрд▓рдПрд▓рдПрдо) рдХреА рдорд╛рдВрдЧ рд▓рдЧрд╛рддрд╛рд░ рдмрдврд╝ рд░рд╣реА рд╣реИ, рдЗрд╕рд▓рд┐рдП рддреЗрдЬрд╝, рдХреБрд╢рд▓ рдФрд░ рд╕реНрдХреЗрд▓реЗрдмрд▓ рдЕрдиреБрдорд╛рди рд╕реБрдирд┐рд╢реНрдЪрд┐рдд рдХрд░рдирд╛ рдкрд╣рд▓реЗ рд╕реЗ рдХрд╣реАрдВ рдЕрдзрд┐рдХ рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╣реЛ рдЧрдпрд╛ рд╣реИред TensorRT-рдПрд▓рдПрд▓рдПрдо рдПрд▓рдПрд▓рдПрдо рдЗрдВрдлрд╝рд░реЗрдВрд╕ рдХреЗ рд▓рд┐рдП рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рдбрд┐рдЬрд╝рд╛рдЗрди рдХрд┐рдП рдЧрдП рд╢рдХреНрддрд┐рд╢рд╛рд▓реА рдЯреВрд▓ рдФрд░ рдСрдкреНрдЯрд┐рдорд╛рдЗрдЬрд╝реЗрд╢рди рдХрд╛ рдПрдХ рд╕реЗрдЯ рдкреНрд░рджрд╛рди рдХрд░рдХреЗ рдЗрд╕ рдЪреБрдиреМрддреА рдХрд╛ рд╕рдорд╛рдзрд╛рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрджрдо рдЙрдард╛рдП рд╣реИрдВред TensorRT-LLM рдкреНрд░рджрд░реНрд╢рди рд╕реБрдзрд╛рд░реЛрдВ рдХреА рдПрдХ рдкреНрд░рднрд╛рд╡рд╢рд╛рд▓реА рд╢реНрд░реГрдВрдЦрд▓рд╛ рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИ, рдЬреИрд╕реЗ рдХрд┐ рдХреНрд╡рд╛рдВрдЯрд┐рдЬрд╝реЗрд╢рди, рдХрд░реНрдиреЗрд▓ рдлрд╝реНрдпреВрдЬрд╝рди, рдЗрди-рдлрд╝реНрд▓рд╛рдЗрдЯ рдмреИрдЪрд┐рдВрдЧ рдФрд░ рдорд▓реНрдЯреА-GPU рд╕рдорд░реНрдердиред рдпреЗ рдкреНрд░рдЧрддрд┐ рдкрд╛рд░рдВрдкрд░рд┐рдХ CPU-рдЖрдзрд╛рд░рд┐рдд рд╡рд┐рдзрд┐рдпреЛрдВ рдХреА рддреБрд▓рдирд╛ рдореЗрдВ 8 рдЧреБрдирд╛ рдЕрдзрд┐рдХ рддреЗрдЬрд╝ рдЕрдиреБрдорд╛рди рдЧрддрд┐ рдкреНрд░рд╛рдкреНрдд рдХрд░рдирд╛ рд╕рдВрднрд╡ рдмрдирд╛рддреА рд╣реИ, рдЬрд┐рд╕рд╕реЗ рд╣рдо рдЙрддреНрдкрд╛рджрди рдореЗрдВ LLM рдХреЛ рддреИрдирд╛рдд рдХрд░рдиреЗ рдХреЗ рддрд░реАрдХреЗ рдХреЛ рдмрджрд▓ рджреЗрддреЗ рд╣реИрдВред
рдпрд╣ рд╡реНрдпрд╛рдкрдХ рдЧрд╛рдЗрдб TensorRT-LLM рдХреЗ рд╕рднреА рдкрд╣рд▓реБрдУрдВ рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛рдПрдЧреА, рдЗрд╕рдХреА рд╡рд╛рд╕реНрддреБрдХрд▓рд╛ рдФрд░ рдкреНрд░рдореБрдЦ рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рд╕реЗ рд▓реЗрдХрд░ рдореЙрдбрд▓ рддреИрдирд╛рдд рдХрд░рдиреЗ рдХреЗ рд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ рдЙрджрд╛рд╣рд░рдгреЛрдВ рддрдХред рдЪрд╛рд╣реЗ рдЖрдк рдПрдХ AI рдЗрдВрдЬреАрдирд┐рдпрд░, рд╕реЙрдлрд╝реНрдЯрд╡реЗрдпрд░ рдбреЗрд╡рд▓рдкрд░ рдпрд╛ рд╢реЛрдзрдХрд░реНрддрд╛ рд╣реЛрдВ, рдпрд╣ рдЧрд╛рдЗрдб рдЖрдкрдХреЛ NVIDIA GPU рдкрд░ LLM рдЕрдиреБрдорд╛рди рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП TensorRT-LLM рдХрд╛ рд▓рд╛рдн рдЙрдард╛рдиреЗ рдХрд╛ рдЬреНрдЮрд╛рди рджреЗрдЧрд╛ред
TensorRT-LLM рдХреЗ рд╕рд╛рде LLM рдЕрдиреБрдорд╛рди рдХреЛ рдЧрддрд┐ рджреЗрдирд╛
TensorRT-LLM, LLM рдЗрдВрдлрд╝рд░реЗрдВрд╕ рдкреНрд░рджрд░реНрд╢рди рдореЗрдВ рдирд╛рдЯрдХреАрдп рд╕реБрдзрд╛рд░ рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИред NVIDIA рдХреЗ рдкрд░реАрдХреНрд╖рдгреЛрдВ рдХреЗ рдЕрдиреБрд╕рд╛рд░, TensorRT рдкрд░ рдЖрдзрд╛рд░рд┐рдд рдЕрдиреБрдкреНрд░рдпреЛрдЧ рджрд┐рдЦрд╛рддреЗ рд╣реИрдВ 8x рддреЗрдЬ рд╕реАрдкреАрдпреВ-рдУрдирд▓реА рдкреНрд▓реЗрдЯрдлрд╝реЙрд░реНрдо рдХреА рддреБрд▓рдирд╛ рдореЗрдВ рдЕрдиреБрдорд╛рди рд▓рдЧрд╛рдиреЗ рдХреА рдЧрддрд┐ред рдпрд╣ рдЪреИрдЯрдмреЙрдЯ, рдЕрдиреБрд╢рдВрд╕рд╛ рдкреНрд░рдгрд╛рд▓реА рдФрд░ рд╕реНрд╡рд╛рдпрддреНрдд рдкреНрд░рдгрд╛рд▓рд┐рдпреЛрдВ рдЬреИрд╕реЗ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╕рдордп рдХреЗ рдЕрдиреБрдкреНрд░рдпреЛрдЧреЛрдВ рдореЗрдВ рдПрдХ рдорд╣рддреНрд╡рдкреВрд░реНрдг рдкреНрд░рдЧрддрд┐ рд╣реИ, рдЬрд┐рдиреНрд╣реЗрдВ рддреНрд╡рд░рд┐рдд рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛рдУрдВ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реЛрддреА рд╣реИред
рдпрд╣ рдХрд╛рдо рдХрд┐рд╕ рдкреНрд░рдХрд╛рд░ рдХрд░рддрд╛ рд╣реИ
TensorRT-LLM рдирд┐рдореНрдирд▓рд┐рдЦрд┐рдд рддрдХрдиреАрдХреЛрдВ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдкрд░рд┐рдирд┐рдпреЛрдЬрди рдХреЗ рджреМрд░рд╛рди рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдХрд░рдХреЗ рдЕрдиреБрдорд╛рди рдХреЛ рдЧрддрд┐ рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИ:
- рдкрд░рд┐рдорд╛рдгреАрдХрд░рдг: рднрд╛рд░ рдФрд░ рд╕рдХреНрд░рд┐рдпрдг рдХреА рд╕рдЯреАрдХрддрд╛ рдХреЛ рдХрдо рдХрд░рддрд╛ рд╣реИ, рдореЙрдбрд▓ рдХреЗ рдЖрдХрд╛рд░ рдХреЛ рдЫреЛрдЯрд╛ рдХрд░рддрд╛ рд╣реИ рдФрд░ рдЕрдиреБрдорд╛рди рдХреА рдЧрддрд┐ рдореЗрдВ рд╕реБрдзрд╛рд░ рдХрд░рддрд╛ рд╣реИред
- рдкрд░рдд рдФрд░ рдЯреЗрдВрд╕рд░ рдлреНрдпреВрдЬрди: рд╕рдХреНрд░рд┐рдпрдг рдлрд╝рдВрдХреНрд╢рди рдФрд░ рдореИрдЯреНрд░рд┐рдХреНрд╕ рдЧреБрдгрди рдЬреИрд╕реЗ рдСрдкрд░реЗрд╢рдиреЛрдВ рдХреЛ рдПрдХрд▓ рдСрдкрд░реЗрд╢рди рдореЗрдВ рд╡рд┐рд▓рдп рдХрд░рддрд╛ рд╣реИред
- рдХрд░реНрдиреЗрд▓ рдЯреНрдпреВрдирд┐рдВрдЧ: GPU рд╕рдВрдЧрдгрдирд╛ рдХреЗ рд▓рд┐рдП рдЗрд╖реНрдЯрддрдо CUDA рдХрд░реНрдиреЗрд▓ рдХрд╛ рдЪрдпрди рдХрд░рддрд╛ рд╣реИ, рдЬрд┐рд╕рд╕реЗ рдирд┐рд╖реНрдкрд╛рджрди рд╕рдордп рдХрдо рд╣реЛ рдЬрд╛рддрд╛ рд╣реИред
рдпреЗ рдЕрдиреБрдХреВрд▓рди рд╕реБрдирд┐рд╢реНрдЪрд┐рдд рдХрд░рддреЗ рд╣реИрдВ рдХрд┐ рдЖрдкрдХреЗ LLM рдореЙрдбрд▓ рд╣рд╛рдЗрдкрд░рд╕реНрдХреЗрд▓ рдбреЗрдЯрд╛ рд╕реЗрдВрдЯрд░ рд╕реЗ рд▓реЗрдХрд░ рдПрдореНрдмреЗрдбреЗрдб рд╕рд┐рд╕реНрдЯрдо рддрдХ, рдкрд░рд┐рдирд┐рдпреЛрдЬрди рдкреНрд▓реЗрдЯрдлрд╛рд░реНрдореЛрдВ рдХреА рдПрдХ рд╡рд┐рд╕реНрддреГрдд рд╢реНрд░реГрдВрдЦрд▓рд╛ рдореЗрдВ рдХреБрд╢рд▓рддрд╛рдкреВрд░реНрд╡рдХ рдкреНрд░рджрд░реНрд╢рди рдХрд░рддреЗ рд╣реИрдВред
TensorRT рдХреЗ рд╕рд╛рде рдЕрдиреБрдорд╛рди рдкреНрд░рджрд░реНрд╢рди рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдХрд░рдирд╛
NVIDIA рдХреЗ CUDA рд╕рдорд╛рдирд╛рдВрддрд░ рдкреНрд░реЛрдЧреНрд░рд╛рдорд┐рдВрдЧ рдореЙрдбрд▓ рдкрд░ рдирд┐рд░реНрдорд┐рдд, TensorRT NVIDIA GPU рдкрд░ рдЕрдиреБрдорд╛рди рдХреЗ рд▓рд┐рдП рдЕрддреНрдпрдзрд┐рдХ рд╡рд┐рд╢рд┐рд╖реНрдЯ рдЕрдиреБрдХреВрд▓рди рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИред рдХреНрд╡рд╛рдВрдЯрд┐рдЬрд╝реЗрд╢рди, рдХрд░реНрдиреЗрд▓ рдЯреНрдпреВрдирд┐рдВрдЧ рдФрд░ рдЯреЗрдВрд╕рд░ рд╕рдВрдЪрд╛рд▓рди рдХреЗ рдлрд╝реНрдпреВрдЬрд╝рди рдЬреИрд╕реА рдкреНрд░рдХреНрд░рд┐рдпрд╛рдУрдВ рдХреЛ рд╕реБрд╡реНрдпрд╡рд╕реНрдерд┐рдд рдХрд░рдХреЗ, TensorRT рд╕реБрдирд┐рд╢реНрдЪрд┐рдд рдХрд░рддрд╛ рд╣реИ рдХрд┐ LLM рдиреНрдпреВрдирддрдо рд╡рд┐рд▓рдВрдмрддрд╛ рдХреЗ рд╕рд╛рде рдЪрд▓ рд╕рдХреЗрдВред
рдХреБрдЫ рд╕рд░реНрд╡рд╛рдзрд┐рдХ рдкреНрд░рднрд╛рд╡реА рддрдХрдиреАрдХреЗрдВ рдЗрд╕ рдкреНрд░рдХрд╛рд░ рд╣реИрдВ:
- рдкрд░рд┐рдорд╛рдгреАрдХрд░рдг: рдпрд╣ рдЙрдЪреНрдЪ рд╕рдЯреАрдХрддрд╛ рдмрдирд╛рдП рд░рдЦрддреЗ рд╣реБрдП рдореЙрдбрд▓ рдорд╛рдкрджрдВрдбреЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛рддреНрдордХ рдкрд░рд┐рд╢реБрджреНрдзрддрд╛ рдХреЛ рдХрдо рдХрд░рддрд╛ рд╣реИ, рдЬрд┐рд╕рд╕реЗ рдЕрдиреБрдорд╛рди рд▓рдЧрд╛рдиреЗ рдореЗрдВ рдкреНрд░рднрд╛рд╡реА рд░реВрдк рд╕реЗ рддреЗрдЬреА рдЖрддреА рд╣реИред
- рдЯреЗрдВрд╕рд░ рдлреНрдпреВрдЬрдирдПрдХрд▓ CUDA рдХрд░реНрдиреЗрд▓ рдореЗрдВ рдХрдИ рдСрдкрд░реЗрд╢рдиреЛрдВ рдХреЛ рд╕рдореНрдорд┐рд▓рд┐рдд рдХрд░рдХреЗ, TensorRT рдореЗрдореЛрд░реА рдУрд╡рд░рд╣реЗрдб рдХреЛ рдХрдо рдХрд░рддрд╛ рд╣реИ рдФрд░ рдереНрд░реВрдкреБрдЯ рдХреЛ рдмрдврд╝рд╛рддрд╛ рд╣реИред
- рдХрд░реНрдиреЗрд▓ рдСрдЯреЛ-рдЯреНрдпреВрдирд┐рдВрдЧTensorRT рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рд░реВрдк рд╕реЗ рдкреНрд░рддреНрдпреЗрдХ рдСрдкрд░реЗрд╢рди рдХреЗ рд▓рд┐рдП рд╕рд░реНрд╡реЛрддреНрддрдо рдХрд░реНрдиреЗрд▓ рдХрд╛ рдЪрдпрди рдХрд░рддрд╛ рд╣реИ, рддрдерд╛ рджрд┐рдП рдЧрдП GPU рдХреЗ рд▓рд┐рдП рдЕрдиреБрдорд╛рди рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдХрд░рддрд╛ рд╣реИред
рдпреЗ рддрдХрдиреАрдХреЗрдВ TensorRT-LLM рдХреЛ рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг, рдЕрдиреБрд╢рдВрд╕рд╛ рдЗрдВрдЬрди рдФрд░ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╕рдордп рд╡реАрдбрд┐рдпреЛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдЬреИрд╕реЗ рдЧрд╣рди рд╢рд┐рдХреНрд╖рдг рдХрд╛рд░реНрдпреЛрдВ рдХреЗ рд▓рд┐рдП рдЕрдиреБрдорд╛рди рдкреНрд░рджрд░реНрд╢рди рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдХрд░рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддреА рд╣реИрдВред
TensorRT рдХреЗ рд╕рд╛рде AI рдХрд╛рд░реНрдпрднрд╛рд░ рдореЗрдВ рддреЗрдЬреА рд▓рд╛рдирд╛
TensorRT рдЬреИрд╕реЗ рд╕рдЯреАрдХ рдЕрдиреБрдХреВрд▓рди рдХреЛ рд╢рд╛рдорд┐рд▓ рдХрд░рдХреЗ рдЧрд╣рди рд╢рд┐рдХреНрд╖рдг рдХрд╛рд░реНрдпрднрд╛рд░ рдХреЛ рдЧрддрд┐ рджреЗрддрд╛ рд╣реИ INT8 рдФрд░ FP16рдпреЗ рдХрдо-рд╕рдЯреАрдХрддрд╛ рд╡рд╛рд▓реЗ рдкреНрд░рд╛рд░реВрдк рд╕рдЯреАрдХрддрд╛ рдмрдирд╛рдП рд░рдЦрддреЗ рд╣реБрдП рдХрд╛рдлреА рддреЗрдЬреА рд╕реЗ рдЕрдиреБрдорд╛рди рд▓рдЧрд╛рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддреЗ рд╣реИрдВред рдпрд╣ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╕рдордп рдХреЗ рдЕрдиреБрдкреНрд░рдпреЛрдЧреЛрдВ рдореЗрдВ рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рдореВрд▓реНрдпрд╡рд╛рди рд╣реИ рдЬрд╣рд╛рдВ рдХрдо рд╡рд┐рд▓рдВрдмрддрд╛ рдПрдХ рдорд╣рддреНрд╡рдкреВрд░реНрдг рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИред
INT8 рдФрд░ FP16 рдЕрдиреБрдХреВрд▓рди рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рдирд┐рдореНрдирд▓рд┐рдЦрд┐рдд рдореЗрдВ рдкреНрд░рднрд╛рд╡реА рд╣реИрдВ:
- рд╡реАрдбрд┐рдпреЛ рд╕реНрдЯреНрд░реАрдорд┐рдВрдЧAI-рдЖрдзрд╛рд░рд┐рдд рд╡реАрдбрд┐рдпреЛ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг рдХрд╛рд░реНрдп, рдЬреИрд╕реЗ рдСрдмреНрдЬреЗрдХреНрдЯ рдбрд┐рдЯреЗрдХреНрд╢рди, рдлрд╝реНрд░реЗрдо рдХреЛ рд╕рдВрд╕рд╛рдзрд┐рдд рдХрд░рдиреЗ рдореЗрдВ рд▓рдЧрдиреЗ рд╡рд╛рд▓реЗ рд╕рдордп рдХреЛ рдХрдо рдХрд░рдХреЗ рдЗрди рдЕрдиреБрдХреВрд▓рдиреЛрдВ рд╕реЗ рд▓рд╛рднрд╛рдиреНрд╡рд┐рдд рд╣реЛрддреЗ рд╣реИрдВред
- рд╕рд┐рдлрд╛рд░рд┐рд╢ рдкреНрд░рдгрд╛рд▓реАрдмрдбрд╝реА рдорд╛рддреНрд░рд╛ рдореЗрдВ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рдбреЗрдЯрд╛ рдХреЛ рд╕рдВрд╕рд╛рдзрд┐рдд рдХрд░рдиреЗ рд╡рд╛рд▓реЗ рдореЙрдбрд▓ рдХреЗ рд▓рд┐рдП рдЕрдиреБрдорд╛рди рдХреЛ рддреЗрдЬ рдХрд░рдХреЗ, TensorRT рдмрдбрд╝реЗ рдкреИрдорд╛рдиреЗ рдкрд░ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╕рдордп рдХреЗ рдирд┐рдЬреАрдХрд░рдг рдХреЛ рд╕рдХреНрд╖рдо рдмрдирд╛рддрд╛ рд╣реИред
- рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг (рдПрдирдПрд▓рдкреА)TensorRT рдкрд╛рда рдирд┐рд░реНрдорд╛рдг, рдЕрдиреБрд╡рд╛рдж рдФрд░ рд╕рд╛рд░рд╛рдВрд╢ рдЬреИрд╕реЗ NLP рдХрд╛рд░реНрдпреЛрдВ рдХреА рдЧрддрд┐ рдореЗрдВ рд╕реБрдзрд╛рд░ рдХрд░рддрд╛ рд╣реИ, рдЬрд┐рд╕рд╕реЗ рд╡реЗ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╕рдордп рдХреЗ рдЕрдиреБрдкреНрд░рдпреЛрдЧреЛрдВ рдХреЗ рд▓рд┐рдП рдЙрдкрдпреБрдХреНрдд рд╣реЛ рдЬрд╛рддреЗ рд╣реИрдВред
NVIDIA Triton рдХреЗ рд╕рд╛рде рддреИрдирд╛рдд рдХрд░реЗрдВ, рдЪрд▓рд╛рдПрдВ рдФрд░ рд╕реНрдХреЗрд▓ рдХрд░реЗрдВ
рдПрдХ рдмрд╛рд░ рдЬрдм рдЖрдкрдХрд╛ рдореЙрдбрд▓ TensorRT-LLM рдХреЗ рд╕рд╛рде рдЕрдиреБрдХреВрд▓рд┐рдд рд╣реЛ рдЬрд╛рддрд╛ рд╣реИ, рддреЛ рдЖрдк рдЗрд╕рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдЖрд╕рд╛рдиреА рд╕реЗ рдЗрд╕реЗ рддреИрдирд╛рдд, рдЪрд▓рд╛ рдФрд░ рд╕реНрдХреЗрд▓ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ NVIDIA рдЯреНрд░рд╛рдЗрдЯрди рдЕрдиреБрдорд╛рди рд╕рд░реНрд╡рд░рдЯреНрд░рд╛рдЗрдЯрди рдПрдХ рдУрдкрди-рд╕реЛрд░реНрд╕ рд╕реЙрдлрд╝реНрдЯрд╡реЗрдпрд░ рд╣реИ рдЬреЛ рдбрд╛рдпрдиреЗрдорд┐рдХ рдмреИрдЪрд┐рдВрдЧ, рдореЙрдбрд▓ рдПрдиреНрд╕реЗрдореНрдмрд▓ рдФрд░ рд╣рд╛рдИ рдереНрд░реВрдкреБрдЯ рдХрд╛ рд╕рдорд░реНрдерди рдХрд░рддрд╛ рд╣реИред рдпрд╣ рдмрдбрд╝реЗ рдкреИрдорд╛рдиреЗ рдкрд░ AI рдореЙрдбрд▓ рдХреЗ рдкреНрд░рдмрдВрдзрди рдХреЗ рд▓рд┐рдП рдПрдХ рд▓рдЪреАрд▓рд╛ рд╡рд╛рддрд╛рд╡рд░рдг рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИред
рдХреБрдЫ рдкреНрд░рдореБрдЦ рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдореЗрдВ рд╢рд╛рдорд┐рд▓ рд╣реИрдВ:
- рд╕рдорд╡рд░реНрддреА рдореЙрдбрд▓ рдирд┐рд╖реНрдкрд╛рджрди: GPU рдЙрдкрдпреЛрдЧ рдХреЛ рдЕрдзрд┐рдХрддрдо рдХрд░рддреЗ рд╣реБрдП рдПрдХ рд╕рд╛рде рдХрдИ рдореЙрдбрд▓ рдЪрд▓рд╛рдПрдВред
- рдЧрддрд┐рд╢реАрд▓ рдмреИрдЪрд┐рдВрдЧ: рдПрдХрд╛рдзрд┐рдХ рдЕрдиреБрдорд╛рди рдЕрдиреБрд░реЛрдзреЛрдВ рдХреЛ рдПрдХ рдмреИрдЪ рдореЗрдВ рд╕рдВрдпреЛрдЬрд┐рдд рдХрд░рддрд╛ рд╣реИ, рдЬрд┐рд╕рд╕реЗ рд╡рд┐рд▓рдВрдмрддрд╛ рдХрдо рд╣реЛрддреА рд╣реИ рдФрд░ рдереНрд░реВрдкреБрдЯ рдмрдврд╝рддрд╛ рд╣реИред
- рд╕реНрдЯреНрд░реАрдорд┐рдВрдЧ рдСрдбрд┐рдпреЛ/рд╡реАрдбрд┐рдпреЛ рдЗрдирдкреБрдЯ: рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╕рдордп рдЕрдиреБрдкреНрд░рдпреЛрдЧреЛрдВ рдореЗрдВ рдЗрдирдкреБрдЯ рд╕реНрдЯреНрд░реАрдо рдХрд╛ рд╕рдорд░реНрдерди рдХрд░рддрд╛ рд╣реИ, рдЬреИрд╕реЗ рд▓рд╛рдЗрд╡ рд╡реАрдбрд┐рдпреЛ рдПрдирд╛рд▓рд┐рдЯрд┐рдХреНрд╕ рдпрд╛ рд╕реНрдкреАрдЪ-рдЯреВ-рдЯреЗрдХреНрд╕реНрдЯ рд╕реЗрд╡рд╛рдПрдВред
рдпрд╣ рдЯреНрд░рд╛рдЗрдЯреЙрди рдХреЛ рдЙрддреНрдкрд╛рджрди рд╡рд╛рддрд╛рд╡рд░рдг рдореЗрдВ TensorRT-LLM рдЕрдиреБрдХреВрд▓рд┐рдд рдореЙрдбрд▓реЛрдВ рдХреЛ рддреИрдирд╛рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдореВрд▓реНрдпрд╡рд╛рди рдЙрдкрдХрд░рдг рдмрдирд╛рддрд╛ рд╣реИ, рдЬреЛ рдЙрдЪреНрдЪ рдорд╛рдкрдиреАрдпрддрд╛ рдФрд░ рджрдХреНрд╖рддрд╛ рд╕реБрдирд┐рд╢реНрдЪрд┐рдд рдХрд░рддрд╛ рд╣реИред
рдПрд▓рдПрд▓рдПрдо рдЕрдиреБрдорд╛рди рдХреЗ рд▓рд┐рдП рдЯреЗрдВрд╕рд░рдЖрд░рдЯреА-рдПрд▓рдПрд▓рдПрдо рдХреА рдореБрдЦреНрдп рд╡рд┐рд╢реЗрд╖рддрд╛рдПрдВ
рдУрдкрди рд╕реЛрд░реНрд╕ рдкрд╛рдпрдерди рдПрдкреАрдЖрдИ
TensorRT-LLM рдПрдХ рдЕрддреНрдпрдзрд┐рдХ рдореЙрдбреНрдпреВрд▓рд░ рдФрд░ рдУрдкрди-рд╕реЛрд░реНрд╕ рдкрд╛рдпрдерди рдПрдкреАрдЖрдИ, рдПрд▓рдПрд▓рдПрдо рдХреЛ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рдиреЗ, рдЕрдиреБрдХреВрд▓рд┐рдд рдХрд░рдиреЗ рдФрд░ рдирд┐рд╖реНрдкрд╛рджрд┐рдд рдХрд░рдиреЗ рдХреА рдкреНрд░рдХреНрд░рд┐рдпрд╛ рдХреЛ рд╕рд░рд▓ рдмрдирд╛рддрд╛ рд╣реИред рдПрдкреАрдЖрдИ рдбреЗрд╡рд▓рдкрд░реНрд╕ рдХреЛ рдХрд╕реНрдЯрдо рдПрд▓рдПрд▓рдПрдо рдмрдирд╛рдиреЗ рдпрд╛ рдЕрдкрдиреА рдЖрд╡рд╢реНрдпрдХрддрд╛рдУрдВ рдХреЗ рдЕрдиреБрд░реВрдк рдкреВрд░реНрд╡-рдирд┐рд░реНрдорд┐рдд рдПрд▓рдПрд▓рдПрдо рдХреЛ рд╕рдВрд╢реЛрдзрд┐рдд рдХрд░рдиреЗ рдореЗрдВ рд╕рдХреНрд╖рдо рдмрдирд╛рддрд╛ рд╣реИ, рдмрд┐рдирд╛ рд╕реАрдпреВрдбреАрдП рдпрд╛ рдбреАрдк рд▓рд░реНрдирд┐рдВрдЧ рдлреНрд░реЗрдорд╡рд░реНрдХ рдХреЗ рдЧрд╣рди рдЬреНрдЮрд╛рди рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рдХреЗред
рдЗрди-рдлрд╝реНрд▓рд╛рдЗрдЯ рдмреИрдЪрд┐рдВрдЧ рдФрд░ рдкреЗрдЬреНрдб рдЕрдЯреЗрдВрд╢рди
TensorRT-LLM рдХреА рдПрдХ рдкреНрд░рдореБрдЦ рд╡рд┐рд╢реЗрд╖рддрд╛ рдпрд╣ рд╣реИ рдЗрди-рдлрд╝реНрд▓рд╛рдЗрдЯ рдмреИрдЪрд┐рдВрдЧ, рдЬреЛ рдПрдХ рд╕рд╛рде рдХрдИ рдЕрдиреБрд░реЛрдзреЛрдВ рдХреЛ рд╕рдВрд╕рд╛рдзрд┐рдд рдХрд░рдХреЗ рдкрд╛рда рдирд┐рд░реНрдорд╛рдг рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдХрд░рддрд╛ рд╣реИред рдпрд╣ рд╕реБрд╡рд┐рдзрд╛ рдкреНрд░рддреАрдХреНрд╖рд╛ рд╕рдордп рдХреЛ рдХрдо рдХрд░рддреА рд╣реИ рдФрд░ рдЕрдиреБрдХреНрд░рдореЛрдВ рдХреЛ рдЧрддрд┐рд╢реАрд▓ рд░реВрдк рд╕реЗ рдмреИрдЪ рдХрд░рдХреЗ GPU рдЙрдкрдпреЛрдЧ рдХреЛ рдмреЗрд╣рддрд░ рдмрдирд╛рддреА рд╣реИред
рдЗрд╕рдХреЗ рдЕрддрд┐рд░рд┐рдХреНрдд, рдкреГрд╖реНрдард╛рдВрдХрд┐рдд рдзреНрдпрд╛рди рдпрд╣ рд╕реБрдирд┐рд╢реНрдЪрд┐рдд рдХрд░рддрд╛ рд╣реИ рдХрд┐ рд▓рдВрдмреЗ рдЗрдирдкреБрдЯ рдЕрдиреБрдХреНрд░рдореЛрдВ рдХреЛ рд╕рдВрд╕рд╛рдзрд┐рдд рдХрд░рддреЗ рд╕рдордп рднреА рдореЗрдореЛрд░реА рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрдо рд░рд╣реЗред рд╕рднреА рдЯреЛрдХрди рдХреЗ рд▓рд┐рдП рд╕рдиреНрдирд┐рд╣рд┐рдд рдореЗрдореЛрд░реА рдЖрд╡рдВрдЯрд┐рдд рдХрд░рдиреЗ рдХреЗ рдмрдЬрд╛рдп, рдкреЗрдЬреНрдб рдЕрдЯреЗрдВрд╢рди рдореЗрдореЛрд░реА рдХреЛ "рдкреЗрдЬреЛрдВ" рдореЗрдВ рддреЛрдбрд╝ рджреЗрддрд╛ рд╣реИ рдЬрд┐рдиреНрд╣реЗрдВ рдЧрддрд┐рд╢реАрд▓ рд░реВрдк рд╕реЗ рдкреБрдирдГ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ, рдЬрд┐рд╕рд╕реЗ рдореЗрдореЛрд░реА рд╡рд┐рдЦрдВрдбрди рдХреЛ рд░реЛрдХрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ рдФрд░ рджрдХреНрд╖рддрд╛ рдореЗрдВ рд╕реБрдзрд╛рд░ рд╣реЛрддрд╛ рд╣реИред
рдорд▓реНрдЯреА-рдЬреАрдкреАрдпреВ рдФрд░ рдорд▓реНрдЯреА-рдиреЛрдб рдЗрдВрдлреНрд░реЗрдВрд╕
рдмрдбрд╝реЗ рдореЙрдбрд▓ рдпрд╛ рдЕрдзрд┐рдХ рдЬрдЯрд┐рд▓ рдХрд╛рд░реНрдпрднрд╛рд░ рдХреЗ рд▓рд┐рдП, TensorRT-LLM рд╕рдорд░реНрдерди рдХрд░рддрд╛ рд╣реИ рдмрд╣реБ GPU рдФрд░ рдмрд╣реБ-рдиреЛрдб рдЕрдиреБрдорд╛рдирдпрд╣ рдХреНрд╖рдорддрд╛ рдХрдИ GPU рдпрд╛ рдиреЛрдбреНрд╕ рдореЗрдВ рдореЙрдбрд▓ рдХрдВрдкреНрдпреВрдЯреЗрд╢рдВрд╕ рдХреЗ рд╡рд┐рддрд░рдг рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддреА рд╣реИ, рдЬрд┐рд╕рд╕реЗ рдереНрд░реВрдкреБрдЯ рдореЗрдВ рд╕реБрдзрд╛рд░ рд╣реЛрддрд╛ рд╣реИ рдФрд░ рд╕рдордЧреНрд░ рдЕрдиреБрдорд╛рди рд╕рдордп рдХрдо рд╣реЛ рдЬрд╛рддрд╛ рд╣реИред
FP8 рд╕рдорд░реНрдерди
рдХреЗ рдЖрдЧрдорди рдХреЗ рд╕рд╛рде FP8 (8-рдмрд┐рдЯ рдлрд╝реНрд▓реЛрдЯрд┐рдВрдЧ рдкреЙрдЗрдВрдЯ), TensorRT-LLM NVIDIA рдХреЗ H100 GPU рдХрд╛ рд▓рд╛рдн рдЙрдард╛рддрд╛ рд╣реИ рддрд╛рдХрд┐ рдореЙрдбрд▓ рд╡рдЬрд╝рди рдХреЛ рдЕрдиреБрдХреВрд▓рд┐рдд рдЕрдиреБрдорд╛рди рдХреЗ рд▓рд┐рдП рдЗрд╕ рдлрд╝реЙрд░реНрдореЗрдЯ рдореЗрдВ рдкрд░рд┐рд╡рд░реНрддрд┐рдд рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХреЗред FP8 рдореЗрдореЛрд░реА рдЦрдкрдд рдХреЛ рдХрдо рдХрд░рддрд╛ рд╣реИ рдФрд░ рддреЗрдЬрд╝ рдЧрдгрдирд╛ рдХрд░рддрд╛ рд╣реИ, рдЬреЛ рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рдмрдбрд╝реЗ рдкреИрдорд╛рдиреЗ рдкрд░ рддреИрдирд╛рддреА рдореЗрдВ рдЙрдкрдпреЛрдЧреА рд╣реИред
TensorRT-LLM рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░ рдФрд░ рдШрдЯрдХ
TensorRT-LLM рдХреА рд╡рд╛рд╕реНрддреБрдХрд▓рд╛ рдХреЛ рд╕рдордЭрдиреЗ рд╕реЗ рдЖрдкрдХреЛ LLM рдЕрдиреБрдорд╛рди рдХреЗ рд▓рд┐рдП рдЗрд╕рдХреА рдХреНрд╖рдорддрд╛рдУрдВ рдХрд╛ рдмреЗрд╣рддрд░ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдореЗрдВ рдорджрдж рдорд┐рд▓реЗрдЧреАред рдЖрдЗрдП рдореБрдЦреНрдп рдШрдЯрдХреЛрдВ рдХреЛ рддреЛрдбрд╝реЗрдВ:
рдореЙрдбрд▓ рдкрд░рд┐рднрд╛рд╖рд╛
TensorRT-LLM рдЖрдкрдХреЛ рд╕рд░рд▓ рдкрд╛рдпрдерди API рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ LLM рдХреЛ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИред API рдПрдХ рдирд┐рд░реНрдорд╛рдг рдХрд░рддрд╛ рд╣реИ рдЧреНрд░рд╛рдл рдкреНрд░рддрд┐рдирд┐рдзрд┐рддреНрд╡ рдореЙрдбрд▓ рдХрд╛, GPT рдпрд╛ BERT рдЬреИрд╕реЗ LLM рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░ рдореЗрдВ рд╢рд╛рдорд┐рд▓ рдЬрдЯрд┐рд▓ рдкрд░рддреЛрдВ рдХреЛ рдкреНрд░рдмрдВрдзрд┐рдд рдХрд░рдирд╛ рдЖрд╕рд╛рди рдмрдирд╛рддрд╛ рд╣реИред
рд╡рдЬрди рдмрдВрдзрди
рдореЙрдбрд▓ рдХреЛ рд╕рдВрдХрд▓рд┐рдд рдХрд░рдиреЗ рд╕реЗ рдкрд╣рд▓реЗ, рднрд╛рд░ (рдпрд╛ рдкреИрд░рд╛рдореАрдЯрд░) рдХреЛ рдиреЗрдЯрд╡рд░реНрдХ рд╕реЗ рдмрд╛рдВрдзрд╛ рдЬрд╛рдирд╛ рдЪрд╛рд╣рд┐рдПред рдпрд╣ рдХрджрдо рд╕реБрдирд┐рд╢реНрдЪрд┐рдд рдХрд░рддрд╛ рд╣реИ рдХрд┐ рднрд╛рд░ TensorRT рдЗрдВрдЬрди рдХреЗ рднреАрддрд░ рдПрдореНрдмреЗрдбреЗрдб рд╣реИрдВ, рдЬрд┐рд╕рд╕реЗ рддреЗрдЬрд╝ рдФрд░ рдХреБрд╢рд▓ рдЕрдиреБрдорд╛рди рд▓рдЧрд╛рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред TensorRT-LLM рд╕рдВрдХрд▓рди рдХреЗ рдмрд╛рдж рднрд╛рд░ рдЕрдкрдбреЗрдЯ рдХрд░рдиреЗ рдХреА рднреА рдЕрдиреБрдорддрд┐ рджреЗрддрд╛ рд╣реИ, рдЬрд┐рд╕рд╕реЗ рдЙрди рдореЙрдбрд▓реЛрдВ рдХреЗ рд▓рд┐рдП рд▓рдЪреАрд▓рд╛рдкрди рдмрдврд╝рддрд╛ рд╣реИ рдЬрд┐рдиреНрд╣реЗрдВ рдмрд╛рд░-рдмрд╛рд░ рдЕрдкрдбреЗрдЯ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реЛрддреА рд╣реИред
рдкреИрдЯрд░реНрди рдорд┐рд▓рд╛рди рдФрд░ рд╕рдВрд▓рдпрди
рдСрдкрд░реЗрд╢рди рдлреНрдпреВрдЬрди TensorRT-LLM рдХреА рдПрдХ рдФрд░ рд╢рдХреНрддрд┐рд╢рд╛рд▓реА рд╡рд┐рд╢реЗрд╖рддрд╛ рд╣реИред рдПрдХ рд╣реА CUDA рдХрд░реНрдиреЗрд▓ рдореЗрдВ рдХрдИ рдСрдкрд░реЗрд╢рди (рдЬреИрд╕реЗ, рдореИрдЯреНрд░рд┐рдХреНрд╕ рдЧреБрдгрди рдХреЛ рд╕рдХреНрд░рд┐рдпрдг рдлрд╝рдВрдХреНрд╢рди рдХреЗ рд╕рд╛рде) рдХреЛ рдЬреЛрдбрд╝рдХрд░, TensorRT рдХрдИ рдХрд░реНрдиреЗрд▓ рд▓реЙрдиреНрдЪ рд╕реЗ рдЬреБрдбрд╝реЗ рдУрд╡рд░рд╣реЗрдб рдХреЛ рдХрдо рдХрд░рддрд╛ рд╣реИред рдпрд╣ рдореЗрдореЛрд░реА рдЯреНрд░рд╛рдВрд╕рдлрд╝рд░ рдХреЛ рдХрдо рдХрд░рддрд╛ рд╣реИ рдФрд░ рдЕрдиреБрдорд╛рди рдХреЛ рдЧрддрд┐ рджреЗрддрд╛ рд╣реИред
рдкреНрд▓рдЧрдЗрдиреНрд╕
TensorRT рдХреА рдХреНрд╖рдорддрд╛рдУрдВ рдХрд╛ рд╡рд┐рд╕реНрддрд╛рд░ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рдбреЗрд╡рд▓рдкрд░реНрд╕ рд▓рд┐рдЦ рд╕рдХрддреЗ рд╣реИрдВ pluginsтАФрдХрд╕реНрдЯрдо рдХрд░реНрдиреЗрд▓ рдЬреЛ рдорд▓реНрдЯреА-рд╣реЗрдб рдЕрдЯреЗрдВрд╢рди рдмреНрд▓реЙрдХ рдХреЛ рдСрдкреНрдЯрд┐рдорд╛рдЗрдЬрд╝ рдХрд░рдиреЗ рдЬреИрд╕реЗ рд╡рд┐рд╢рд┐рд╖реНрдЯ рдХрд╛рд░реНрдп рдХрд░рддреЗ рд╣реИрдВред рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП, рдлреНрд▓реИрд╢-рдзреНрдпрд╛рди рдкреНрд▓рдЧрдЗрди рдПрд▓рдПрд▓рдПрдо рдзреНрдпрд╛рди рдкрд░рддреЛрдВ рдХреЗ рдкреНрд░рджрд░реНрд╢рди рдореЗрдВ рдХрд╛рдлреА рд╕реБрдзрд╛рд░ рдХрд░рддрд╛ рд╣реИред
рдмреЗрдВрдЪрдорд╛рд░реНрдХ: TensorRT-LLM рдкреНрд░рджрд░реНрд╢рди рд▓рд╛рдн
TensorRT-LLM рд╡рд┐рднрд┐рдиреНрди GPU рдореЗрдВ LLM рдЕрдиреБрдорд╛рди рдХреЗ рд▓рд┐рдП рдорд╣рддреНрд╡рдкреВрд░реНрдг рдкреНрд░рджрд░реНрд╢рди рд▓рд╛рдн рдкреНрд░рджрд░реНрд╢рд┐рдд рдХрд░рддрд╛ рд╣реИред рдпрд╣рд╛рдБ рд╡рд┐рднрд┐рдиреНрди NVIDIA GPU рдореЗрдВ TensorRT-LLM рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдЕрдиреБрдорд╛рди рдЧрддрд┐ (рдкреНрд░рддрд┐ рд╕реЗрдХрдВрдб рдЯреЛрдХрди рдореЗрдВ рдорд╛рдкреА рдЧрдИ) рдХреА рддреБрд▓рдирд╛ рджреА рдЧрдИ рд╣реИ:
рдЖрджрд░реНрд╢ | рд╢реБрджреНрдзрддрд╛ | рдЗрдирдкреБрдЯ/рдЖрдЙрдЯрдкреБрдЯ рд▓рдВрдмрд╛рдИ | рдПрдЪ100 (80рдЬреАрдмреА) | рдП100 (80 рдЬреАрдмреА) | рдПрд▓40рдПрд╕ рдПрдлрдкреА8 |
---|---|---|---|---|---|
рдЬреАрдкреАрдЯреАрдЬреЗ 6рдмреА | FP8 | 128/128 | 34,955 | 11,206 | 6,998 |
рдЬреАрдкреАрдЯреАрдЬреЗ 6рдмреА | FP8 | 2048/128 | 2,800 | 1,354 | 747 |
рдПрд▓рдПрд▓рдПрдПрдордП v2 7рдмреА | FP8 | 128/128 | 16,985 | 10,725 | 6,121 |
рдПрд▓рдПрд▓рдПрдПрдордП v3 8рдмреА | FP8 | 128/128 | 16,708 | 12,085 | 8,273 |
рдпреЗ рдорд╛рдирдХ рджрд░реНрд╢рд╛рддреЗ рд╣реИрдВ рдХрд┐ TensorRT-LLM рдкреНрд░рджрд░реНрд╢рди рдореЗрдВ рдкрд░реНрдпрд╛рдкреНрдд рд╕реБрдзрд╛рд░ рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИ, рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рд▓рдВрдмреЗ рдЕрдиреБрдХреНрд░рдореЛрдВ рдХреЗ рд▓рд┐рдПред
рд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ: TensorRT-LLM рдХреЛ рд╕реНрдерд╛рдкрд┐рдд рдХрд░рдирд╛ рдФрд░ рдмрдирд╛рдирд╛
рдЪрд░рдг 1: рдХрдВрдЯреЗрдирд░ рд╡рд╛рддрд╛рд╡рд░рдг рдмрдирд╛рдПрдБ
рдЙрдкрдпреЛрдЧ рдореЗрдВ рдЖрд╕рд╛рдиреА рдХреЗ рд▓рд┐рдП, TensorRT-LLM рдореЙрдбрд▓ рдмрдирд╛рдиреЗ рдФрд░ рдЪрд▓рд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдирд┐рдпрдВрддреНрд░рд┐рдд рд╡рд╛рддрд╛рд╡рд░рдг рдмрдирд╛рдиреЗ рд╣реЗрддреБ Docker рдЫрд╡рд┐рдпрд╛рдВ рдкреНрд░рджрд╛рди рдХрд░рддрд╛ рд╣реИред
docker build --pull \ --target devel \ --file docker/Dockerfile.multi \ --tag tensorrt_llm/devel:latest .