์ธ๊ณต์ง๋ฅ
TensorRT-LLM: ์ต๋ ์ฑ๋ฅ์ ์ํ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ ์ถ๋ก ์ต์ ํ๋ฅผ ์ํ ํฌ๊ด์ ๊ฐ์ด๋

๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๋ํ ์์๊ฐ ๊ณ์ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ๋น ๋ฅด๊ณ ํจ์จ์ ์ด๋ฉฐ ํ์ฅ ๊ฐ๋ฅํ ์ถ๋ก ์ ๋ณด์ฅํ๋ ๊ฒ์ด ๊ทธ ์ด๋ ๋๋ณด๋ค ์ค์ํด์ก์ต๋๋ค. NVIDIA์ ํ ์RT-LLM LLM ์ถ๋ก ์ ์ํด ํน๋ณํ ์ค๊ณ๋ ๊ฐ๋ ฅํ ๋๊ตฌ์ ์ต์ ํ ์ธํธ๋ฅผ ์ ๊ณตํ์ฌ ์ด๋ฌํ ๊ณผ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋์ญ๋๋ค. TensorRT-LLM์ ์์ํ, ์ปค๋ ํจ์ , ๋นํ ์ค ๋ฐฐ์นญ ๋ฐ ๋ค์ค GPU ์ง์๊ณผ ๊ฐ์ ์ธ์์ ์ธ ์ฑ๋ฅ ๊ฐ์ ์ฌํญ์ ์ ๊ณตํฉ๋๋ค. ์ด๋ฌํ ๋ฐ์ ์ ํตํด ๊ธฐ์กด CPU ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ณด๋ค ์ต๋ 8๋ฐฐ ๋น ๋ฅธ ์ถ๋ก ์๋๋ฅผ ๋ฌ์ฑํ์ฌ ํ๋ก๋์ ์์ LLM์ ๋ฐฐํฌํ๋ ๋ฐฉ์์ ํ์ ํ ์ ์์ต๋๋ค.
์ด ํฌ๊ด์ ์ธ ๊ฐ์ด๋์์๋ ์ํคํ ์ฒ์ ์ฃผ์ ๊ธฐ๋ฅ๋ถํฐ ๋ชจ๋ธ ๋ฐฐํฌ๋ฅผ ์ํ ์ค์ ์ฌ๋ก๊น์ง TensorRT-LLM์ ๋ชจ๋ ์ธก๋ฉด์ ์ดํด๋ด ๋๋ค. AI ์์ง๋์ด, ์ํํธ์จ์ด ๊ฐ๋ฐ์ ๋๋ ์ฐ๊ตฌ์์ด๋ ์ด ๊ฐ์ด๋๋ NVIDIA GPU์์ LLM ์ถ๋ก ์ ์ต์ ํํ๊ธฐ ์ํด TensorRT-LLM์ ํ์ฉํ๋ ๋ฐ ํ์ํ ์ง์์ ์ ๊ณตํฉ๋๋ค.
TensorRT-LLM์ ์ฌ์ฉํ์ฌ LLM ์ถ๋ก ์๋ ํฅ์
TensorRT-LLM์ LLM ์ถ๋ก ์ฑ๋ฅ์ ๊ทน์ ์ผ๋ก ๊ฐ์ ํฉ๋๋ค. NVIDIA์ ํ ์คํธ์ ๋ฐ๋ฅด๋ฉด TensorRT ๊ธฐ๋ฐ ์ ํ๋ฆฌ์ผ์ด์ ์ 8x ๋นจ๋ฆฌ CPU ์ ์ฉ ํ๋ซํผ๊ณผ ๋น๊ตํ ์ถ๋ก ์๋. ์ด๋ ์ฑ๋ด, ์ถ์ฒ ์์คํ , ๋น ๋ฅธ ์๋ต์ด ํ์ํ ์์จ ์์คํ ๊ณผ ๊ฐ์ ์ค์๊ฐ ์ ํ๋ฆฌ์ผ์ด์ ์์ ์ค์ํ ๋ฐ์ ์ ๋๋ค.
์๋ฆฌ
TensorRT-LLM์ ๋ค์๊ณผ ๊ฐ์ ๊ธฐ์ ์ ์ฌ์ฉํ์ฌ ๋ฐฐํฌ ์ค์ ์ ๊ฒฝ๋ง์ ์ต์ ํํ์ฌ ์ถ๋ก ์๋๋ฅผ ๋์ ๋๋ค.
- ์ ๋ํ: ๊ฐ์ค์น์ ํ์ฑํ์ ์ ํ๋๋ฅผ ๋ฎ์ถ๊ณ , ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ์ค์ด๊ณ , ์ถ๋ก ์๋๋ฅผ ํฅ์์ํต๋๋ค.
- ๋ ์ด์ด ๋ฐ ํ ์ ์ตํฉ: ํ์ฑํ ํจ์ ๋ฐ ํ๋ ฌ ๊ณฑ์ ๊ณผ ๊ฐ์ ์์ ์ ๋จ์ผ ์์ ์ผ๋ก ๋ณํฉํฉ๋๋ค.
- ์ปค๋ ํ๋: GPU ๊ณ์ฐ์ ์ํ ์ต์ ์ CUDA ์ปค๋์ ์ ํํ์ฌ ์คํ ์๊ฐ์ ๋จ์ถํฉ๋๋ค.
์ด๋ฌํ ์ต์ ํ๋ฅผ ํตํด ํ์ดํผ์ค์ผ์ผ ๋ฐ์ดํฐ ์ผํฐ๋ถํฐ ์๋ฒ ๋๋ ์์คํ ์ ์ด๋ฅด๊ธฐ๊น์ง ๊ด๋ฒ์ํ ๋ฐฐํฌ ํ๋ซํผ์์ LLM ๋ชจ๋ธ์ด ํจ์จ์ ์ผ๋ก ์ํ๋๋๋ก ๋ณด์ฅํฉ๋๋ค.
TensorRT๋ฅผ ์ฌ์ฉํ ์ถ๋ก ์ฑ๋ฅ ์ต์ ํ
NVIDIA์ CUDA ๋ณ๋ ฌ ํ๋ก๊ทธ๋๋ฐ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ถ๋ TensorRT๋ NVIDIA GPU์์ ์ถ๋ก ์ ์ํ ๊ณ ๋๋ก ํนํ๋ ์ต์ ํ๋ฅผ ์ ๊ณตํฉ๋๋ค. ์์ํ, ์ปค๋ ํ๋, ํ ์ ์ฐ์ฐ ์ตํฉ๊ณผ ๊ฐ์ ํ๋ก์ธ์ค๋ฅผ ๊ฐ์ํํจ์ผ๋ก์จ TensorRT๋ LLM์ด ์ต์ ์ง์ฐ ์๊ฐ์ผ๋ก ์คํ๋ ์ ์๋๋ก ๋ณด์ฅํฉ๋๋ค.
๊ฐ์ฅ ํจ๊ณผ์ ์ธ ๊ธฐ์ ์ค ์ผ๋ถ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ์ ๋ํ: ์ด๋ฅผ ํตํด ๋์ ์ ํ๋๋ฅผ ์ ์งํ๋ฉด์ ๋ชจ๋ธ ๋งค๊ฐ๋ณ์์ ์์น์ ์ ๋ฐ๋๋ฅผ ๋ฎ์ถ์ด ์ถ๋ก ์๋๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋์ผ ์ ์์ต๋๋ค.
- ํ ์ ํจ์ : ์ฌ๋ฌ ์ฐ์ฐ์ ๋จ์ผ CUDA ์ปค๋๋ก ์ตํฉํจ์ผ๋ก์จ TensorRT๋ ๋ฉ๋ชจ๋ฆฌ ์ค๋ฒํค๋๋ฅผ ์ต์ํํ๊ณ ์ฒ๋ฆฌ๋์ ๋์ ๋๋ค.
- ์ปค๋ ์๋ ํ๋: TensorRT๋ ๊ฐ ์์ ์ ๊ฐ์ฅ ์ ํฉํ ์ปค๋์ ์๋์ผ๋ก ์ ํํ์ฌ ์ฃผ์ด์ง GPU์ ๋ํ ์ถ๋ก ์ ์ต์ ํํฉ๋๋ค.
์ด๋ฌํ ๊ธฐ์ ์ ์ฌ์ฉํ๋ฉด TensorRT-LLM์ด ์์ฐ์ด ์ฒ๋ฆฌ, ์ถ์ฒ ์์ง, ์ค์๊ฐ ๋น๋์ค ๋ถ์๊ณผ ๊ฐ์ ๋ฅ๋ฌ๋ ์์ ์ ๋ํ ์ถ๋ก ์ฑ๋ฅ์ ์ต์ ํํ ์ ์์ต๋๋ค.
TensorRT๋ก AI ์ํฌ๋ก๋ ๊ฐ์ํ
TensorRT๋ ์ ๋ฐ ์ต์ ํ์ ๊ฐ์ ๊ธฐ๋ฅ์ ํตํฉํ์ฌ ๋ฅ ๋ฌ๋ ์ํฌ๋ก๋๋ฅผ ๊ฐ์ํํฉ๋๋ค. INT8 ๊ทธ๋ฆฌ๊ณ FP16. ์ด๋ฌํ ๊ฐ์๋ ์ ๋ฐ๋ ํ์์ ์ ํ๋๋ฅผ ์ ์งํ๋ฉด์๋ ํจ์ฌ ๋ ๋น ๋ฅธ ์ถ๋ก ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ์ด๋ ํนํ ๋ฎ์ ์ง์ฐ ์๊ฐ์ด ์ค์ํ ์๊ตฌ ์ฌํญ์ธ ์ค์๊ฐ ์ ํ๋ฆฌ์ผ์ด์ ์์ ๋งค์ฐ ์ค์ํฉ๋๋ค.
INT8 ๊ทธ๋ฆฌ๊ณ FP16 ์ต์ ํ๋ ํนํ ๋ค์๊ณผ ๊ฐ์ ๊ฒฝ์ฐ์ ํจ๊ณผ์ ์ ๋๋ค.
- ๋น๋์ค ์คํธ๋ฆฌ๋ฐ: ๊ฐ์ฒด ๊ฐ์ง์ ๊ฐ์ AI ๊ธฐ๋ฐ ๋น๋์ค ์ฒ๋ฆฌ ์์ ์ ์ด๋ฌํ ์ต์ ํ๋ฅผ ํตํด ํ๋ ์์ ์ฒ๋ฆฌํ๋ ๋ฐ ๊ฑธ๋ฆฌ๋ ์๊ฐ์ ์ค์ฌ ์ด์ ์ ์ป์ ์ ์์ต๋๋ค.
- ์ถ์ฒ ์์คํ : TensorRT๋ ๋๋์ ์ฌ์ฉ์ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ชจ๋ธ์ ๋ํ ์ถ๋ก ์ ๊ฐ์ํํ์ฌ ๋๊ท๋ชจ ์ค์๊ฐ ๊ฐ์ธํ๋ฅผ ์คํํฉ๋๋ค.
- ์์ฐ ์ธ์ด ์ฒ๋ฆฌ (NLP): TensorRT๋ ํ ์คํธ ์์ฑ, ๋ฒ์ญ, ์์ฝ๊ณผ ๊ฐ์ NLP ์์ ์ ์๋๋ฅผ ํฅ์์์ผ ์ค์๊ฐ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ ํฉํ๊ฒ ๋ง๋ญ๋๋ค.
NVIDIA Triton์ผ๋ก ๋ฐฐํฌ, ์คํ ๋ฐ ํ์ฅ
๋ชจ๋ธ์ด TensorRT-LLM์ผ๋ก ์ต์ ํ๋๋ฉด ๋ค์์ ์ฌ์ฉํ์ฌ ์ฝ๊ฒ ๋ฐฐํฌ, ์คํ ๋ฐ ํ์ฅํ ์ ์์ต๋๋ค. NVIDIA Triton ์ถ๋ก ์๋ฒ. Triton์ ๋์ ๋ฐฐ์นญ, ๋ชจ๋ธ ์์๋ธ ๋ฐ ๋์ ์ฒ๋ฆฌ๋์ ์ง์ํ๋ ์คํ ์์ค ์ํํธ์จ์ด์ ๋๋ค. ๋๊ท๋ชจ AI ๋ชจ๋ธ์ ๊ด๋ฆฌํ๊ธฐ ์ํ ์ ์ฐํ ํ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
์ฃผ์ ๊ธฐ๋ฅ ์ค ์ผ๋ถ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ๋์ ๋ชจ๋ธ ์คํ: ์ฌ๋ฌ ๋ชจ๋ธ์ ๋์์ ์คํํ์ฌ GPU ํ์ฉ๋๋ฅผ ๊ทน๋ํํฉ๋๋ค.
- ๋์ ๋ฐฐ์นญ: ์ฌ๋ฌ ์ถ๋ก ์์ฒญ์ ํ๋์ ๋ฐฐ์น๋ก ๊ฒฐํฉํ์ฌ ๋๊ธฐ ์๊ฐ์ ์ค์ด๊ณ ์ฒ๋ฆฌ๋์ ๋๋ฆฝ๋๋ค.
- ์คํธ๋ฆฌ๋ฐ ์ค๋์ค/๋น๋์ค ์ ๋ ฅ: ๋ผ์ด๋ธ ๋น๋์ค ๋ถ์์ด๋ ์์ฑ-ํ ์คํธ ์๋น์ค์ ๊ฐ์ ์ค์๊ฐ ์ ํ๋ฆฌ์ผ์ด์ ์์ ์ ๋ ฅ ์คํธ๋ฆผ์ ์ง์ํฉ๋๋ค.
์ด๋ฅผ ํตํด Triton์ TensorRT-LLM ์ต์ ํ๋ ๋ชจ๋ธ์ ํ๋ก๋์ ํ๊ฒฝ์ ๋ฐฐํฌํ๋ ๋ฐ ๊ท์คํ ๋๊ตฌ๊ฐ ๋์ด ๋์ ํ์ฅ์ฑ๊ณผ ํจ์จ์ฑ์ ๋ณด์ฅํฉ๋๋ค.
LLM ์ถ๋ก ์ ์ํ TensorRT-LLM์ ํต์ฌ ๊ธฐ๋ฅ
์คํ์์ค ํ์ด์ฌ API
TensorRT-LLM์ ๊ณ ๋๋ก ๋ชจ๋ํ๋ ์คํ์์ค ํ์ด์ฌ API, LLM ์ ์, ์ต์ ํ ๋ฐ ์คํ ํ๋ก์ธ์ค๋ฅผ ๊ฐ์ํํฉ๋๋ค. API๋ฅผ ์ฌ์ฉํ๋ฉด ๊ฐ๋ฐ์๊ฐ CUDA ๋๋ ๋ฅ ๋ฌ๋ ํ๋ ์์ํฌ์ ๋ํ ์ฌ์ธต์ ์ธ ์ง์์ด ์์ด๋ ์ฌ์ฉ์ ์ ์ LLM์ ๋ง๋ค๊ฑฐ๋ ์ฌ์ ๊ตฌ์ถ๋ LLM์ ํ์์ ๋ง๊ฒ ์์ ํ ์ ์์ต๋๋ค.
๋นํ ์ค ๋ฐฐ์น ๋ฐ ํ์ด์ง๋ ์ฃผ์
TensorRT-LLM์ ๋ฐ์ด๋ ๊ธฐ๋ฅ ์ค ํ๋๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. ๋นํ ์ค ๋ฐฐ์น, ์ฌ๋ฌ ์์ฒญ์ ๋์์ ์ฒ๋ฆฌํ์ฌ ํ ์คํธ ์์ฑ์ ์ต์ ํํฉ๋๋ค. ์ด ๊ธฐ๋ฅ์ ๋๊ธฐ ์๊ฐ์ ์ต์ํํ๊ณ ์ํ์ค๋ฅผ ๋์ ์ผ๋ก ๋ฐฐ์นํ์ฌ GPU ํ์ฉ๋๋ฅผ ํฅ์์ํต๋๋ค.
๋ํ, ํ์ด์ง ์ฃผ์ ๊ธด ์ ๋ ฅ ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ๋์๋ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด ๋ฎ๊ฒ ์ ์ง๋๋๋ก ๋ณด์ฅํฉ๋๋ค. ๋ชจ๋ ํ ํฐ์ ์ฐ์์ ์ธ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํ ๋นํ๋ ๋์ , ํ์ด์ง ์ดํ ์ ์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๋์ ์ผ๋ก ์ฌ์ฌ์ฉํ ์ ์๋ "ํ์ด์ง"๋ก ๋๋์ด ๋ฉ๋ชจ๋ฆฌ ๋จํธํ๋ฅผ ๋ฐฉ์งํ๊ณ ํจ์จ์ฑ์ ๊ฐ์ ํฉ๋๋ค.
๋ค์ค GPU ๋ฐ ๋ค์ค ๋ ธ๋ ์ถ๋ก
๋ ํฐ ๋ชจ๋ธ์ด๋ ๋ ๋ณต์กํ ์์ ๋ถํ์ ๊ฒฝ์ฐ TensorRT-LLM์ ๋ค์์ ์ง์ํฉ๋๋ค. ๋ค์ค GPU ๊ทธ๋ฆฌ๊ณ ๋ค์ค ๋ ธ๋ ์ถ๋ก . ์ด ๊ธฐ๋ฅ์ ์ฌ์ฉํ๋ฉด ๋ชจ๋ธ ๊ณ์ฐ์ ์ฌ๋ฌ GPU๋ ๋ ธ๋์ ๋ถ์ฐํ์ฌ ์ฒ๋ฆฌ๋์ ๊ฐ์ ํ๊ณ ์ ์ฒด ์ถ๋ก ์๊ฐ์ ์ค์ผ ์ ์์ต๋๋ค.
FP8 ์ง์
์ ๋๋์ ํจ๊ป FP8 (8๋นํธ ๋ถ๋ ์์์ ), TensorRT-LLM์ NVIDIA์ H100 GPU๋ฅผ ํ์ฉํ์ฌ ๋ชจ๋ธ ๊ฐ์ค์น๋ฅผ ์ด ํ์์ผ๋ก ๋ณํํ์ฌ ์ต์ ํ๋ ์ถ๋ก ์ ์ ๊ณตํฉ๋๋ค. FP8์ ๋ฉ๋ชจ๋ฆฌ ์๋น๋ฅผ ์ค์ด๊ณ ๊ณ์ฐ์ ๋ ๋น ๋ฅด๊ฒ ํ๋ฉฐ, ํนํ ๋๊ท๋ชจ ๋ฐฐํฌ์ ์ ์ฉํฉ๋๋ค.
TensorRT-LLM ์ํคํ ์ฒ ๋ฐ ๊ตฌ์ฑ ์์
TensorRT-LLM์ ์ํคํ ์ฒ๋ฅผ ์ดํดํ๋ฉด LLM ์ถ๋ก ๊ธฐ๋ฅ์ ๋ ์ ํ์ฉํ๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค. ํต์ฌ ๊ตฌ์ฑ ์์๋ฅผ ๋ถ์ํด ๋ณด๊ฒ ์ต๋๋ค.
๋ชจ๋ธ ์ ์
TensorRT-LLM์ ์ฌ์ฉํ๋ฉด ๊ฐ๋จํ Python API๋ฅผ ์ฌ์ฉํ์ฌ LLM์ ์ ์ํ ์ ์์ต๋๋ค. API๋ ๋ค์์ ๊ตฌ์ฑํฉ๋๋ค. ๊ทธ๋ํ ํํ ๋ชจ๋ธ์ ํตํด GPT๋ BERT์ ๊ฐ์ LLM ์ํคํ ์ฒ์ ํฌํจ๋ ๋ณต์กํ ๊ณ์ธต์ ๋ณด๋ค ์ฝ๊ฒ โโ๊ด๋ฆฌํ ์ ์์ต๋๋ค.
๋ฌด๊ฒ ๋ฐ์ธ๋ฉ
๋ชจ๋ธ์ ์ปดํ์ผํ๊ธฐ ์ ์ ๊ฐ์ค์น(๋๋ ๋งค๊ฐ๋ณ์)๋ฅผ ๋คํธ์ํฌ์ ๋ฐ์ธ๋ฉํด์ผ ํฉ๋๋ค. ์ด ๋จ๊ณ๋ ๊ฐ์ค์น๊ฐ TensorRT ์์ง ๋ด์ ๋ด์ฅ๋์ด ๋น ๋ฅด๊ณ ํจ์จ์ ์ธ ์ถ๋ก ์ด ๊ฐ๋ฅํ๋๋ก ๋ณด์ฅํฉ๋๋ค. TensorRT-LLM์ ๋ํ ์ปดํ์ผ ํ ๊ฐ์ค์น ์ ๋ฐ์ดํธ๋ฅผ ํ์ฉํ์ฌ ์์ฃผ ์ ๋ฐ์ดํธ๊ฐ ํ์ํ ๋ชจ๋ธ์ ์ ์ฐ์ฑ์ ๋ํฉ๋๋ค.
ํจํด ๋งค์นญ ๋ฐ ํจ์
ํจ์ ์์ TensorRT-LLM์ ๋ ๋ค๋ฅธ ๊ฐ๋ ฅํ ๊ธฐ๋ฅ์ ๋๋ค. ์ฌ๋ฌ ์ฐ์ฐ(์: ํ์ฑํ ํจ์๊ฐ ์๋ ํ๋ ฌ ๊ณฑ์ )์ ๋จ์ผ CUDA ์ปค๋๋ก ์ตํฉํจ์ผ๋ก์จ TensorRT๋ ์ฌ๋ฌ ์ปค๋ ์คํ๊ณผ ๊ด๋ จ๋ ์ค๋ฒํค๋๋ฅผ ์ต์ํํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ฉ๋ชจ๋ฆฌ ์ ์ก์ด ์ค์ด๋ค๊ณ ์ถ๋ก ์๋๊ฐ ๋นจ๋ผ์ง๋๋ค.
ํ๋ฌ๊ทธ์ธ
TensorRT์ ๊ธฐ๋ฅ์ ํ์ฅํ๊ธฐ ์ํด ๊ฐ๋ฐ์๋ ๋ค์์ ์์ฑํ ์ ์์ต๋๋ค. ํ๋ฌ๊ทธ์ธโ๋ฉํฐํค๋ ์ดํ ์ ๋ธ๋ก ์ต์ ํ์ ๊ฐ์ ํน์ ์์ ์ ์ํํ๋ ์ฌ์ฉ์ ์ ์ ์ปค๋. ์๋ฅผ ๋ค์ด, ํ๋์ ์ดํ ์ ํ๋ฌ๊ทธ์ธ์ LLM ์ดํ ์ ๊ณ์ธต์ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํต๋๋ค.
๋ฒค์น๋งํฌ: TensorRT-LLM ์ฑ๋ฅ ํฅ์
TensorRT-LLM์ ๋ค์ํ GPU์์ LLM ์ถ๋ก ์ ๋ํ ์๋นํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ค๋๋ค. ๋ค์์ ๋ค์ํ NVIDIA GPU์์ TensorRT-LLM์ ์ฌ์ฉํ์ฌ ์ถ๋ก ์๋(์ด๋น ํ ํฐ์ผ๋ก ์ธก์ )๋ฅผ ๋น๊ตํ ๊ฒ์ ๋๋ค.
๋ชจ๋ธ | Precision | ์ ๋ ฅ/์ถ๋ ฅ ๊ธธ์ด | H100(80GB) | A100(80GB) | L40SFP8 |
---|---|---|---|---|---|
GPTJ 6B | FP8 | 128/128 | 34,955 | 11,206 | 6,998 |
GPTJ 6B | FP8 | 2048/128 | 2,800 | 1,354 | 747 |
LLaMA v2 7B | FP8 | 128/128 | 16,985 | 10,725 | 6,121 |
LLaMA v3 8B | FP8 | 128/128 | 16,708 | 12,085 | 8,273 |
์ด๋ฌํ ๋ฒค์น๋งํฌ๋ TensorRT-LLM์ด ํนํ ๊ธด ์ํ์ค์์ ์๋นํ ์ฑ๋ฅ ํฅ์์ ์ ๊ณตํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
์ค์ต: TensorRT-LLM ์ค์น ๋ฐ ๋น๋
1๋จ๊ณ: ์ปจํ ์ด๋ ํ๊ฒฝ ๋ง๋ค๊ธฐ
์ฌ์ฉ ํธ์์ฑ์ ์ํด TensorRT-LLM์ ๋ชจ๋ธ์ ๋น๋ํ๊ณ ์คํํ๊ธฐ ์ํ ์ ์ด๋ ํ๊ฒฝ์ ๋ง๋๋ Docker ์ด๋ฏธ์ง๋ฅผ ์ ๊ณตํฉ๋๋ค.
docker build --pull \ --target devel \ --file docker/Dockerfile.multi \ --tag tensorrt_llm/devel:latest .