์ธ๊ณต์ง๋ฅ
์ง๊ธ๊น์ง ๊ฐ์ฅ ๊ฐ๋ ฅํ ์คํ ์์ค LLM: Meta LLAMA 3.1-405B

By
์์ ์ฌ ๋ฏธํ ๋ฏธํ
๋ผ๋ง 3.1-405BMeta AI๊ฐ ๊ฐ๋ฐํ ๋ ์คํ ์์ค ์ธ์ด ๋ชจ๋ธ์ ์ค์ํ ๋์ฝ์ ๋ํ๋ ๋๋ค. 405์ต ๊ฐ์ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ถ ์ด ์ธ์ด ๋ชจ๋ธ์ ํ์ฌ๊น์ง ๊ณต๊ฐ์ ์ผ๋ก ์ฌ์ฉ ๊ฐ๋ฅํ ๊ฐ์ฅ ํฐ ์ธ์ด ๋ชจ๋ธ๋ก, ๋ค์ํ ๋ฒค์น๋งํฌ์์ ๊ฐ์ฅ ๋ฐ์ ๋ ๋ ์ ๋ชจ๋ธ ์ค ์ผ๋ถ์ ๊ฒฝ์ํ๊ฑฐ๋ ์ฌ์ง์ด ๋ฅ๊ฐํฉ๋๋ค.
์ฃผ์ ํน์ง:
- 405 ์ต ๋งค๊ฐ ๋ณ์
- 128K ํ ํฐ ์ปจํ ์คํธ ๊ธธ์ด
- ๋ค๊ตญ์ด ์ง์(8 ์ธ์ด)
- ๊ต์ก์ ๋ง์ถฐ ์กฐ์ ๋จ ์ฌ์ฉ ๊ฐ๋ฅํ ๋ฒ์
- ์คํ ์์ค ํ์ฉ ๋ผ์ด์ผ์ค๊ฐ ์๋ ๊ฒฝ์ฐ
์คํ ์์ค ๋๋ฉ์ธ์์ ์ด๋ฌํ ๊ฐ๋ ฅํ ๋ชจ๋ธ์ ์ถ์๋ ์ต์ฒจ๋จ AI ๊ธฐ๋ฅ์ ๋ํ ์ก์ธ์ค๋ฅผ ๋ฏผ์ฃผํํ๊ณ ์ ๊ณ ์ ๋ฐ์ ๊ฑธ์ณ ํ์ ์ ์ด์งํ๋ ๊ฒ์ ์ฒด์ธ์ ์ ๋๋ค.
๋ชจ๋ธ ์ํคํ ์ฒ ๋ฐ ๊ต์ก
ํ๋ก์ธ์ค๋ ์ ๋ ฅ ํ ์คํธ ํ ํฐ์ด ํ ํฐ ์๋ฒ ๋ฉ์ผ๋ก ๋ณํ๋๋ ๊ฒ์ผ๋ก ์์๋ฉ๋๋ค. ์ด๋ฌํ ์๋ฒ ๋ฉ์ ์ฌ๋ฌ ๊ณ์ธต์ self-attention ๋ฐ ํผ๋ํฌ์๋ ๋คํธ์ํฌ๋ฅผ ํต๊ณผํ๋ฏ๋ก ๋ชจ๋ธ์ด ํ ์คํธ ๋ด์ ๋ณต์กํ ๊ด๊ณ์ ์ข ์์ฑ์ ํฌ์ฐฉํ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ฉด ์๋ํ๊ท ๋์ฝ๋ฉ ๋ฉ์ปค๋์ฆ์ด ์ถ๋ ฅ ํ ์คํธ ํ ํฐ์ ์์ฑํ์ฌ ํ๋ก์ธ์ค๋ฅผ ์๋ฃํฉ๋๋ค.

-
๊ทธ๋ฃนํ๋ ์ฟผ๋ฆฌ ์ฃผ์(GQA)
Llama 3.1์ ์ด์ ์๋ต์์ ์์ธํ ๋ค๋ฃจ์ง ์์ ์ค์ํ ์ต์ ํ ๊ธฐ์ ์ธ ๊ทธ๋ฃนํ๋ ์ฟผ๋ฆฌ ์ดํ ์ (Grouped Query Attention)์ ํ์ฉํฉ๋๋ค. ๋ ์์ธํ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
GQA(Grouped Query Attention)๋ ์ถ๋ก ์ค, ํนํ ๊ธด ์ํ์ค์ ๊ฒฝ์ฐ ๊ณ์ฐ ๋น์ฉ๊ณผ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ด๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ ๋ค์ค ํค๋ ์ฃผ์์ ๋ณํ์ ๋๋ค. Llama 3.1 405B ๋ชจ๋ธ์์ GQA๋ 8๊ฐ์ ํค-๊ฐ ํค๋๋ก ๊ตฌํ๋ฉ๋๋ค.
GQA์ ์๋ ๋ฐฉ์์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ๊ฐ ์ฃผ์ ํค๋์ ๋ํด ๋ณ๋์ ํค ๋ฐ ๊ฐ ์์ธก์ ๊ฐ๋ ๋์ GQA๋ ์ฌ๋ฌ ์ฟผ๋ฆฌ ํค๋๋ฅผ ๊ทธ๋ฃนํํ์ฌ ๋์ผํ ํค ๋ฐ ๊ฐ ํค๋๋ฅผ ๊ณต์ ํฉ๋๋ค.
- ์ด ๊ทธ๋ฃนํ๋ ํค ๋ฐ ๊ฐ ์์ธก์ ๋งค๊ฐ๋ณ์ ์๋ฅผ ํฌ๊ฒ ์ค์ฌ ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ ๋ ์์์ง๊ณ ์ถ๋ก ์ด ๋ ๋นจ๋ผ์ง๋๋ค.
- ์ฃผ์ ๊ณ์ฐ์ ๋ค์๊ณผ ๊ฐ์ด ํํ๋ ์ ์์ต๋๋ค.
Attention(Q, K, V) = softmax(QK^T / sqrt(d_k))V
์ฌ๊ธฐ์ Q๋ g ๊ทธ๋ฃน์ผ๋ก ๊ทธ๋ฃนํ๋๊ณ K์ V๋ Q๋ณด๋ค ๋จธ๋ฆฌ ์๊ฐ ์ ์ต๋๋ค.
Llama 3.1 405B์์ GQA์ ์ด์ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- ๋ฉ๋ชจ๋ฆฌ ํ ํ๋ฆฐํธ ๊ฐ์: ํค ๋ฐ ๊ฐ ์์ธก์ด ์ ๋ค๋ ๊ฒ์ ๋ชจ๋ธ ๋งค๊ฐ๋ณ์๋ฅผ ์ ์ฅํ๋ ๋ฐ ํ์ํ ๋ฉ๋ชจ๋ฆฌ๊ฐ ์ ๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
- ๋ ๋น ๋ฅธ ์ถ๋ก : ํค ๋ฐ ๊ฐ ์์ธก์ ํ์ํ ๊ณ์ฐ์ด ์ค์ด๋ค์ด ์ถ๋ก ์๋๊ฐ ํฅ์๋ฉ๋๋ค.
- ์ฑ๋ฅ ์ ์ง: ๋งค๊ฐ๋ณ์์ ๊ฐ์์๋ ๋ถ๊ตฌํ๊ณ GQA๋ ๋ง์ ์์ ์์ ํ์ค ๋ค์ค ํค๋ ์ฃผ์์ ๋น์ทํ ์ฑ๋ฅ์ ์ ์งํ๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค.
-
ํ์ฅ๋ ์ํฉ์ ์ํ 2๋จ๊ณ ์ฌ์ ํ๋ จ
์ด ๋ฌธ์์์๋ 128K ํ ํฐ ์ปจํ ์คํธ ์๋์ฐ๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํ 3.1๋จ๊ณ ์ฌ์ ํ์ต ํ๋ก์ธ์ค๋ฅผ ์ธ๊ธํฉ๋๋ค. ์ด๋ Llama 405 XNUMXB ๊ธฐ๋ฅ์ ํต์ฌ์ ์ธ ์ธก๋ฉด์ ๋๋ค.
1๋จ๊ณ: 8K ํ ํฐ์ ๋ํ ์ด๊ธฐ ์ฌ์ ํ๋ จ
- ๋ชจ๋ธ์ ๋จผ์ ์ต๋ 8๊ฐ์ ํ ํฐ ์ํ์ค์ ๋ํด ํ์ต๋ฉ๋๋ค.
- ์ด ๋จ๊ณ์์๋ ๋ชจ๋ธ์ด ์ผ๋ฐ์ ์ธ ์ธ์ด ์ดํด ๋ฐ ์์ฑ ๊ธฐ๋ฅ์ ํ์ตํ ์ ์์ต๋๋ค.
2๋จ๊ณ: ๋งฅ๋ฝ ํ์ฅ์ ์ํ ์ง์์ ์ธ ์ฌ์ ํ๋ จ
- ์ด๊ธฐ ํ์ต ํ ๋ชจ๋ธ์ ์ปจํ ์คํธ ๊ธธ์ด๋ฅผ 128K ํ ํฐ์ผ๋ก ๋๋ฆฌ๊ธฐ ์ํด ์ง์์ ์ธ ์ฌ์ ํ์ต์ ๊ฑฐ์นฉ๋๋ค.
- ์ด ๋จ๊ณ์๋ ๋ชจ๋ธ์ด ๋ ์งง์ ์ปจํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฅ๋ ฅ์ ์์ง ์๊ณ ๋ ๊ธด ์ํ์ค๋ก ์ผ๋ฐํ๋ ์ ์๋๋ก ์ ์คํ๊ฒ ์ค๊ณ๋ ํ๋ จ ๋ฐฉ์์ด ํฌํจ๋ฉ๋๋ค.
-
๋ค์ค ๋ชจ๋ ๊ธฐ๋ฅ
์ด์ ์๋ต์์๋ ๋ค์ค ๋ชจ๋ ๊ธฐ๋ฅ์ ๋ํด ๋ค๋ฃจ์์ง๋ง Llama 3.1 405B๊ฐ ์ด๋ฅผ ๊ตฌํํ๋ ๋ฐฉ๋ฒ์ ํ์ฅํ ์ ์์ต๋๋ค.
๊ตฌ์ฑ์ ์ ๊ทผ:
- Llama 3.1 405B๋ ๋ค์ํ ์์(์: ์ด๋ฏธ์ง, ์์ฑ)์ ๋ํด ๋ณ๋์ ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- ์ด๋ฌํ ์ธ์ฝ๋๋ ๋ค์ํ ์์์ ์ ๋ ฅ์ ์ธ์ด ๋ชจ๋ธ์ด ์ดํดํ ์ ์๋ ๊ณต์ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ผ๋ก ๋ณํํฉ๋๋ค.
์ธ์ด ๋ชจ๋ธ๊ณผ์ ํตํฉ:
- ์ด๋ฌํ ํน์ ์ธ์ฝ๋์ ์ถ๋ ฅ์ ๊ธฐ๋ณธ ์ธ์ด ๋ชจ๋ธ์ ์ ๋ ฅ๋ฉ๋๋ค.
- ์ด๋ฅผ ํตํด Llama 3.1 405B๋ ๋ค์ํ ์ ํ์ ๋ฐ์ดํฐ๋ฅผ ๋์์ ์ฒ๋ฆฌํ๊ณ ์ดํดํ์ฌ ์ฌ๋ฌ ์์๊ณผ ๊ด๋ จ๋ ์์ ์ ์ํํ ์ ์์ต๋๋ค.
๊ต์ฐจ ์ฃผ์ ๋ฉ์ปค๋์ฆ:
- ๋ค์ํ ์์์ ํตํฉ์ ์ฒ๋ฆฌํ๊ธฐ ์ํด Llama 3.1 405B๋ ๊ต์ฐจ ์ฃผ์ ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ๋ ๊ฒ ๊ฐ์ต๋๋ค.
- ์ด๋ฌํ ๋ฉ์ปค๋์ฆ์ ํตํด ๋ชจ๋ธ์ ํ ์คํธ๋ฅผ ์์ฑํ๊ฑฐ๋ ๋ค๋ฅธ ์์ ์ ์ํํ ๋ ๋ค์ํ ์์์ ๊ด๋ จ ์ ๋ณด์ ์ฃผ์๋ฅผ ๊ธฐ์ธ์ผ ์ ์์ต๋๋ค.
Llama 3.1 405B์ ๋ค์ค ๋ชจ๋ ๊ธฐ๋ฅ์ ๋ค์๊ณผ ๊ฐ์ ๊ด๋ฒ์ํ ์์ฉ ๋ถ์ผ๋ฅผ ์ด์ด์ค๋๋ค.
- ์ด๋ฏธ์ง ์บก์ ๋ฐ ์๊ฐ์ ์ง๋ฌธ ๋ต๋ณ
- ๋ฌธ๋งฅ ์ดํด๋ฅผ ํตํ ์์ฑ-ํ ์คํธ ์ ์ฌ
- ํ ์คํธ, ์ด๋ฏธ์ง ๋ฐ ์ ์ฌ์ ์ผ๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ ์ ํ์ ๊ฒฐํฉํ๋ ๋ค์ค ๋ชจ๋ ์ถ๋ก ์์
๊ต์ก ์ธ๋ถ์ ๋ณด
- ์ด์์ผ๋ก ํ๋ จ๋จ 15 ์กฐ ํ ํฐ
- ๋ค์์ ๊ฐ์ถ ๋ง์ถคํ GPU ํด๋ฌ์คํฐ 39.3๋ง GPU ์๊ฐ 405B ๋ชจ๋ธ์ ๊ฒฝ์ฐ
- ๋ค๊ตญ์ด ๊ธฐ๋ฅ์ ์ํ ๋ค์ํ ๋ฐ์ดํฐ ์ธํธ ํ๋ ์ด์
๊ต์ก ์กฐ์ ๋ฒ์ ์ ์ถ๊ฐ ๊ต์ก์ ๊ฑฐ์ณค์ต๋๋ค.
- ๊ณต๊ฐ์ ์ผ๋ก ์ฌ์ฉ ๊ฐ๋ฅํ ๋ช ๋ น ๋ฐ์ดํฐ ์ธํธ๋ฅผ ๋ฏธ์ธ ์กฐ์ ํ์ต๋๋ค.
- ์ด์ 25M ํฉ์ฑ์ ์ผ๋ก ์์ฑ๋ ์
- ๊ฐ๋ ๋ ๋ฏธ์ธ ์กฐ์ (SFT) ๋ฐ ์ฌ๋์ ํผ๋๋ฐฑ์ ํตํ ๊ฐํ ํ์ต (RLHF)
์ฑ๋ฅ ๋ฒค์น ๋งํฌ
์ด ํ๋ Llama 3.1 405B, Nemotron 4 340B Instruct, GPT-4 (0125), GPT-4 Omni, ๊ทธ๋ฆฌ๊ณ Claude 3.5 Sonnet์ ๋น๊ตํฉ๋๋ค. ์ฃผ์ ๋ฒค์น๋งํฌ์๋ MMLU ๋ฐ IFEval๊ณผ ๊ฐ์ ์ผ๋ฐ ์์ , HumanEval ๋ฐ GSM8K์ ๊ฐ์ ์ฝ๋ฉ ์์ , ๊ทธ๋ฆฌ๊ณ ARC Challenge์ ๊ฐ์ ์ถ๋ก ์์ ์ด ํฌํจ๋ฉ๋๋ค. ๊ฐ ๋ฒค์น๋งํฌ ์ ์๋ ์ธ๊ฐ๊ณผ ์ ์ฌํ ํ ์คํธ๋ฅผ ์ดํดํ๊ณ ์์ฑํ๊ณ , ๋ณต์กํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ , ์ฝ๋๋ฅผ ์คํํ๋ ๋ชจ๋ธ์ ์ญ๋์ ๋ํ๋ ๋๋ค. ํนํ Llama 3.1 405B์ Claude 3.5 Sonnet์ ์ฌ๋ฌ ๋ฒค์น๋งํฌ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ์ผ๋ฐ ์์ ๊ณผ ๋๋ฉ์ธ๋ณ ์์ ๋ชจ๋์์ ๋ฐ์ด๋ ์ญ๋์ ๋ณด์ฌ์ค๋๋ค.
Llama 3.1-405B์ ๋ฉ๋ชจ๋ฆฌ ์๊ตฌ ์ฌํญ
Llama 3.1-405B๋ฅผ ์คํํ๋ ค๋ฉด ์๋นํ ๋ฉ๋ชจ๋ฆฌ์ ์ปดํจํ ๋ฆฌ์์ค๊ฐ ํ์ํฉ๋๋ค.
- GPU ๋ฉ๋ชจ๋ฆฌ: 405B ๋ชจ๋ธ์ ํจ์จ์ ์ธ ์ถ๋ก ์ ์ํด A80 GPU๋น ์ต๋ 100GB์ GPU ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํ์ฉํ ์ ์์ต๋๋ค. Tensor Parallelism์ ์ฌ์ฉํ๋ฉด ์ฌ๋ฌ GPU์ ๋ก๋๋ฅผ ๋ถ์ฐํ ์ ์์ต๋๋ค.
- ๋จ: ๋ชจ๋ธ์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ฒ๋ฆฌํ๊ณ ์ํํ ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ฅผ ์ํด ์ต์ 512GB์ ์์คํ RAM์ ๊ถ์ฅํฉ๋๋ค.
- ์คํ ๋ฆฌ์ง: ๋ชจ๋ธ ๊ฐ์ค์น ๋ฐ ๊ด๋ จ ๋ฐ์ดํฐ์ธํธ๋ฅผ ์ํ ๋ช ํ ๋ผ๋ฐ์ดํธ์ SSD ์คํ ๋ฆฌ์ง๊ฐ ์๋์ง ํ์ธํ์ธ์. ํ๋ จ ๋ฐ ์ถ๋ก ์ค ๋ฐ์ดํฐ ์ก์ธ์ค ์๊ฐ์ ์ค์ด๋ ๋ฐ๋ ๊ณ ์ SSD๊ฐ ์ค์ํฉ๋๋ค.โ (๋ผ๋ง AI ๋ชจ๋ธ)โโ (๊ทธ๋กํฌ).
Llama 3.1-405B์ ๋ํ ์ถ๋ก ์ต์ ํ ๊ธฐ์
Llama 405๊ณผ ๊ฐ์ 3.1B ๋งค๊ฐ๋ณ์ ๋ชจ๋ธ์ ํจ์จ์ ์ผ๋ก ์คํํ๋ ค๋ฉด ๋ช ๊ฐ์ง ์ต์ ํ ๊ธฐ์ ์ด ํ์ํฉ๋๋ค. ํจ๊ณผ์ ์ธ ์ถ๋ก ์ ๋ณด์ฅํ๋ ์ฃผ์ ๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
a) ์์ํ: ์์ํ๋ ๋ชจ๋ธ ๊ฐ์ค์น์ ์ ๋ฐ๋๋ฅผ ๋ฎ์ถ๋ ๊ฒ์ ์๋ฏธํ๋ฉฐ, ์ด๋ฅผ ํตํด ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ด๊ณ ์ ํ๋๋ฅผ ํฌ๊ฒ ์ ํ์ํค์ง ์์ผ๋ฉด์ ์ถ๋ก ์๋๋ฅผ ํฅ์์ํต๋๋ค. Llama 3.1์ GPU ์ฑ๋ฅ ์ต์ ํ๋ฅผ ์ํด QLoRA(Quantized Low-Rank Adaptation)์ ๊ฐ์ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ FP8 ์ดํ์ ์ ๋ฐ๋๋ก ์์ํ๋ฅผ ์ง์ํฉ๋๋ค.
์์ ์ฝ๋ :
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig model_name = "meta-llama/Meta-Llama-3.1-405B" bnb_config = BitsAndBytesConfig( load_in_8bit=True, # Change to load_in_4bit for 4-bit precision bnb_8bit_quant_type="fp8", bnb_8bit_compute_dtype=torch.float16, ) model = AutoModelForCausalLM.from_pretrained( model_name, quantization_config=bnb_config, device_map="auto" ) tokenizer = AutoTokenizer.from_pretrained(model_name)
b) ํ ์ ๋ณ๋ ฌ์ฑ: ํ ์ ๋ณ๋ ฌ ์ฒ๋ฆฌ๋ ๋ชจ๋ธ์ ๊ณ์ธต์ ์ฌ๋ฌ GPU๋ก ๋ถํ ํ์ฌ ๊ณ์ฐ์ ๋ณ๋ ฌํํ๋ ๊ฒ์ ํฌํจํฉ๋๋ค. ์ด๋ Llama 3.1๊ณผ ๊ฐ์ ๋๊ท๋ชจ ๋ชจ๋ธ์ ํนํ ์ ์ฉํ๋ฉฐ, ๋ฆฌ์์ค๋ฅผ ํจ์จ์ ์ผ๋ก ์ฌ์ฉํ ์ ์๋๋ก ํฉ๋๋ค.
์์ ์ฝ๋ :
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline model_name = "meta-llama/Meta-Llama-3.1-405B" model = AutoModelForCausalLM.from_pretrained( model_name, device_map="auto", torch_dtype=torch.float16 ) tokenizer = AutoTokenizer.from_pretrained(model_name) nlp = pipeline("text-generation", model=model, tokenizer=tokenizer, device=0)
c) KV-์บ์ ์ต์ ํ: ๊ธด ์ปจํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ๋ ค๋ฉด KV(ํค-๊ฐ) ์บ์๋ฅผ ํจ์จ์ ์ผ๋ก ๊ด๋ฆฌํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. Llama 3.1์ ์ต์ ํ๋ KV ์บ์ ๊ธฐ์ ์ ์ฌ์ฉํ์ฌ ํจ์จ์ ์ผ๋ก ๊ด๋ฆฌํ ์ ์๋ ํ์ฅ๋ ์ปจํ ์คํธ ๊ธธ์ด๋ฅผ ์ง์ํฉ๋๋ค. ์์ ์ฝ๋ :
# Ensure you have sufficient GPU memory to handle extended context lengths output = model.generate( input_ids, max_length=4096, # Increase based on your context length requirement use_cache=True )
๋ฐฐํฌ ์ ๋ต
Llama 3.1-405B๋ฅผ ๋ฐฐํฌํ๋ ค๋ฉด ํ๋์จ์ด ๋ฆฌ์์ค๋ฅผ ์ ์คํ๊ฒ ๊ณ ๋ คํด์ผ ํฉ๋๋ค. ๋ค์์ ๋ช ๊ฐ์ง ์ต์ ์ ๋๋ค.
a) ํด๋ผ์ฐ๋ ๊ธฐ๋ฐ ๋ฐฐํฌ: AWS(P4d ์ธ์คํด์ค) ๋๋ Google Cloud(TPU v4)์ ๊ฐ์ ํด๋ผ์ฐ๋ ์ ๊ณต์ ์ฒด์ ๋์ฉ๋ ๋ฉ๋ชจ๋ฆฌ GPU ์ธ์คํด์ค๋ฅผ ํ์ฉํ์ธ์.
์์ ์ฝ๋ :
# Example setup for AWS import boto3 ec2 = boto3.resource('ec2') instance = ec2.create_instances( ImageId='ami-0c55b159cbfafe1f0', # Deep Learning AMI InstanceType='p4d.24xlarge', MinCount=1, MaxCount=1 )
b) ์จํ๋ ๋ฏธ์ค ๋ฐฐํฌ: ๊ณ ์ฑ๋ฅ ์ปดํจํ ๊ธฐ๋ฅ์ ๊ฐ์ถ ์กฐ์ง์ ๊ฒฝ์ฐ Llama 3.1์ ์จํ๋ ๋ฏธ์ค์ ๋ฐฐํฌํ๋ฉด ๋ ๋ง์ ์ ์ด ๊ธฐ๋ฅ์ ์ ๊ณตํ๊ณ ์ ์ฌ์ ์ผ๋ก ์ฅ๊ธฐ์ ๋น์ฉ์ ๋ฎ์ถ ์ ์์ต๋๋ค.
์์ ์ค์ :
# Example setup for on-premises deployment # Ensure you have multiple high-performance GPUs, like NVIDIA A100 or H100 pip install transformers pip install torch # Ensure CUDA is enabled
c) ๋ถ์ฐ ์ถ๋ก : ๋๊ท๋ชจ ๋ฐฐํฌ์ ๊ฒฝ์ฐ ์ฌ๋ฌ ๋ ธ๋์ ๋ชจ๋ธ์ ๋ฐฐํฌํ๋ ๊ฒ์ด ์ข์ต๋๋ค.
์์ ์ฝ๋ :
# Using Hugging Face's accelerate library from accelerate import Accelerator accelerator = Accelerator() model, tokenizer = accelerator.prepare(model, tokenizer)
์ฌ์ฉ ์ฌ๋ก ๋ฐ ์ ํ๋ฆฌ์ผ์ด์
Llama 3.1-405B์ ์ฑ๋ฅ๊ณผ ์ ์ฐ์ฑ์ ์๋ง์ ๊ฐ๋ฅ์ฑ์ ์ด์ด์ค๋๋ค.
a) ํฉ์ฑ ๋ฐ์ดํฐ ์์ฑ: ์๊ท๋ชจ ๋ชจ๋ธ ํ์ต์ ์ํ ๊ณ ํ์ง์ ๋๋ฉ์ธ๋ณ ๋ฐ์ดํฐ๋ฅผ ์์ฑํฉ๋๋ค.
์ฌ์ฉ ์ฌ๋ก ์์:
from transformers import pipeline generator = pipeline("text-generation", model=model, tokenizer=tokenizer) synthetic_data = generator("Generate financial reports for Q1 2023", max_length=200)
b) ์ง์ ์ฆ๋ฅ: 405B ๋ชจ๋ธ์ ๋ํ ์ง์์ ๋ ์๊ณ ๋ฐฐ์นํ๊ธฐ ์ฌ์ด ๋ชจ๋ธ๋ก ์ด์ ํ์ญ์์ค.
์์ ์ฝ๋ :
# Use distillation techniques from Hugging Face from transformers import DistillationTrainer, DistillationTrainingArguments training_args = DistillationTrainingArguments( output_dir="./distilled_model", per_device_train_batch_size=2, num_train_epochs=3, logging_dir="./logs", ) trainer = DistillationTrainer( teacher_model=model, student_model=smaller_model, args=training_args, train_dataset=train_dataset, eval_dataset=eval_dataset, ) trainer.train()
c) ๋๋ฉ์ธ๋ณ ๋ฏธ์ธ ์กฐ์ : ์ ๋ฌธ์ ์ธ ์์ ์ด๋ ์ฐ์ ์ ๋ง๊ฒ ๋ชจ๋ธ์ ์กฐ์ ํฉ๋๋ค.
์์ ์ฝ๋ :
from transformers import Trainer, TrainingArguments training_args = TrainingArguments( output_dir="./domain_specific_model", per_device_train_batch_size=1, num_train_epochs=3, ) trainer = Trainer( model=model, args=training_args, train_dataset=train_dataset, eval_dataset=eval_dataset, ) trainer.train()
์ด๋ฌํ ๊ธฐ์ ๊ณผ ์ ๋ต์ Llama 3.1-405B์ ์ ์ฌ๋ ฅ์ ์ต๋ํ ํ์ฉํ์ฌ ํจ์จ์ ์ด๊ณ ํ์ฅ ๊ฐ๋ฅํ๋ฉฐ ์ ๋ฌธํ๋ AI ์ ํ๋ฆฌ์ผ์ด์ ์ ๋ณด์ฅํ๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค.
ํฅํ ๋ฐฉํฅ
Llama 3.1-405B์ ์ถ์๋ ์ฌ๋ฌ ๋ถ์ผ์์ ํ์ ์ ๊ฐ์ํํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค.
- ์ ๋ฌธ ๋๋ฉ์ธ์ ๋ํ ๋ฏธ์ธ ์กฐ์ ๊ธฐ์ ๊ฐ์
- ๋ณด๋ค ํจ์จ์ ์ธ ์ถ๋ก ๋ฐฉ๋ฒ ๊ฐ๋ฐ
- ๋ชจ๋ธ ์์ถ ๋ฐ ์ฆ๋ฅ์ ๋ฐ์
๊ฒฐ๋ก
Llama 3.1-405B๋ ์คํ ์์ค AI์ ์ค์ํ ์ด์ ํ๋ฅผ ์๋ฏธํ๋ฉฐ ์ด์ ์๋ ํ์ ์์ค ๋ชจ๋ธ์๋ง ์ ๊ณต๋์๋ ๊ธฐ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
์ด ๋ชจ๋ธ์ ์ ์ฌ๋ ฅ์ ๊ณ์ํด์ ํ๊ตฌํด ๋๊ฐ๋ ๊ณผ์ ์์, ์ฑ ์๊ฐ๊ณผ ์ค๋ฆฌ์ ๊ณ ๋ ค๋ฅผ ๋ฐํ์ผ๋ก ์ด ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๊ฒ์ด ๋งค์ฐ ์ค์ํฉ๋๋ค. ์ด ๋ชจ๋ธ๊ณผ ํจ๊ป ์ ๊ณต๋๋ ๋๊ตฌ์ ์์ ์ฅ์น๋ ์ฑ ์๊ฐ ์๋ ๋ฐฐํฌ๋ฅผ ์ํ ํ์ ์ ๊ณตํ์ง๋ง, ์ด ๊ฐ๋ ฅํ ๊ธฐ์ ์ด ์ฌํ์ ์ด์ต์ ์ํด ์ฌ์ฉ๋๋๋ก ํ๋ ค๋ฉด ์ง์์ ์ธ ๊ฒฝ๊ณ์ ์ง์ญ ์ฌํ์ ํ๋ ฅ์ด ํต์ฌ์ ๋๋ค.
์ ๋ ์ง๋ 50๋ ๋์ ๊ธฐ๊ณ ํ์ต๊ณผ ๋ฅ ๋ฌ๋์ ๋งคํน์ ์ธ ์ธ๊ณ์ ๋ชฐ๋ํ์ต๋๋ค. ์ ์ ์ด์ ๊ณผ ์ ๋ฌธ โโ์ง์์ ํนํ AI/ML์ ์ค์ ์ ๋ XNUMX๊ฐ ์ด์์ ๋ค์ํ ์ํํธ์จ์ด ์์ง๋์ด๋ง ํ๋ก์ ํธ์ ๊ธฐ์ฌํ๋๋ก ์ด๋์์ต๋๋ค. ๋์ ๊ณ์๋๋ ํธ๊ธฐ์ฌ์ ๋ํ ๋ด๊ฐ ๋ ํ๊ตฌํ๊ณ ์ถ์ ๋ถ์ผ์ธ ์์ฐ์ด ์ฒ๋ฆฌ๋ก ๋๋ฅผ ์ด๋์์ต๋๋ค.
๋๋ ์ข์ํ ์ง๋ ๋ชจ๋ฅธ๋ค.
-
AI ๋ฒค์น๋งํฌ๊ฐ ๋ชจ๋ธ์ ๊ฑฐ์ง๋ง์ ๊ฐ๋ฅด์น๋ ๊ฒฝ์ฐ
-
LLM์ด ์ฐ๋ฆฌ์๊ฒ ์ง๋ฅ์ ์ฌ์ ์ํ๋๋ก ๊ฐ์ํ๋ ๋ฐฉ์
-
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ด ์ค๊ฐ ๋ถ๋ถ์ ์๋ ์ด์ : AI์ ์จ๊ฒจ์ง ๋งน์ ๋ฐ๊ฒฌ
-
LLM์ ๊ธฐ์ต ํ๊ณ: AI๊ฐ ๋๋ฌด ๋ง์ ๊ฒ์ ๊ธฐ์ตํ ๋
-
LLM์ด ์ฌ์ด ํผ์ฆ์ ๋๋ฌด ๋ง์ด ์๊ฐํ๊ณ ์ด๋ ค์ด ํผ์ฆ์ ํฌ๊ธฐํ๋ ์ด์
-
AI๋ ํ ์คํธ ์ค์ด๋ผ๋ ๊ฒ์ ์๋ฉด ๋ค๋ฅด๊ฒ ํ๋ํ๋ค๋ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๊ฐ ๋์์ต๋๋ค.