Rescale ๋ฏธํŒ… ์˜ˆ์•ฝ

MPT-30B: MosaicML, ์ƒˆ๋กœ์šด LLM์œผ๋กœ GPT-3์„ ๋Šฅ๊ฐ€ํ•˜์—ฌ NLP์˜ ๊ฒฝ๊ณ„๋ฅผ ํ—ˆ๋ฌผ๋‹ค

์ธ๊ณต์ง€๋Šฅ

MPT-30B: MosaicML, ์ƒˆ๋กœ์šด LLM์œผ๋กœ GPT-3์„ ๋Šฅ๊ฐ€ํ•˜์—ฌ NLP์˜ ๊ฒฝ๊ณ„๋ฅผ ํ—ˆ๋ฌผ๋‹ค

mm
์ฃผ์š” ๋ธ”๋กœ๊ทธ ์ด๋ฏธ์ง€-MPT-30B: MosaicML, ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ฒฝ๊ณ„๋ฅผ ๋„“ํžˆ๊ธฐ ์œ„ํ•ด ์ƒˆ๋กœ์šด LLM์œผ๋กœ GPT-3์„ ๋Šฅ๊ฐ€

๋ชจ์ž์ดํฌML ํ•˜๋Š” ์ƒ์„ฑ ์  AI AI ์ „๊ฐœ ๋ฐ ํ™•์žฅ์„ฑ ์†”๋ฃจ์…˜์„ ์ œ๊ณตํ•˜๋Š” ๊ธฐ์—…์ž…๋‹ˆ๋‹ค. ์ตœ์‹  ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM) MPT-30B AI ์ปค๋ฎค๋‹ˆํ‹ฐ ์ „๋ฐ˜์— ํŒŒ์žฅ์„ ์ผ์œผํ‚ค๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

MosaicML์˜ LLM ์—ฌ์ •์€ MPT-7B (Mosaic Pretrained Transformer)๋Š” 2023๋…„ XNUMX์›”์— ์„ธ ๊ฐ€์ง€ ๋ณ€ํ˜•๊ณผ ํ•จ๊ป˜ ์ œ๊ณต๋ฉ๋‹ˆ๋‹ค.

  1. MPT-7B-StoryWriter-65k+(๊ธด ํ˜•์‹์˜ ์Šคํ† ๋ฆฌ ์ƒ์„ฑ์šฉ)
  2. MPT-7B-Instruct(๊ฐ„๋‹จํ•œ ํ˜•์‹์˜ ์ง€์นจ์„ ๋”ฐ๋ฅด๋Š” ๊ฒฝ์šฐ)
  3. MPT-7B-์ฑ„ํŒ…(๋Œ€ํ™” ์ƒ์„ฑ์šฉ)

์ด ๋ชจ๋ธ์€ ์˜คํ”ˆ ์†Œ์Šค ํŠน์„ฑ, ์ƒ์—…์  ์œ ์šฉ์„ฑ ๋ฐ ํ™•์žฅ๋œ ์ปจํ…์ŠคํŠธ ์ฐฝ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ํƒ์›”ํ•œ ๊ธฐ๋Šฅ์œผ๋กœ ์ธํ•ด ML ์ปค๋ฎค๋‹ˆํ‹ฐ์—์„œ ์—„์ฒญ๋‚œ ์„ฑ๊ณต์„ ๊ฑฐ๋‘์—ˆ์Šต๋‹ˆ๋‹ค.

๊ฐ€์žฅ ์ค‘์š”ํ•œ ๊ฒƒ์€ ์ด ๋ชจ๋ธ์ด ๋™๋“ฑํ–ˆ๊ณ  ์–ด๋–ค ๊ฒฝ์šฐ์—๋Š” ๋‹ค๋ฅธ ์œ ์‚ฌํ•œ ๋ชจ๋ธ๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋›ฐ์–ด๋‚ฌ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค(๋ผ๋งˆ-7B, ์•ˆ์ •LM 7B, ๋“ฑ). 7์›”๊นŒ์ง€ MPT-3B ์‹œ๋ฆฌ์ฆˆ๋Š” 22๋งŒ ํšŒ ์ด์ƒ ๋‹ค์šด๋กœ๋“œ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. XNUMX์›” XNUMX์ผ, MosaicML์ด ์ถœ์‹œ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. MPT-30B ์˜คํ”ˆ ์†Œ์Šค ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์˜ ๊ธฐ์ค€์„ ๋”์šฑ ๋†’์˜€์Šต๋‹ˆ๋‹ค.

MPT-30B: GPT-3๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ๊ฐ•๋ ฅํ•œ LLM

MPT-30B๋Š” ์˜คํ”ˆ ์†Œ์Šค ๋ฐ ์ƒ์šฉ ๋ผ์ด์„ ์Šค ๋””์ฝ”๋” ๊ธฐ๋ฐ˜ LLM์œผ๋กœ, GPT-3-175B GPT-17 ๋งค๊ฐœ๋ณ€์ˆ˜์˜ 3%, ์ฆ‰ 30B๋งŒ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๋Ÿฌ ์ž‘์—…์—์„œ GPT-3๋ฅผ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ๋‹ค์Œ์€ MPT-30B์™€ GPT-3์˜ ๋น„๊ต์ž…๋‹ˆ๋‹ค.

MPT-30B๋Š” ์ด์ „ MPT-7B ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ๋น„์Šทํ•œ ํฌ๊ธฐ์˜ ๋ชจ๋ธ์— ๋น„ํ•ด ํ›ˆ๋ จํ•˜๋Š” ๊ฒƒ์ด ๊ณ„์‚ฐ์ ์œผ๋กœ ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด LLaMA-30B๋Š” MPT-1.44B๋ณด๋‹ค ์•ฝ 30๋ฐฐ ๋” ๋งŽ์€ FLOP ์˜ˆ์‚ฐ์„ ์‚ฌ์šฉํ•œ ๋ฐ˜๋ฉด Falcon-40B๋Š” MPT-1.27B๋ณด๋‹ค 30๋ฐฐ ๋” ๋งŽ์€ FLOP ์˜ˆ์‚ฐ์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์Œ์€ MPT-30B๊ฐ€ ์ด์ „ ๋ชจ๋ธ์— ๋น„ํ•ด ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ๊ฐœ์„ ๋œ ์ ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

MPT-30B์˜ ์ผ๋ถ€ ํŠน์ˆ˜ ๊ธฐ๋Šฅ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

8k ํ† ํฐ ์ปจํ…์ŠคํŠธ ์ฐฝ

LLM์˜ ์ปจํ…์ŠคํŠธ ์ฐฝ์€ ๋ชจ๋ธ์ด ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•˜๊ธฐ ์ „์— ๊ณ ๋ คํ•  ์ˆ˜ ์žˆ๋Š” ํ† ํฐ์˜ ๋ฒ”์œ„๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. MPT-30B๋Š” ๊ต์œก ์‹œ๊ฐ„์— 8000 ํ† ํฐ์˜ ์ปจํ…์ŠคํŠธ ์ฐฝ์„ ๊ฐ€์กŒ์Šต๋‹ˆ๋‹ค. ์ฒ˜์Œ์—๋Š” 1k ํ† ํฐ ์‹œํ€€์Šค๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ 2T ํ† ํฐ์—์„œ ํ›ˆ๋ จ๋œ ๋‹ค์Œ 50k ํ† ํฐ ์‹œํ€€์Šค์˜ ์ถ”๊ฐ€ 8B ํ† ํฐ(๋Œ€๋žต 6000 ๋‹จ์–ด).

์•Œ๋ฆฌ๋ฐ”์ด ์ง€์›

์ด ๊ธฐ๋Šฅ์„ ์„ค๋ช…ํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์Œ ์งˆ๋ฌธ์„ ๊ณ ๋ คํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

MPT-30B๋Š” ํ›ˆ๋ จ๋œ ๊ฒƒ๋ณด๋‹ค ๋” ๊ธด ์‹œํ€€์Šค๋ฅผ ์–ด๋–ป๊ฒŒ ์ดํ•ดํ•˜๊ณ  ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๊นŒ?

MPT-30B๋Š” ์„ ํ˜• ํŽธํ–ฅ ์ฃผ์˜(ALiBi) ๋” ๊ธด ์‹œํ€€์Šค๋ฅผ ์ดํ•ดํ•˜๊ณ  ๋ฏธ์„ธ ์กฐ์ • ๋˜๋Š” ์ถ”๋ก  ์ค‘์— ์ปจํ…์ŠคํŠธ ์ฐฝ์„ 8k ํ† ํฐ ์ด์ƒ์œผ๋กœ ํ™•์žฅํ•˜๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.

์‹œํ€€์Šค์˜ ๊ฐ ๋‹จ์–ด์— ๋ฒกํ„ฐ๋ฅผ ํ• ๋‹นํ•˜๋Š” ์œ„์น˜ ์ž„๋ฒ ๋”ฉ์„ ๊ณ„์‚ฐํ•˜๋Š” ๋Œ€์‹  ALiBi๋Š” ํ‚ค ํ† ํฐ๊ณผ ์ฟผ๋ฆฌ ํ† ํฐ ๊ฐ„์˜ ์ฃผ์˜ ์ ์ˆ˜๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ํ‚ค์™€ ์ฟผ๋ฆฌ ํ† ํฐ์ด ์„œ๋กœ ๊ฐ€๊นŒ์ด ์žˆ์œผ๋ฉด ํŽ˜๋„ํ‹ฐ๊ฐ€ ๋‚ฎ์ง€๋งŒ ๊ทธ๋ ‡์ง€ ์•Š์€ ๊ฒฝ์šฐ์—๋Š” ๋” ๋†’์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ ๊ทผ๋ณธ์ ์ธ ๋ณ€์••๊ธฐ ์•„ํ‚คํ…์ฒ˜ ๊ธด ํ˜•์‹์˜ ์ž…๋ ฅ์œผ๋กœ ์ถ”์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

FlashAttention์„ ํ†ตํ•œ ํšจ์œจ์ ์ธ ์ถ”๋ก  ๋ฐ ๊ต์œก ์„ฑ๋Šฅ

์ฃผ์˜, ์ฆ‰ ์ž…๋ ฅ ์‹œํ€€์Šค์˜ ๊ด€๋ จ ๋ถ€๋ถ„์— ์ง‘์ค‘ํ•˜๋Š” ๊ฒƒ์€ ๋ณ€ํ™˜๊ธฐ์˜ ์ค‘์š”ํ•œ ๊ตฌ์„ฑ ์š”์†Œ์ด์ง€๋งŒ ํŠนํžˆ ๊ธด ํ…์ŠคํŠธ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ๋А๋ฆฌ๊ณ  ๋ฉ”๋ชจ๋ฆฌ ์ง‘์•ฝ์ ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ”Œ๋ž˜์‹œ์ฃผ์˜ MPT-30B์— ๋Œ€ํ•œ ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Cornell University์˜ ์—ฐ๊ตฌ์›์ด ์ œ์•ˆํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. FlashAttention์€ ํƒ€์ผ๋ง์ด๋ผ๋Š” ๊ธฐ์ˆ ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์ด ๋ฉ”๋ชจ๋ฆฌ์—์„œ ์ฝ๊ฑฐ๋‚˜ ๋ฉ”๋ชจ๋ฆฌ์— ์จ์•ผ ํ•˜๋Š” ํšŸ์ˆ˜๋ฅผ ์ค„์—ฌ ์ฒ˜๋ฆฌ ์†๋„๋ฅผ ๋†’์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ด ๋ชจ๋ธ์€ ์ตœ์ฒจ๋‹จ FlashAttention ๊ธฐ์ˆ ๊ณผ NVIDIA์˜ ๋” ๋น ๋ฅธ ๋ณ€์••๊ธฐ ํšจ์œจ์ ์ธ ๊ต์œก ๋ฐ ์ถ”๋ก ์„ ์œ„ํ•œ ์ตœ์ ํ™” ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ.

๊ต์œก ๋ฐ ๋ฐฐํฌ ์šฉ์ด์„ฑ

๊ฐœ๋ฐœ์ž๋Š” MPT-30B๋ฅผ ์ฒ˜์Œ๋ถ€ํ„ฐ ํ›ˆ๋ จํ•˜๊ฑฐ๋‚˜ ๋” ๋น ๋ฅธ ๋ฐฐํฌ๋ฅผ ์œ„ํ•ด MosaicML์˜ ์ฒดํฌํฌ์ธํŠธ๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ํŠน์ • ๋ฐ์ดํ„ฐ ์„ธํŠธ์˜ ๋„๋ฉ”์ธ๋ณ„ ์‚ฌ์šฉ ์‚ฌ๋ก€์— ๋งž๊ฒŒ ๋ฏธ์„ธ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด ๋ชจ๋ธ์˜ ํฌ๊ธฐ๋Š” ๋‹จ์ผ GPU, ํŠนํžˆ 1๋น„ํŠธ ์ •๋ฐ€๋„์˜ 100xA80-16GB ๋˜๋Š” 1๋น„ํŠธ ์ •๋ฐ€๋„์˜ 100xA40-8GB์— ์†์‰ฝ๊ฒŒ ๋ฐฐํฌํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ ํƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ์ด ๋ชจ๋ธ์€ ์ด๋Ÿฌํ•œ GPU์˜ ๋ฉ”๋ชจ๋ฆฌ ์ œํ•œ์— ๋งž์ถฐ ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์ฝ”๋”ฉ ๋Šฅ๋ ฅ

MPT-30B๋Š” ํƒ์›”ํ•œ ์ฝ”๋”ฉ ๊ธฐ๋Šฅ๋„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ธ๊ฐ„ํ‰๊ฐ€ OpenAI์—์„œ ๊ณต๊ฐœํ•œ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋กœ 164๊ฐœ์˜ ์ˆ˜์ž‘์—… ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๋ฌธ์ œ๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. HumanEval ๋ฐ์ดํ„ฐ ์„ธํŠธ์—์„œ ์ด ๋ชจ๋ธ์€ ์Šคํƒ€์ฝ”๋” ์‹œ๋ฆฌ์ฆˆ.

๋ฏธ์„ธ ์กฐ์ •๋œ ๋ณ€ํ˜•: MPT-30B-Instruct ๋ฐ MPT-30B-Chat

MPT-30B-์ง€์‹œ

LLM์€ ์ฃผ๋กœ ์งˆ๋ฌธ ์‘๋‹ต, ํ…์ŠคํŠธ ์š”์•ฝ, ์–ธ์–ด ๋ฒˆ์—ญ ๋“ฑ๊ณผ ๊ฐ™์€ ์ง€์นจ์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ž‘์—…์— ๋”ฐ๋ฅธ ์ง€์‹œ. ๋ฏธ์„ธ ์กฐ์ •์„ ์œ„ํ•ด ๋‹ค์Œ ๋ฐ์ดํ„ฐ ์„ธํŠธ๊ฐ€ ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

  1. ํ”Œ๋žœ
  2. P3
  3. ์•ŒํŒŒ์นด
  4. ๋Œ๋ฆฌ-15k

Dolly ๋ฐ์ดํ„ฐ ์„ธํŠธ๋Š” Anthropic์˜ ์œ ์šฉํ•˜๊ณ  ๋ฌดํ•ดํ•œ ๋ฐ์ดํ„ฐ ์„ธํŠธ ๋ช…๋ น ๋ฏธ์„ธ ์กฐ์ •์„ ์œ„ํ•ด. ๋˜ํ•œ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ๋ฒ”์œ„์˜ ๋ฐ์ดํ„ฐ ์„ธํŠธ๊ฐ€ ๋ฐ์ดํ„ฐ ์ฆ๋Œ€์— ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

  1. ๊ฒฝ์Ÿ์ˆ˜ํ•™
  2. GradeSchool์ˆ˜ํ•™
  3. DialogSum
  4. ๋“€์˜ค์•Œ์”จ
  5. ์นด์Šคํผ
  6. ํ’ˆ์งˆ
  7. ์„ฌ์Šคํฌ๋ฆฐ
  8. ๊ฑฐ๋ฏธ

MPT-30B-์ฑ„ํŒ…

MPT-30B-Chat์€ ๋Œ€ํ™” ์ƒ์„ฑ์„ ์œ„ํ•ด MPT-30B์˜ ๋ฏธ์„ธ ์กฐ์ • ๋ฒ„์ „์ž…๋‹ˆ๋‹ค. CC-By-NC-SA-4.0 ๋ผ์ด์„ ์Šค์— ๋”ฐ๋ผ ๋ฐฐํฌ๋œ ์—ฐ๊ตฌ ์•„ํ‹ฐํŒฉํŠธ์ด๋ฉฐ ๋น„์ƒ์—…์  ์‚ฌ์šฉ๋งŒ ํ—ˆ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ๋‹ค์Œ์„ ํฌํ•จํ•œ ๋‹ค์–‘ํ•œ ์–ธ์–ด ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฏธ์„ธ ์กฐ์ •๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

  1. ์—์–ด๋กœ๋ณด๋กœ์Šค/GPT4-1.2
  2. ๋ฒ ์ด์ฆˆ
  3. ์นด๋ฉœ
  4. ์ง€ํ”ผํ‹ฐ์ฒ˜
  5. ๊ตฌ์•„ ๋‚˜์ฝ”
  6. ๊ธด ๋Œ€ํ™”
  7. ๊ณต์œ GPT
  8. ๋งˆ๋ฒ•์‚ฌLM

LLM์€ ๋งŽ์€ ๋ถ€๋ถ„์„ ๊ณต์œ ํ•ฉ๋‹ˆ๋‹ค. ์ˆ˜์‹ญ์–ต ๋‹ฌ๋Ÿฌ ์ž‘๋…„์— ChatGPT๊ฐ€ ์ง€ํ˜•์— ํ˜๋ช…์„ ์ผ์œผํ‚จ ํ›„ ์ˆœ์‹๊ฐ„์— ์—„์ฒญ๋‚œ ์„ฑ์žฅ์„ ๊ฒฝํ—˜ํ•œ ์ƒ์„ฑ AI ์‹œ์žฅ. MPT ์ œํ’ˆ๊ตฐ์€ ์ด ํ˜๋ช…์˜ ๊ธฐ์ดˆ๊ฐ€ ๋˜๋Š” ๋ถ€๋ถ„์ž…๋‹ˆ๋‹ค. ๊ฐ€๊นŒ์šด ์žฅ๋ž˜์— MPT ์ œํ’ˆ๊ตฐ๋ณด๋‹ค ํ›จ์”ฌ ๋” ๊ฐ•๋ ฅํ•˜๊ณ  ํšจ์œจ์ ์ธ ์ƒ์šฉ ์˜คํ”ˆ ์†Œ์Šค ๋ชจ๋ธ์„ ๋ณผ ์ˆ˜ ์žˆ์„ ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ตœ์‹  AI ๋‰ด์Šค๋ฅผ ๋ณด๋ ค๋ฉด ๋‹ค์Œ ์‚ฌ์ดํŠธ๋ฅผ ๋ฐฉ๋ฌธํ•˜์„ธ์š”. ๋‹จ๊ฒฐ.ai.

ํ•˜์ง€์นด AI ๋ฐ SaaS ํšŒ์‚ฌ๋ฅผ ์œ„ํ•œ ๊ธฐ์ˆ  ์ฝ˜ํ…์ธ  ์ž‘์„ฑ์— ๋Œ€ํ•œ ๊ด‘๋ฒ”์œ„ํ•œ ๊ฒฝํ—˜์„ ๊ฐ€์ง„ ๋ฐ์ดํ„ฐ ๊ณผํ•™์ž์ž…๋‹ˆ๋‹ค.