Rescale ๋ฏธํŒ… ์˜ˆ์•ฝ

GPT-3 : ์–ธ์–ด ๋ชจ๋ธ์— ๋Œ€ํ•œ ์ƒท ํ•™์Šต์ด ๊ฑฐ์˜ ์—†์Šต๋‹ˆ๊นŒ?

์ธ๊ณต์ง€๋Šฅ

GPT-3 : ์–ธ์–ด ๋ชจ๋ธ์— ๋Œ€ํ•œ ์ƒท ํ•™์Šต์ด ๊ฑฐ์˜ ์—†์Šต๋‹ˆ๊นŒ?

mm

์ง€๋‚œ ๋ช‡ ๋…„ ๋™์•ˆ AI ๋ฐ ML ์—…๊ณ„์—์„œ๋Š” ์—ฐ๊ตฌ์›๋“ค์ด ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ „์†ก ์ž‘์—…์„ ์œ„ํ•ด ๋งค์šฐ ์œ ์—ฐํ•˜๊ณ  ์ž‘์—…์— ๊ตฌ์• ๋ฐ›์ง€ ์•Š๋Š” ๋ฐฉ์‹์œผ๋กœ NLP ๋ฐฉ์‹์„ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜๋ฉด์„œ NLP ์‹œ์Šคํ…œ์˜ ๊ฐœ๋ฐœ ๋ฐ ์ ์šฉ์ด ๊ธ‰๊ฒฉํžˆ ์ฆ๊ฐ€ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉ๊ฒฉํ–ˆ์Šต๋‹ˆ๋‹ค. 

์ฒ˜์Œ์—๋Š” ๋‹จ์–ด ๋ฒกํ„ฐ๋ฅผ ์‚ฌ์šฉํ•œ ๋‹จ์ผ ๋ ˆ์ด์–ด ํ‘œํ˜„์ด์—ˆ๊ณ  ์ดํ›„ ์ž‘์—…๋ณ„ ์•„ํ‚คํ…์ฒ˜์— ๊ณต๊ธ‰๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์Œ์œผ๋กœ ๋” ๋‚˜์€ ํ‘œํ˜„์„ ํ˜•์„ฑํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์ธต ํ‘œํ˜„ ๋ฐ ์ƒํ™ฉ๋ณ„ ์ƒํƒœ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์€ RNN ์•„ํ‚คํ…์ฒ˜์˜€์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๊ฐ€์žฅ ์ตœ๊ทผ์—๋Š” ์ด๋Ÿฌํ•œ ๋„คํŠธ์›Œํฌ๋ฅผ ๋ฏธ์„ธ ์กฐ์ •ํ•˜์—ฌ ์ž‘์—…๋ณ„ ์•„ํ‚คํ…์ฒ˜์˜ ํ•„์š”์„ฑ์„ ์™„์ „ํžˆ ์ œ๊ฑฐํ•œ ์ „์†ก ์–ธ์–ด ๋ชจ๋ธ ๋˜๋Š” ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ฐ˜๋ณต ๋ชจ๋ธ์ด ์žˆ์Šต๋‹ˆ๋‹ค. 

์ „์†ก ์–ธ์–ด ๋ชจ๋ธ์€ ์งˆ๋ฌธ์— ๋‹ตํ•˜๊ธฐ, ๋…ํ•ด ๋˜๋Š” ํ…์ŠคํŠธ ๋ธ”๋ก, ํ…์ŠคํŠธ ์ˆ˜๋ฐ˜ ๋“ฑ๊ณผ ๊ฐ™์€ ์–ด๋ ค์šด ์ž‘์—…์—์„œ ์—„์ฒญ๋‚œ ๋ฐœ์ „์„ ๊ฐ€์ ธ์™”๊ธฐ ๋•Œ๋ฌธ์— NLP ์—…๊ณ„์—์„œ ์ฃผ์š” ์ „ํ™˜์ ์ด ๋œ ๊ฒƒ์œผ๋กœ ์ž…์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. 

๊ทธ๋Ÿฌ๋‚˜ ์žฅ์ ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์ „์†ก ์–ธ์–ด ๋ชจ๋ธ์€ ์ž‘์—…์—์„œ ์›ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ์ž‘์—…๋ณ„ ๋ฏธ์„ธ ์กฐ์ • ๋˜๋Š” ์ž‘์—…๋ณ„ ๋ฐ์ดํ„ฐ ์„ธํŠธ๊ฐ€ ํ•„์š”ํ•˜๋ฏ€๋กœ ํฐ ์ œํ•œ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ „์†ก ์–ธ์–ด ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋ ค๋ฉด ๊ฐœ๋ฐœ์ž๊ฐ€ ํŠน์ • ์ž‘์—…๊ณผ ๊ด€๋ จ๋œ ์ˆ˜์‹ญ๋งŒ ๊ฐœ์˜ ์˜ˆ์ œ๋กœ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ๋ฏธ์„ธ ์กฐ์ •ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. 

์ž‘์—…๋ณ„ ๋ฐ์ดํ„ฐ ์„ธํŠธ ๋ฐ ์ž‘์—…๋ณ„ ๋ฏธ์„ธ ์กฐ์ •์— ๋Œ€ํ•œ ์š”๊ตฌ ์‚ฌํ•ญ์„ ์ œ๊ฑฐํ•˜๋Š” ๊ฒƒ์ด ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์ด์œ ๋กœ NLP ์—…๊ณ„์— ๋งค์šฐ ๋ฐ”๋žŒ์งํ•˜๊ณ  ์œ ์ตํ•˜๋‹ค๋Š” ๊ฒƒ์€ ๋งํ•  ํ•„์š”๋„ ์—†์Šต๋‹ˆ๋‹ค. 

๊ธฐ์กด ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ์ „์†ก ์–ธ์–ด ๋ชจ๋ธ ๋˜๋Š” ์ˆœํ™˜ ๋ชจ๋ธ ๊ด€๋ จ ๋ฌธ์ œ

  • ์‹ค์šฉ์„ฑ ๋ฐ ์ ์šฉ์„ฑ์˜ ์ œํ•œ

๋ฌด์—‡๋ณด๋‹ค๋„ ๊ฐ ์ž‘์—…์— ๋Œ€ํ•ด ๋ ˆ์ด๋ธ”์ด ์ง€์ •๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ๋Š” ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์„ธํŠธ์˜ ์š”๊ตฌ ์‚ฌํ•ญ์œผ๋กœ ์ธํ•ด ์–ธ์–ด ๋ชจ๋ธ์˜ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ๊ณผ ์‹ค์šฉ์„ฑ์ด ์ œํ•œ๋ฉ๋‹ˆ๋‹ค. ์–ธ์–ด ๋ชจ๋ธ์€ ์งง์€ ์ด์•ผ๊ธฐ ์ƒ์„ฑ๋ถ€ํ„ฐ ๋ฌธ๋ฒ• ์˜ค๋ฅ˜ ์ˆ˜์ •, ๊ฐœ๋…์— ๋Œ€ํ•œ ์˜ˆ ์ƒ์„ฑ์— ์ด๋ฅด๊ธฐ๊นŒ์ง€ ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์„ ์ฐพ์Šต๋‹ˆ๋‹ค. ๋•Œ๋กœ๋Š” ๋ ˆ์ด๋ธ”์ด ์ง€์ •๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ํฌํ•จ๋œ ๋Œ€๊ทœ๋ชจ ๊ฐ๋… ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ์ˆ˜์ง‘ํ•˜๋Š” ๊ฒƒ์ด ์–ด๋ ค์šด ์ž‘์—…์ด๋ฉฐ, ํŠนํžˆ ๋ชจ๋“  ๊ฐœ๋ณ„ ์ž‘์—…์— ๋Œ€ํ•ด ํ”„๋กœ์„ธ์Šค๋ฅผ ๋ฐ˜๋ณตํ•ด์•ผ ํ•˜๋Š” ๊ฒฝ์šฐ ๋”์šฑ ๊ทธ๋ ‡์Šต๋‹ˆ๋‹ค. 

  • ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์—์„œ ํ—ˆ์œ„ ์ƒ๊ด€๊ด€๊ณ„ ํ™œ์šฉ

๋ชจ๋ธ์˜ ํ‘œํ˜„๋ ฅ๊ณผ ๊ฒฐํ•ฉ๋œ ํ›ˆ๋ จ ๋ถ„ํฌ์˜ ์ œํ•œ ๋ฐ ํ˜‘์†Œํ•จ์€ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์—์„œ ํ—ˆ์œ„ ์ƒ๊ด€ ๊ด€๊ณ„๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์ž ์žฌ๋ ฅ์„ ๊ทผ๋ณธ์ ์œผ๋กœ ์„ฑ์žฅ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•  ๊ฐ€๋Šฅ์„ฑ์€ ๋ฏธ์„ธ ์กฐ์ • ๋ฐ ์‚ฌ์ „ ํ›ˆ๋ จ ํŒจ๋Ÿฌ๋‹ค์ž„ ์ค‘์— ๋ฌธ์ œ๋ฅผ ์ดˆ๋ž˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์™œ๋ƒํ•˜๋ฉด ์ „์†ก ์–ธ์–ด ๋ชจ๋ธ์€ ์‚ฌ์ „ ํ›ˆ๋ จ ์ค‘์— ๋งŽ์€ ์–‘์˜ ์ •๋ณด๋ฅผ ํก์ˆ˜ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์„ค๊ณ„๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. 

๊ฒŒ๋‹ค๊ฐ€, ์ด์ „ ๋ชจ๋ธ์— ๋Œ€ํ•œ ์ž‘์—…์— ๋”ฐ๋ฅด๋ฉด ๋Œ€ํ˜• ๋ชจ๋ธ์ด ๋งค๋ฒˆ ๋” ๋‚˜์€ ๋ฐฐํฌ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ€์ ธ์˜ค์ง€ ์•Š๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ด๋Ÿฌํ•œ ํŒจ๋Ÿฌ๋‹ค์ž„์—์„œ ์ผ๋ฐ˜ํ™”๋ฅผ ์ˆ˜ํ–‰ํ•˜๋ฉด ๋ชจ๋ธ์ด ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ๋งค์šฐ ๊ตฌ์ฒด์ ์ด๊ณ  ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์˜ ๋ฒ”์œ„๋ฅผ ๋ฒ—์–ด๋‚˜๋Š” ์ƒํ™ฉ์—์„œ๋Š” ์ œ๋Œ€๋กœ ์ž‘๋™ํ•˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— ์„ฑ๋Šฅ์ด ์ €ํ•˜๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ๋„ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค. 

  • ์ธ๊ฐ„ ํ•™์Šต๊ณผ์˜ ๋น„๊ต

๋งˆ์ง€๋ง‰์œผ๋กœ ์–ธ์–ด ์ „๋‹ฌ ๋ชจ๋ธ๊ณผ ๋น„๊ตํ•  ๋•Œ ์ธ๊ฐ„์€ ๋Œ€๋ถ€๋ถ„์˜ ์–ธ์–ด ์ž‘์—…์„ ํ•™์Šตํ•  ๋•Œ ๋Œ€๊ทœ๋ชจ ๊ต์œก ๋ฐ์ดํ„ฐ ์„ธํŠธ๊ฐ€ ํ•„์š”ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๋Œ€๋ถ€๋ถ„์˜ ๊ฒฝ์šฐ ์ธ๊ฐ„์ด ํŠน์ • ์ˆ˜์ค€์˜ ๊ฒฝ์Ÿ๋ ฅ์„ ๊ฐ€์ง€๊ณ  ์–ธ์–ด ์ž‘์—…์„ ์ดํ•ดํ•˜๊ณ  ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐ๋Š” ์‚ฌ๋žŒ์˜ ์ž์—ฐ ์–ธ์–ด์— ๋Œ€ํ•œ ๊ฐ„๋‹จํ•œ ์ง€์‹œ๋‚˜ ์–ธ์–ด ์ž‘์—…์— ๋Œ€ํ•œ ๊ฐ„๋‹จํ•œ ์‹œ์—ฐ์ด ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค. 

์ธ๊ฐ„์˜ ์ ์‘ ๋Šฅ๋ ฅ์€ ๋‹ค์–‘ํ•œ ๊ธฐ์ˆ  ์„ธํŠธ ์‚ฌ์ด๋ฅผ ์ „ํ™˜ํ•˜๊ฑฐ๋‚˜ ํ•จ๊ป˜ ํ˜ผํ•ฉํ•˜์—ฌ ๋ฐฉ์–ธ ์ค‘์— ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๋ฏ€๋กœ ํ˜„์žฌ NLP ์‹œ์Šคํ…œ์˜ ๊ธฐ๋Šฅ์„ ๋„˜์–ด์„œ๋Š” ์ˆ˜๋งŽ์€ ์‹ค์งˆ์ ์ธ ์ด์ ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. 

๋ฉ”ํƒ€ ํ•™์Šต ๋ฐ GPT-3 ๋ฌธ์ œ ํ•ด๊ฒฐ

์œ„ ๋ฌธ์ œ์— ๋Œ€ํ•œ ๊ฐ€๋Šฅํ•œ ํ•ด๊ฒฐ์ฑ…์€ ๋ชจ๋ธ์ด ํ›ˆ๋ จ ์ค‘์— ํŒจํ„ด์„ ์ธ์‹ํ•˜๋Š” ๋” ํฌ๊ณ  ๊ด‘๋ฒ”์œ„ํ•œ ๊ธฐ์ˆ  ๋ฐ ๋Šฅ๋ ฅ ์„ธํŠธ๋ฅผ ๊ฐœ๋ฐœํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๊ณ  ๊ฐ„์„ญ ์ค‘์— ์ด๋Ÿฌํ•œ ํ•™์Šต๋œ ๋Šฅ๋ ฅ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ ์‘ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ์ตœ์‹  ML์˜ ๊ฐœ๋…์ธ ๋ฉ”ํƒ€ ํ•™์Šต์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์‹ ์†ํ•˜๊ฒŒ ๋˜๋Š” ํ•„์š”ํ•œ ์ž‘์—…์„ ์ธ์‹ํ•ฉ๋‹ˆ๋‹ค. 

Meta Learning์€ "๋ผ๋Š” ๊ธฐ์ˆ ์„ ํ†ตํ•ด ์–ธ์–ด ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์—์„œ ๊ตฌํ˜„๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.์ƒํ™ฉ์— ๋งž๋Š” ํ•™์Šตโ€๋Š” ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ์–ธ์–ด ๋ชจ๋ธ์˜ ํ…์ŠคํŠธ ์ž…๋ ฅ์„ ์ž‘์—… ์‚ฌ์–‘์œผ๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ ๋ชจ๋ธ์€ ์ž์—ฐ์–ด ๋ช…๋ น์— ๋”ฐ๋ผ ์กฐ๊ฑด์„ ์„ค์ •ํ•˜๊ณ  ๋ช‡ ๊ฐ€์ง€ ๋ฐ๋ชจ๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜๋„ ์žˆ์œผ๋ฉฐ ๋ชจ๋ธ์€ ๋‹ค์Œ ๋‹จ๊ณ„๋ฅผ ์˜ˆ์ธกํ•˜์—ฌ ๋‚˜๋จธ์ง€ ์ž‘์—…์„ ์™„๋ฃŒํ•  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋ฉ๋‹ˆ๋‹ค. 

Meta Learning์˜ ์œ ์ผํ•œ ์ฃผ์š” ๋ฌธ์ œ์ ์€ ๊ธ์ •์ ์ธ ์ž ์žฌ๋ ฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์ž์—ฐ์–ด ๊ตฌ์กฐ์˜ ๋ฏธ์„ธ ์กฐ์ • ์ ‘๊ทผ ๋ฐฉ์‹์— ๋น„ํ•ด ์—ฌ์ „ํžˆ ์—ด๋“ฑํ•˜๋ฉฐ, ์–ธ์–ด ๊ณผ์ œ๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•œ ์‹ค์šฉ์ ์ธ ๋ฐฉ๋ฒ•์ด ๋˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ถ”๊ฐ€์ ์ธ ๊ฐœ์„ ์ด ํ•„์š”ํ•˜๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. 

๋ฉ”ํƒ€๋Ÿฌ๋‹ ์™ธ์—๋„ ์ธ๊ธฐ๋ฅผ ์–ป๊ณ  ์žˆ๋Š” ๋˜ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์€ ๋ณ€ํ™˜๊ธฐ ์–ธ์–ด ๋ชจ๋ธ์˜ ์šฉ๋Ÿ‰์„ ๋Š˜๋ฆฌ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ง€๋‚œ ๋ช‡ ๋…„ ๋™์•ˆ ์ „์†ก ๋ชจ๋ธ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ธฐ๋Šฅ์„ ํ†ตํ•ด ์šฉ๋Ÿ‰์ด ํฌ๊ฒŒ ์ฆ๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. RNSS18 100์–ต ๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ์žˆ๋Š” ๋ชจ๋ธ, DCLT18 300์–ต ๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ์žˆ๋Š” ๋ชจ๋ธ, RWC19 1.5์–ต ๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง„ ๋ชจ๋ธ, SSP19 8์–ต ๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง„ ๋ชจ๋ธ, RSR19 11์–ต ๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ–์ถ˜ ๋ชจ๋ธ๊ณผ TUR20 17์–ต ๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ์žˆ๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. 

๋ชจ๋ธ์˜ ์šฉ๋Ÿ‰์„ ๋Š˜๋ฆฌ๊ฑฐ๋‚˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๋Š˜๋ฆฌ๋ฉด ์—ญ์‚ฌ์ ์œผ๋กœ ํ…์ŠคํŠธ ํ•ฉ์„ฑ์ด ํ–ฅ์ƒ๋˜์—ˆ์œผ๋ฉฐ, ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…๊ณผ ๊ด€๋ จ๋œ ๋กœ๊ทธ ์†์‹ค๋„ ๊ทœ๋ชจ์— ๋”ฐ๋ผ ๊ฐœ์„ ๋˜๋Š” ์›ํ™œํ•œ ์ถ”์„ธ๋ฅผ ๋”ฐ๋ฅธ๋‹ค๋Š” ํ‘œ์‹œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. 

์ด๋Š” 3์–ต ๊ฐœ๊ฐ€ ๋„˜๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง„ GPT-175 ๋ชจ๋ธ๋กœ ์ด์–ด์ง€๋ฉฐ, ์ถœ์‹œ ๋‹น์‹œ์—๋Š” ๊ฐ€์žฅ ๋†’์€ ์šฉ๋Ÿ‰์„ ๊ฐ€์ง„ ์ „์†ก ์–ธ์–ด ๋ชจ๋ธ์ด์—ˆ์Šต๋‹ˆ๋‹ค. ์ด์ œ GPT-3 ๋ชจ๋ธ์— ๋Œ€ํ•ด ์ด์•ผ๊ธฐํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. 

GPT-3 ๋ชจ๋ธ ์†Œ๊ฐœ

GPT-3๋Š” OpenAI๊ฐ€ 175๋…„์— ์ถœ์‹œํ•œ 2020์–ต ๊ฐœ ์ด์ƒ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ–์ถ˜ ์ž๋™ ๊ณต๊ฒฉ์  ์–ธ์–ด ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. GPT-3๋„ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ ์ด์ „ ๋ชจ๋ธ๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ GPT-2 ๋ชจ๋ธ์€ ์ปจ๋ณผ๋ฃจ์…˜ ๊ธฐ๋ฐ˜ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋””์ฝ”๋” ์ „์šฉ ๋”ฅ ๋Ÿฌ๋‹ ๋ณ€ํ™˜๊ธฐ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. 

GPT-3 ๋ชจ๋ธ์€ ์ž์ฒด ์ปจํ…์ŠคํŠธ ํ•™์Šต ๋Šฅ๋ ฅ์„ ์ธก์ •ํ•˜๊ณ , GPT-3 ๋ชจ๋ธ์€ 3๊ฐœ ์ด์ƒ์˜ NLP ๋ฐ์ดํ„ฐ ์„ธํŠธ์™€ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์ƒˆ๋กœ์šด ์ž‘์—…์— ๋Œ€ํ•ด ํ‰๊ฐ€๋ฉ๋‹ˆ๋‹ค. ๋ชจ๋“  ๊ฐœ๋ณ„ ์ž‘์—…์— ๋Œ€ํ•ด GPT-XNUMX ๋ชจ๋ธ์€ ์„ธ ๊ฐ€์ง€ ์กฐ๊ฑด์œผ๋กœ ํ‰๊ฐ€๋ฉ๋‹ˆ๋‹ค.

  • ์†Œ์ˆ˜์˜ ์ƒท ํ•™์Šต ๋˜๋Š” ์ƒํ™ฉ ๋‚ด ํ•™์Šต: ์†Œ์ˆ˜์˜ ์ƒท ํ•™์Šต์—์„œ GPT-3 ๋ชจ๋ธ์€ ๋ชจ๋ธ์˜ ์ปจํ…์ŠคํŠธ ์ฐฝ์— ์ž˜ ๋งž์„ ์ˆ˜ ์žˆ๋Š” ๋งŒํผ์˜ ๋ถ„ํฌ๋ฅผ ํ—ˆ์šฉํ•ฉ๋‹ˆ๋‹ค. 
  • ์›์ƒท ํ•™์Šต: ์›์ƒท ํ•™์Šต์—์„œ๋Š” ๋ชจ๋ธ์ด ํ•œ ๋ฒˆ์˜ ์‹œ์—ฐ๋งŒ ํ—ˆ์šฉํ•ฉ๋‹ˆ๋‹ค. 
  • ์ œ๋กœ์ƒท ํ•™์Šต: ์ œ๋กœ์ƒท ํ•™์Šต์—์„œ๋Š” ์‹œ์—ฐ์ด ์—†์œผ๋ฉฐ ๋ชจ๋ธ์— ์ œ๊ณต๋˜๋Š” ์ž์—ฐ์–ด๋กœ ๋œ ์ง€์นจ๋งŒ ์žˆ์Šต๋‹ˆ๋‹ค. 

๋Œ€์ฒด๋กœ GPT-3 ๋ชจ๋ธ ์ œ๋กœ์ƒท ๋ฐ ์›์ƒท ์„ค์ •์—์„œ ์›ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๊ณ , ํ“จ์ƒท ์„ค์ •์—์„œ๋Š” ๋Œ€๋ถ€๋ถ„์˜ ๊ฒฝ์šฐ ์ตœ์ฒจ๋‹จ ์ „์†ก ๋ชจ๋ธ๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋›ฐ์–ด๋‚ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ GPT-3 ๋ชจ๋ธ์€ ์ฆ‰์„ ์ถ”๋ก ์„ ํ…Œ์ŠคํŠธํ•˜๋„๋ก ์„ค๊ณ„๋œ ์ž์—ฐ์–ด ์ž‘์—…์—์„œ ์›์ƒท ๋ฐ ์ œ๋กœ์ƒท ์„ค์ •์—์„œ ์ž˜ ์ˆ˜ํ–‰๋˜๊ฑฐ๋‚˜ ๋ฌธ์žฅ ๋’ค์— ์ƒˆ๋กœ์šด ๋‹จ์–ด ์‚ฌ์šฉ, ๋‹จ์–ด ํ•ด๋… ๋˜๋Š” ์‚ฐ์ˆ  ์ˆ˜ํ–‰๊ณผ ๊ฐ™์€ ๋น ๋ฅธ ์ฃผ์˜๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์šด์˜. ๋ฐ˜๋ฉด GPT-3 ๋ชจ๋ธ์€ ๋ช‡ ์žฅ์˜ ์ƒท ์„ค์ •์—์„œ ์ž‘๋™ํ•  ๋•Œ ์ธ๊ฐ„ ํ‰๊ฐ€์ž๋ฅผ ํ†ต๊ณผํ•  ๋•Œ ์ธ๊ฐ„์˜ ๊ธ€๊ณผ ์œ ์‚ฌํ•œ ํ•ฉ์„ฑ ๋‰ด์Šค ๊ธฐ์‚ฌ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. 

GPT-3 ๋ชจ๋ธ: ์ ‘๊ทผ ๋ฐฉ์‹

GPT-3 ๋ชจ๋ธ์€ ๋ชจ๋ธ, ๋ฐ์ดํ„ฐ, ํ›ˆ๋ จ์œผ๋กœ ๊ตฌ์„ฑ๋œ ๊ธฐ์กด์˜ ์‚ฌ์ „ ํ›ˆ๋ จ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜๋ฉฐ RWC-19 ์ „์ด ์–ธ์–ด ๋ชจ๋ธ์ด ๋”ฐ๋ฅด๋Š” ์‚ฌ์ „ ํ›ˆ๋ จ ํ”„๋กœ์„ธ์Šค์™€ ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค. GPT-3 ๋ชจ๋ธ์€ ๋ชจ๋ธ ํฌ๊ธฐ, ๋ฐ์ดํ„ฐ ์„ธํŠธ ํฌ๊ธฐ, ๋ฐ์ดํ„ฐ ์„ธํŠธ ๋‹ค์–‘์„ฑ์„ ํ™•์žฅํ•˜๊ณ  ํ›ˆ๋ จ ๊ธฐ๊ฐ„์„ ๋Š˜๋ฆฝ๋‹ˆ๋‹ค. 

๋˜ํ•œ ์ด ๋ชจ๋ธ์€ RWC-19 ๋ชจ๋ธ์˜ ์ ‘๊ทผ ๋ฐฉ์‹๊ณผ ๋‹ค์‹œ ํ•œ๋ฒˆ ์œ ์‚ฌํ•œ ์ƒํ™ฉ ๋‚ด ํ•™์Šต ์ ‘๊ทผ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜์ง€๋งŒ ๋ฐ์ดํ„ฐ ์„ธํŠธ์˜ ์ปจํ…์ŠคํŠธ ๋‚ด์—์„œ ํ•™์Šต ํŒจํ„ด์— ๋Œ€ํ•œ ๋‹ค์–‘ํ•œ ์„ค์ •์„ ์ฒด๊ณ„์ ์œผ๋กœ ํƒ์ƒ‰ํ•˜์—ฌ ์ƒํ™ฉ์„ ์•ฝ๊ฐ„ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค. 

์ด์ œ ์ด๋Ÿฌํ•œ ์„ค์ •์„ ์‚ดํŽด๋ณด๊ณ  GTP-3 ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ์„ค์ •์—์„œ ์–ด๋–ป๊ฒŒ ์ž‘๋™ํ•˜๋Š”์ง€ ํ‰๊ฐ€ํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. 

๋ฏธ์„ธ ์กฐ์ •

๋ชจ๋ธ์„ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๋Š” ๊ฒƒ์€ ์ „์†ก์˜ ์ „ํ†ต์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹์ด์—ˆ์Šต๋‹ˆ๋‹ค. ์–ธ์–ด ๋ชจ๋ธ์ด ์ ‘๊ทผ ๋ฐฉ์‹์—๋Š” ์›ํ•˜๋Š” ์ž‘์—…๊ณผ ๊ด€๋ จ๋œ ์ง€๋„ ๋ฐ์ดํ„ฐ ์„ธํŠธ์—์„œ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•˜์—ฌ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋Š” ์ž‘์—…์ด ํฌํ•จ๋˜๋ฉฐ, ํ”„๋กœ์„ธ์Šค ์ค‘์— ์ˆ˜์‹ญ๋งŒ ๊ฐœ์˜ ๋ ˆ์ด๋ธ”์ด ์ง€์ •๋œ ์˜ˆ์ œ๊ฐ€ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. 

๋ฏธ์„ธ ์กฐ์ • ์ ‘๊ทผ ๋ฐฉ์‹์€ ์ˆ˜๋งŽ์€ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ฐ˜ํ™˜ํ•˜๋ฏ€๋กœ ์œ ์ตํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด, ๋ฏธ์„ธ ์กฐ์ • ์ ‘๊ทผ ๋ฐฉ์‹ ์‚ฌ์šฉ์˜ ์ฃผ์š” ์ œํ•œ์ ์€ ๋ชจ๋“  ๊ฐœ๋ณ„ ์ž‘์—…์— ๋Œ€ํ•ด ์ƒˆ๋กญ๊ณ  ํฐ ๋ฐ์ดํ„ฐ ์„ธํŠธ๊ฐ€ ํ•„์š”ํ•˜๊ณ  ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ์„ธํŠธ์˜ ํ—ˆ์œ„ ๊ธฐ๋Šฅ์„ ํ™œ์šฉํ•  ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์œผ๋ฉฐ ์ž ์žฌ์ ์œผ๋กœ ์ธ๊ฐ„ ์„ฑ๋Šฅ๊ณผ ๋ถˆ๊ณตํ‰ํ•œ ๋น„๊ต๋ฅผ ์ดˆ๋ž˜ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. , ๊ทธ๋ฆฌ๊ณ  ๋ถ„ํฌ ์™ธ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™”๊ฐ€ ์ข‹์ง€ ์•Š์Šต๋‹ˆ๋‹ค. 

GPT-3 ๋ชจ๋ธ์˜ ํ˜„์žฌ ๋ฒ”์œ„์—์„œ๋Š” ์ž‘์—…์— ๊ตฌ์• ๋ฐ›์ง€ ์•Š๋Š” ์„ฑ๋Šฅ์œผ๋กœ ์ธํ•ด ๋ฏธ์„ธ ์กฐ์ • ์ ‘๊ทผ ๋ฐฉ์‹์„ ๊ตฌํ˜„ํ•˜์ง€ ์•Š์ง€๋งŒ ํ–ฅํ›„ GPT-3 ๋ชจ๋ธ์—๋Š” ๋ฏธ์„ธ ์กฐ์ •์ด ์ ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 

๋ช‡ ๋ฒˆ์˜ ์ƒท

Few Shot์€ GPT-3 ๋ชจ๋ธ์ด ๊ฐ„์„ญ ์ค‘์— ์ปจ๋””์…”๋‹์œผ๋กœ ์ž‘์—…์— ๋Œ€ํ•œ ๋ช‡ ๊ฐ€์ง€ ์‹œ์—ฐ์„ ์ œ๊ณตํ•˜์ง€๋งŒ ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋Š” ์—…๋ฐ์ดํŠธ๋˜์ง€ ์•Š๋Š” ์„ค์ •์„ ๋‚˜ํƒ€๋‚ด๋Š” ์šฉ์–ด์ž…๋‹ˆ๋‹ค. ๋ช‡ ๊ฐ€์ง€ ์ƒท ์„ค์ •์—์„œ ๋ฐ์ดํ„ฐ์„ธํŠธ์—๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ์ปจํ…์ŠคํŠธ์™€ ์›ํ•˜๋Š” ์™„์„ฑ๋„(์˜ˆ: ํ”„๋ž‘์Šค์–ด ๋ฌธ์žฅ ๋ฐ ์˜์–ด ๋ฒˆ์—ญ)๊ฐ€ ํฌํ•จ๋œ ์˜ˆ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ช‡ ๋ฒˆ์˜ ์ƒท ์„ค์ •์€ ๋ชจ๋ธ์—๊ฒŒ K ์ปจํ…์ŠคํŠธ ๋ฐ ์™„์„ฑ์˜ ์˜ˆ๋ฅผ ์ œ๊ณตํ•œ ๋‹ค์Œ ๋ชจ๋ธ์— ํ•˜๋‚˜์˜ ์ตœ์ข… ์ปจํ…์ŠคํŠธ๋ฅผ ์ œ๊ณตํ•˜๊ณ  ๋ชจ๋ธ์ด ์™„์„ฑ์„ ์ œ๊ณตํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€ํ•ฉ๋‹ˆ๋‹ค. 

์†Œ์ˆ˜ ์ƒท ํ•™์Šต ์„ค์ •์˜ ์ฃผ์š” ์žฅ์ ์€ ์ž‘์—…๋ณ„ ๋ฐ์ดํ„ฐ์˜ ํ•„์š”์„ฑ์„ ํฌ๊ฒŒ ์ค„์ด๊ณ , ๋ฏธ์„ธ ์กฐ์ •๋œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์„ธํŠธ์—์„œ ์ข์€ ๋ถ„ํฌ๋ฅผ ํ•™์Šตํ•  ๊ฐ€๋Šฅ์„ฑ์„ ์ค„์ธ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด, ์†Œ์ˆ˜ ์ƒท ํ•™์Šต์„ ์‚ฌ์šฉํ•˜๋Š” ์ฃผ์š” ๋‹จ์ ์€ ์†Œ์ˆ˜ ์ƒท ์„ค์ •์—์„œ ์ œ๊ณต๋˜๋Š” ๊ฒฐ๊ณผ๊ฐ€ ๊ธฐ๋Œ€์— ๋ฏธ์น˜์ง€ ๋ชปํ•˜๋ฉฐ, ๋ฏธ์„ธ ์กฐ์ •๋œ ๋‹ค๋ฅธ ์ตœ์‹  ๋ชจ๋ธ๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ ์ƒ๋‹นํžˆ ์ข‹์ง€ ์•Š๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. 

ํ•˜๋‚˜์˜ ์ƒท

์›์ƒท ์„ค์ •์—์„œ๋Š” ๋ชจ๋ธ์— ๋‹จ ํ•˜๋‚˜์˜ ๋ฐ๋ชจ๋งŒ ์ œ๊ณต๋˜๋ฉฐ, ๋‚˜๋จธ์ง€๋Š” ํ”„๋ฆฌ์ƒท ์„ค์ •๊ณผ ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์›์ƒท ์„ค์ •์ด ์ „์ด ์–ธ์–ด ๋ชจ๋ธ์—์„œ ์ค‘์š”ํ•œ ์ด์œ ๋Š” ์„ธ ๊ฐ€์ง€ ์„ค์ • ์ค‘์—์„œ ์›์ƒท ์„ค์ •์ด ์ž‘์—…์ด ์‚ฌ๋žŒ์—๊ฒŒ ์ „๋‹ฌ๋˜๋Š” ๋ฐฉ์‹๊ณผ ๊ฐ€์žฅ ์œ ์‚ฌํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๋Œ€๋ถ€๋ถ„์˜ ์ž‘์—…์—์„œ ์ž‘์—…์„ ํ•œ ๋ฒˆ๋งŒ ๋ฐ๋ชจํ•˜๋Š” ๊ฒƒ์ด ์ผ๋ฐ˜์ ์ด๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๊ทธ๋ ‡์ง€ ์•Š์œผ๋ฉด ์ž‘์—…์˜ ๋งฅ๋ฝ์„ ์ดํ•ดํ•˜๊ธฐ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 

์ œ๋กœ ์ƒท

์ œ๋กœ์ƒท ์„ค์ •์—์„œ๋Š” ์‹œ์—ฐ์ด ์—†์œผ๋ฉฐ ๋ชจ๋ธ์— ์ž‘์—…์„ ์„ค๋ช…ํ•˜๋Š” ์ž์—ฐ์–ด ์ง€์นจ์ด ์ œ๊ณต๋ฉ๋‹ˆ๋‹ค. ์ œ๋กœ ์ƒท ๋ฐฉ๋ฒ•์€ ์ตœ๋Œ€์˜ ํŽธ์˜์„ฑ์„ ์ œ๊ณตํ•˜๊ณ  ๊ฒฌ๊ณ ํ•˜๋ฉฐ ํ—ˆ์œ„ ์ƒ๊ด€ ๊ด€๊ณ„๋ฅผ ๋ฐฉ์ง€ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด์ง€๋งŒ ์„ธ ๊ฐ€์ง€ ์„ค์ • ์ค‘ ๊ฐ€์žฅ ๊นŒ๋‹ค๋กœ์šด ๋ฐฉ๋ฒ•์ด๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค. ์–ด๋–ค ๊ฒฝ์šฐ์—๋Š” ์šฐ๋ฆฌ ์ธ๊ฐ„์กฐ์ฐจ๋„ ๋ฐ๋ชจ๋ฅผ ๋จผ์ € ๋ณด์ง€ ์•Š๊ณ ๋Š” ์ž‘์—…์˜ ๋งฅ๋ฝ์„ ํŒŒ์•…ํ•˜๊ธฐ ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. 

๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์ผ๋ถ€ ์ž‘์—…์˜ ๊ฒฝ์šฐ ์ œ๋กœ์ƒท ์„ค์ •์€ ์ธ๊ฐ„์ด ์ž์—ฐ์–ด ์ž‘์—…์„ ๊ฐ€์žฅ ๊ฐ€๊น๊ฒŒ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ์‹๊ณผ ์œ ์‚ฌํ•œ ์„ค์ •์ž…๋‹ˆ๋‹ค. 

์œ„ ๊ทธ๋ฆผ์€ ์˜์–ด ๋ฌธ์žฅ์„ ๊ฐ€์ ธ์™€์„œ ํ”„๋ž‘์Šค์–ด๋กœ ๋ฒˆ์—ญํ•˜๋Š” ์ž์—ฐ์–ด ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ๋•Œ์˜ Few Shot, One Shot, Zero Shot ์„ค์ •์„ ๋น„๊ตํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. 

GPT-3: ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜

GPT-3 ๋ชจ๋ธ์€ GPT-2 ๋ชจ๋ธ์—์„œ ์‚ฌ์šฉ๋œ ๊ฒƒ๊ณผ ๋™์ผํ•œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, ๋Œ€์•ˆ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์„ ์ œ์™ธํ•˜๊ณ  GPT ๋ชจ๋ธ์—์„œ ์‚ฌ์šฉ๋œ ๊ฒƒ๊ณผ ๊ฐ™์€ ์‚ฌ์ „ ์ •๊ทœํ™”, ์ˆ˜์ •๋œ ์ดˆ๊ธฐํ™” ๋ฐ ๊ฐ€์—ญ ํ† ํฐํ™” ๊ธฐ์ˆ ์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. Sparse Transformer์™€ ์œ ์‚ฌํ•˜๊ฒŒ ๋กœ์ปฌ๋กœ ๋ฌถ์ธ ํฌ์†Œ ์ฃผ์˜ ํŒจํ„ด ๋ฐ ๋ณ€ํ™˜๊ธฐ ๋ ˆ์ด์–ด์˜ ๊ต๋Œ€ ๋ฐ€์ง‘ ๋ ˆ์ด์–ด์— ๋Œ€ํ•œ ์ „๋žต์ž…๋‹ˆ๋‹ค. 

๋ชจ๋ธ ํฌ๊ธฐ์— ๋Œ€ํ•œ ๋ชจ๋ธ ์„ฑ๋Šฅ์˜ ์˜์กด์„ฑ์„ ์—ฐ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด ๊ฐœ๋ฐœ์ž๋Š” 8์–ต 125๋งŒ ๊ฐœ์—์„œ 175์–ต ๊ฐœ ์ด์ƒ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๊นŒ์ง€ ์„ธ ๊ฐ€์ง€ ํฌ๊ธฐ์˜ ์„œ๋กœ ๋‹ค๋ฅธ 3๊ฐœ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ํ›ˆ๋ จํ–ˆ์œผ๋ฉฐ, ๊ทธ ์ค‘ ๋งˆ์ง€๋ง‰ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ GPT-XNUMX ๋ชจ๋ธ์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค. . LLM ๋ชจ๋ธ๊ณผ ๊ด€๋ จ๋œ ์ด์ „ ์—ฐ๊ตฌ์—์„œ๋Š” ์ถฉ๋ถ„ํ•œ ์–‘์˜ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฒ€์ฆ ์†์‹ค์„ ์Šค์ผ€์ผ๋งํ•˜๋Š” ๊ฒƒ์ด ํฌ๊ธฐ์˜ ํ•จ์ˆ˜๋กœ์„œ ๋Œ€๋žต์ ์ธ ํ‰ํ™œ ๊ฑฐ๋“ญ์ œ๊ณฑ ๋ฒ•์น™์ด ๋˜์–ด์•ผ ํ•จ์„ ๋‚˜ํƒ€๋ƒˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ํ•™์Šต ๋ชจ๋ธ์„ ํ†ตํ•ด ๊ฐœ๋ฐœ์ž๋Š” ๋‹ค์šด์ŠคํŠธ๋ฆผ ์–ธ์–ด ์ž‘์—…๊ณผ ๊ฒ€์ฆ ์†์‹ค์— ๋Œ€ํ•œ ๊ฐ€์„ค์„ ํ…Œ์ŠคํŠธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 

์œ„ ๊ทธ๋ฆผ์€ GPT-8 ๊ฐœ๋ฐœ์— ์‚ฌ์šฉ๋œ 3๊ฐ€์ง€ ๋ชจ๋ธ์˜ ํฌ๊ธฐ์™€ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ n(params)์€ ํ›ˆ๋ จ ๊ฐ€๋Šฅํ•œ ํŒจํ„ด์˜ ์ด ์ˆ˜๋ฅผ ์ •์˜ํ•˜๊ณ , n(layers)๋Š” ๋ชจ๋ธ์˜ ์ด ๋ ˆ์ด์–ด ์ˆ˜๋ฅผ ์ •์˜ํ•˜๋ฉฐ, d(model)๋Š” ๋ณ‘๋ชฉ ํ˜„์ƒ์˜ ๊ฐ ๋ ˆ์ด์–ด์— ์žˆ๋Š” ๋‹จ์œ„ ์ˆ˜๋ฅผ ์ •์˜ํ•˜๊ณ , d(head)๋Š” ์ •์˜ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ์ฃผ์˜ ํ—ค๋“œ์˜ ํฌ๊ธฐ. ๊ฐ ๋ชจ๋ธ์˜ ์ปจํ…์ŠคํŠธ ์ฐฝ์€ 2048๊ฐœ์˜ ํ† ํฐ๊ณผ ๋™์ผํ•ฉ๋‹ˆ๋‹ค. 

๋˜ํ•œ ๋…ธ๋“œ ๊ฐ„ ๋ฐ์ดํ„ฐ ์ „์†ก์„ ์ตœ์†Œํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๋ชจ๋ธ์€ ์ฐจ์›์˜ ๊นŠ์ด์™€ ๋„ˆ๋น„๋ฅผ ๋”ฐ๋ผ GPU ์ „์ฒด์— ๊ฑธ์ณ ๋ถ„ํ• ๋ฉ๋‹ˆ๋‹ค. ๊ฐ ๋ชจ๋ธ์˜ ์•„ํ‚คํ…์ฒ˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋Š” ์ปดํ“จํŒ… ํšจ์œจ์„ฑ๊ณผ ๋กœ๋“œ ๋ฐธ๋Ÿฐ์‹ฑ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์„ ํƒ๋˜์–ด GPU ์ „์ฒด์—์„œ ๋ชจ๋ธ ๋ ˆ์ด์•„์›ƒ์˜ ์ •๋ฐ€๋„๋ฅผ ์ตœ๋Œ€ํ™”ํ•ฉ๋‹ˆ๋‹ค. 

๊ต์œก ๋ฐ์ดํ„ฐ ์„ธํŠธ

์ผ๋ฐ˜์ ์œผ๋กœ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์€ ์ตœ๊ทผ ๊ฐœ๋ฐœ๋กœ ํฌ๊ฒŒ ํ™•์žฅ๋œ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, 3์กฐ ๊ฐœ๊ฐ€ ๋„˜๋Š” ๋‹ค์–‘ํ•œ ๋‹จ์–ด๋กœ ๊ตฌ์„ฑ๋œ Common Crawl ๋ฐ์ดํ„ฐ ์„ธํŠธ๋กœ ์™„์„ฑ๋ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ์„ธํŠธ์˜ ํฌ๊ธฐ๋Š” ๋™์ผํ•œ ์‹œํ€€์Šค๋ฅผ ์—ฌ๋Ÿฌ ๋ฒˆ ์—…๋ฐ์ดํŠธํ•˜์ง€ ์•Š๊ณ ๋„ GPT-XNUMX ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•˜๊ธฐ์— ์ถฉ๋ถ„ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์—ฐ๊ตฌ ๋ฐ ์„ฑ๋Šฅ ๋ถ„์„์— ๋”ฐ๋ฅด๋ฉด ์ผ๋ฐ˜ ํฌ๋กค๋ง ๋ฐ์ดํ„ฐ์„ธํŠธ์˜ ๊ฐ€๋ณ๊ฒŒ ํ•„ํ„ฐ๋ง๋œ ๋ฒ„์ „์ด๋‚˜ ํ•„ํ„ฐ๋ง๋˜์ง€ ์•Š์€ ๋ฒ„์ „์€ ์„ ๋ณ„๋œ ๋ฐ์ดํ„ฐ์„ธํŠธ์— ๋น„ํ•ด ํ’ˆ์งˆ์ด ๋‚ฎ์€ ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค. 

๋ฐ์ดํ„ฐ์„ธํŠธ์˜ ํ‰๊ท  ํ’ˆ์งˆ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๊ฐœ๋ฐœ์ž๋Š” ๋ฐ์ดํ„ฐ์„ธํŠธ์˜ ํ’ˆ์งˆ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” 3๋‹จ๊ณ„๋ฅผ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. 

  1. ๊ฐœ๋ฐœ์ž๋Š” ๊ณ ํ’ˆ์งˆ ์ฐธ์กฐ ๋ง๋ญ‰์น˜์™€ ์œ ์‚ฌํ•œ ๋ฒ”์œ„๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ Common Crawl ๋ฐ์ดํ„ฐ์„ธํŠธ ๋ฒ„์ „์„ ๋‹ค์šด๋กœ๋“œํ•˜๊ณ  ํ•„ํ„ฐ๋งํ–ˆ์Šต๋‹ˆ๋‹ค. 
  2. ๊ฐœ๋ฐœ์ž๋Š” ๊ณผ์ ํ•ฉ์˜ ํšจ๊ณผ์ ์ธ ์ธก์ •์œผ๋กœ ๋ณด๋ฅ˜๋œ ๊ฒ€์ฆ ์„ธํŠธ์˜ ๋ฌด๊ฒฐ์„ฑ์„ ์œ ์ง€ํ•˜๊ณ  ์ค‘๋ณต์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ์ดํ„ฐ ์„ธํŠธ ์ „์ฒด์—์„œ ๋ฌธ์„œ ์ˆ˜์ค€์—์„œ ํผ์ง€ ๋ณต์ œ๋ฅผ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. 
  3. ๋˜ํ•œ ๊ฐœ๋ฐœ์ž๋Š” Common Crawl ๋ฐ์ดํ„ฐ์„ธํŠธ๋ฅผ ๋ณด๊ฐ•ํ•˜๊ณ  ๋ฐ์ดํ„ฐ์„ธํŠธ์˜ ๋‹ค์–‘์„ฑ์„ ๋”์šฑ ๋†’์ด๊ธฐ ์œ„ํ•ด ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ๊ณ ํ’ˆ์งˆ ์ฐธ์กฐ ์ž๋ฃŒ๋ฅผ ์ถ”๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. 

๋‹ค์Œ ๊ทธ๋ฆผ์€ GPT-3 ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋œ ๋ฐ์ดํ„ฐ ์„ธํŠธ์˜ ์ตœ์ข… ๋น„์œจ ๋˜๋Š” ํ˜ผํ•ฉ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. Common Crawl ๋ฐ์ดํ„ฐ๋Š” ํ•„ํ„ฐ๋ง ์ „์— 45TB ์ด์ƒ์˜ ์ผ๋ฐ˜ ํ…์ŠคํŠธ๋กœ ๊ตฌ์„ฑ๋˜์—ˆ์œผ๋ฉฐ ํ•„ํ„ฐ๋ง ํ›„์—๋Š” 570GB์˜ ๋ฐ์ดํ„ฐ๋กœ ์ค„์–ด๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์•ฝ 400์–ต ๋ฐ”์ดํŠธ ์Œ์œผ๋กœ ์ธ์ฝ”๋”ฉ๋œ ํ† ํฐ๊ณผ ๋™์ผํ•ฉ๋‹ˆ๋‹ค. ํ•™์Šต์—์„œ ๋” ๋†’์€ ํ’ˆ์งˆ๋กœ ๊ฐ„์ฃผ๋˜๋Š” ๋ฐ์ดํ„ฐ ์„ธํŠธ๋Š” ํฌ๊ธฐ์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ ์„ธํŠธ ๋น„์œจ์„ ์ƒ˜ํ”Œ๋งํ•˜๋Š” ๋Œ€์‹  ๋” ์ž์ฃผ ์ƒ˜ํ”Œ๋ง๋œ๋‹ค๋Š” ์ ์— ์œ ์˜ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ Books2 ๋ฐ Common Crawl๊ณผ ๊ฐ™์€ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋Š” ํ•™์Šต ์ค‘์— ํ•œ ๋ฒˆ ๋ฏธ๋งŒ์œผ๋กœ ์ƒ˜ํ”Œ๋ง๋˜๋Š” ๋ฐ˜๋ฉด ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋Š” ์—ฌ๋Ÿฌ ๋ฒˆ ์ƒ˜ํ”Œ๋ง๋ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์€ ๋” ๋†’์€ ํ’ˆ์งˆ์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•˜๋Š” ๋Œ€๊ฐ€๋กœ ์•ฝ๊ฐ„์˜ ๊ณผ์ ํ•ฉ์„ ํ—ˆ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 

๋งŽ์€ ์–‘์˜ ์ฝ˜ํ…์ธ ๋ฅผ ๊ธฐ์–ตํ•˜๊ณ  ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ๋Œ€์šฉ๋Ÿ‰ ์ธํ„ฐ๋„ท ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์— ๋Œ€ํ•œ ์ค‘์š”ํ•œ ์šฐ๋ ค ์‚ฌํ•ญ์€ ์‚ฌ์ „ ํ•™์Šต ์ค‘์— ๊ฐœ๋ฐœ ๋˜๋Š” ํ…Œ์ŠคํŠธ ์„ธํŠธ๋ฅผ ํ™•์ธํ•จ์œผ๋กœ์จ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์ด ์˜ค์—ผ๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํ›ˆ๋ จ ๊ณผ์ •. ์ด๋Ÿฌํ•œ ์ž ์žฌ์ ์ธ ์˜ค์—ผ์„ ์ค„์ด๊ธฐ ์œ„ํ•ด ๊ฐœ๋ฐœ์ž๋Š” GPT-3์— ๋Œ€ํ•ด ์—ฐ๊ตฌ๋œ ๋ฒค์น˜๋งˆํฌ์˜ ํ…Œ์ŠคํŠธ ๋ฐ ๊ฐœ๋ฐœ ์„ธํŠธ์™€ ์ค‘๋ณต๋˜๋Š” ๋ถ€๋ถ„์„ ๊ฒ€์ƒ‰ํ•˜๊ณ  ์ด๋Ÿฌํ•œ ์ค‘๋ณต๋˜๋Š” ๋ถ€๋ถ„์„ ์ œ๊ฑฐํ•˜๋ ค๊ณ  ์‹œ๋„ํ–ˆ์Šต๋‹ˆ๋‹ค. 

์œ„ ์ด๋ฏธ์ง€๋Š” GPT-3 ๋ชจ๋ธ ๊ต์œก ์ค‘์— ์‚ฌ์šฉ๋œ ์ด ์ปดํ“จํŒ…์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ์‹ ๊ฒฝ ์–ธ์–ด ๋ชจ๋ธ์— ๋Œ€ํ•œ ํ™•์žฅ ๋ฒ•์น™์„ ์‚ฌ์šฉํ•˜์—ฌ ์ผ๋ฐ˜์ ์ธ ๊ฒƒ๋ณด๋‹ค ์ ์€ ํ† ํฐ์œผ๋กœ ํ›จ์”ฌ ๋” ํฐ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ GPT-3 ๋ชจ๋ธ๊ณผ GPT-10 ๋ชจ๋ธ๋ณด๋‹ค 3๋ฐฐ ์ž‘์€ RoBERTa-Large ๋ชจ๋ธ ๋ชจ๋‘ ์‚ฌ์ „ ํ•™์Šต ๊ณผ์ •์—์„œ ํ•˜๋ฃจ์— ๊ฑฐ์˜ 50ํŽ˜ํƒ€ํ”Œ๋กญ์˜ ์ปดํ“จํŒ…์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. 

ํ‰๊ฐ€

์†Œ์ˆ˜์˜ ์ƒท ํ•™์Šต์˜ ๊ฒฝ์šฐ, ๋ชจ๋ธ์€ ํ•ด๋‹น ์ž‘์—…์˜ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ์„ธํŠธ์—์„œ ๋ฌด์ž‘์œ„๋กœ K๊ฐœ์˜ ์˜ˆ์ œ๋ฅผ ์ปจ๋””์…”๋‹์œผ๋กœ ์ถ”์ถœํ•˜์—ฌ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ ์„ธํŠธ์— ์žˆ๋Š” ๊ฐ ์˜ˆ์ œ๋ฅผ ํ‰๊ฐ€ํ•˜๊ณ  ์ž‘์—…์— ๋”ฐ๋ผ 1๊ฐœ ๋˜๋Š” 2๊ฐœ์˜ ์ค„ ๋ฐ”๊ฟˆ์œผ๋กœ ๊ตฌ๋ถ„ํ•ฉ๋‹ˆ๋‹ค. Storycloze ๋ฐ LAMBADA์˜ ๊ฒฝ์šฐ ๋ชจ๋ธ์€ ๊ฐ๋… ํ›ˆ๋ จ ์„ธํŠธ๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์—†๊ธฐ ๋•Œ๋ฌธ์— ๊ฐœ๋ฐœ ์„ธํŠธ์—์„œ ์กฐ๊ฑด๋ถ€ ์˜ˆ์ œ๋ฅผ ์ถ”์ถœํ•˜๊ณ  ํ…Œ์ŠคํŠธ ์„ธํŠธ์—์„œ ์ด๋ฅผ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. Winograd์˜ ๊ฒฝ์šฐ ๋ฐ์ดํ„ฐ ์„ธํŠธ๊ฐ€ ํ•˜๋‚˜๋งŒ ์กด์žฌํ•˜๋ฏ€๋กœ ์กฐ๊ฑด ์ง€์ • ์ƒ˜ํ”Œ์€ ์ด ๋ฐ์ดํ„ฐ ์„ธํŠธ์—์„œ ์ง์ ‘ ๊ฐ€์ ธ์˜ต๋‹ˆ๋‹ค. 

K๋Š” 0๋ถ€ํ„ฐ ๋ชจ๋ธ์˜ ์ปจํ…์ŠคํŠธ ์ฐฝ์—์„œ ํ—ˆ์šฉํ•˜๋Š” ์ตœ๋Œ€๊ฐ’์ธ n๊นŒ์ง€์˜ ๋ฒ”์œ„์— ์žˆ๋Š” ๋ชจ๋“  ๊ฐ’์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.๋‚ด์„  = ๋ชจ๋“  ๋ชจ๋ธ์— ๋Œ€ํ•ด 2048์ด๋ฉฐ ์ผ๋ฐ˜์ ์œผ๋กœ ์•ฝ 10~100๊ฐœ์˜ ์˜ˆ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค. K ๊ฐ’์ด ํด์ˆ˜๋ก ๋” ๋‚˜์€ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์˜ค๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์ง€๋งŒ ํ•ญ์ƒ ๊ทธ๋Ÿฐ ๊ฒƒ์€ ์•„๋‹™๋‹ˆ๋‹ค. ๋ชจ๋ธ์— ํ…Œ์ŠคํŠธ ์„ธํŠธ๊ฐ€ ์žˆ๊ณ  ๋ณ„๋„์˜ ๊ฐœ๋ฐœ ์„ธํŠธ๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒฝ์šฐ ๋ชจ๋ธ์€ ๊ฐœ๋ฐœ ์„ธํŠธ์˜ ๋ช‡ ๊ฐ€์ง€ K ๊ฐ’์„ ์‹คํ—˜ํ•˜๊ณ  ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค. , ํ…Œ์ŠคํŠธ ์„ธํŠธ์—์„œ ์ตœ์ƒ์˜ ๊ฐ’์„ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค. 

๋˜ํ•œ ์—ฌ๋Ÿฌ ์˜ต์…˜ ์ค‘์—์„œ ์˜ฌ๋ฐ”๋ฅธ ์™„์„ฑ์„ ์„ ํƒํ•ด์•ผ ํ•˜๋Š” ์ž‘์—…์— ๋Œ€ํ•ด ๊ฐœ๋ฐœ์ž๋Š” K๊ฐœ์˜ ์ˆ˜์ • ์˜ˆ์‹œ์™€ ์ปจํ…์ŠคํŠธ ์™„์„ฑ์„ ์ œ๊ณตํ•˜๊ณ  ํ›„์†์œผ๋กœ ์ปจํ…์ŠคํŠธ์˜ ํ•œ ์˜ˆ์‹œ๋งŒ ์ œ๊ณตํ•˜์—ฌ LM ๊ฐ€๋Šฅ์„ฑ์„ ๊ธฐ์ค€์œผ๋กœ ์ž‘์—…์„ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ์™„๋ฃŒ์˜. ์ด์ง„ ๋ถ„๋ฅ˜๊ฐ€ ํ•„์š”ํ•œ ์ž‘์—…์˜ ๊ฒฝ์šฐ ๋ชจ๋ธ์€ ์ข…์ข… ๋” ์˜๋ฏธ๋ก ์ ์œผ๋กœ ๋” ์˜๋ฏธ ์žˆ๋Š” ์ด๋ฆ„์œผ๋กœ ์˜ต์…˜์„ ์ œ๊ณตํ•œ ๋‹ค์Œ ์ž‘์—…์„ ๊ฐ๊ด€์‹์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ณ  ๋•Œ๋กœ๋Š” RSR ๋ชจ๋ธ ๋ฐ ์•„ํ‚คํ…์ฒ˜์—์„œ ์ˆ˜ํ–‰๋˜๋Š” ๊ฒƒ๊ณผ ์œ ์‚ฌํ•œ ์ž‘์—…์„ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. 

์ž์œ  ํ˜•์‹ ์™„์„ฑ์ด ํ•„์š”ํ•œ ์ž‘์—…์˜ ๊ฒฝ์šฐ ๋ชจ๋ธ์€ RSR ํ”„๋ ˆ์ž„์›Œํฌ์—์„œ ์‚ฌ์šฉ๋œ ๊ฒƒ๊ณผ ๋™์ผํ•œ ๋งค๊ฐœ๋ณ€์ˆ˜(๊ธธ์ด 4์˜ ๋น” ๋ฐ 0.6์˜ ํŽ˜๋„ํ‹ฐ)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋น” ๊ฒ€์ƒ‰์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ ๋ฐ์ดํ„ฐ ์„ธํŠธ์˜ ํ‘œ์ค€์— ๋”ฐ๋ผ F1 ์œ ์‚ฌ์„ฑ ์ ์ˆ˜, ์™„์ „ ์ผ์น˜ ๋˜๋Š” BLEU๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์˜ ์ ์ˆ˜๋ฅผ ๋งค๊น๋‹ˆ๋‹ค. 

๊ฒฐ๊ณผ

์œ„ ๊ทธ๋ฆผ์€ ์ด์ „ ์„น์…˜์—์„œ ์„ค๋ช…ํ•œ ๋Œ€๋กœ GPT-8 ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์— ์‚ฌ์šฉ๋œ 3๊ฐœ ๋ชจ๋ธ์— ๋Œ€ํ•œ ํ›ˆ๋ จ ๊ณก์„ ์„ ํ‘œ์‹œํ•ฉ๋‹ˆ๋‹ค. KMH ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ฒฐ๊ณผ์™€ ์œ ์‚ฌํ•˜๊ฒŒ GPT-3 ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์€ ํ•™์Šต ๊ณ„์‚ฐ์„ ํšจ๊ณผ์ ์œผ๋กœ ์‚ฌ์šฉํ•  ๋•Œ ์ ์ ˆํ•œ ๋ฒ•์น™์„ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค. ์ถ”์„ธ๊ฐ€ XNUMX๋ฐฐ ๋” ํ™•์žฅ๋˜๋Š” ๊ฒฝ์šฐ์—๋งŒ ๋ฒ•์น™๊ณผ ์•ฝ๊ฐ„์˜ ์ฐจ์ด๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ์†์‹ค์˜ ๊ฐœ์„ ์€ ํ›ˆ๋ จ ์ฝ”ํผ์Šค์˜ ํ—ˆ์œ„ ์„ธ๋ถ€ ์‚ฌํ•ญ์„ ๋ชจ๋ธ๋งํ•œ ๊ฒฐ๊ณผ์ผ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ƒ๊ฐ์ด ์‚ฌ๋žŒ๋“ค์—๊ฒŒ ๋– ์˜ค๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ ์†์‹ค์ด ๊ฐœ์„ ๋˜๋ฉด ๋‹ค์–‘ํ•œ NLP ์ž‘์—…์˜ ๊ด‘๋ฒ”์œ„ํ•œ ์ŠคํŽ™ํŠธ๋Ÿผ์— ๊ฑธ์ณ ์ „๋ฐ˜์ ์ธ ์„ฑ๋Šฅ์ด ์ง€์†์ ์œผ๋กœ ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค. 

๊ด‘๋ฒ”์œ„ํ•œ ๊ต์œก ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ 8๊ฐ€์ง€ ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์ „์— ๋ฐ์ดํ„ฐ์„ธํŠธ๋Š” ์œ ์‚ฌํ•œ ์ž‘์—…์„ ๋‚˜ํƒ€๋‚ด๋Š” 8๊ฐ€์ง€ ์นดํ…Œ๊ณ ๋ฆฌ๋กœ ๊ทธ๋ฃนํ™”๋ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์นดํ…Œ๊ณ ๋ฆฌ๋Š”

  1. ์ „ํ†ต์ ์ธ ์–ธ์–ด ๋ชจ๋ธ๋ง ์ž‘์—…๊ณผ Cloze ์ž‘์—… ๋˜๋Š” ๋ฌธ์žฅ/๋‹จ๋ฝ ์™„์„ฑ ์ž‘์—…๊ณผ ๊ฐ™์€ ์–ธ์–ด ๋ชจ๋ธ๋ง๊ณผ ์œ ์‚ฌํ•œ ์ž‘์—…์— ๋Œ€ํ•œ ํ‰๊ฐ€์ž…๋‹ˆ๋‹ค. 
  2. "๋ฐ€ํ์‹" ์งˆ์˜ ์‘๋‹ต ๊ณผ์ œ์— ๋Œ€ํ•œ ํ‰๊ฐ€. 
  3. ๋ชจ๋ธ์˜ ์–ธ์–ด ๊ฐ„ ๋ฒˆ์—ญ ๋Šฅ๋ ฅ ํ‰๊ฐ€(ํŠนํžˆ ์›์ƒท ๋ฐ ํ“จ์ƒท)
  4. Winograd Schema์™€ ์œ ์‚ฌํ•œ ์ž‘์—…์—์„œ ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. 
  5. ์ƒ์‹์  ์ถ”๋ก ์ด๋‚˜ ์งˆ๋ฌธ ๋‹ต๋ณ€์ด ํฌํ•จ๋œ ๋ฐ์ดํ„ฐ์„ธํŠธ๋ฅผ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. 
  6. ๋…ํ•ด ๊ณผ์ œ๋ฅผ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. 
  7. SuperGLUE ๋ฒค์น˜๋งˆํฌ ์ œํ’ˆ๊ตฐ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. 
  8. NLI๋ฅผ ํƒ์ƒ‰ํ•ฉ๋‹ˆ๋‹ค. 

์–ธ์–ด ๋ชจ๋ธ๋ง, ์™„์„ฑ ๋ฐ Cloze ์ž‘์—…

์ด ์„น์…˜์—์„œ๋Š” ์ „ํ†ต์ ์ธ ์–ธ์–ด ๋ชจ๋ธ๋ง ์ž‘์—…๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๊ด€์‹ฌ ๋‹จ์–ด ํ•˜๋‚˜๋ฅผ ์˜ˆ์ธกํ•˜๊ฑฐ๋‚˜ ๋‹จ๋ฝ์ด๋‚˜ ๋ฌธ์žฅ์„ ์™„์„ฑํ•˜๊ฑฐ๋‚˜ ํ…์ŠคํŠธ๋ฅผ ์™„์„ฑํ•˜๋Š” ์ž‘์—…์— ๋Œ€ํ•ด GPT-3 ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ„๋žตํ•˜๊ฒŒ ์ž์„ธํžˆ ๋…ผ์˜ํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. 

์–ธ์–ด ๋ชจ๋ธ๋ง

GPT-3 ๋ชจ๋ธ์€ PTB ๋˜๋Š” ํŽœํŠธ๋ฆฌ ๋ฑ…ํฌ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ ์ œ๋กœ์ƒท ๋ณต์žก๋„๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์œ„ํ‚คํ”ผ๋””์•„ ๊ด€๋ จ ์ž‘์—…์€ ๋ชจ๋ธ์˜ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์— ์ด๋ฏธ ํฌํ•จ๋˜์–ด ์žˆ์œผ๋ฏ€๋กœ ์ œ์™ธ๋˜์—ˆ์œผ๋ฉฐ, 3์–ต ๋‹จ์–ด ๋ฒค์น˜๋งˆํฌ ๋˜ํ•œ ๋ฐ์ดํ„ฐ์…‹์ด ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹ ๋‚ด์— ํฌํ•จ๋จ์— ๋”ฐ๋ผ ์ƒ๋‹นํ•œ ๋งˆ์ฐฐ์„ ์œ ๋ฐœํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ œ์™ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ PTB ๋ฐ์ดํ„ฐ์…‹์€ ํ˜„๋Œ€ ์ธํ„ฐ๋„ท๋ณด๋‹ค ์•ž์„œ ์กด์žฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค. GPT-15 ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์—์„œ ๊ฐ€์žฅ ํฐ ๋ชจ๋ธ์€ PTB ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ ์ƒˆ๋กœ์šด SOTA(Short-Short-Test)๋ฅผ 20.50ํฌ์ธํŠธ๋ผ๋Š” ์ƒ๋‹นํ•œ ์ฐจ์ด๋กœ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, XNUMX์˜ ๋ณต์žก๋„๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. 

๋žŒ๋ฐ”๋‹ค

LAMBADA ๋ฐ์ดํ„ฐ์„ธํŠธ๋Š” ๋‹จ๋ฝ์ด๋‚˜ ํ…์ŠคํŠธ์˜ ์žฅ๊ฑฐ๋ฆฌ ์ข…์†์„ฑ์— ๋Œ€ํ•œ ๋ชจ๋ธ ๋ชจ๋ธ๋ง์„ ํ…Œ์ŠคํŠธํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ๋ฌธ๋งฅ์— ๋Œ€ํ•œ ๋‹จ๋ฝ์„ ์ฝ์€ ํ›„ ๋ฌธ์žฅ์˜ ๋งˆ์ง€๋ง‰ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋„๋ก ์š”์ฒญ๋ฐ›๋Š”๋‹ค๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ์–ธ์–ด ๋ชจ๋ธ์˜ ์ง€์†์ ์ธ ํ™•์žฅ์œผ๋กœ ์ธํ•ด ๋ฒค์น˜๋งˆํฌ์—์„œ ์ˆ˜์ต์ด ๊ฐ์†Œํ•ฉ๋‹ˆ๋‹ค. 

GPT-3 ๋ชจ๋ธ์€ LAMBADA์—์„œ 76%์˜ ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ ์ด์ „ ์ตœ๊ณ  ๋ชจ๋ธ๋ณด๋‹ค 8% ์ด์ƒ์˜ ์ด๋“์„ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ LAMBADA ๋ชจ๋ธ์€ ๋ฐ์ดํ„ฐ ์„ธํŠธ์—์„œ ๊ณ ์ „์ ์œผ๋กœ ๋ฐœ์ƒํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋ฏ€๋กœ ์†Œ์ˆ˜ ํ•™์Šต์˜ ์œ ์—ฐ์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. LAMBADA์—์„œ ๋ฌธ์žฅ์˜ ์™„์„ฑ์€ ์ผ๋ฐ˜์ ์œผ๋กœ ๋ฌธ์žฅ์˜ ๋งˆ์ง€๋ง‰ ๋‹จ์–ด์ด์ง€๋งŒ, ์–ธ์–ด ๋ชจ๋ธ์€ ์ด๋ฅผ ์•Œ ์ˆ˜ ์—†์œผ๋ฏ€๋กœ ์˜ฌ๋ฐ”๋ฅธ ๊ฒฐ๋ง๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋‹จ๋ฝ์˜ ๋‹ค๋ฅธ ์—ฐ์†์—๋„ ํ™•๋ฅ ์„ ํ• ๋‹นํ•ฉ๋‹ˆ๋‹ค. 

๋˜ํ•œ GPT-3 ๋ชจ๋ธ์— ์ œ๊ณต๋œ ์˜ˆ์ œ๊ฐ€ ํŠน์ • ๋ฐฉ์‹์œผ๋กœ ์ˆ˜์ •๋˜๋ฉด ๋ชจ๋ธ์€ ์ด์ „ ๋ชจ๋ธ์— ๋น„ํ•ด 86% ์ด์ƒ ์ฆ๊ฐ€ํ•œ 18% ์ด์ƒ์˜ ์ •ํ™•๋„๋ฅผ ๋ฐ˜ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ๊ฒฐ๊ณผ๋Š” ๋ช‡ ๋ฒˆ์˜ ์ƒท ์„ค์ •์—์„œ ๋ชจ๋ธ ์„ฑ๋Šฅ์ด ๋ชจ๋ธ ํฌ๊ธฐ์˜ ์ฆ๊ฐ€์— ๋น„๋ก€ํ•˜์—ฌ ์ฆ๊ฐ€ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์ด ์ „๋žต์€ GPT-3 ์•„ํ‚คํ…์ฒ˜์—์„œ ๊ฐ€์žฅ ์ž‘์€ ๋ชจ๋ธ์„ 20% ์ค„์ด๋ฉด์„œ๋„ 3์–ต ๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ธฐ๋ณธ GPT-175 ๋ชจ๋ธ์˜ ์ •ํ™•๋„๋ฅผ 10% ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. 

๋น„๊ณต๊ฐœ ๋„์„œ ์งˆ๋ฌธ ๋‹ต๋ณ€

๋น„๊ณต๊ฐœ ์ฑ… ์งˆ๋ฌธ ์‘๋‹ต์€ ๊ด‘๋ฒ”์œ„ํ•œ ์‚ฌ์‹ค ์ง€์‹์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์งˆ๋ฌธ์— ๋Œ€๋‹ตํ•˜๋Š” GPT-3 ๋ชจ๋ธ์˜ ๋Šฅ๋ ฅ์„ ์ธก์ •ํ•˜๋ ค๋Š” ์‹œ๋„์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์งˆ๋ฌธ์—๋Š” ๊ฐ€๋Šฅํ•œ ์ฟผ๋ฆฌ ์ˆ˜๊ฐ€ ๋งŽ์€ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ๊ธฐ ๋•Œ๋ฌธ์— ์ž‘์—…์€ ์ผ๋ฐ˜์ ์œผ๋กœ ๊ฒ€์ƒ‰๋œ ํ…์ŠคํŠธ์— ๋Œ€ํ•œ ๋‹ต๋ณ€์— ๋Œ€ํ•œ ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•˜๋Š” ๋ชจ๋ธ๊ณผ ํ•จ๊ป˜ ๋ชจ๋ธ์ด ๊ด€๋ จ ํ…์ŠคํŠธ๋ฅผ ์ฐพ์„ ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ์ •๋ณด ๊ฒ€์ƒ‰ ์‹œ์Šคํ…œ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. ์งˆ๋ฌธ. 

์œ„ ์ด๋ฏธ์ง€๋Š” GPT-3 ๋ชจ๋ธ์˜ ๊ฒฐ๊ณผ๋ฅผ ๋‹ค๋ฅธ ๋ชจ๋ธ๊ณผ ๋น„๊ตํ•˜๊ณ  ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์„ธํŠธ์—์„œ ์‹คํ–‰ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค. TriviaQA ๋ฐ์ดํ„ฐ ์„ธํŠธ์—์„œ ๋ชจ๋ธ์€ ์ œ๋กœ์ƒท ์„ค์ •์—์„œ 64.3%์˜ ์ •ํ™•๋„ ์ ์ˆ˜๋ฅผ ๋‹ฌ์„ฑํ•œ ๋ฐ˜๋ฉด, ์›์ƒท ๋ฐ ์†Œ์ˆ˜ ์„ค์ •์—์„œ ๊ฐ๊ฐ 68%, 71.2%์˜ ์ •ํ™•๋„ ์ ์ˆ˜๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. 

์ œ๋กœ ์ƒท ์„ค์ •์˜ GPT-3 ๋ชจ๋ธ์ด ๋ฏธ์„ธ ์กฐ์ •๋œ T5-11B ๋ชจ๋ธ๋ณด๋‹ค 14% ์ด์ƒ ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๋ถ„๋ช…ํžˆ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 

์œ„ ๊ทธ๋ฆผ์€ GPT-3 ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ๋ชจ๋ธ ํฌ๊ธฐ์˜ ์ฆ๊ฐ€์— ๋”ฐ๋ผ ์›ํ™œํ•˜๊ฒŒ ์ฆ๊ฐ€ํ•˜๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์„ฑ๋Šฅ์€ ์–ธ์–ด ๋ชจ๋ธ์ด ์šฉ๋Ÿ‰์ด ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ๋ฐ์ดํ„ฐ ์„ธํŠธ์—์„œ ๊ณ„์† ํ•™์Šตํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. 

์ตœ์ข… ์ƒ๊ฐ

GPT-3๊ฐ€ ์–ธ์–ด ๋ชจ๋ธ์ด ํ•  ์ˆ˜ ์žˆ๋Š” ํ•œ๊ณ„๋ฅผ ๋›ฐ์–ด๋„˜๋Š” ๋ฐ ๋„์›€์ด ๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์— GPT-3๋Š” LLM ์—…๊ณ„์—์„œ ํ˜๋ช…์ ์ธ ๋‹จ๊ณ„๋ผ๊ณ  ํ•ด๋„ ๋ฌด๋ฐฉํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํ˜„์žฌ๊นŒ์ง€ ๊ฐ€์žฅ ์ง„๋ณด๋˜๊ณ  ์ •ํ™•ํ•œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์ธ GPT-3์˜ ๊ธธ์„ ๋‹ฆ์€ ๊ฒƒ์€ GPT-4์˜ ๊ฐœ๋ฐœ๊ณผ ์žฅ์• ๋ฌผ ๊ทน๋ณต์ด์—ˆ์Šต๋‹ˆ๋‹ค. 

"์ง์—…์€ ์—”์ง€๋‹ˆ์–ด, ๋งˆ์Œ์€ ์ž‘๊ฐ€". Kunal์€ AI์™€ ML์— ๋Œ€ํ•œ ๊นŠ์€ ์• ์ •๊ณผ ์ดํ•ด๋ฅผ ๊ฐ€์ง„ ๊ธฐ์ˆ  ์ž‘๊ฐ€๋กœ, ๋งค๋ ฅ์ ์ด๊ณ  ์œ ์ตํ•œ ๋ฌธ์„œ๋ฅผ ํ†ตํ•ด ์ด ๋ถ„์•ผ์˜ ๋ณต์žกํ•œ ๊ฐœ๋…์„ ๋‹จ์ˆœํ™”ํ•˜๋Š” ๋ฐ ์ „๋…ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.