์ธ๊ณต์ง€๋Šฅ

๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ์„ ChatGPT์™€ ๊ฐ™์€ ๊ฐ€๊ฒฉ์˜ ์ ˆ๋ฐ˜์œผ๋กœ ๊ตฌ์ถ•ํ•  ์ˆ˜ ์žˆ๋‚˜์š”?

mm

대형 언어 모델(LLM)들은 GPT-3와 ChatGPT와 같은 자연어 이해와 콘텐츠 생성 능력을 제공함으로써 AI를 혁신시켰습니다. 그러나 이러한 모델의 개발은 높은 비용을 요구하며, 접근성과 추가 연구를 제한합니다. 연구자들은 GPT-3를 훈련시키는 데 OpenAI에 약 5백만 달러의 비용이 들었다고 추정합니다. 그럼에도 불구하고, Microsoft는 2019년에 OpenAI에 10억 달러를, 2023년에 100억 달러를 투자했습니다.

LLM들은 자연어 처리 응용 프로그램을 위한 대규모 텍스트 데이터에 대한 기계 학습 모델로 훈련됩니다. 이러한 모델은 트랜스포머 아키텍처를 기반으로 하며, 질문 응답, 기계 번역, 감성 분석 등의 자연어 처리 작업을 위해 주의 메커니즘을 사용합니다.

이러한 대형 모델의 효율성을 높이면서 동시에 계산 비용과 훈련 시간을 줄일 수 있을까요?

Progressive Neural Networks, Network Morphism, intra-layer model parallelism, 지식 상속 등과 같은 여러 접근 방식이 신경망의 계산 비용을 줄이기 위해 개발되었습니다. LiGO(Liner Growth Operator)라는 새로운 기술은 이러한 접근 방식 중 하나입니다. LiGO는 더 큰 모델의 가중치를 더 작은 사전 훈련된 모델의 가중치에서 초기화함으로써, 신경망의 효율적인 확장을 가능하게 합니다.

이 기술에 대해 논의하기 전에, 대형 언어 모델을 구축하는 데 높은 비용을 초래하는 요인들을 살펴보는 것이 중요합니다.

대형 언어 모델을 구축하는 비용

대형 언어 모델을 개발하는 데에는 세 가지 주요 비용이 있습니다.

1. 계산 자원

대형 언어 모델을 구축하는 데에는 대규모 계산 자원이 필요합니다. 이러한 모델은 대규모 데이터셋에 대한 훈련을 위해, 수십억 개의 매개 변수를 처리하고 복잡한 패턴을 학습해야 합니다.

GPUs와 TPUs와 같은 특수 하드웨어에 대한 투자가 필요합니다.

예를 들어, GPT-3는 10,000개의 엔터프라이즈급 GPU와 285,000개의 CPU 코어가 있는 슈퍼컴퓨터에서 훈련되었습니다.

2. 에너지 소비

대형 언어 모델을 구축하는 데에는大量의 계산 자원이 필요합니다. 이러한 모델은 대규모 데이터셋에 대한 훈련을 위해, 수십억 개의 매개 변수를 처리하고 복잡한 패턴을 학습해야 합니다.

예를 들어, 175억 개의 매개 변수를 가진 GPT-3를 훈련시키는 데에는 14.8일이 걸렸습니다. 이는 10,000개의 V100 GPU를 사용한 것으로, 3.55백만 개의 GPU 시간에 해당합니다. 이러한 높은 수준의 에너지 소비는 환경에重大한 영향을 미칩니다.

3. 데이터 저장 및 관리

대형 언어 모델은 대규모 데이터셋에 대한 훈련을 위해,大量의 데이터를 수집, 정리 및 저장해야 합니다.

예를 들어, GPT-3는 Common Crawl, WebText2, Books1, Books2, Wikipedia 등과 같은 대규모 데이터셋에 대한 훈련을 위해,大量의 데이터를 수집, 정리 및 저장해야 했습니다.

클라우드 저장소가 필요하며, 데이터 전처리 및 버전 관리를 위한 인간 전문 지식이 필요합니다. 또한, 데이터 전략이 GDPR와 같은 규정에 부합하는지 확인하는 데에도 비용이 추가됩니다.

LiGO 기술: 대형 언어 모델을 구축하는 비용을 절반으로 줄이는 기술

LiGO는 MIT의 연구자들이 개발한 기술로, 대형 언어 모델을 훈련시키는 데 필요한 계산 비용을 50% 줄일 수 있습니다. 이 기술은 더 큰 모델의 가중치를 더 작은 사전 훈련된 모델의 가중치에서 초기화함으로써, 신경망의 효율적인 확장을 가능하게 합니다.

Yoon Kim은 이 기술에 대해 다음과 같이 말했습니다.

“ChatGPT와 같은 모델을 훈련시키는 데에는 수백만 달러가 필요할 수 있습니다. 우리는 이러한 훈련 방법의 효율성을 향상시키고, 더 적은 시간과 비용으로 좋은 모델을 얻을 수 있도록 하려는 것입니다. 우리는 이전에 훈련된 작은 언어 모델을 활용하여 이를 달성하고자 합니다.”

이 기술은 더 큰 모델의 성능을 유지하면서, 계산 비용과 훈련 시간을 줄일 수 있습니다.

LiGO와 같은 훈련 최적화 기술을 사용하는ประโยชน

LiGO는 효율적인 신경망 훈련 방법으로, 다음과 같은 여러 가지 이점이 있습니다.

1. 빠른 훈련

LiGO의 주요 이점은 빠른 훈련입니다. 이는 모델을 더 빠르게 훈련시키고, 비용을 줄일 수 있습니다.

2. 자원 효율성

LiGO는 자원 효율성이 높은 기술입니다. 이는 벽 시간과 FLOPs를 최소화하여, 더 비용 효율적이고 환경에 친화적인 접근 방식을 제공합니다.

3. 일반화

LiGO는 언어와 비전 트랜스포머의 성능을 향상시킴으로써, 다양한 작업에 적용할 수 있는 일반화된 기술임을 보여주었습니다.

대형 언어 모델을 구축하는 데에는 높은 비용이 필요하지만, 이러한 모델을 효율적으로 훈련시키는 기술을 개발함으로써, 비용을 줄일 수 있습니다. LiGO는 이러한 기술 중 하나로, 대형 언어 모델을 구축하는 비용을 절반으로 줄일 수 있습니다.

자세한 내용은 unite.ai를 방문하세요.

Haziqa๋Š” AI ๋ฐ SaaS ํšŒ์‚ฌ๋“ค์„ ์œ„ํ•œ ๊ธฐ์ˆ  ์ฝ˜ํ…์ธ  ์ž‘์„ฑ์— ๊ด‘๋ฒ”์œ„ํ•œ ๊ฒฝํ—˜์„ ๊ฐ€์ง„ ๋ฐ์ดํ„ฐ ๊ณผํ•™์ž์ž…๋‹ˆ๋‹ค.