인공 지능

절반의 비용으로 ChatGPT와 같은 대규모 언어 모델을 구축할 수 있습니까?

게재

12 개월 전

2023 년 5 월 11 일

대규모 언어 모델 GPT-3 및 ChatGPT와 같은 (LLM)은 자연어 이해 및 콘텐츠 생성 기능을 제공하여 AI를 혁신했습니다. 그러나 그들의 개발은 접근성과 추가 연구를 제한하는 막대한 가격으로 이루어집니다. 연구원들은 GPT-3 교육에 OpenAI 비용이 많이 든다고 추정합니다. $ 5 만. 그럼에도 불구하고 Microsoft는 잠재력을 인식하고 투자했습니다. $ 1 억 2019 관련 $ 10 억 OpenAI의 GPT-2023 및 ChatGPT 벤처에서 3년에.

LLM은 NLP 애플리케이션을 위한 광범위한 텍스트 데이터에 대해 훈련된 기계 학습 모델입니다. 이는 변환기 아키텍처를 기반으로 하며 질문 답변, 기계 번역, 감정 분석 등과 같은 NLP 작업에 주의 메커니즘을 활용합니다.

질문이 생깁니다. 이러한 대형 모델의 효율성을 높이는 동시에 계산 비용과 교육 시간을 줄일 수 있습니까?

다음과 같은 몇 가지 접근 방식 진보적 신경망, 네트워크 형태, 계층 내 모델 병렬 처리, 지식 상속등은 신경망 훈련의 계산 비용을 줄이기 위해 개발되었습니다. 소설 리고 (Linear Growth Operator) 우리가 논의할 접근법은 새로운 벤치마크를 설정하는 것입니다. LLM 교육의 계산 비용을 절반으로 줄입니다.

이 기술에 대해 논의하기 전에 LLM 제작의 높은 가격에 기여하는 요인을 검토하는 것이 필수적입니다.

대규모 언어 모델 구축 비용

LLM 개발을 위한 세 가지 주요 비용은 다음과 같습니다.

1. 전산 자원

LLM을 구축하려면 대규모 데이터 세트에서 훈련하기 위해 방대한 컴퓨팅 리소스가 필요합니다. 수십억 개의 매개변수를 처리하고 방대한 텍스트 데이터에서 복잡한 패턴을 학습해야 합니다.

그래픽 처리 장치와 같은 특수 하드웨어에 대한 투자(GPU) 및 TPU(Tensor Processing Unit)는 LLM을 구축하고 교육하여 최신 성능을 달성하는 데 필요합니다.

예를 들어 GPT-3는 슈퍼 컴퓨터 10000개의 엔터프라이즈급 GPU(H100 및 A100)와 285,000개의 CPU 코어를 사용합니다.

2. 에너지 소비

LLM을 구축하는 데 필요한 집약적인 계산 리소스로 인해 상당한 에너지 소비가 발생합니다. 예를 들어 GPT-175는 3억 개의 매개변수를 학습했습니다. 14.8 일 동안 10,000만 GPU 시간에 해당하는 100개의 V3.55 GPU를 사용합니다. 이러한 높은 수준의 에너지 소비는 환경에도 상당한 영향을 미칩니다.

3. 데이터 저장 및 관리

LLM은 대규모 데이터 세트에서 교육을 받습니다. 예를 들어, GPT-3는 방대한 텍스트 코퍼스에 대해 훈련을 받았습니다. 데이터, 다른 소스 중에서 Common Crawl, WebText2, Books1, Books2 및 Wikipedia를 포함합니다. 이러한 데이터 세트를 수집, 조정 및 저장하려면 상당한 인프라 투자가 필요합니다.

또한 데이터 저장을 위해서는 클라우드 스토리지가 필요하고 데이터 전처리 및 버전 관리를 위해서는 사람의 전문성이 필요합니다. 또한 데이터 전략이 GDPR과 같은 규정을 준수하는지 확인하는 것도 비용을 추가합니다.

LiGO 기술: 대규모 언어 모델 구축 비용을 절반으로 절감

LiGO(Linear Growth Operator)는 MIT의 연구원들이 LLM 훈련의 계산 비용을 50%까지 줄이기 위해 개발한 새로운 기술입니다. 이 방법은 더 작은 사전 훈련된 모델의 가중치에서 더 큰 모델의 가중치를 초기화하여 신경망의 효율적인 확장을 가능하게 합니다.

논문의 이미지: 효율적인 트랜스포머 훈련을 위해 사전 훈련된 모델을 성장시키는 학습

김윤, 논문의 수석 저자는 다음과 같이 말합니다.

“ChatGPT가 실행된다고 가정한 규모의 교육 모델은 단일 교육 실행에만 수백만 달러가 소요될 수 있습니다. 이러한 교육 방법의 효율성을 개선하여 더 적은 시간과 비용으로 좋은 모델을 얻을 수 있습니까? 우리는 이전에 훈련된 더 작은 언어 모델을 활용하여 이를 수행할 것을 제안합니다.”

이 방법은 큰 모델을 처음부터 훈련하는 것과 비교하여 계산 비용과 훈련 시간을 줄이면서 더 큰 모델의 성능 이점을 유지합니다. LiGO는 최적의 성능을 위해 깊이 및 너비 연산자를 결합하는 데이터 기반 선형 성장 연산자를 활용합니다.

이 논문은 BERT 및 RoBERTa 모델 훈련을 위한 English Wikipedia 말뭉치와 GPT4 훈련을 위한 C2 데이터 세트를 포함하여 텍스트 기반 실험을 수행하기 위해 다양한 데이터 세트를 활용했습니다.

LiGO 기술 실험에는 BERT-Small에서 BERT-Base로, BERT-Base에서 BERT-Large로, RoBERTaSmall에서 RoBERTa-Base로, GPT2-Base에서 GPT2-Medium으로, CaiT-XS에서 CaiT-S로 성장하는 것이 포함되었습니다.

연구자들은 처음부터 훈련, 점진적 훈련, bert2BERT 및 KI를 포함한 여러 다른 기준선과 접근 방식을 비교했습니다.

LiGO 기술은 BERT-Small 모델을 재사용하여 처음부터 BERT-Base를 교육하는 것과 비교하여 FLOP(초당 부동 소수점 연산)에서 44.7% 절감 및 벽 시간에서 40.7% 절감을 제공했습니다. LiGO 성장 연산자는 효율적인 교육에서 StackBERT, MSLT, bert2BERT 및 KI를 능가합니다.

LiGO와 같은 교육 최적화 기술 사용의 이점

LiGO는 다음과 같은 다양한 이점이 있는 효율적인 신경망 훈련 방법입니다.

1. 더 빠른 훈련

앞서 언급했듯이 더 빠른 훈련은 LiGO 기술의 주요 이점입니다. 절반의 시간에 LLM을 교육하여 생산성을 높이고 비용을 절감합니다.

2. 자원 효율성

LiGO는 벽 시간과 FLOP를 최소화하므로 자원 효율적이며, 대형 변압기 모델 교육에 보다 비용 효율적이고 환경 친화적인 접근 방식을 제공합니다.

3. 일반화

LiGO 기법은 언어 및 시각 변환기의 성능을 모두 향상시켜 다양한 작업에 적용할 수 있는 일반화 가능한 기법임을 시사합니다.

상용 AI 제품을 구축하는 것은 AI 시스템과 관련된 전체 비용의 한 측면에 불과합니다. 비용의 또 다른 중요한 요소는 일상적인 작업에서 발생합니다. 예를 들어 OpenAI 비용은 약 $700,000 매일 ChatGPT를 사용하여 질문에 답변합니다. 연구자들은 교육 중에 LLM을 비용 효율적으로 만들고 런타임에 더 쉽게 액세스할 수 있는 접근 방식을 계속 탐색할 것으로 예상됩니다.

더 많은 AI 관련 콘텐츠를 보려면 다음을 방문하세요. 단결.ai.